Сложность конечной последовательности.
2. Сложностной профиль текста.
3. Общая характеристика аномальных фрагментов малой сложности
в фаге X .
4. Классификация структурных закономерностей.
5. Характеристика зон обширной гомологии.
6. Гипотеза об иерархической дупликации.
7. Аномальные по сложности фрагменты и знаковые конструкции.
8. Сравнение со случайными А -подобными текстами. S. Сравнение с другими геномами. Заключение
Введение
Под генетическим текстом будем понимать представление мо-
молекул нерегулярных полимеров (ДНК, РНК, белков) в виде после-
последовательности мономеров (нуклеотидов или аминокислот).
В на -
стоящее время НК-молекулы многих простейших микроорганизмов
(преимущественно вирусов и бактериофагов) расшифрованы (сек -
венированы) полностью. Характерные размеры соответствующих
текстов (геномов) составляют 10-10 символов. На повестке
дня стоит задача секвенирования более сложных (а, следователь-
следовательно, и более длинных) молекул, анализ которых без привлечения
ЭВМ уже немыслим. Одним из важнейших этапов анализа является установление
основных структурных особенностей генома, как-то: кодирующих
и некодирующих участков, числа генов, их локализации, знаков
пунктуации (фрагментов, отвечающих за регуляцию основных гене-
генетических процессов), неслучайных повторов, палиндромов, перио-
дичностей и т. п. В первом (хотя и весьма грубом) приближении
генетический текст можно рассматривать как последовательность
независимых испытаний, где число возможных исходов каадого ис-
испытания конечно (At =4 для НК-молекул и л- =20 для белков), а
вероятности исходов не слишком отличаются друг от друга fl]. Многие из перечисленных выше структурных особенностей проявля-
проявляются при этом как статистически значимые . отклонения от схемы
независимых испытаний. К примеру, фрагмент генетического текста, описывающий ми-
микроорганизм прокариотического типа, может быть классифицирован
как ген, если:
а) ему соответствует достаточно длинная "открытая" рамка счи -
тывания, т. е. наблюдается аномалия в распределении терми -
налышх кодонов;
б) ему предшествует характерный участок, называемый рибосом -
ным сайтом связывания, частота появления которого в реаль -
ном геноме, как правило, оказывается выше, чем это следует
из схемы независимых испытаний;
в) наблюдается (хотя и не всегда) заметное различие в свойст -
вах предполагаемого гена и предшествующего ему участка
(т. е. имеет место "разладка" процесса). Некоторые знаки пунктуации содержат в своем составе уни -
кадьные структурные элементы, вероятность появления которых в
случайных текстах того же объема и состава, что и исследуемый
геном, очень мала. Так, район начала репликации часто характе-
характеризуется наличием длинных повторов-периодичностей; терминато -
ры транскрипции обычно содержат длинный поли-Т- участок, кото -
рому предшествует инвертированный повтор.