Гусев «Сложностной анализ генетических текстов N 2»

Читать онлайн «Сложностной анализ генетических текстов N 2»

Автор Гусев

Сложность конечной последовательности. 2. Сложностной профиль текста. 3. Общая характеристика аномальных фрагментов малой сложности в фаге X . 4. Классификация структурных закономерностей. 5. Характеристика зон обширной гомологии. 6. Гипотеза об иерархической дупликации. 7. Аномальные по сложности фрагменты и знаковые конструкции. 8. Сравнение со случайными А -подобными текстами. S. Сравнение с другими геномами. Заключение Введение Под генетическим текстом будем понимать представление мо- молекул нерегулярных полимеров (ДНК, РНК, белков) в виде после- последовательности мономеров (нуклеотидов или аминокислот).

В на - стоящее время НК-молекулы многих простейших микроорганизмов (преимущественно вирусов и бактериофагов) расшифрованы (сек - венированы) полностью. Характерные размеры соответствующих текстов (геномов) составляют 10-10 символов. На повестке дня стоит задача секвенирования более сложных (а, следователь- следовательно, и более длинных) молекул, анализ которых без привлечения ЭВМ уже немыслим. Одним из важнейших этапов анализа является установление основных структурных особенностей генома, как-то: кодирующих и некодирующих участков, числа генов, их локализации, знаков пунктуации (фрагментов, отвечающих за регуляцию основных гене- генетических процессов), неслучайных повторов, палиндромов, перио- дичностей и т. п. В первом (хотя и весьма грубом) приближении генетический текст можно рассматривать как последовательность независимых испытаний, где число возможных исходов каадого ис- испытания конечно (At =4 для НК-молекул и л- =20 для белков), а вероятности исходов не слишком отличаются друг от друга fl]. Многие из перечисленных выше структурных особенностей проявля- проявляются при этом как статистически значимые . отклонения от схемы независимых испытаний. К примеру, фрагмент генетического текста, описывающий ми- микроорганизм прокариотического типа, может быть классифицирован как ген, если: а) ему соответствует достаточно длинная "открытая" рамка счи - тывания, т. е. наблюдается аномалия в распределении терми - налышх кодонов; б) ему предшествует характерный участок, называемый рибосом - ным сайтом связывания, частота появления которого в реаль - ном геноме, как правило, оказывается выше, чем это следует из схемы независимых испытаний; в) наблюдается (хотя и не всегда) заметное различие в свойст - вах предполагаемого гена и предшествующего ему участка (т. е. имеет место "разладка" процесса). Некоторые знаки пунктуации содержат в своем составе уни - кадьные структурные элементы, вероятность появления которых в случайных текстах того же объема и состава, что и исследуемый геном, очень мала. Так, район начала репликации часто характе- характеризуется наличием длинных повторов-периодичностей; терминато - ры транскрипции обычно содержат длинный поли-Т- участок, кото - рому предшествует инвертированный повтор.