Архивы: по дате | по разделам | по авторам

Аннотация геномов: от последовательности к функции

Архив
автор : Михаил Гельфанд   24.09.2001

Определение последовательности полного генома представляет интерес постольку, поскольку оно дает возможность что-то сказать о биологии организма - его метаболизме, развитии, ответе на внешние стимулы, коммуникации между клетками многоклеточных организмов или отдельными особями одноклеточных.

Определение последовательности полного генома представляет интерес постольку, поскольку оно дает возможность что-то сказать о биологии организма - его метаболизме, развитии, ответе на внешние стимулы, коммуникации между клетками многоклеточных организмов или отдельными особями одноклеточных. Большинство этих функций выполняются белками, поэтому основной задачей анализа генома является предсказание закодированных в нем белков и их функций, а также описание регуляторных участков в последовательностях, определяющих, какие белки будут присутствовать в клетке в тех или иных условиях 1.

Поиск генов

Итак, нам дана последовательность ДНК, а нужно узнать последовательность закодированного в ней белка. Если бы были известны стартовые позиции всех генов, то узнать последовательности белков было бы просто - еще в середине 60-х годов было установлено соответствие между тройками нуклеотидов (кодонами) и аминокислотами (см. рис.1). В процессе трансляции (см. рисунок на стр. 21) ген считывается по одному кодону (без перекрывания) и соответствующие аминокислоты присоединяются к синтезируемому белку.

Рис. 1. Таблица генетического кода: соответствие между тройками нуклеотидов - кодонами (левый столбцы) - и аминокислотами (правые столбцы). U в кодонах - то же самое, что Т.


UUU

F

UCU

S

UAU

Y

UGU

C

UUC

F

UCC

S

UAC

Y

UGC

C

UUA

L

UCA

S

UAA

stop

UGA

stop

UUG

L

UCG

S

UAG

stop

UGG

W

CUU

L

CCU

P

CAU

H

CGU

R

CUC

L

CCC

P

CAC

H

CGC

R

CUA

L

CCA

P

CAA

Q

CGA

R

CUG

L

CCG

P

CAG

Q

CGG

R

AUU

I

ACU

T

AAU

N

AGU

S

AUC

I

ACC

T

AAC

N

AGC

S

AUA

I

ACA

T

AAA

K

AGA

R

AUG

M/start

ACG

T

AAG

K

AGG

R

GUU

V

GCU

A

GCU

D

GGU

G

GUC

V

GCC

A

GCC

D

GGC

G

GUA

V

GCA

A

GCA

E

GGA

G

GUG

V

GCG

A

GCG

E

GGG

G


Три кодона (TAG, TGA, TAA) не кодируют аминокислот, а являются сигналами окончания трансляции, поэтому определить конец гена было бы несложно. Однако тройка ATG не только указывает на начало гена, но и встречается в середине, где кодирует аминокислоту метионин; вдобавок, она может встретиться и в случайном месте вне гена. Поэтому даже задача распознавания генов не тривиальна.

Самым простым способом распознавания генов является поиск протяженных открытых рамок считывания. От каждого потенциального стоп-кодона последовательность просматривается по три нуклеотида справа налево до тех пор, пока не встретится предыдущий стоп-кодон. Ясно, что гены могут лежать только внутри таких открытых рамок, поскольку стоп-кодон не может встретиться внутри гена. Тем самым проблема сводится к тому, чтобы отличить стартовые ATG от внутренних и располагающихся в межгенных промежутках. Оказывается, что имеется сигнал, который участвует в процессе узнавание стартовых кодонов. На рис. 2 приведено окружение стартовых кодонов нескольких генов, и желающие могут поупражняться в выделении этого сигналая.

Рис. 2. Приведены последовательности перед некоторыми генами сенной палочки Bacillus subtilis, выравненные по стартовому кодону ATG (три нуклеотида в конце каждого фрагмента, таким образом, последовательности самих генов не даны). Упражнение: обнаружить сигнал старта трансляции (в данном случае - короткое слово, появляющееся с небольшими изменениями на приблизительно одном и том же расстоянии перед ATG). Ответ см. в конце статьи.


dnaN

ACATTATCCGTTAGGAGGATAAAAATG

gyrA

GTGATACTTCAGGGAGGTTTTTTAATG

serS

TCAATAAAAAAAGGAGTGTTTCGCATG

bofA

CAAGCGAAGGAGATGAGAAGATTCATG

csfB

GCTAACTGTACGGAGGTGGAGAAGATG

xpaC

ATAGACACAGGAGTCGATTATCTCATG

metS

ACATTCTGATTAGGAGGTTTCAAGATG

gcaD

AAAAGGGATATTGGAGGCCAATAAATG

spoVC

TATGTGACTAAGGGAGGATTCGCCATG

ftsH

GCTTACTGTGGGAGGAGGTAAGGAATG

pabB

AAAGAAAATAGAGGAATGATACAAATG

rplJ

CAAGAATCTACAGGAGGTGTAACCATG

tufA

AAAGCTCTTAAGGAGGATTTTAGAATG

rpsJ

TGTAGGCGAAAAGGAGGGAAAATAATG

rpoA

CGTTTTGAAGGAGGGTTTTAAGTAATG

rplM

AGATCATTTAGGAGGGGAAATTCAATG

feuA

TCAATTGAACAGGAGGCTCTATAGATG

adaA

GCATTGTAAGGAGAGGTGAGATAAATG

purT

TTGGAACAGATAGGAGGGGCAAAGATG

mpr

ACACTAAAGGAGGGAGATGACAAAATG

lipA

TTGTTACAAAAAAAGGAGGATATTATG

opuAA

GATTGCTTAATATGGAGGGAAAATATG


На рис. 2 были подобраны хорошие примеры. На самом деле обычно сигнал выражен слабее и абсолютно надежного правила для определения стартовых кодонов сформулировать не удается. Однако оказывается, что есть и другие соображения, которые можно использовать при распознавании. В частности, статистические свойства белок-кодирующих областей отличают их от некодирующих. Для этого есть две основные причины. Во-первых, аминокислоты встречаются в белках с различной частотой, что отражается на частотах кодонов. Более того, частоты синонимичных кодонов тоже различаются, причем эти различия являются свойством всего генома, а не отдельных генов.

Однако эти соображения, хорошо работающие при анализе бактериальных геномов, не срабатывают в случае с геномами многоклеточных организмов. Дело в том, что гены этих организмов содержат незначащие вставки (интроны), а белок-кодирующие участки (экзоны) относительно коротки (в геноме человека в среднем 120 нуклеотидов, т. е. 40 кодонов; интроны раз в десять длиннее, а их среднее количество - 8-10 на ген) - см. врезку.

Тем не менее, оказывается, что, используя всю доступную статистическую информацию, можно пытаться строить распознающее правило. Каждая потенциальная цепочка экзонов оценивается функционалом, зависящим от статистики употребления кодонов, длин экзонов и интронов и т. п. Количество цепочек экспоненциально велико, однако существуют эффективные (квадратичные по длине последовательности) алгоритмы построения оптимальной цепочки, т. е. экзон-интронной структуры, некоторый целевой функционал 2. Хотя аннотация генов при помощи статистических распознающих правил является весьма приблизительной, она полезна для дальнейшей работы.

Более сильным подходом является сравнение последовательностей родственных генов из разных геномов. Дело в том, что осмысленные участки генома, в частности экзоны эволюционируют медленнее, чем бессмысленные 3, к которым относятся и интроны. Тем самым, сравнивая геномные последовательности и выделяя в них похожие участки можно наметить экзоны (это иллюстрирует врезка), а затем уточнить их границы статистическими методами.

Врезки

[i41323]


1 (обратно к тексту) - Более специальный обзор см. Гельфанд М. С. Компьютерный анализ последовательностей ДНК. Молекулярная биология. 1998, т. 32, № 1, с. 103-120. Там же приведены адреса серверов, осуществляющих геномный анализ (см. также www.eimb.relarn.ru/databases/append.htm).
2 (обратно к тексту) - В частности, алгоритм динамического программирования, описанный в статье Михаила Ройтберга в этом номере.
3 (обратно к тексту) - Вопрос о том, откуда берутся «бессмысленные» участки ДНК, и так ли уж они бессмысленны, на самом деле далеко не очевиден. До сих пор дискуссии по этому поводу носили в значительной степени схоластический характер. Можно надеяться, что сравнение полных геномов организмов, находящихся на разных эволюционных расстояниях друг от друга, позволит делать какие-то более содержательные выводы.
Предсказание функций

Однако сравнительный подход позволяет не только размечать белок-кодирующие участки, но и предсказывать функции белков. Для этого новые белки сравнивают с белками, функции которых были исследованы экспериментально. При высоком уровне сходства можно ожидать тождества функций, при среднем сходстве - близости функций и, наконец, при отдаленном родстве угадываются только самые общие функциональные или структурные свойства. Скорость изменения белков в ходе эволюции непостоянна: некоторые семейства белков эволюционируют быстро, другие - медленно; более того, даже один и тот же белок в разных группах организмов может эволюционировать с разной скоростью.

Чуть выше говорилось о тождестве функций. На самом деле это некоторая абстракция. Тонкие биохимические параметры реакций, катализируемых одним и тем же белком из разных организмов, конечно, будут отличаться. Более того, вопрос о том, что такое «один и тот же белок из разных организмов», тоже не вполне тривиален - ведь аминокислотные-то последовательности не идентичны.

С экспериментальной точки зрения это означает, что если мутацией разрушить «родной» ген, а потом при помощи стандартных генно-инженерных приемов внести в геном «родственный» ген, то это не скажется заметным образом на жизни клетки - синтезируемый со вставленного гена белок заменит отсутствующий. Вычислительный же подход сводится к установлению того факта, что оба гена не просто являются потомками одного предкового гена, но и точка их расхождения совпадает с точкой расхождения видов (альтернативный вариант - расхождение генов в результате дупликации внутри одного генома; в этом случае, как правило, функции двух получившихся копий постепенно начинают различаться).

Хотя понятия, которые обсуждались в двух предыдущих абзацах, были выработаны еще в семидесятых годах, они достаточно долго существовали в виде некоторых абстракций. Дело в том, что для того, чтобы объявить пару генов из двух разных геномов одним и тем же геном, необходимо, в частности, проверить, что не один из этих генов не имеет более близкого родственника в другом геноме (это один из тестов на отсутствие дупликаций в эволюции этих генов). Ясно, что такая проверка может быть проведена, только если доступны полные геномы. Геномика - еще одно модное слово, которым называют науку, изучающую наборы генов как целое.

Пожалуй, одним из наиболее ярких применений вычислительной геномики 4 является метаболическая реконструкция. Дело в том, что функции примерно половины генов бактерии могут быть достоверно установлены путем сравнения с базой данных. Этого оказывается достаточно для восстановления в общих чертах метаболической карты организма, то есть описания того, какие вещества бактерия синтезирует сама, а какие должна усвоить из внешней среды, что является для нее источником энергии и т. п. После этого реконструированная карта анализируется на предмет наличия противоречий и пробелов. Их можно разрешать, изменяя критерии сходства, а также применяя другие методы.

Результаты такого исследования могут использоваться в биотехнологии, агрономии, фармацевтике, медицине. Анализ метаболических потоков в промышленных штаммах дает возможность выделять узкие места, воздействуя на которые можно оптимизировать выход продукта. Ферменты, катализирующие ключевые реакции в патогенах, могут служить потенциальными мишенями для новых классов антибиотиков (см. врезку).

При этом проверяют, что соответствующую реакцию нельзя обойти другими метаболическими путями, а кроме того, стараются найти белки-мишени, присутствующие в достаточно большом числе различных бактерий, что обеспечивает широкий спектр действия, и отсутствующие у человека - иначе лекарство будет токсичным. Таким образом, проводится сравнительный анализ метаболических реконструкций для больших групп организмов. Наконец, предсказание функций белков необходимо для понимания биохимической основы многих генетических болезней.

Регуляторные сигналы

Однако важно знать не только полный белковый репертуар организма, но и какие белки находятся в клетке в каждый конкретный момент времени. Отсюда возникает задача выделения в последовательностях ДНК регуляторных участков, определяющих начало или прекращение синтеза генов в ответ на внешние воздействия (например, тепловой шок), физиологическое состояние (недостаток или избыток тех или иных веществ), переход в новую стадию развития и т. п. Эти последовательности являются участками связывания с ДНК белков - регуляторов транскрипции. Участки связывания одного белка похожи, но не абсолютно, поэтому возникает задача выделения сигнала в наборе фрагментов, расположенных перед совместно регулируемыми генами. Сигнал определяется как слово, присутствующее, с небольшими отклонениями, в каждом фрагменте из набора (в более общей постановке - в каком-то подмножестве фрагментов).

Существует множество алгоритмов выделения регуляторных сигналов. Проблема здесь в том, что характерный размер такого сигнала - 15-20 нуклеотидов, поэтому прямым перебором найти его не удается. В то же время существует много алгоритмов, достаточно хорошо работающих в относительно простых случаях. Другая сложность, значительно более важная, в том, что во многих случаях постановка задачи, описанная в конце предыдущего абзаца, не является биологически естественной. Важной и нерешенной проблемой является описание языка взаимодействий «белок-ДНК».

Другим подходом к поиску плохо определенных сигналов является использование эволюционных соображений. Так, во многих случаях сигнальные участки изменяются в ходе эволюции медленнее, чем окружающие их последовательности (хотя и быстрее, чем гены). Поэтому если удается подобрать несколько геномов, находящихся на правильном эволюционном расстоянии друг от друга, то сигнальные участки выглядят как островки локального сходства. Такого рода анализ пока не поддается строгой формализации, однако в руках эксперта он является очень мощным средством.

Построенное в результате распознающее правило может использоваться для поиска новых генов из той же регуляторной системы. В большинстве случаев надежность отдельных предсказаний невелика, однако в совокупности с другими методами геномного анализа, и, в особенности, в ситуации, когда доступность нескольких родственных геномов дает возможность применять сравнительные методы, такого рода анализ часто дает возможность уверенно предсказывать регуляцию генов.

До сих пор речь шла в основном о бактериальных геномах, в которых регуляция генов устроена относительно просто и, даже если ген регулируется несколькими разными белками, их взаимодействием, как правило, можно пренебречь, рассматривая все регуляторные сигналы по отдельности. В геномах многоклеточных организмов регуляция транскрипции осуществляется путем связывания многих белков с наборами ДНК-сигналов. Это дает возможность тонкой настройки, зависящей от времени и внешних воздействий (рис. 3), однако компьютерный анализ таких регуляторных кассет крайне сложен. Но и здесь сравнительный подход позволяет если не детально предсказывать регуляторные эффекты, то хотя бы обнаруживать потенциальные регуляторные участки с целью дальнейшего экспериментального анализа.


Рис. 3. Регуляция гена Endo16, играющего важную роль в развитии эмбриона морского ежа. Схема регуляторной области. Прямоугольниками выделены участки связывания регуляторов транскрипции, последние показаны цветными фигурами. Вверху - специфические регуляторы, внизу - неспецифические регуляторы. Область разбита на относительно независимые регуляторные модули. (Источник: Yuh CH, Bolouri H, Davidson EH. Genomic cis-regulatory logic: experimental and computational analysis of a sea urchin gene. Science (1998) 279: 1896-1902).


Итак, основным инструментом биоинформатики, во всяком случае, той ее части, которая занимается предсказанием функций, является сравнительный анализ. Может показаться, что, тем самым, мы обречены на повторение - действительно, бесконечно сравнивая новые последовательности с известными экспериментальными данными, можно разве что обнаруживать новых представителей известных белковых семейств, регуляторных сигналов и т. д. На самом деле, это не так. Во-первых, даже простое сопоставление результатов разнородных экспериментов порождает принципиально новое знание - некоторые примеры этого были приведены выше. Во-вторых, часто в результате таких сравнений удается найти новые гены, регуляторные взаимодействия и т. д., которые затем становятся предметом целенаправленного экспериментального анализа. Наконец, в-третьих, сравнивая последовательности близкородственных организмов, например человека и шимпанзе, можно выделять последовательности, специфичные для геномов, и искать в них ключ к пониманию механизмов видообразования - в частности, происхождения человека.

Ответ к задаче про старты генов. Сигнальное слово - AGGAGG, оно присутствует, с небольшими отклонениями, во всех последовательностях на расстоянии 5-11 нуклеотидов от стартового кодона.


4 (обратно к тексту) - Не исключено, что это тавтология: некоторые экстремисты, к числу которых относится и автор данной статьи, считают, что не бывает невычислительной геномики.

Врезка 1

В рассказе Конана Дойля «Глория Скотт» сюжет разворачивается вокруг зашифрованной записки: «Нас интересует минувшее. Многое внезапно возвращается. Глава предприятия Хадсон, по сведениям, рассказал о полотенцах все. Южных петухов берегитесь». Здесь каждое третье слово является экзоном, что и было замечено Шерлоком Холмсом. К сожалению, такого простого правила для распознавания экзон-интронной структуры генов, по-видимому, не существует.


Врезка 2

Выравнивание записок в русском и украинском переводах рассказа Конана Дойля «Глория Скотт» (переводы адаптированы для того, чтобы лучше иллюстрировать идею геномного сравнения, за что спасибо Михаилу Ройтбергу). Цветом выделены схожие участки. Курсивом - «экзоны», фрагменты основного сообщения (не все из них попарно похожи). Подчеркиванием - паразитные участки сходства в «интронах».

Нас интересует минувшее. Многое внезапно возвращается. Глава предприятия.

Нас цiкавить минуле. Багато що повертаeться раптом. Власник пiдприeмства.

Хадсон, по сведениям, рассказал о полотенцах все. Южных петухов берегитесь.

Хадсон, як ми чули, розповiв усе про рушники. Будьте обережнi з пiвденними пiвниками.


Врезка 3

Анализ генома стрептококков и энтерококков показывает, что в этих бактериях отсутствует фермент, являющийся мишенью триклозана, а соответствующая жизненно важная реакция катализируется неродственным белком. Так что, если в доме есть больные ангиной, мыло с триклозаном не поможет.

© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.