Архивы: по дате | по разделам | по авторам

И ПК превратится в Blue Gene...

Архив

автор : МИХАИЛ ПОПОВ, ИЛЬЯ КАШПАРОВ 14.03.2000

Кому-то может показаться, что компьютерное моделирование структур самых сложных биологических макромолекул - белков - "страшно далеко от народа" и мало кому интересно. Возможно, так оно и есть. Но уж раз IBM заварила эту кашу, можно считать, что паблисити "проблеме белка" обеспечено.

Белки - уникальны. По разнообразию выполняемых белками биологических функций их нельзя сопоставить ни с каким другим классом биологических макромолекул. Они "умеют" делать все - воспринимать и передавать информацию, ускорять химические процессы, защищать организм и давать ему возможность передвигаться. Именно поэтому назначение генетического аппарата любого организма сведено к хранению информации исключительно о белках и их синтезу.

Интрига заключается в том, что при практически необозримом спектре функций все белки с химической точки зрения устроены по одному образу и подобию и представляют собой полимерные цепочки из довольно небольшого числа (двадцати) стандартных "кирпичиков" - аминокислот, соединяющихся в различных сочетаниях. Поэтому свойства белков невозможно напрямую соотнести с их химическим строением.

Получается, что, не зная структуры белка, нельзя понять, как он функционирует, и, следовательно, невозможно целенаправленно вмешиваться в процесс жизнедеятельности. Поэтому так заманчиво уметь моделировать трехмерную структуру белка исходя только из его аминокислотной последовательности.

Вначале следует решить, на каком уровне сложности необходимо строить модель белка. Самая сложная модель - та, что учитывает квантовую природу атомов. Однако так много не посчитаешь: квантовомеханические модели чрезмерно требовательны к вычислительным ресурсам, поэтому речь здесь может идти о расчетах систем не более чем из нескольких десятков или сотен атомов, что эквивалентно нескольким аминокислотам.

Для моделирования биологически значимых белковых последовательностей (десяток аминокислот и более) пользуются, как правило, приближенной механической моделью. Атомы в ней представляются в виде точечных масс-зарядов, которые при сближении взаимодействуют определенным образом. Они соединяются друг с другом валентными связями, вокруг которых возможно вращение. Этим вращением и определяется форма, которую примет молекула, - или, наукообразно, ее конформация. Чем больше в молекуле связей, тем больше степеней свободы, тем сложнее определить природную конформацию. Математически задача сводится к поиску глобального минимума функции многих тысяч переменных, причем число локальных минимумов функции выражается просто умопомрачительной цифрой, сопоставимой для большинства природных белков с числом атомов во Вселенной! Это и есть так называемая проблема множественности минимумов, решение которой применительно к белкам является "Священным Граалем" (для его поиска и создается монстр Blue Gene).

Метод, по которому Blue Gene ищет самые "хорошие" конформации, существует уже около двух десятков лет (и непрерывно совершенствуется) и в своей основе является молекулярно-динамическим. Суть его в том, что компьютер имитирует природные тепловые движения атомов, учитывая их скорость и направление движения в каждый момент времени.

Все бы хорошо, однако такая имитация (в английском языке принят термин "симуляция" - simulation) требует огромных вычислительных ресурсов, и не факт, что мощи Blue Gene будет достаточно. Как показывает прямой эксперимент, даже небольшим молекулам белков при комнатной температуре для образования из беспорядочного клубка устойчивой пространственной структуры может потребоваться время порядка секунд и минут. Между тем самая продолжительная молекулярно-динамическая симуляция, известная на настоящий момент, воспроизводит микросекундный интервал жизни довольно короткой белковой последовательности. Для этого понадобилось более трех месяцев работы суперкомпьютера (256 процессоров) Питсбургского суперкомпьютерного центра в 1998 году [1].

Встает вопрос о том, является ли прямая имитация наилучшим способом решения проблемы. На ум приходит избитый пример с птицей и самолетом - важно понять законы, по которым работает природа, а не пытаться слепо копировать ее. Удачной иллюстрацией этого тезиса применительно именно к решению проблемы белка является подход пофрагментного моделирования, предложенный профессором Поповым [2].

В ряде оригинальных исследований было показано, что структурные (конформационные) свойства длинной аминокислотной последовательности можно моделировать на основе знания структурных свойств ее коротких перекрывающихся фрагментов, анализ которых не представляет сложности для рабочей станции на основе процессоров класса Alfa или Pentium II/III! В зависимости от аминокислотной последовательности фрагменты могут быть "гибкими" (обладать большим количеством приблизительно эквивалентных по энергии конформаций) или "жесткими" (иметь небольшое число глубоких конформационных минимумов). Идентифицировав "жесткие" участки и определив их структуру, можно на порядки порядков сократить объем вычислений [1].

Естественно, что для машины, на которой производятся расчеты, особенно важна производительность в операциях с плавающей запятой. Но поскольку отдельные этапы вычислений хорошо распараллеливаются, наиболее эффективным решением, возможно, является кластер из компьютеров на базе пусть не самых мощных (по FPU), но весьма доступных по цене процессоров Pentium III или Athlon. Возможно, вскоре многие пользователи, в надежде получить вознаграждение от фармацевтических компаний, будут участвовать в расчетах структур белков на домашних компьютерах подобно искателям разумных радиосигналов во Вселенной в проекте SETI@Home. И ПК превзойдет Blue Gene...

Источники

[1] Protein dynamics simulations from nanoseconds to microseconds. S. Doniach and P. Eastman. Current opinion in structural biology, 1999, V. 9, pp. 157-163 (biomednet.com/elecref/0959440X00900157).

[2] Проблема белка, т. 3. Е. М. Попов под ред. В. Т. Иванова. М.: "Наука", 1997.

1 (обратно к тексту) - В настоящее время вычислительный метод на основе пофрагментного моделирования интенсивно разрабатывается в Институте биоорганической химии им. М. М. Шемякина и Ю. А. Овчинникова РАН.