Суперкомпьютер на чипе
АрхивТехнологииДавно замечено, что темпы прогресса суперкомпьютеров ощутимо опережают эволюцию компьютерной индустрии в целом. Но одно дело сухие цифры, и совсем другое - яркие примеры из жизни.
Давно замечено, что темпы прогресса суперкомпьютеров ощутимо опережают эволюцию компьютерной индустрии в целом. Но одно дело сухие цифры, и совсем другое - яркие примеры из жизни.
Вот, скажем, всего год назад пороговый уровень производительности для вхождения в Top 500, элитный рейтинг самых быстрых вычислителей планеты, составлял 245,1 Гфлопс (миллиардов операций в секунду). Причем по самой сути своей традиционный суперкомпьютер - это система, объединяющая множество процессоров. А ныне на международной конференции Hot Chips в Стэнфордском университете разработчики из Японии представили работоспособные образцы процессора-прототипа (на левом фото), в одиночку демонстрирующего производительность до 230 млрд. операций в секунду. Точнее, от 160 Гфлопс при тактовой частоте 250 МГц до 230 Гфлопс на частоте 350 МГц.
Речь идет о специализированном процессоре MDGra-pe-3 из знаменитого семейства чипов GRAPE, создание которых началось лет пятнадцать назад в стенах Токийского университета - поначалу для решения неподъемных задач астрофизики, а затем молекулярной динамики и биофизики. Последние годы проект MDGrape взял под свое крыло RIKEN, Институт физических и химических исследований, где на основе этой разработки уже к 2006 году планируется создать собственный петафлопсный (1015, то есть квадриллион операций в секунду) супервычислитель для моделирования процесса свертывания белков.
Столь выдающаяся производительность достигается благодаря специальной архитектуре, ориентированной на довольно узкий круг задач, требующих сравнительно немного начальных данных, над которыми выполняется гигантское количество хорошо распараллеливаемых вычислений. Именно такие задачи, в частности, характерны для перспективнейшей области бионанотехнологий, где исследуется, к примеру, как отдельный белок взаимодействует с тысячами разных молекул. В данном случае специализация позволяет повысить производительность процессора более чем в сто раз по сравнению с чипами общего назначения. На рынке суперкомпьютеров уже несколько лет успешно продаются японские коммерческие системы на базе чипов предыдущего поколения MDGrape-2 (производительность 16 Гфлопс при частоте 100 МГц). Однако эти машины никогда не фигурировали в Top 500, поскольку на них не гоняют классификационный контрольный тест Linpack - упомянутая архитектура просто не рассчитана на такого рода задачи. Впрочем, конструкторы Токийского университета обещают выдать нечто новое и для Top 500 - здесь разрабатывается процессор "квази-общего назначения" производительностью 1 Тфлопс, или триллион операций в секунду (похожим проектом "терафлоп на чипе" совместно занимаются сейчас IBM и Техасский университет).
Но вернемся к чипу MDGrape-3. Разработчики из RIKEN подчеркивают существенное отличие архитектуры процессора от архитектуры большинства других чипов. В первую очередь - двадцать конвейеров для вычислений (в обычном процессоре их один-два). Другая важная особенность - широковещательная параллелизация памяти (общая память для всех конвейеров), позволяющая радикально сократить избыточные параллельные вычисления. Оптимизация архитектуры под конкретный класс задач дает ощутимые выгоды сразу по нескольким направлениям. Так, по расчетам японцев, 1 Гфлопс производительности в MDGrape-3 обходится всего в 15 долларов, тогда как для Pentium 4 эта цифра составляет 400 долларов, для чипов в суперкомпьютере IBM Blue Gene/L - 640 долларов, а для векторной машины NEC Earth Simulator (нынешний мировой чемпион быстродействия) - вообще запредельные 4000 долларов. К тому же новые чипы весьма привлекательны с точки зрения энергопотребления. MDGrape потребляет всего 0,1 Вт/Гфлопс, в то время как 3-гигагерцовому Pentium 4 на 1 Гфлопс требуется 14 Вт, а чипам Blue Gene/L и Earth Simulator - 6 и 128 Вт соответственно.
Что же касается спроектированного в RIKEN петафлопсного компьютера Protein Explorer на основе MDGrape-3, то этот супервычислитель будет выглядеть примерно так. В один корпус стандартного размера пакуются двадцать четыре процессора - по двенадцать штук на двух платах расширения. Чипы соединены друг с другом через 81-разрядную шину, а платы соединяются с остальной компьютерной начинкой через PCI Express. Корпуса вставляются в стандартные стойки - по восемь боксов в "шкаф", и в общей сложности система состоит из 6144 процессоров. Такая компоновка позволила бы разместить петафлопсную машину в 32 стойках, что по нынешним временам считается весьма компактным решением. В целом же ситуация с "гонкой за петафлопсами" складывается так, что японцы, похоже, действительно - как и обещали - сумеют собрать свой "Белковый исследователь" раньше, чем американцы сделают аналогичную по назначению и расчетной производительности систему Blue Gene/P (базовый процессор для которой пока так и не продемонстрирован).
- Из журнала "Компьютерра"