"БигМак": больше калорий
АрхивДважды в год сайт www.top500.org публикует перечень пятисот самых быстрых компьютеров в мире. Прошлой осенью в десятку мощнейших компьютеров попал кластер, собранный студентами. К этому чуду техники сразу же приклеилось прозвище Big Mac.
Дважды в год сайт www.top500.org, посвященный высокопроизводительным вычислениям, составляет перечень пятисот самых быстрых компьютеров в мире. Список, опубликованный прошлой осенью, любопытен тем, что впервые в десятку мощнейших компьютеров попал кластер, собранный не известным производителем, а студентами и сотрудниками Политехнического института Вирджинии. К этому чуду техники сразу же приклеилось прозвище Big Mac.
Power Macintosh G5
В июне 2003 года компания Apple представила новую модель персональных компьютеров Power Macintosh на базе 64-разрядного процессора Power PC 970, разработанного совместно с IBM. Со свойственной «яблочной» фирме непринужденностью он был объявлен «самым быстрым персональным компьютером в мире». Столь смелое заявление подкреплялось сравнительными тестами производительности процессоров Power PC 970, Intel Pentium 4 и Intel Xeon. Разумеется, аналитики не преминули покритиковать способ сравнения, которым воспользовалась Apple. В конце концов, стороны сошлись на том что производительность процессора — это еще далеко не все: надо, мол, посмотреть, как поведут себя компьютеры в реальной жизни, с реальными приложениями, как проявят себя остальные компоненты — системная шина (работающая на половине частоты процессора), подсистема памяти (DDR 400), жесткие диски (ATA/133) и др. Apple представила три модификации машин (однопроцессорные, 1,6 и 1,8 ГГц, а также двухпроцессорную с частотой 2 ГГц), которые поступали в продажу постепенно1. Естественно, что в Сети стали появляться сравнения производительности G5 и с предыдущими моделями «Маков», и с разными конфигурациями PC, включая Pentium 4, Xeon и даже Opteron/Athlon 64. Результаты этих тестов, проведенных, как правило, в «домашних» условиях, сильно отличались, что вызывало удивление, недоумение, а иногда и раздражение. Но когда на сайтах, посвященных «Макинтошам», появились сообщения, что задержки в поставках двухпроцессорных машин объясняются желанием Apple в первую очередь удовлетворить крупный заказ на суперкомпьютер, то притихли даже самые ярые критики. Какое-то время информация об этом кластере оставалась туманной: в тендере участвовали такие именитые поставщики серверных/кластерных решений, как Dell, IBM, HP и Sun, и некоторые из них требовали не разглашать детали до официального заключения контракта. В начале сентября стал известен победитель — компания Apple.
Проект
Заказчиком оказался Политехнический институт штата Вирджиния (Virginia Tech, www.vt.edu), вознамерившийся создать высокопроизводительный вычислительный центр для научных исследований в области наноэлектроники, аэродинамики, молекулярной статики, биохимии и акустики. Первостепенным критерием для института, безусловно, была стоимость. Организации вроде Министерства энергетики США могут себе позволить выложить огромную сумму за мощнейший кластер, а вот образовательное учреждение — нет. Поэтому требовалось очень высокое соотношение цены и производительности решения. Второй решающий аспект — сроки. Идея проекта возникла в марте, финансирование было открыто в апреле-мае, в июне представители института провели переговоры с Apple, а уже в конце сентября суперкомпьютер начал функционировать в отладочном режиме. Обычно постройка компьютера подобной мощности занимает от не меньше года2. Собирали кластер студенты института — волонтеры3. Их задача заключалась в том, чтобы распаковать оборудование, включить его, затем, выключив, установить память и сетевую карту, потом еще раз проверить, после чего монтировать в стойку. В среднем на машину затрачивалось около двух часов.
Одним из важных требований к кластеру являлось использование 64-битной архитектуры процессоров, а также наличие высоконадежного и быстрого канала связи с сетью (кластер с самого начала задумывался как ресурс, доступный не только Политеху, но и другим организациям, которые заинтересованы в исследованиях, требующих солидных вычислительных мощностей).
«Железо»
«БигМак» (официальное название — Terascale Computing Facility, TCF) состоит из 1100 Power Macintosh G5, в каждом из которых находится по два процессора Power PC 970 с тактовой частотой 2 ГГц. Во все машины дополнительно установлено по 2 Гбайт оперативной памяти — таким образом, каждый узел кластера содержит 4 Гбайт RAM. Кроме того, 1100 винчестеров объемом 160 Гбайт дают в сумме 176 Тбайт дискового пространства. Четыре машины используются для компиляции задания и запуска задач, а одна — для управления кластером.
Компания Mellanox, изготавливающая электронику по технологии InfiniBand, разработанной консорциумом производителей серверного оборудования, поставила коммуникационные устройства и драйверы для сетевых карт. Двадцать четыре 96-портовых коммутатора InfiniBand, объединяющих машины в кластер, используют специальные медные проводники для того, чтобы обеспечить передачу данных со скоростью (теоретической) до 20 Гбит/с. Реальная же скорость составила около 700 Мбит/с. Однако после установки сетевых карт в разъем PM G5 задержки на PCI-X шине уменьшились, и скорость возросла до 870 Мбит/с. Древовидная структура соединения компьютеров в кластере позволяет любому из его участков связаться с другим участком менее чем за 10 мс. В качестве поставщика вспомогательной сетевой инфраструктуры была выбрана компания Cisco. Каждый из пяти коммутаторов Cisco 4500 содержит 240 гигабитных портов. Вспомогательная сеть используется для управления машинами, запуска вычислений и «обычного» IP-трафика. Напомним, что все модели Power Macintosh имеют встроенный сетевой адаптер со скоростью передачи данных 10/100/1000 Мбит/с. Весь набор «железа», включая компьютеры, память, основное и вспомогательное сетевое оборудование, обошелся институту в 5,2 млн. долларов (из них 1,6 миллиона стоили коммутаторы и сетевые карточки и около 180 тысяч долларов — кабели).
Институт рассматривал предложения и от других компаний. Изначально в качестве платформы для кластера предполагалось взять Itanium 2 от Intel или Opteron от AMD. Но первый вариант оказался слишком медленным, а второй — слишком дорогим, как и большинство других решений, стоимость которых не опускалась ниже 10 млн. долларов4. (Для сравнения: во всех PowerMac G5 установлены дорогие CD/DVD-RW приводы и видеокарты с 64 Мбайт памяти, которые в кластере не нужны; так что если бы встал вопрос о дальнейшем удешевлении проекта, то у Apple оставалось еще пространство для маневра.) Помимо Terascale Computing Facility, у института также есть кластер из четырехсот процессоров Opteron (под управлением Linux) и кластер из двадцати SGI Origin 2000. Кроме того, Вирджинский политех подключен к National Lambda Rail — фиброоптической сети протяженностью более 20 тысяч километров, которая объединяет учебные заведения и исследовательские организации, занимающиеся высокопроизводительными вычислениями.
1 В ноябре модель с процессором 1,8 ГГц была заменена моделью с двумя процессорами с той же тактовой частотой.
2 Дерек Бастиль (Derek Bastille) из суперкомпьютерного центра Арктического региона сказал, что просто поражен результатом Вирджинского политеха: центр потратил около 30 млн. долларов и два с половиной года на установку двух суперкомпьютеров от Cray и IBM.
3 В качестве вознаграждения они получали билеты на футбольные матчи. Кроме того, дополнительные затраты на сборку кластера включали порядка 600 пицц и энное количество кока-колы для 165 добровольцев.
4 Кроме того, Opteron в пике производительности выдавал в два раза меньше операций с плавающей точкой, чем PPC 970, ну а Itanium 2 проигрывал по тактовой частоте.
Все компьютеры поставлялись с предустановленой Mac OS X версии 10.2.7. В ближайшее время будет произведен апдейт системного ПО до Mac OS X 10.3 (Panther). В распределенных вычислениях используется набор библиотек для параллельных вычислений под названием MPI, разработанных в университете штата Огайо. Их портирование с Linux стало возможным благодаря UNIX-корням Mac OS X. В дальнейшем предполагается совместно с лабораториями Argonne (занимающимися разработкой новых видов оружия) портировать библиотеки MPI-2. Для компиляции задач применяется GCC 3.3, встроенный в Mac OS X, и компилятор от IBM — xlc, который генерирует более оптимальный код, чем GCC. Кроме того, планируется использовать два компилятора Fortran 90/95/77: один от IBM, второй — от NAG5.
Необходимое условие — высокая надежность всех составляющих кластера и возможность выполнять задачу, даже если часть узлов не функционирует. Для обеспечения безопасной работы в подобных ситуациях была создана программа Deja vu, автоматически переводящая задачу с отказавшего узла на исправный.
Производительность
«Хит-парад» пятисот мощнейших компьютеров планеты, как и год назад, возглавляет Earth Simulator Center, построенный компанией NEC из 5120 специально разработанных процессоров. На втором месте — суперкомпьютер ASCI Q из военной исследовательской лаборатории Лос-Аламос, состоящий из 8192 процессоров Alpha и построенный компанией Hewlett-Packard. Следом идет Terascale Computing Facility из 1100 PowerMac G5. Четвертое и пятое места также занимают кластерные вычислительные центры военных лабораторий, построенные на основе 2500 Pentium 4 Xeon и 1936 Itanium 2 соответственно6.
Отметим, что компьютеры ранжируются по реальной производительности. Например, у Earth Simulator максимальная производительность превышает 40 ТФ, хотя реально этот суперкомпьютер достиг 35,8 ТФ. ASCI Q при пиковой производительности 20,4 ТФ работает с уровнем производительности в 13,8 ТФ. «БигМак» имеет соотношение 17,6 ТФ (пиковая) против 10,3 ТФ (максимальная производительность системы). Такая высокая цифра достигается благодаря архитектурному устройству процессора Power PC 970. В каждом процессоре G5 — два блока для вычислений с плавающей точкой с двойной точностью. Каждый блок может выполнять за цикл одну смешанную операцию сложения-умножения (наиболее распространенная операцию в нумерических вычислениях). Поэтому каждый процессор может «выдать на-гора» 8 ГФ; соответственно двухпроцессорная машина может работать с производительностью около 16 ГФ. В свое время пальму первенства в операциях с плавающей точкой прочили Itanium, но, видимо, IBM с дизайном Power PC 970 все же обошла Intel. Тест LINPACK, с помощью которого вычисляют производительность машин в Тоp-500, измеряет именно работу процессора с плавающей точкой. Если взглянуть на пятое место, где обосновался кластер из почти 2 тысяч процессоров Itanium 2, то заметно, что проигрыш в максимальной/пиковой производительности, обусловлен в первую очередь разницей в тактовой частоте. Если же сравнить «БигМак» с машиной, занявшей четвертое место, то даже большее количество процессоров 3 ГГц (2500) не помогло кластеру, построенному фирмой Dell, повысить производительность.
Что же касается второго места, существует мнение, что если «БигМаку» добавить с тысчонку процессоров, то он вполне мог бы посоревноваться за «серебро» — с тремя тысячами Power PC 970 против кластера с 8 тысячами процессоров Alpha, выдающего 13,8 ТФ из 20 возможных. Безусловно, прирост производительности «БигМака» вряд ли будет пропорциональным количеству прибавленных процессоров, но он, тем не менее, должен быть существенным.
Обслуживание
Взявшись за построение суперкомпьютера, вирджинцам пришлось думать не только о кабелях и электронике, но и о специальном помещении, где нужно было уместить 1100 машин, обеспечить им рабочую среду с определенным температурным режимом и влажностью, позаботиться о пожарной безопасности, контроле доступа, электроснабжении (2 МВт), устройствах бесперебойного питания и резервном дизель-генераторе.
Современные процессоры — не только мощное вычислительное устройство, но и мощный источник тепла. Обычно в комнатах с большим количеством вычислительной техники воздух нужно обновлять три раза в час. Расчеты показали, что в случае с TCF во избежании перегрева оборудования эта цифра должна быть в шестьдесят раз выше. Было решено поставить компьютеры задними стенками друг к другу и выдувать горячий воздух, скопившийся между ними, струей охлажденного воздуха снизу. Но оказалось, что для этого поток воздуха должен поступать со скоростью около 100 км/час, и все равно останутся недостаточно охлажденные места. Волей-неволей вирджинцам пришлось обратиться за помощью в компанию Liebert (подразделение Emerson Network Power), известную своими системами охлаждения для чувствительной электроники. Решение выглядит следующим образом: между компьютерами находятся специальные «радиаторы», состоящие из медных трубок, по которым течет вода с температурой в несколько градусов выше нуля. Вода поглощает выделяемое компьютерами тепло и попадает в специальный рефрижератор, в котором она охлаждается, после чего продолжает циркулировать по системе. Стоимость подготовки помещения и строительства систем электрообеспечения и охлаждения составила 2 млн. долларов7.
Появления подобных кластеров стоит ожидать в самом ближайшем будущем. Интерес к кластеру из Power Mac G5 уже проявило Агентство национальной безопасности США и военные лаборатории Argonne. Поскольку «БигМак» был собран практически без помощи высококвалифицированных специалистов и наладчиков, на основе доступных «широким массам» компонентов, Вирджинский политех планирует в этом году выпустить «конструктор суперкомпьютеров» — набор документации и программного обеспечения, который позволит любой организации (с достаточным количеством финансовых ресурсов, разумеется) построить суперкомпьютер, способный занять достойное место в рейтинге www.top500.org .
5 IBM выпустила более быстрый компилятор, хотя компилятор NAGWare Fortran имеет более широкий набор функциональности, чем IBM xlf.
6 Полный список суперкомпьютеров доступен по адресу www.top500.org/list/2003/11.
7 Сейчас в Национальной лаборатории Лос-Аламос разрабатывается суперкомпьютерная система, которая могла бы уместиться в средних размеров шкафу и не требовала бы специальной системы охлаждения. В том же здании находится суперкомпьютер ASCI Q (второе место в списке), который охлаждается установкой, напоминающей миниатюрный атомный реактор.