Архивы: по дате | по разделам | по авторам

Восьмидесятиядерный процессор Intel: демонстрация возможностей

АрхивПлатформа
автор : Вячеслав Ландау   19.02.2007

Процессор Teraflops Research Chip - это не коммерческий продукт, а площадка для обкатки технологий многоядерных чипов будущего - "черепичной" сети ядер, системы энергосбережения и "трёхмерной" структуры микросхем.

Обычно о подобных инновациях представители Intel рассказывали на весенней сессии своего ежегодного Форума для разработчиков (IDF), однако поскольку в этом году не планируется проведение в США весенней части этой конференции, публичная демонстрация восьмидесятиядерного процессора состоялась на международной конференции по интегральным микросхемам ISSCC.

Действующую версию прототипа, показанного на осеннем IDF в прошлом году, представил директор Intel по технологиям Джастин Раттнер. Однако прежде чем перейти к описанию этой знаковой для компании разработки, обратимся к истории создания многоядерного чипа.

На весеннем IDF 2005 года представители Intel отмечали, что чрезвычайно серьёзным препятствием на пути внедрения многоядерных процессоров в будущем является ограниченная пропускная способность памяти. Мы сталкиваемся с этой проблемой уже сегодня, когда и одноядерные, и двуядерные и четырёхъядерные процессоры работают в системах с одинаковой полосой пропускания памяти. При использовании процессоров с ещё большим числом ядер проблема будет только усугубляться, ограничивая производительность системы.

Очевидным решением проблемы является расширение системной шины и шины оперативной памяти, а также повышение их рабочих частот, однако это может быть лишь временным решением. Как видно на слайде из презентации Intel, в шестиканальном контроллере памяти должны использоваться около 1800 контактов, что существенно усложняет его конструкцию и производство. Поэтому лобовое решение проблемы неприемлемо для микропроцессоров с большим числом вычислительных ядер.

Для увеличения скорости обмена данными между процессором и памятью обычно вводят в систему новый уровень памяти, что позволяет несколько повысить скорость доступа к данным, маскируя реальную скорость обращения к памяти более низкого уровня. Поэтому возникает мысль просто разместить как можно больше памяти непосредственно на подложке процессора, возможно, организовав кэш-память четвёртого, пятого и других уровней. Это позволит радикально расширить шину памяти, которая будет напрямую связана с процессором и существенно снизить латентность. Однако место на кристалле ограничено, при этом даже сложно предположить, насколько должна увеличиться площадь процессора, состоящего из нескольких десятков ядер со всей необходимой для их полноценной работы кэш-памяти.

Вместо увеличения площади чипа, инженеры Intel предложили устанавливать один кристалл на другой: так, собственно многоядерный процессор может стать лишь одним из нескольких кристаллов в "бутерброде", включающем в себя встроенную динамическую и даже флэш-память. В этом случае, поскольку площадь кристалла не увеличится, не будет расти и процент производственного брака в таких процессорах. По оценкам инженеров Intel, в один слой можно поместить 256 Мб памяти, поэтому всё-таки нужда в основной оперативной памяти не отпадёт, однако благодаря нескольким слоям и расширению шины системной памяти появится реальная возможность создания микропроцессоров с десятками вычислительных ядер.

На осеннем IDF 2006 года Раттнер подробно рассказал о другой проблеме многоядерных процессоров - скромной ширине системной шины. Несмотря на решение задачи быстрого доступа к основной памяти благодаря многослойным кристаллам, остаётся проблема связи процессора с другими компонентами системы, а технология FSB как в варианте Intel, так и в конкурирующем варианте AMD остаётся уже в течение многих лет практически неизменной.

Для увеличения пропускной способности системной шины в Intel рассчитывают использовать наработки в области оптико-кремниевых технологий. В частности, в прошлом году Intel продемонстрировала гибридный кремниевый лазер, при помощи которого можно реализовать оптические линии передачи данных, обеспечивающие существенно большую скорость при меньших энергозатратах, чем традиционные электрические проводники. Именно оптические шины передачи данных в Intel рассматриваются в качестве идеальной системной шины для связи микропроцессоров с десятками ядер с другими компонентами системы.

Эти две технологии и обкатываются в восьмидесятиядерном процессоре получившем название Teraflops Research Chip, который фактически представляет собой не законченный продукт, а исследовательский стенд. Интересно, что с осени прошлого года, когда было только объявлено об этом чипе, его производительность выросла с номинального 1 терафлопса (триллиона операций с плавающей запятой в секунду) до 1,8 терафлопса. И, судя по всему, это далеко не предел. Коммерческий продукт из этого процессора в Intel делать не собираются, однако реализованные в нём технологии, вне всяких сомнений, будет использоваться в других чипах нового поколения.

80-ядерный процессор изготовлен по 0,065-микронной технологии, состоит из восьми металлических слоёв с медными соединениями и обладает неожиданно небольшим для такого чипа числом транзисторов - на 275 мм2 кристалла размещены всего 100 миллионов транзисторов. Для сравнения, в процессоре Intel Core 2 Duo, выпущенном по этой же 65-нанометровой технологии, на кристалле площадью 143 мм2 размещён 291 миллион транзисторов. Причина того, что на такой большой площади размещено так мало транзисторов, проста: в отличие от серийного процессора, примерно половина которого занята кэш-памятью второго уровня, в кристалле экспериментального чипа очень мало памяти, но много цепей ввода-вывода, которые не поддаются значительной миниатюризации.

Процессор выполнен в такой же корпусировке LGA, так и серийные "настольные" модели Соre 2 Duo или Pentium 4, но имеет 1248 контактов, из которых лишь 343 являются сигнальными, а все остальные используются для подачи питания и заземления. Все 80 независимых процессорных ядер (в Intel их называют tiles - то есть ячейками, черепицей, плитками) размещены на одном кристалле в виде прямоугольника 8 х 10 ядер. Площадь одного ядра - 3 мм2.

Чип может работать на нескольких скоростях, в зависимости от напряжения, при этом минимальная тактовая частота, позволяющая добиться производительности в один терафлопс, составляет 3,31 ГГц и достигается она при напряжении в один вольт. Энергопотребление процессора в этом режиме составляет 98 Вт. Если повысить подаваемое напряжение до 1,2 В, тактовая частота вырастет до 4 ГГц, производительность - до 1,28 терафлопса, а энергопотребление - до 181 Вт. Если же поднять частоту до 5,7 ГГц, то производительность достигнет 1,8 терафлопс, но энергопотребление вырастет уже до 265 Вт. Минимальная рабочая тактовая частота чипа составляет 1 ГГц, при этом процессор потребляет всего 11 Вт электроэнергии, а его производительность достигает 310 миллиардов операций с плавающей запятой в секунду. В ходе публичной демонстрации процессор работал на частоте 3,16 ГГц при напряжении 0,95 В и потреблял 62 Вт электроэнергии.

Особенностью архитектуры Teraflops Research Chip является использование абсолютно одинаковых и чрезвычайно простых ядер, которые не являются x86-совместимыми, хотя в Intel планируют в рамках этого проекта опробовать и такой вариант. Каждое такое ядро состоит из вычислительного модуля и пятипортового маршрутизатора, отвечающего за обмен данными с другими ядрами.

В целях максимального упрощения ядер они построены на основе 96-разрядной архитектуры VLIW (Very Long Instruction Word - "очень длинного командного слова "). При этом в одной команде VLIW может содержаться до восьми простых операций. Архитектура VLIW, применяемая Intel также в серверных процессорах Itanium, позволяет упростить конструкцию процессора за счёт использования компилятора для определения очерёдности выполнения инструкций. При этом отсутствует необходимость в сложных динамических алгоритмах расчёта последовательных и параллельных вычислений. Архитектура VLIW неплохо себя проявляет в однотипных и специализированных приложениях, однако, для персональных компьютеров она мало пригодна. Впрочем, разработчики Teraflops Research Chip, скорее всего, пока не думали об этом и концентрировались просто на физической реализации процессора, состоящего из восьмидесяти ядер. Тем не менее, в будущем, как мы уже говорили, планируется добиться и поддержки ядер с более сложной архитектурой.

Идентичность всех вычислительных ядер позволяет упростить не только конструкцию процессора и его производство, но и управление всеми этими ядрами. Встроенный в каждое из ядер пятипортовый маршрутизатор используется для обмена данными между ядрами, которые, тем самым, объединяются в сеть. При этом любое ядро может использоваться исключительно для передачи данных, что позволяет динамически отключать питание вычислительных модулей таких ядер и экономить электроэнергию.

При тактовой частоте процессора в 4 ГГц пять 39-разрядных портов встроенного маршрутизатора в сумме обеспечивают пропускную способность в 80 Гб/c, при этом роутер занимает всего 0,34 мм2 от общей площади ядра 3 мм2. Как видно на слайде, четыре из пяти портов используются для связи с другими ядрами, а пятый - для подключения ко встроенной в "слоёный" чип памяти. В целях оптимизации охлаждения процессора сам многоядерный чип будет находиться сверху "бутерброда", а слои с памятью - под ним.

Одно из главных преимуществ реализованной в этом процессоре сети ядер заключается в том, что эту сеть, работающую с 80 ядрами, без каких-либо проблем можно заставить работать как с меньшим, так и с большим числом ядер. Более того, благодаря "черепичной" структуре чипа вычислительный модуль ядра может быть заменён любым другим, включая ядро с набором инструкций x86, специализированным цифровым сигнальным процессором или системой аппаратного шифрования. Вместо 80 ядер можно использовать, например, 12, шесть из которых будут представлять собой универсальные x86-ядра, а прочие будут специализированными ядрами, к примеру, для обработки трёхмерных изображений, поддержки TCP/IP или декодирования видео и звука.

С повышением тактовой частоты и площади процессора обеспечение одновременного доступа тактового сигнала во все части чипа становится нетривиальной задачей, однако без этого невозможно добиться нормальной работы чипа. По данным Intel, в современных микропроцессорах на распределение тактового сигнала расходуется порядка 30% всей энергии, используемой чипом, поэтому любое снижение энергопотребления этой части конструкции будет сразу заметно.

Поскольку каждое из ядер разработчики Teraflops Research Chip является независимым, тактовый сигнал должен одновременно доходить до каждого элемента отдельного ядра, а не всего процессора в целом. Поэтому инженеры Intel рассинхронизировали подачу тактового сигнала на ядра. Несмотря на то, что в результате этого обмен данными между ядрами несколько замедляется, выигрыш в энергосбережении настолько существенен, что некоторым снижением производительности можно пренебречь. По данным Intel, в 80-ядерном чипе при работе на частоте 4 ГГц на распределение тактового сигнала расходуется всего 2,2 Вт энергии, что составляет 1,2% от общего энергопотребления процессора под нагрузкой.

В новом чипе реализована и ещё одна энергосберегающая технология: каждое ядро поделено на 21 область, питание каждой из которых может отключаться отдельно от других, в зависимости от типа выполняемых команд, не говоря уж о том, что и любое ядро может отключаться независимо от других. А, как мы уже упомянули, вычислительный модуль и маршрутизатор также имеют независимое питание. Более того, и каждый из пяти портов маршрутизатора могут выключаться независимо друг от друга, а модули "умножители-аккумуляторы" (FPMAC) вычислительного блока пребывают в состоянии "сна" до тех пор, пока они не потребовались. Около 90% FPMAC и 74% вычислительного блока состоят из транзисторов, поддерживающих "спящий режим". По информации Intel, такие транзисторы занимают на 5,4% больше площади чипа, чем обычные.

Иными словами, практически все мельчайшие компоненты процессора оснащены независимыми линиями электропитания - вот почему большая часть из 1248 контактов микросхемы ответственна именно за подвод к чипы электричества. Такая конструкция позволяет гибко распределять нагрузку и даже регулировать нагрев процессора: если какие-то его части в процессе работы чересчур нагрелись, им на смену придут "отдыхавшие" до этого элементы.

В Intel нет планов по превращению Teraflop Research Chip в серийный коммерческий продукт. Да и 80-ядерным этот чип стал не из-за какой-то магии числа 80, а просто потому, что ровно столько ядер инженерам корпорации удалось разместить на кристалле заданной площади. Наконец, этот процессор не бьёт никаких рекордов производительности. Смысл появления Teraflop Research Chip заключается в его названии - это опытный стенд для обкатки технологий многоядерных процессоров будущего. В действующем образце мы уже видим "черепичную" сеть ядер, а также изощрённейшую систему энергосбережения. Следующими двумя целями проекта в Intel называют практическую реализацию "трёхмерной" микросхемы "бутербродного типа", а также использование в процессоре более универсальных вычислительных ядер.

Готовых продуктов, в которых будут реализованы испытываемые в Teraflop Research Chip технологии, придётся долго: в Intel заявляют, что они могут появиться лишь через 5-10 лет. Однако если уже через три года обычным делом должны стать четырёхъядерные процессоры, то к 2017 году восьмидесятиядерный чип с производительностью в терафлопс тоже вполне может появиться в вашем компьютере.

© ООО "Компьютерра-Онлайн", 1997-2019
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.