Архивы: по дате | по разделам | по авторам

Конец главы

Архив
автор : Роман Косячков   01.09.2000

Обзор архитектуры и новшеств процессора Intel Pentium 4 Willamette.

Willamette - река в штате Орегон, истоки которой сливаются
в единый поток на западе этого штата, близ города Юджин.
Willamette течет на север и впадает в реку Колумбия неподалеку
от Портленда; длина реки - 306 км (190 миль).
Microsoft
Encarta Encyclopedia


Использование географических названий в качестве торговых марок или кодовых имен вполне в американской традиции. На память сразу приходят автомобиль Chevrolet Tahoe (озеро на границе штатов Невада и Калифорния) или сигареты Salem (столица штата Орегон, название которой является англизированной формой еврейского слова "shalom" - "мир"). Как правило, они редко несут конкретную смысловую нагрузку. С нами, европейцами, привыкшими к тому, что название часто отражает назначение или основные свойства предмета (например, BMW 318i), подобная "географическая практика" иногда играет злую шутку. Например, фирма Intel на период проектирования и подготовки производства дает своим процессорам рабочие названия по карте Северной Америки: Klamath, Deschutes, Katmai, Tualatin, Merced, Northwood и т. п. И когда появилась первая и весьма скупая информация о дальнейшем развитии семейства Pentium III - процессоре Coppermine (буквально - "медный рудник"), некоторые обозреватели допустили невольную ошибку и заключили, что Intel уже переходит (вдогонку за IBM и почти синхронно с AMD) на использование медных соединений в своих процессорах. На заявления официальных представителей фирмы о том, что Intel считает применение медных соединений целесообразным только при проектных нормах 0,13 мкм и менее (то есть не ранее 2001 года), особого внимания не обратили. И зря. Coppermine с проектными нормами 0,18 мкм, как и было объявлено, изготовлен по классической "алюминиевой" технологии. А один домысел влечет за собой другой. Раз гипотеза не оправдалась, решили обозреватели, значит, не сама гипотеза была ошибочной, а фирма Intel не смогла освоить "медную технологию". Вот так одно яркое слово может запросто перевесить здравый смысл. Самое забавное заключается в том, что река Coppermine на севере Канады получила свое название совсем не потому, что на ее берегах когда-то добывали медь. Просто в этом районе обитало (и обитает до сих пор в одноименном с рекой городке) некое эскимосское племя, представители которого имеют характерный "медный" оттенок кожи.

Последние несколько месяцев у всех на устах кодовое наименование очередного процессора от Intel - "Willamette". Это слово уже не навевает особых ассоциаций. Однако за именем совсем маленькой речушки (в 2,5 раза короче, чем Coppermine!) скрывается весьма и весьма серьезное содержание. Впрочем, о Willamette можно забыть. 28 июня новый процессор от Intel заранее приобрел свой рыночный товарный знак - "Pentium 4", а в конце этого года уже появятся первые системы на его основе.

Willamette, процессор седьмого поколения (P7) от Intel, видимо, последняя серьезная модернизация архитектуры IA-32 перед тем, как она уступит место архитектуре IA-64, первый представитель которой - 64-разрядный процессор Itanium (а это уже восьмое поколение, Р8) - выходит практически одновременно с Pentium 4. Конечно, будет еще и серверный вариант процессора Pentium 4 под кодовым наименованием "Foster", и P7 по технологии 0,13 мкм - Northwood, однако ожидаемые в них изменения не столь значительны по сравнению с родоначальником семейства. На рынке Р7 будет напрямую конкурировать с высокопроизводительными вариантами процессора Athlon от AMD. Несколько позже, если по тем или иным причинам переход отрасли на IA-64 задержится и 32-разрядным процессорам еще будет принадлежать заметная доля рынка, семейству процессоров Р7 придется держать удар 32/64-разрядного процессора AMD SledgeHammer (К8). То есть задача, поставленная перед проектировщиками Willamette, - обеспечить конкурентоспособность процессора в течение как минимум полутора-двух лет была весьма трудной. Возглавил эту работу Гленн Хинтон (Glenn Hinton), член совета директоров Intel и главный архитектор Willamette.

В результате процессор получился не совсем обычным, с большим количеством нововведений. Ключевыми особенностями Pentium 4 являются: корпусировка PGA-423 (Plastic Grid Array c 423 контактами) под новый Socket-423; системная шина с тактовой частотой 200 (100х2), 266 (133х2), 400 (100х4) или 533 (133х4) МГц; новый суперскалярный конвейер длиной двадцать стадий; развитые алгоритмы предсказания переходов; кэш с упорядочиванием инструкций (Trace Cache); механизм динамического исполнения команд (Advanced Dynamic Execution); блок арифметико-логических операций (ALU) c "двойным возбуждением" и новый набор команд SSE2 (Streaming SIMD Extensions 2) или, как раньше его называли, WPNI (Willamette Processor New Instructions). Вся совокупность архитектурных и технологических изысков Pentium 4 будет продвигаться на рынке под собственным наименованием NetBurst (буквально - "ускоритель сети").

Увеличение числа контактов корпуса Pentium 4 по сравнению с Pentium III на 53 штуки (423 против 370) сразу вызвало предположение, что Р7 будет иметь 128-разрядную системную шину. Шина действительно 128-разрядная, но с 64-битным доступом. Лишние контакты потребовались для дополнительных цепей питания и заземления. Такое решение значительно повышает как стабильность работы на высоких частотах процессора в целом, так и высокоскоростной системной шины в частности. Кстати, через полгода-год после выпуска планируется выпускать наиболее производительные модели Pentium 4 в корпусах mPGA с еще большим числом выводов, а именно 479. Соответственно, появится и новая "розетка" под процессор - Socket-479. А Foster вообще будет выпускаться под Socket-603.

Скорее всего, первые варианты Pentium 4 сразу будут использовать системную шину 400 МГц (100х4), обычно называемую Quad Pumped Bus. Сама по себе тактовая частота шины остается на уровне 100 МГц, однако, используя механизм, подобный реализованному в шине AGP 4x (так называемое четырехкратное возбуждение), удается за один такт передавать в четыре раза больше данных. Пропускная способность новой системной шины составит около 3,2 Гбайт/с, что, видимо, позволит раскрыть потенциал памяти типа DR (Direct Rambus) DRAM, пропускная способность которой в двухканальном варианте составляет как раз те самые 3,2 Гбайт/с. И пока не совсем ясно, в каких случаях будут использоваться частоты системной шины 200, 266 и 533 МГц, поддержка которых реализована в выпускаемом специально для Pentium 4 чипсете i850 (Tehama).

Наибольший разброс оценок вызывает суперскалярный гиперконвейер (HyperPipeline) Pentium 4 длиной в беспрецедентные для микропроцессорной техники двадцать стадий. В частности, у Pentium III конвейер состоит всего из десяти стадий. С одной стороны, более длинный конвейер позволяет упростить аппаратную реализацию каждой стадии (меньше вентилей), а значит, уменьшить время ее исполнения. Это создает хорошие предпосылки для повышения тактовой частоты процессора. С другой стороны, при большом количестве неправильно предсказанных переходов длинный конвейер может привести к заметному снижению производительности.

На предсказании переходов стоит остановиться подробнее. Современные процессоры очень многие инструкции стараются выполнить задолго до того, как те могут понадобиться. Однако код программы не состоит только из последовательных команд, время от времени нужно произвести переход для выполнения совсем другого участка кода. Если переход не предсказан или предсказан неправильно, конвейер будет часто останавливаться, его содержимое - сбрасываться, и весь процесс - начинаться заново. Поэтому очень важна эффективность алгоритмов предсказания переходов. В процессорах Pentium III переходы предсказываются правильно с 90-процентной вероятностью. Соответствующий алгоритм в Pentium 4 будет еще эффективнее, так как включает в себя все последние достижения в этой области.

Очень важным элементом, влияющим на эффективность работы 20-стадийного конвейера, является механизм под названием Advanced Dynamic Execution (буквально - "расширенное динамическое исполнение"). Он предоставляет возможность нарушить порядок исполнения команд и произвести их неупорядоченную обработку. Естественно, что после исполнения инструкций их первоначальный порядок восстанавливается. Кстати, в процессорах предыдущего, шестого поколения (например, в Pentium III) дешифровка х86-инструкций и их преобразование в последовательность микроопераций производилась внутри суперскалярного конвейера процессора, на что выделялось три стадии из десяти. Для реализации механизма Advanced Dynamic Execution в процессоре Pentium 4 потребовалось вынести это преобразование за пределы конвейера, то есть дешифровка и исполнение команд теперь производятся раздельно.

Еще одно новшество - кэш трассировки (Execution Trace Cache), или, если называть его по существу, кэш с упорядочиванием инструкций. Его назначение таково: после дешифровки микрооперации поступают в кэш трассировки, где хранятся в упорядоченном виде (в том числе и в физическом смысле). То есть кэш трассировки содержит несколько непрерывных цепочек логически взаимосвязанных команд, всегда готовых к поступлению на конвейер. Если конвейер занят, инструкции накапливаются в кэше трассировки; и напротив, если уже дешифратор по тем или иным причинам не успевает обработать поток х86-инструкций, конвейер не простаивает, ему все равно находится работа: в кэше трассировки его ждет несколько еще не выполненных цепочек команд. Объем кэша трассировки составляет 12 Кбайт. В совокупности с 8-килобайтным кэшем данных он образует кэш первого уровня.

Блок арифметико-логических операций (Rapid Execution Engine) процессора Pentium 4 довольно необычен. Он состоит из двух модулей ALU, причем работают они на частоте, вдвое превышающей тактовую частоту процессора. Достигается это тем, что ALU использует для инициирования выполнения операций не только передний, но и задний фронт тактового импульса ("двойное возбуждение"), что позволяет в пределе выполнять до четырех простых целочисленных операций за такт.

Немало новшеств включает в себя и набор команд SSE2. Это 144 инструкции, из которых 68 расширяют возможности SIMD-инструкций по работе с целыми числами, а 76 являются совершенно новыми. В их числе инструкции, позволяющие оперировать 128-разрядными данными (как целыми, так и с плавающей точкой) или манипулировать данными в регистрах процессора. Важность SSE2 заключается в том, что фирма Intel решила серьезно не модернизировать устаревший и исчерпавший себя блок операций с плавающей точкой (так называемый x87). Он оставлен в составе процессора только из соображений совместимости. Тем не менее, этот блок нельзя назвать медленным: умножение и сложение чисел с плавающей точкой, а также обмен данными с кэшем первого уровня производятся всего за один такт. И все же Intel рассчитывает, что разработчики программного обеспечения будут интенсивно использовать набор команд SSE2, позволяющий получить недостижимую ранее производительность.

Таковы основные особенности процессора Pentium 4. Частично его технические характеристики представлены в таблице. Правда, назвать эти сведения надежными нельзя из-за скудости официальных сообщений и противоречивости информации из независимых источников. Выскажу также несколько предположений по трем частным вопросам.

До сих пор неизвестно, будет ли процессор Pentium 4 иметь кэш третьего уровня. Это вполне возможно, так как 42-х миллионов вентилей, из которых состоит процессор, явно многовато для кэшей первого и второго уровня общим объемом 276 Кбайт. Косвенно на это указывает и тот факт, что серверный вариант Р7 под кодовым наименованием Foster объемным (несколько мегабайт) кэшем третьего уровня обладать будет. Думаю, кэш L3 у Pentium 4 (если он будет) составит от 128 до 256 Кбайт.

Необычно длинный 20-стадийный конвейер Pentium 4 спровоцировал обсуждение производительности этого процессора по сравнению с Pentium III и Athlon на одной и той же тактовой частоте. Как правило, считается, что производительность Pentium 4 по сравнению с предшественниками будет меньше процентов на 20, что компенсируется большим потенциалом процессора в работе на высоких тактовых частотах. Вряд ли это так. Целый ряд мер, предпринятых командой Гленна Хинтона по сведению недостатков длинного конвейера к минимуму, должен дать свои плоды, и, вероятно, системы на основе P7 будут не медленнее, а быстрее систем с упомянутыми процессорами процентов на 20-30.

И последнее предположение. В свое время было официально объявлено, что сначала на рынок выйдут Pentium 4 с частотой 1,4 и 1,5 ГГц, а вариант на 1,3 ГГц появится несколько позднее. Если будет именно так, то "входной билет" в клуб обладателей нового процессора будет стоить довольно дорого. Откладывая выпуск самого дешевого варианта Pentium 4, фирма Intel заставляет энтузиастов, приобретающих новые процессоры, как только те появляются на рынке, сразу раскошелиться на 6-8 сотен долларов за одну из старших моделей. Или подождать младшую, тем более что разгоняться Pentium 4 должен без больших усилий.

Производство нового процессора уже началось. По некоторым сведениям, новейшая фабрика Intel в Израиле практически полностью перешла на выпуск Pentium 4, причем основную массу составляет 1,7-гигагерцовая (!) модель. Значит, после выхода Pentium 4 перебои с его поставками маловероятны, и, самое главное, сразу или почти сразу будут доступны и высокочастотные варианты. Нам же остается только ждать.

Процессор Pentium 4 и его модификации завершают собой потрясающую главу в развитии микропроцессорной техники под названием "Процессоры с архитектурой IA-32". На основе этой архитектуры всего за полтора десятка лет фирмы Intel, AMD, Cyrix, Rise и некоторые другие создали несколько сотен очень разных процессоров, замечательным первенцем среди которых был Intel 80386. Да, безусловно, еще несколько лет, и глава закончится. Однако, как всегда бывает, последние страницы - самые интересные.

Корпусировка PGA
Конструктив разъема Socket-423
Поддерживающий чипсет i850 (Tehama)
Технологический процесс 0,18 мкм, алюминий
Площадь кристалла, кв. мм ~ 170 (217?)
Количество вентилей, млн. ~ 42
Тактовая частота, ГГц 1,3-1,7 и выше
Частота системной шины, МГц 400 (100*4)
Разрядность системной шины, бит 64
Объем кэша L1, Кбайт 20
Объем кэша L2, Кбайт 256
Объем кэша L3, Кбайт 256 (?)
Поддержка SMP Нет
Энергопотребление, Вт ~ 52 на частоте 1,4 ГГц
Доступность на рынке IV квартал 2000 года
Цена, $ 625 (1,4 ГГц), 725 (1,5 ГГц)

© ООО "Компьютерра-Онлайн", 1997-2021
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.