Pentium 4 Extreme Edition от 2,4 до 3,4 ГГц: масштабируемость и перспективы микроархитектуры. Часть I
АрхивПлатформаТесты масштабируемости двух подвидов микроархитектуры Intel NetBurst показывают пределы развития каждой из них и перспективы наращивания частоты Pentium 4. Extreme Edition 2,6 ГГц иногда быстрее Northwood 3,2 ГГц!
Как вы уже наверное знаете, 16 сентября на IDF Fall 2003 корпорация Intel объявила, что собирается в скором времени выпустить процессор Pentium 4 Extreme Edition, предназначенный преимущественно для геймеров и снабженный дополнительной кэш-памятью третьего уровня объемом 2 Мбайт. И в день выхода долгожданных процессоров AMD Athlon 64, то есть 23 сентября, многие ведущие «железячные» сайты разродились сравнительными обзорами вроде «AMD Athlon 64 FX против Intel Pentium 4 Extreme Edition» (см., например, наш обзор «Ботва титанов: Intel Pentium 4 Extreme Edition против AMD Athlon 64 FX-51»).
Однако практически все эти обзоры обошли вниманием одну не менее важную, чем сравнение процессоров разных корпораций, вещь — подробный анализ того, что дает для самих Pentium 4 использование новой разновидности микроархитектуры NetBurst — ядра с дополнительной двухмегабайтной кэш-памятью третьего уровня. В лучшем случае, обозреватели сравнивали процессоры Pentium 4 Northwood и Extreme Edition с частотой 3,2 ГГц в наборе приложений, что дает далеко не полную картину способностей новой разновидности «настольной» микроархитектуры. Поэтому в настоящем обзоре мы предлагаем вам, по-видимому, первый в Интернете обзор и анализ масштабируемости процессоров Pentium 4 Extreme Edition против обычных Pentium 4 на ядре Northwood. Именно масштабируемость (то есть зависимость производительности от частоты ядра процессора в широком диапазоне) позволяет сделать более глубокие выводы о влиянии и потенциале использования новой микроархитектуры Intel Pentium 4. Напомню, что мы уже пару раз прибегали к исследованию масштабируемости систем, чтобы выяснить потенциалы тех или иных решений — частоты FSB и памяти, см. обзоры «Pentium 4 Northwood: масштабируемость» Часть 1 и Часть 2, а также «Масштабируемость Pentium 4 на шине 533 МГц с памятью DDR266 и DDR333», где мы предвосхитили переход на двухканальные чипсеты и системную шину 800 МГц.
Здесь мы будем называть ядро Extreme Edition именно новой микроархитектурой, подразумевая, что она базируется на общих принципах глобальной концепции архитектуры Intel NetBurst, использует все основные особенности микроархитектуры ядра Northwood, но дополнительно снабжена кэш-памятью третьего уровня, что и позволяет придать ей статус отдельной микроархитеткуры. Напомню, что эта микроархитектура фактически идентична уже известному ядру Gallatin серверных процессоров Intel Xeon MP (используется даже сходный степпинг кристаллов), только работает на более высокочастотной системной шине. Напомним также, что латентность кэша L3 судя по нашим измерениям оказалась всего вдвое больше, чем у быстродействующего кэша L2 (который одинаков у ядер Northwood и Extreme Edition): сказывается одинаковая с L2 ассоциативность и ширина шины доступа, а также частота работы, равная частоте ядра.
Официальный выход «экстремальных» Pentium 4 и поступление их в продажу запланирован на октябрь-ноябрь (но до выхода Prescott в начале декабря). Сейчас сложно предположить, какие именно модели (с какими частотами) поступят в продажу и какие цены на них назначены (старшая с 3,2 ГГц, если верить информации некоторых тайваньских сайтов, будет стоить в районе 700 долларов, что не так уж много), однако по имеющемуся у нас сэмплу с множителем, разблокированным от 12 до 16, можно сделать вывод, что возможно появление Pentium 4 Extreme Edition с частотами от 2,4 до 3,2 ГГц. Впрочем, про модели с частотами 2,4 и 2,6 ГГц можно, конечно, поспорить, учитывая, что на них придется назначать весьма низкую цену при дорогом в общем кристалле от Xeon MP, площадь которого почти в два раза выше, чем у кристалла Northwood (230 против 130 кв. мм), а число транзисторов больше втрое (около 170 против 55 миллионов). Тем не менее, судя по нашим тестам масштабируемости Extreme Edition, его модель с частотой 2,6 ГГц вполне имеет право иметь высокую цену, поскольку в некоторых «бытовых» задачах даже умудряется обгонять обычный Pentium 4 с частотой 3,2 ГГц!
Разблокированный множитель в сэмпле нового процессора Intel и позволил нам детально исследовать масштабируемость новой и старой микроархитектур (фактически сравнить потенциалы ядер Gallatin и Northwood при работе на системной шине 800 МГц) в одних и тех же условиях и в широком диапазоне частот от 2,4 до 3,2 ГГц и понять, что сулит наличие кэш-памяти L3 и как это может повлиять на дальнейшее развитие архитектуры Intel NetBurst в будущих версиях процессоров. А заодно мы фактически сравниваем между собой будущий (возможный) модельный ряд Extreme Edition с текущими Pentium 4 в плане быстродействия в различных задачах.
Тестирование быстродействия
Для тестирования мы использовали плату Intel D875PBZ Bonanza. Она обеспечивает классическую производительность чипсета Canterwood, причем на достаточно высоком среди других плат на этом чипсете уровне (см. обзор «Платы на чипсетах Intel 875/865: исчерпывающий обзор. Часть 3»). Мы также использовали видеоускоритель NVIDIA NV35 Ultra (референс-плата) с драйверами Detonator 44.03 и DirectX 9.0b и 1 Гбайт системной памяти DDR400 от компании OCZ (серии EL Platinum, любезно предоставленные компанией «Патриарх») двумя согласованными модулями по 512 Мбайт (каждый из модулей насчитывал по 16 чипов для получения лучшей производительности системы на Canterwood). Память работала по таймингам 2-2-3-5 (RAS to CAS delay=3), поскольку эта плата Intel даже по утверждениям самих сотрудников Intel пока не в состоянии работать с RAS to CAS delay=2. Впрочем, на наших выводах это совершенно никак не скажется.
Итак, мы сравниваем следующие процессоры:
1. Pentium 4 Extreme Edition 3,2 ГГц
2. Pentium 4 Extreme Edition 3,0 ГГц
3. Pentium 4 Extreme Edition 2,8 ГГц
4. Pentium 4 Extreme Edition 2,6 ГГц
5. Pentium 4 Extreme Edition 2,4 ГГц
6. Pentium 4 3,2 ГГц
7. Pentium 4 3,0 ГГц
8. Pentium 4 2,8С ГГц
9. Pentium 4 2,6С ГГц
10. Pentium 4 2,4С ГГц
11. Pentium 4 3,06 ГГц — системная шина 533 МГц, DDR333
12. Pentium 4 3,06 ГГц — системная шина 533 МГц, DDR266
13. Pentium 4 2,80 ГГц (без НТ) — системная шина 533 МГц, DDR333
Последние три системы отличаются от остальных тем, что используют процессоры на «старой» системной шине 533 МГц (остальные десять работают с FSB 800 МГц) и, соответственно, более низкочастотную системную память — DDR333 и DDR266 (вместо DDR400). При этом память по-прежнему работает на чипсете i875P в двухканальном режиме и в динамической моде (с теми же таймингами). Эти три старые системы послужат нам для сравнения с новыми.
Основные результаты наших тестов представлены на диаграммах и графиках. Мы провели большее количество тестов, чем показано здесь, однако для «облегчения» обзора мы их «вываливать» на вас не стали — ввиду того, что все основные выводы ясны и из базовых тестов (которых более двух десятков), показанных здесь.
Соотношение полосы пропускания системной памяти между процессорами Pentium 4 с разными частотами и ядрами очень похожи во многих программах (Sandra, CacheBurst32, AIDA32 и др.) и мы проиллюстрируем их на примере теста памяти пакета Science Mark 2.0.
Очевидно, все процессоры на системной шине 800 МГц с двухканальной DDR400 показывают примерно одинаковую скорость потоковой работы с памятью, много большую, чем у старых систем на 533 МГц c DDR333/266. Хотя есть и некоторые неожиданности (они общие для многих тестов памяти): более низкочастотные процессоры работают с памятью в среднем чуточку быстрее! Никакого преимущества по скорости чтения памяти процессоры Extreme Edition не обеспечивают (даже скорее наоборот - слегка уступают обычным Northwood).
Зато по скорости записи в память большой кэш L3 позволяет новичкам обогнать стандартные Нортвуды очень ощутимо - примерно на 35%, с 1540 Мбайт/с до 2080 Мбайт/с. Именно за счет этого в тесте полосы пропускания памяти Science Mark 2.0 Экстрим-процессоры слегка быстрее одинаковых с ними по частоте процессоров на ядре Northwood.
Необычны результаты тестов латентности память (снова - по Science Mark 2.0, хотя по другим программам получается аналогично). Прежде всего, очевидно, что латентность при работе с системной памятью у новых Extreme Edition всегда немного выше, чем у аналогичных по частоте Northwood.
Объясняется это относительно просто: поскольку кэш L3 у Пентиумов инклюзивный, то данные из памяти, прежде, чем попасть в кэш L1 и на конвейер, сначала проходят в кэш L3, а потом оттуда - и в L2. У каждого из них - своя латентность (см. скриншот). То есть по сравнению с Northwood добавляется одна стадия задержки данных на пути - кэш L3 - и данные ненадолго как бы «застревают» (задерживаются) в нем. Отметим, что дополнительная задержка в L3 в среднем по этому тесту составляет от 1 до 6 нс, что значительно меньше чистой латентности кэш-памяти L3, непосредственно измеренной другими программами - около 12-13 нс для процессора с частотой 3,2 ГГц и 18 нс для процессора Extreme Edition с частотой 2,4 ГГц (делите 42-44 такта на частоту процессора).
Другие, менее важные, особенности, следующие из теста латентности памяти - небольшую разницу между процессорами с частотой от 2,6 до 3,2 ГГц можно списать на «погрешность измерений», но вот резкое падение скорости для частоты 2,4 ГГц (мы использовали физически одни и те же кристаллы для каждой из серий) нетривиален и объясняется, видимо, особенностями внутреннего арбитража кристалла процессора при работе с кэшем и системной шиной. Отметим также, что латентности при работе с FSB 533 и DDR333/266 оказалась не намного выше - фактически, почти на том же уровне, что и для систем с FSB 800 МГц и DDR400. Тоже нетривиальный вывод.
Еще одним показательным тестом памяти является любимый интеловский тест Wstream. Операции Add и Triad в этом тесте проходили в наших системах с практически одной и той же скоростью (мы показываем на диаграмме их усредненный результат), а операции Copy и Scale немного различались по скорости друг от друга. По верхней половине диаграммы с результатами Wstream видно, что на данных двух операциях с памятью обычные процессоры быстрее, чем Extreme Edtition. Причина - в той самой латентности, о которой мы говорили выше.
Зато в двух других подтестах Wstream линейки процессоров практически равны (на Scale немного быстрее «Экстрим» - видимо, за счет лучшей скорости записи в память).
Продолжение обзора масштабируемости — тесты в приложениях — читайте во второй части обзора.