Pentium 4 Extreme Edition от 2,4 до 3,4 ГГц: масштабируемость и перспективы микроархитектуры. Часть II
АрхивПлатформаТесты масштабируемости двух подвидов микроархитектуры Intel NetBurst показывают пределы развития каждой из них и перспективы наращивания частоты Pentium 4. Extreme Edition 2,6 ГГц иногда быстрее Northwood 3,2 ГГц!
В первой части этого обзора мы начали исследовать масштабируемость процессоров Pentium 4 Extreme Edition и Pentium 4 Northwood с частотами от 2,4 до 3,2 ГГц. Теперь выясним, как процессоры масштабируются в приложениях.
Мы использовали как приложения, в большей степени зависящие от производительности подсистемы памяти, так и более процессорозависимые задачи. Одним из примеров последних (впрочем не без влияния скорости памяти) может служить тест расчетов орбиталей атомов в пакете Science Mark 2.0.
В принципе, обе линейки процессоров Pentium 4 на шине 800 МГц идут здесь практически вровень (плюс-минус пол процента и менее). Не очень сильное влияние скорости памяти (и, соответственно, кэш-памяти) в этом тесте подтверждает и тот факт, что процессоры 3,06 ГГц на шине 533 МГц почти не отстают от трехгигагерцовых собратьев на более быстрой системной шине. И тестов с подобной тенденцией достаточно много: часто важны не столько быстрая память и большой кэш, сколько частота процессора. Такие задачи обычно практически идеально масшабируются, то есть производительность системы линейно растет с ростом частоты CPU без оглядки на память.
Ситуация меняется там, где реально требуется быстрая потоковая работа с памятью. Например - при кодировании видео. Тут уже большой кэш L3 явно помогает и обеспечивает около 3% прироста производительности при всех частотах CPU. Хотя и частота самого процессора по-прежнему важна: модель 3,06 ГГц отстает только от 3,0 и 3,2 ГГц. Масштабируемость систем в этих задачах тоже близка к идеальным прямым, хотя на более высоких частотах разрыв между процессорами чуточку выше, чем на низких.
Еще больше влияния оказывает возросший кэш в тесте CPUmark99 (он, кстати, тоже основан на фрагментах реальных приложений, правда, относительно старых). Кэш L3 обеспечивает уже 4-7% увеличения производительности, причем тем больше, чем выше частота процессора.
Еще интереснее ситуация в очень зависящих от скорости памяти (и кэша) задачах, какой, например, является архивирование в WinRAR. Здесь мы наглядно видим, какой гигантский прирост скорости может дать возросший кэш: от 13,5% для 2,4 ГГц до 17,5% для 3,2 ГГц! Причем, 2,4 ГГц Extreme Edition обгоняет даже Нортвуда 3,0 ГГц (а 2,6 ГГц Extreme - 3,2 ГГц Northwood соответственно)!
Судя по тому, что прирост от большого кэша значительно больше, чем от скорости памяти (сравните процессоры 3,0 и 3,06 ГГц) - 16% и 7% соответственно - большая часть задачи крутится именно в кэш памяти, хотя размер словаря для архивирования при этом равен 4 Мбайт, а сам архивируемый материал - около 800 Мбайт множеством файлов (сжимаемых в среднем раз в пять).
Более наглядно наблюдать тенденции масштабируемости в этом случае удобнее на графике, а не на диаграмме. Здесь по горизонтальной оси отложена тактовая частота процессора, а по вертикальной - производительность (в случае, когда выходным параметром теста является время выполнения операции, мы используем на графике обратно пропорциональную времени выполнения величину, которая прямо пропорциональна быстродействию системы).
Здесь сразу видно подмеченное нами выше: кэш L3 для этой задачи явно лучше, чем возросшая частота системной шины и памяти. Более того, мы можем видеть, что разрыв двух верхних графиков (точнее - прирост производительности) тем выше, чем выше частота процессора (что еще раз говорит в пользу большей «кэшезависимости» задачи и коррелирует с данными теста CPUmark и ряда других).
Наконец, при внимательном рассмотрении графиков вытекает еще один важный вывод: месштабируемость P4 EE практически идеальна (линейная прямая роста скорости выполнения задачи с частотой CPU), тогда как система на Northwood масштабируется не просто хуже (медленнее), но с тенденцией насыщения на более высоких частотах (средний график немного выгнут вверх), то есть где-то для частот выше 3,5 ГГц должна наступить ситуация, когда дальнейший рост частоты ядра процессора не будет приводить к ощутимому увеличению скорости выполнения системой этой задачи. И потребуется ускорять системную шину и память (до 1066 МГц и DDR2-533 соответственно), либо увеличивать кэш-память (L2=1 Мбайт у Prescott). Тогда как у микроархитектуры Extreme Edition еще будет мощный запас масштабируемости до частот выше 4 ГГц при тех же FSB и DDR400.
Еще один тип расчетов - в профессиональных пакетах трехмерного моделирования. Тут мы тоже можем наблюдать различные тенденции масшабируемости разных ядер процессора Pentium 4.
Например, в пакете Cinebench 2003, хорошо оптимизированном под архитектуру Intel NetBurst и технологию Hyper-Threading, мы наблюдаем случай, когда скорость рендеринга достаточно сложного кадра крайне слабо зависит от любых факторов, кроме частоты ядра CPU (верхняя половина диаграммы): здесь даже модель 3,06 ГГц быстрее, чем 3,0 ГГц. Влияние кэш-памяти L3 в этой задаче практически полностью отсутствует! Зато очень хорошо работает Hyper-Threading, добавляя до 20% (а иногда и более) к скорости системы с одним логическим процессором. Естественно, в этой задаче все системы масштабируются идеально линейно.
Ситуация немного иная, когда мы выполняем операцию Shading с использованием движка CINEMA 4D (нижняя половина диаграммы и график). Тут уже влияние кэша L3 есть и оно растет от 2% для 2,4 ГГц до 3,3% для 3,2 ГГц, то есть задача явно «кэшелюбива». Лучше это видно на графике: кэш L3=2 Мбайт дает больший прирост производительности, чем переход на FSB 800 и DDR400! А для ядра Northwood выше 3,2 ГГц уже намечается небольшая тенденция к изгибу графика вниз, хотя запас масштабируемости Нортвудов на шине 800 МГц в этой задаче все же значительно выше, чем в случае WinRAR.
Другим хорошим и высокочувствительным индикатором всегда являлись тесты профессиональной трехмерной графики в пакете SPEC viewperf 7.1. Мы покажем тут всего два из них. Сперва - DX-08 (IBM Data Explorer; подробные описания каждого из используемых в этом пакте тестов-приложений вы можете посмотреть на www.spec.org). Здесь, как и в случае рендеринга Cinebench 2003 и расчетов Science Mark 2.0, мы видим почти полное отсутствие какого-либо влияния кэш-памяти L3.
Масшабируемость почти линейна, без намеков на насыщение для FSB 800 МГц и DDR400, и значительно важнее тут оказывается скорость системной шины и памяти, которые (при FSB 533) способны катастрофически загубить производительность платформы.
Еще интереснее ситуация в подтесте Ligth-06: налицо тенденция, когда Extreme Edition работает всегда немного медленнее, чем обычный Northwood, хотя системы неплохо масштабируются. Объяснение этого факта мы найдем, если вспомним про тест латентности памяти выше. Таким образом, большой кэш - это не всегда хорошо. :)
Трехмерные игры традиционно являлись мощным инструментом анализа скорости платформ. К тому же, Pentium 4 Extreme Edition нацелен как раз на игры. Поэтому немалая часть наших тестов - в популярных играх. Снова, мы отобрали и показываем вам только те из них, которые лучше всего демонстрируют тенденции масштабируемости новых процессоров.
Сперва отдадим дань «дедушке Кваке». Несмотря на приличный возраст (но преклонный ли, если по нему до сих пор проводятся соревнования?), эта игра по-прежнему великолепна в качестве теста платформ (но не видеокарт), поскольку имеет многократно клонированный в другие игры движок и отличную чувствительность к различным особенностям конфигураций систем. Мы тут использовали достаточно высокое разрешение - 1280х1024 с максимальным качеством картинки. Тем не менее, кадры в секунду часто зашкаливали за 300. Как и в WinRAR, мы видим полную гегемонию Extreme Edition: большой кэш равномерно ускоряет все процессоры - в среднем на 10,5%. А 2,6-гигагерцовый Extreme Edition обгоняет 3,2-гигагерцовый Northwood.
Однако тенденции масштабируемости внушают некоторые опасения: графики немного выпуклы, причем как для Northwood, так и для Gallatin! То есть обе микроархитектуры выше примерно 3,5-3,7 ГГц начнут клониться к насыщению производительности в этом тесте. Посмотрим, что будет с Prescott.
От OpenGL-движка перейдем к более популярному нынче DirectX. Один из нынешних фаворитов - игр и игровых тестов - Unreal Tournament 2003, на движке которого построены и некоторые другие игры. Снова большой кэш L3 очень благотворен, хотя и не столь подавляющ, как в Quake III: здесь его влияние уже зависит от частоты и растет с 7% для 2,4 ГГц до 10% для 3,2 ГГц.
Снова налицо большая выгода от кэш-памяти Extreme Edition, чем от более быстрых шин процессора и памяти. К счастью для игроманов, масштабируемость в этой игре линейна и тучек на горизонте частот не видно. И все же здесь стоит обратить внимание именно на микроархитектуру Extreme Edition, поскольку она обеспечивает лучший рост быстродействия с частотой.
В комплексном тесте 3Dmark03 мы выбрали игровой фрагмент GameTest 1 и процессорный тест. В первом игровом фрагменте снова Extreme Edition великолепен: 2,8EE обходит даже старшего Нортвуда! Правда, прирост скорости от кэша не столь впечатляющ, как в двух предыдущих играх: от 3 до 5%, причем он падает с ростом частоты!
Это наглядно видно и на графике - и здесь нас ждет еще одно разочарование. Дело в том, что обе микроархитектуры демонстрируют тенденции к насыщению производительности с ростом частоты уже вблизи 3,4 ГГц! И даже гигантский трехуровневый кэш тут не помогает. Можно констатировать, что аппетиты некоторых современных игр просто ужасающи - они сожрут все ваше железо и еще попросят, будь это хоть Pentium 4 Extreme Edition 3,4 ГГц.
Финальный оптимистический аккорд в нашем исследовании масштабируемости поставим при помощи процессорного теста из пакета 3Dmark03, который по совместительству является также отличным тестом скорости памяти и чипсета. Снова налицо благотворное влияние кэш-памяти L3 у нового Pentium 4, причем «благодать» нарастает по мере денежных вливаний - то есть с ростом частоты CPU: от 7% для 2,4 ГГц до 10% для 3,2ГГц. Да и тенденции масштабируемости - идеальные прямые без облачка на горизонте. Чем дороже Pentium 4 EE, тем больше «Е-Е»-удовольствий вы получите от плавности картинки в современных играх.
Подведем итоги
Исследование масштабируемости микроархитектур Pentium 4 Extreme Edition (ядро Gallatin на системной шине 800 МГц) и Pentium 4 (Northwood) выявило много интересных вещей. Оказалось, что добавленная кэш-память третьего уровня (пусть даже огромная) далеко не всегда сулит нам большие дивиденды. В части приложений никакого прироста производительности от ее наличия не видно вовсе, а в некоторых редких задачах мы можем увидеть даже небольшое ухудшение быстродействия системы по сравнению с обычной для настольных систем двухуровневой иерархией кэшей. И объясняется это чуть более высокой латентностью трехуровневой инклюзивной системой кэш-памяти по сравнению с аналогичной двухуровневой.
Но все же не это главное. В достаточно большом количестве задач (и игры здесь - в приоритете) большая кэш-память L3 творит чудеса, добавляя от 3 до 18% скорости системам на без того уже быстрых шине FSB и памяти DDR400 (а Pentium 4 Extreme Edition с частотой 2,6 ГГц обгоняет порой даже Pentium 4 3,2 ГГц)! Причем, в ряде случаев чем выше частота, тем выше и добавочный процент производительности за счет кэша (прогрессивная масштабируемость микроархитектуры). В большинстве этих случаев масштабируемость микроархитектуры Pentium 4 Extreme Edition идеально линейна и позволяет надеяться, что, по крайней мере до частоты процессоров 4 ГГц, мы сможем обходится системной шиной 800 МГц двухканальной памятью DDR400 без особого ущерба (это с определенной долей уверенности распространяется и на будущее ядро Prescott с кэш-памятью второго уровня 1 Мбайт), тогда как микроархитектура ядра Nоrthwood (то есть с кэш-памятью 512 кбайт) нередко (то есть для заметного количества задач) испытывает тенденцию к насыщению производительности выше 3,5 ГГц и требует либо повышения частот системной шины и памяти, либо увеличения объема кэш-памяти.
Судя по нашим данным, увеличение кэш-памяти оказалось заметно более выгодным приобретением архитектуры Pentium 4, чем одновременный рост частоты FSB до 800 МГц и памяти до DDR400. В большинстве из показанных здесь тестов первое (кэш) дает примерно вдвое больший прирост скорости платформы в приложениях (особенно, бытового и игрового уровня), чем второе (FSB+память). Вместе с тем, во многих приложениях профессионального характера (хотя и не во всех) новая микроархитектура Pentium 4, пришедшая «на стол» как раз из профессиональных систем на Xeon MP, почти никак себя не проявила. И это еще один ребус новой платформы.