Intel Pentium 4 Prescott. Часть 3. Быстродействие в 3D-играх
АрхивПлатформаИсследуем скорость Prescott в современных и не очень трехмерных играх и игровых тестах, анализируем необходимость оптимизации новых игр под микроархитектуру Prescott.
См. остальные части нашего обзора:
Часть 1. Введение.
Часть 2. Простые вычисления, работа кэш-памяти и системной памяти и производительность при работе с видео и аудио.
Часть 4. Производительность в ряде профессиональных графических приложений.
Продолжаем знакомство с новым ядром Prescott процессоров Intel Pentium 4, начатое ранее. В первой части нашего обзора мы познакомились с основными архитектурными нововведениями, технологическими новшествами, применяемыми при его изготовлении, и общей концепцией нового ядра для Pentium 4, а во второй части проанализировали результаты многочисленных тестов быстродействия десятка самых дорогих сейчас процессоров Intel и AMD для настольных ПК, среди которых, разумеется, был и Pentium 4 Prescott с частотой 3,20 ГГц, то есть модель 3.20E.
Как оказалось, в простых и не очень математических вычислениях, а также при работе с потоковыми приложениями типа кодирования видео или аудио новое ядро Prescott при одинаковой с Northwood частоте обладает несколько худшей производительностью. И виноваты в этом прежде всего удлиненный на 11 ступеней, до 31, целочисленный вычислительный конвейер, а также возросшая латентность кэш-памяти обоих уровней — первого и второго (подробности см. на www.terralab.ru/system/31600). От этих «напастей» новый процессор пока не спасают даже возросший вдвое объем кэш-памяти обоих уровней, а также улучшенный блок предсказания переходов, технология Hyper-Threading и введение новых инструкций SSE3 (Prescott New Instructions). Очевидно, что требуется новый виток оптимизации таких приложений под новый вариант микроархитектуры Intel NetBurst.
Однако мы пока не рассмотрели тесты нового процессора в многочисленных трехмерных играх (а нынче большинство из игровых приложений в той или иной степени содержат элементы трехмерных расчетов). Может оказаться, что в этой категории задач Prescott поведет себя несколько по иному. Что ж, приступим.
Тестовые конфигурации и участники тестирования описаны в предыдущей части моего обзора www.terralab.ru/system/31600, а здесь я отмечу лишь одну вещь. Для получения «правильной», то есть искусственно не заниженной производительности систем на современных моделях Pentium 4 с системной шиной 800 МГц и двухканальной памятью DDR400, следует, во-первых, пользоваться чипсетами Intel (серии 875/865), а во-вторых, грамотно использовать память с этими чипсетами. Именно о втором частенько забывают начинающие и просто нерадивые «тестеры». Как мы помним (см. мой обзор по использованию памяти на чипсетах 875/865), ввиду наличия в этих чипсетах Intel специальной динамической моды использования памяти, наилучшая производительность такие платформы имеют, когда количество задействованных банков памяти максимально (в этом случае более эффективно меняются страницы памяти). Проще говоря, если вы используете лишь пару односторонних (то есть восьмичиповых) модулей памяти, вы получите быстродействие всей системы на несколько процентов ниже, чем если бы вы использовали пару двухсторонних (обычно — 16-чиповых) модулей того же объема, и тем более ниже, чем в случае применения двух пар двухсторонних модулей (оккупируя все четыре доступных банка памяти). А поскольку подавляющее большинство современных модулей DDR400 базируются на 256-мегабитных чипах, то установка 512 (2 по 256) Мбайт памяти в такую тестовую систему почти наверняка обречет ее на минимальное быстродействие (поскольку модули будут односторонними). А это может создать у читателей неправильное представление о возможностях систем на Pentium 4 в сравнении с конкурентами. Я в данном тестировании использовал пару двухсторонних модулей памяти как наиболее распространенный (среди неущербных J) сейчас случай, поскольку 2 Гбайт памяти 512-мегабайтными модулями (то есть оккупация всех доступных 4 банков) пока используют лишь немногие пользователи. Желающие могут прибавить к показанным здесь для Pentium 4 результатам от 1 до 3 %, чтобы получить самую максимально возможную скорость для систем Intel. К сожалению, системы на Athlon 64 не обладают аналогичной особенностью работы с памятью (по крайней мере, она почти незаметна), поэтому количество занятых банков памяти в этом случае практически не влияет на результат.
Результаты тестов представлены на 20 диаграммах, причем в трех нижних строчках мы для лучшей наглядности сравниваем в чистом виде три Pentium 4 на частоте 3,2 ГГц, тогда как в верхней части диаграмм результаты для всех десяти (а кое-где — и одиннадцати) процессоров проранжированы в порядке от худшего к лучшему.
Тесты в DirectX
Начнем издалека. Как мы помним по предыдущей части, наибольшей «головной болью» для Prescott стали старые приложения и относительно простые математические вычисления, слабо оптимизированные или вообще не оптимизированные (ну не знали они тогда J) под длинноконвейерную микроархитектуру Intel NetBurst. Именно на этом классе задач мы можем наблюдать ситуацию, когда достаточно большой процент ошибок в предсказания переходов внутри процессора провоцирует частые сбросы всего конвейера, из-за чего общее быстродействие процессора при решении таких задач заметно падает. И не спасает тут Prescott даже улучшенный механизм предсказания.
Поэтому мы сразу, с корабля — на бал, проверим, как поведет себя Prescott в относительно старых играх. Для этого нам снова послужит подзабытый нынче тест MadOnion 3DMark 2001 SE, большинство игровых сцен из которого оперирует понятиями 2000 года и использует движок аж DirectX 7 (и лишь одна «мать природа» — DirectX 8).
Что ж, предчувствие нас не обмануло — Prescott в этом комплексном тесте немного отстал от одинакового с ним по частоте ядра Northwood, правда, отставание можно назвать несущественным — всего один процент. Зато Extreme Edition тут опережает Northwood аж на 7% — исключительно благодаря большой кэш-памяти (L3). Поэтому мы можем сделать вывод, что увеличенный объем кэш-памяти Prescott пошел целиком на погашение потерь быстродействия за счет удлинения конвейера. И немножко даже не хватило J.
Очень похожую картину мы будем наблюдать, если начнем использовать нынешние игры в низких разрешениях с минимальным качеством картинки, то есть нагрузим «игровыми» вычислениями в основном процессор, а не графический ускоритель. Именно так и поступает процессорный тест программы 3Dmark03 — две сцены (одна под DirectX 7, другая — под DirectX 8.1) гоняются в разрешении 640х480 с поганеньким качеством с целью получить максимальное количество кадров в секунду.
Картина в этом тесте поразительно напоминает предыдущую (3Dmark 2001) — Prescott отстает от Northwood на 1-2%, а Extreme Edition выигрывает у Northwood около 7%. Однако если мы перейдем на «нормальное» разрешение в этом тесте (1024х768) и высокое качество детализации (дефолтное в данном случае), то общая картинка выровняется и Prescott поползет вверх, обходя Northwood и почти догоняя Extreme Edition. И это неспроста — ведь доля «спорадических» вычислений, приходящихся на процессор, уменьшилась (большая доля теперь приходится на графический ускоритель) и его длинный конвейер реже сбрасывается он неправильных предсказаний.
Попутно заметим, что сразу поменялась и картина противостояния AMD-Intel: если на «старых» задачах процессоры AMD фактически лидировали, уступая только единственному Extreme Edition с частотой 3,4 ГГц, тот тут совсем наоборот.
Теперь взглянем на поведение Prescott в одном из самых «свежих» 3D-тестов, основанных на движке реальной игры, использующей возможности DirectX 9 — Aquamark 3. Если следовать подмеченной выше закономерности, те Prescott здесь должен смотреться неплохо.
Однако в данном случае оказывается, что скорость в этом тесте во многом ограничена графическим ускорителем (пусть он хоть GeForce FX 5900 Ultra), а зависимость от типа процессора минимальна. Спасает ситуацию процессорный «подтест» Aquamark 3, который выполняется во время общего прогона сцен путем искусственного «вычленения» процессорозависимых участков сцен. То есть если Triscore — это наиболее чистый и реальный тест (просто общее количество кадров в секунду, приведенное к заданному уровню), то процессорный и графический подтесты — это все же некая синтетика, вычлененная при похождении общего теста.
И вот в «процессорном» подтесте Aquamark 3 мы видим, что Prescott отстает от Northwood на целых 3%, хотя в целом процессоры Intel здесь явно лучше процессоров AMD. За компанию приведу тут и результаты графического подтеста Aquamark 3 (он тоже является синтетическим вычленением фрагментов при исполнении общих сцен).
Как видно, расположение платформ в этом тесте идет строго НАОБОРОТ процессорному тесту — лучшими выступают априори самые слабые, а худшими — самые сильные процессоры! Не стану вдаваться в подробности о возможных причинах столь неадекватного поведения, просто отметим для себя этот «грех» теста Aquamark 3 на будущее.
А вот еще один свежий синтетический DirectX-тест — RealStorm Benchmark 2004 на собственном движке. Нами он использовался в разрешении 640х480 (остальные настройки — по умолчанию), чтобы получить приемлемое количество кадров в секунду.
Этот «игровой» трехмерный тест неплохо оптимизирован под Intel NetBurst, поэтому Prescott показывает тут хорошие результаты, обгоняя даже Extreme Edition одинаковой с ним частоты (ну наконец-то J)! Отставание же Northwood от Prescott в этом тесте составило аж 6,5%! Что ж, первая уверенная победа Prescott в «играх». Вместе с тем, нельзя не заметить подавляющее превосходство процессоров AMD в этом тесте.
Теперь посмотрим на быстродействие в реальных играх (точнее — на их официальные бенчмарки). Сперва достаточно старенький Comanche 4, который в свое время был одной из первых игр с поддержкой DirectX 8.1.
В полном соответствии с выдвинутой нами ранее «гипотезой» о том, чем старше риложение, тем хуже оно для Prescott, мы наблюдает катастрофическое отставание нового интеловского ядра от старых — проигрыш Northwood’у равен более 15 процентов! Perscott 3,20E работает с такой же скоростью, как Northwood 3,06 ГГц более чем годичной давности. Так и хочется написать слово «позор!». J И лишь Extreme Edition-процессоры способны обойти старших Athlon 64.
Чуть поновее игра Unreal Tournament 2003 (тоже под DirectX 8.1). Тут уже отставание Prescott менее заметно, хотя все равно есть: в районе 3% от Northwood в некоторой зависимости от используемой «сцены». Зато Extreme Edition обходят Northwood на 9-11%, что снова наводит нас на мысль, что весь потенциал увеличенного кэша Prescoot «ушел» на компенсацию потерь от длинного конвейера.
Процессоры AMD в этой игре — вне конкуренции.
Наконец, взглянем на две современные DirectX-игры — Final Fantasy XI и Gun Metal (снова — используем их официальные бенчмарки, доступные для бесплатной загрузки).
Если в «Gum Metal» J мы наблюдаем картину, похожую на Aquamark 3 Triscore (многое упирается в графический ускоритель) и Prescott чуточку отстает от Northwood (на полтора процента),
то в Final Fantasy, напротив, Prescott чувствует себя увереннее и опережает Northwood почти на процент. Это, конечно, не ахти, сколько, учитывая, что Extreme Edition опережает Northwood почти на 5 процентов в этом тесте, но все же…
В среднем, старшие модели Pentium 4 здесь чуть более предпочтительны, чем Athlon 64.
Игры под OpenGL
Настал черед игр с движком OpenGL, хотя в последнее время и становится все меньше — под натиском DirectX. Начнем с традиционного Quake III Arena, которому вот уже почти как пять лет.
В полном соответствии с нашей теорией (кто забыл — о «старых приложениях») и невзирая на традиционную любовь Intel к этому тесту новый процессор на ядре Prescott уступает Northwood’у — около 2,5%! А отставание от Extreme Edition составляет и вовсе почти двадцать (!) процентов. Мы уже не воспринимаем эту игру как реальный игровой тест (ну копу нужны 400 кадров в секунду?), но в качестве чувствительного процессорного теста он еще вполне сгодится. Как то же 3Dmark03 CPU test, например.
Вторит ему и другой OpenGL-тест — Vulpine GLmark 1.1p. Правда, тут отставание Prescott от Northwood всего 2%, а от Extreme Edition — всего 5%. А «Атлоны» поднялись повыше, слегка уступив лишь самому старшему «Экстрим Эдишну».
Традиционный любимый многими OpenGL-тест — игра Serious Sam: Second Encounter — тоже относительно стара. Поэтому «уступчивость» Prescott тут не кажется чем-то новым: 1% «Нортвуду» и более 6% «Экстрим Эдишну». Зато Athlon 64 тут выглядят заметно получше.
Еще более свежий (хотя ему тоже уже почти год) игровой тест — Wolfenstein: Enemy Territory. Мы для уверенности использовали все три демо-сцены (с соответствующих разных уровней), доступные для закачки на ряде «геймерских» сайтов — Battery, Radar и Railgun.
Картина для всех трех бенчмарк-сцен похожая, с небольшими различиями. Prescott в среднем явно отстает от Northwood — на 4-7%, хотя разница между Extreme Edition и Northwood не так уже велика в этом тесте — всего от 2,5 до 3,5%. То есть получается, что если увеличенный «прескоттовский» кэш L2 не способен скомпенсировать потери на его длинном конвейере, то больше это сделать пока фактически некому. А это как раз видно из малого влияния большой кэш-памяти Extreme Edition.
Что ж, нам остается ждать новых оптимизированных программ и игр, разработанных как с учетом удлиненного конвейера Prescott, так и снабженного поддержкой инструкций SSE3 и более оптимальным использованием технологии Hyper-Threading.
Выводы по играм
Чтобы подытожить наши исследования Prescott и десятка самых дорогих процессоров для GR в игровых приложениях, на последней диаграмме я привел усредненный рейтинг быстродействия процессоров в показанных выше игровых тестах, вычисленный как геометрическое среднее и нормированный к 100% для 3,2-гигагерцового Northwood.
В данном случае мы видим, что Prescott в среднем уступает Northwood’у всего 2%, то есть вдвое меньше, чем в первой части нашего обзора Prescott (мат. вычисления и мультимедиа-кодирования). Extreme Edition выигрывает у Northwood около 5% (как я отмечал и ранее в своих обзорах этого процессора) и фактически лишь он один на частоте 3,4 ГГц пока в состоянии поддержать марку «лучшего игрового процессора», чуточку опережая в среднем недавно вышедший Athlon 64 3400+. При, заметим, гигантской разнице в цене и фактическом отсутствии первого на розничном рынке (по крайней мере — на данный момент).
Таким образом, изменения в микроархитектуре NetBurst, произошедшие в процессорах с яром Prescott, фактически требуют новой волны оптимизации игр. Без такой оптимизации новый процессор часто будет работать даже медленнее, чем одинаковый с ним по частоте старый, невзирая на вдвое увеличившуюся кэш-память и другие улучшения. Впрочем, отмечу опять, что у Prescott «вроде как» есть ресурсы по заметному наращиванию частоты (примерно до 4-4,5 ГГц), в то врем как P4EE и Northwood свои ресурсы практически исчерпали.
В следующей части нашего обзора Prescott вас ждут результаты тестов этого процессора в некоторых профессиональных приложениях по работе с графикой.
Предлагаем обсудить этот материал в нашем форуме