Архивы: по дате | по разделам | по авторам

Intel Pentium 4 Prescott. Часть 2. Производительность в простых вычислениях и мультимедиа

АрхивПлатформа
автор : Алекс Карабуто   10.02.2004

Продолжаем знакомство с новым ядром Prescott для Pentium 4. Тесты общей производительности, математических вычислений, кодирования аудио, видео и графики.

См. остальные части нашего обзора:
Часть 1. Введение.
Часть 3. Быстродействие в играх.
Часть 4. Производительность в ряде профессиональных графических приложений.

Продолжаем знакомство с новым ядром Prescott процессоров Intel Pentium 4, начатое в первой части нашего обзора, где мы познакомились с основными архитектурными нововведениями, технологическими новшествами, применяемыми при его изготовлении, и общей концепцией фактически целого нового процессора с архитектурой NetBurst, ситуация с которым во многом напоминает выход первого Pentium 4 на ядре Willamette несколько лет назад.

У нас в лаборатории побывал экземпляр Pentium 4 Prescott с частотой 3,20 ГГц, то есть модель 3.20E. Новая микроархитектура ядра требует весьма детального практического изучения, поэтому мы еще не раз будем возвращаться к ней в своих статьях, а сейчас предлагаем вашему вниманию результаты начального, так сказать — ознакомительного, тестирования. И поверьте — уже они преподносят немало сюрпризов.

 

Тестовая конфигурация

Испытания быстродействия нового процессора в сравнении с предшественниками проводились под MS Windows XP Professional SP1. Для сравнения были выбраны следующие варианты процессоров:

1. Intel Pentium 4 3,4 ГГц на ядре Northwood
2. Intel Pentium 4 Extreme Edition 3,4 ГГц
3. Intel Pentium 4 3,2 ГГц на ядре Northwood
4. Intel Pentium 4 Extreme Edition 3,2 ГГц
5. Intel Pentium 4 3,06 ГГц на ядре Northwood (FSB=533 МГц)
6. Intel Pentium 4 3,06, разогнанный до 3,2 ГГц (FSB=4x140 МГц)
7. AMD Athlon 64 FX-51
8. AMD Athlon 64 3400+
9. AMD Athlon 64 3200+

Первые два процессора вышли 2 февраля одновременно с процессорами на ядре Prescott, но основаны на прежних 0,13-микронных ядрах (см. первую часть), то есть являются просто «разогнанными» вариантами аналогов с частотой 3,2 ГГц. Поскольку на момент проведения данного тестирования реальные процессоры с частотой 3,4 ГГц оказались недоступны (видимо, проблем с выпуском 3,4-гигагерцовых версий 0,13-микронных ядер у Intel не меньше, чем с массовым выпуском старших моделей 90-нанометровых Prescott), мы в данном случае использовали 3,2-гигагерцовые версии, работающие на частоте 3,4 ГГц (путем некритичного повышения частоты системной шины на ~6%). К сожалению, побывавший у нас процессор на ядре Prescott даже при таком небольшом поднятии рабочей частоты выказывал признаки нестабильной работы (видимо, из-за существенно более высокого нагрева, чем процессоры на ядрах Northwood и Extreme Edition), поэтому на нем честно «прошли» лишь некоторые тесты из нашего набора. Впрочем, это никак не повлияет на выводы по новой микроархитектуре Prescott, которые мы прекрасно можем сделать, сравнивая «честные» процессоры с частотой 3,2 ГГц, а модели на частоте 3,4 ГГц мы приводим здесь лишь для оценки общего положения вещей в стане дорогих процессоров для ПК, среди которых — не только три модели AMD Athlon 64, включая самые высокопроизводительные FX-51 и 3400+, но и годичной давности процессор Intel с частотой 3,06 ГГц и системной шиной 533 МГц (и также — с технологией Hyper-Threading), который, для демонстрации пущей наглядности преимуществ использования более быстрой системной шины FSB=800 МГц мы запустили также на частоте 3,2 ГГц (с частотой шины 560 вместо 533 МГц и памяти DDR350 вместо DDR333).

Все процессоры Intel испытывались нами на системной плате MSI 865PE Neo2 (ее обзор см. по этой ссылке) с новой прошивкой BIOS под Prescott (версия 2.01beta). Эта плата на чипсете Intel 865PE превосходно работала в штатном режиме Turbo, что примерно эквивалентно быстродействию, показываемому лучшими платами на чипсете Intel 875 (см. предыдущий линк). Разумеется, режим DOT был дезактивирован. Плата без проблем отработала со всеми из вышеперечисленных процессоров, но для контроля мы оттестировали новый процессор также с платой Intel В875PBZ «Bonanza» с новой прошивкой под Prescott. При этом, знаменитая «Бонанза» показала чуть меньшую скорость, чем MSI 865PE Neo2, но подтвердила, что у последней не было неожиданных результатов или внезапных «провалов» или «всплесков» ни в одном из тестов, так что результаты, полученные на Neo2 можно вполне считать полностью отражающими реальную картину вещей при работе процессоров Intel на самых быстрых современных материнских платах.

Процессоры AMD Athlon 64 также работали в наших тестах на системных платах с высшим показателем производительности: использовались платы ASUS SK8V и ASUS K8V Deluxe. Среди других компонентов тестовых систем — видеоускоритель GeForce FX 5900 Ultra (референс NVIDIA) с драйверами версии 52.16 и винчестер Samsung SP1614N (буфер 8 Мбайт и 80-гигабайтные пластины). В качестве двухканальной системной памяти DDR400 использовалась пара модулей PC3500 серии Platinum LE от компании OCZ и аналогичная пара регистровых PC3200 (за них мы благодарим компанию «Патриарх»). Все платы без проблем работали с памятью по таймингам 2-2-2-5 для MSI 865PE Neo2 и K8V Deluxe и по 2-2-3-6 для ASUS SK8V, то есть на примере этих систем мы можем сравнить максимальную производительность процессоров в тестах.

Результаты тестов скорости памяти и общей производительности платформ в различных приложениях приведены на диаграммах, на последней из которых дан усредненный рейтинг быстродействия процессоров, вычисленный как геометрическое среднее от результатов всех проведенных нами бенчмарков (кроме тестов памяти) и приведенный к 100% для 3,2-гигагерцового Northwood.

Но прежде, чем перейти непосредственно к тестам быстродействия в приложениях и реальных задачах, попробуем оценить эффект от тех архитектурных нововведений, которые мы разобрали в общем виде в первой части нашего обзора. Для этого нам послужит несколько специализированных тестов.

 

Кэш-память

Как мы помним, помимо простого увеличения объема кэш-памяти первого и второго уровней у Prescott, эффект от которого (то есть от увеличения) будет определяться индивидуально в каждом из конкретных приложений (а общий эффект в чистом виде мы, возможно, никогда на практике и не сможем выделить на фоне влияния прочих нововведений), у ядра Prescott возросли латентности при работе с кэш-памятью (штатные задержки в количестве процессорных тактов при обращении). И их (как и размер кэшей обоих уровней) мы можем легко наблюдать в специализированных тестах вроде Science Mark, CPU-Z или CacheBurst.

Например, на этом графике (полученном с помощью программы CPU-Z 1.21, кликните по нему, чтобы посмотреть увеличенный вариант) явственно видно, что латентность кэш-памяти первого уровня у Prescott увеличилась вдвое (!) — с двух до четырех тактов основной частоты процессора. Измеренная латентность кэш-памяти L2 также возросла — с 19 до примерно 30 тактов (теоретическая «внутренняя» латентность при обращении к L2 возросла с 7 до 18 тактов), причем для больших блоков размером 512-1024 кбайт реальная латентность получается еще выше — около 35 тактов, что почти вплотную приближается к латентности кэш-памяти третьего (!) уровня у Extreme Edition (примерно 44 такта)!

Таким образом, двукратный рост объема кэш-памяти Prescott сопровождается полутора-двукратным ухудшением ее латентности, что, безусловно, отразится на производительности процессора (и еще неизвестно, в каких случаях какой из этих эффектов будет оказывать большее влияние). Однако возросшая латентность обоих кэшей — мера вынужденная и она призвана, во-первых, скомпенсировать последствия роста объема кэш-памяти, то есть улучшить согласование работы более отдаленных друг от друга участков памяти, а во-вторых — создать запас для будущего роста частоты процессоров — ведь на частотах до 5 ГГц (первоначально в планы Intel входило довести со временем частоту ядра Prescott именно до этой цифры, хотя сейчас из-за проблем высокого тепловыделения реальные планы могут несколько поскромнеть) латентности обоих кэшей как раз и составят примерно такие же значения в наносекундах, что сейчас у старших моделей Northwood, а если учесть и возросшую площадь обоих кэшей на кристалле, то мы как раз получим сохранение в неизменном виде границы для максимальной скорости распространения сигналов между блоками на чипе (составляющей сейчас примерно несколько сотых долей от скорости света в вакууме).

Кстати, даже сейчас, на частоте около 3 ГГц, столь сильно возросшую латентность у кэшей Prescott нельзя назвать фатальной: в абсолютном выражении (то есть во времени, а не в процессорных циклах, см. график над этим абзацем) она все равно оказывается чуть лучше, чум у Athlon 64 для кэш-памяти первого уровня (L1; правда, при этом у AMD вчетверо больший объем L1 J, что лучше, зато вчетверо меньшая ассоциативность, что хуже), хотя для L2 при текущих частотах паритет по латентности явно нарушен в пользу AMD (при одинаковом объеме L2). Впрочем, по L2 у Pentium 4 вчетверо шире шина (256 бит против 64 — по проверенной информации из недр AMD у Athlon 64 все-таки 64-битная шина кэш-памяти L2, а не 128-битная, как считалось ранее в некоторых источниках).

Информация о кэш-памяти процессора Intel Pentium 4 3.20E на ядре Prescott.

Информация о кэш-памяти процессора Intel Pentium 4 3.2 ГГц на ядре Northwood/Extreme Edition.

Информация о кэш-памяти процессора AMD Athlon 64 3400+.

И тут мы вплотную подходим ко второму важному моменту полосе пропускания кэш-памяти и системной памяти. Взглянем на график, полученный при помощи программы Sisoftware Sandra 2004.

Полоса пропускания кэш-памяти обоих типов у Prescott лишь немного ниже, чем у Northwood на той же тактовой частоте, хотя с ростом частоты она существенно возрастет для Prescott, тогда как Northwood уже не сможет быть более высокочастотным. Здесь же видно явное преимущество скорости обоих кэшей у Pentium 4 над Athlon 64 (впрочем, по работе с блоком SSE2 для Athlon 64 далеко идущие выводы делать преждевременно).

 

Системная память

Для того, чтобы оценить скорость работы нового процессора с системной памятью (напомню, мы здесь используем двухканальную DDR400), воспользуемся тестом полосы пропускания памяти из той же Sandra 2004, а также из Science Mark 2.0, см. диаграммы.

По обоим тестам видно, что Prescott явно шустрее общается с системной памятью, чем предшествующие Pentium 4, причем если в Sandra 2004 он лишь немного быстрее Northwood, то в Science Mark он обгоняет даже процессоры, работающие на более высокой частоте памяти (!), то есть на одинаковой частоте выигрыш Prescott в этом тесте превышает 5%. Что, кстати, подтверждается не только тестами скорости чтения и записи памяти в программе AIDA (выигрыш при записи во многом обусловлен тут именно возросшим объемом кэш-памяти),

но и в более комплексных потоковых тестах памяти на выполнение операций типа Copy, Scale, Add и Triad в программе Wstream.

А если взглянуть на тесты латентности системной памяти, то в преимуществе Prescott в этом вопросе не останется и тени сомнений.

В общем, если к Prescott могут быть нарекания по поводу скорости кэш-памяти, то по скорости работы с системной памятью он явно ускорился и обошел предшественников на той же системной шине. Что уж и говорить о том, что для планируемой в скором времени шине FSB 1066 МГц этот параметр будет еще лучше.

 

Простые вычисления

Теперь переходим к вычислительным тестам. Как мы помним, с целью дальнейшего наращивания тактовой частоты целочисленный конвейер Prescott был удлинен с 20 до 31 ступени (по некоторым условным оценкам усредненная длина конвейера для операций с плавающей точкой составляет 78-80 ступеней). Разумеется, это непременно должно повлиять на производительность — причем в худшую сторону для старых неоптимизированных для архитектуры Intel NetBurst приложений, каковых по сию пору еще достаточно много. Чтобы скомпенсировать «пагубное» влияние длинного конвейера на производительность, архитекторы Intel предусмотрели ряд мер (некоторые из которых мы уже рассмотрели выше), наиболее важными из которых являются улучшение блока предсказания ветвлений и механизма предвыборки, а также усовершенствование технологии Hyper-Threading и добавление набора инструкций SSE3. Два последних нововведения мы подробнее рассмотрим позднее (в отдельных статьях), а сейчас заостримся на первых. Ведь именно ошибки с предсказаниями переходов (ветвлений) являются причиной резкого падения скорости выполнения программ на длинном конвейере, поскольку при возникновении такой ошибки приходится очищать и заново загружать конвейер и даже если процент ошибок предсказаний мал (единицы процентов), количество потерянных впустую циклов работы процессора окажется ощутимым.

Для практической оценки эффективности нового механизма предсказания ветвлений попробуем воспользоваться простеньким тестом Queens_CW4.exe — маленькой программкой, рассчитывающей знаменитую «задачу ферзей» (необходимо разместить N ферзей на поле размером NxN клеток так, чтобы ни один из них не атаковал другого, см., например, тут). Чтобы время вычислений было разумным (не очень долгим, но и достаточным для получения точности порядка нескольких десятых процента) мы ограничились N=32 (см. также www.terralab.ru/system/29375). Заметим, что эта программа выдает всегда одно и то же расположение ферзей, то есть время не зависит от произвола в решении задачи ферзей (в принципе, у этой задачи много равноценных решений). Результаты представлены на диаграмме (в трех нижних строчках на этой и последующих диаграммах мы в чистом виде для лучшей наглядности сравниваем три Pentium 4 на частоте 3,2 ГГц, тогда как в верхней части диаграмм результаты для всех процессоров проранжированы в порядке от худшего к лучшему).

Предполагается, что программа настолько компактна, что полностью помещается в кэш-память первого уровня для всех современных процессоров, то есть мы исследуем почти в чистом виде производительность и масштабируемость целочисленного «вычислителя» с кэшом L1 (это, кстати, видно и по равенству в пределах погрешности результатов для Northwood и Extreme Edition). Оказывается, что Prescott катастрофически проигрывает в этом тесте не только прежней микроархитектуре Pentium 4, он и Athlon 64. Отставание от Northwood составляет 31,5%!!! Если же перевести это во время расчета, приходящееся на один такт работы конвейера, то у Northwood (20 ступеней) оно составит 0,236 нс, а у Prescott (31 ступень) — лишь 0,200 нс. То есть, на первый взгляд, по этой программе, которая использует возможности блока предсказания переходов заметно активнее, чем большинство реальных программ, можно сделать вывод, что блок предсказаний ветвлений в Prescott может работать лучше, чем у Northwood (на 15% меньше затрат времени в расчете на одну стадию конвейера), однако на самом деле это не совсем так - ведь частота сброса конвейера зависит не только от его полной длины J, но и от множества других факторов.

В любом случае, этот тест нам показывает, что все предпринятые Intel меры не в состоянии полностью обезопасить нас от существенных потерь производительности в некоторых задачах из-за возросшей длины конвейера Prescott.

И наглядным подтверждением этому служат другие простые вычислительные тесты. Например, тест пятилетней давности CPUmark 99, который до сих пор весьма неплохо оценивает быстродействие системы в задачах общего профиля, не перегруженных оптимизациями под «новые микроархитектуры».

Снова мы видим что Prescott 3,2 ГГц уступил 15% «Нортвуду» (и около 20% — Extreme Edition) и работает даже медленнее, чем Northwood 3,06 ГГц на шине 533 МГц! Вот этого я, признаться, не ожидал. Ладно, оставим в стороне популярный в прошлом тест и возьмем посвежее — тесты процессорных вычислений из Sandra 2004.

Незамысловатые арифметические вычисления при использовании либо целочисленного, либо FPU-блока снова показывают полный проигрыш Prescott — даже Northwood 3,06 ГГц на шине 533 МГц (и около 10% одночастотному с ним Northwood).

Мультимедиа-вычисления в Sandra 2004 с использованием тех же блоков дают до 18% потери быстродействия по сравнению с Northwood.

Вместе с тем, вычисления «процессорного рейтинга производительности» в той же программе показывают практически полное равенство между разными процессорами с одинаковой частотой, что уже вселяет некоторые надежды. Хотя все процессорные тесты Sandra 2004 явно недолюбливают процессоры AMD.

Впрочем, эти надежды Prescott на время развеиваются тестом Science Mark 2.0 — при расчете орбиталей атома аргона Prescott снова оказывается на «внешней орбите», отстав от Northwood на те же 15%. Зато Athlon 64 тут выше всяких похвал.

 

Комплексные тесты общей производительности

Идем дальше. Для комплексной оценки «современных» вычислительных возможностей процессоров я воспользуюсь здесь тремя свежими тестами, каждый из которых «чехвостит» процессор и систему последовательно несколькими десятками разнообразнейших задач. Например, в недавно вышедшем тесте MetaBench 0.98 этих «задач» более полусотни, среди которых как «математическая» синтетика, так и вполне реальные паттерны по кодированию мультимедиа-данных, трехмерным расчетам и пр.

Итак, в тесте MetaBench 0.98 отставание Prescott уже не такое сильное, как мы видели ранее — проигрыш Northwood’у составляет «всего» 2%. При этом Prescott в точности «оправдывает» номер модели Athlon 64 3200+ J, но все текущие процессоры Intel уступают модели Athlon 64 3400+.

В комплексном тесте PassMark Performance Test 5.0 Prescott снова уступает «Нортвуду» — на сей раз около 4,5%, проигрывая здесь даже Northwood 3,06, работающему на частоте 3,2 ГГц. Впрочем, в «непредвзятости» этого теста есть некоторые сомнения, поскольку оба Athlon 64 плетутся в хвосте.

Этой «непредвзятости» вторит и популярнейший нынче PCmark04, где процессоры AMD также не в фаворе, зато Prescott, наконец, «подрос» и впервые показал результаты, чуть лучшие, чем у Northwood (на 2%), но все же худшие, чем у Extreme Edition.

 

Тесты в отдельных «потоковых» приложениях

Теперь посмотрим, каковы вычислительные способности ядра Prescott с отдельных реальных приложениях - оперирующих преимущественно с данными «потокового» типа. В частности, мультимедиа-приложениями.

Сперва — кодирование в формат JPEG в программе ACDSee 5.0.

В этом реальном приложении (я использовал исходные данные в виде 1024 файлов реальных фотографий суммарным объемом 650 Мбайт) Prescott в точности повторяет результаты Northwood и Extreme Edition 3,2 ГГц. Можно заключить, что эта задача совсем нечувствительна к объему и скорости кэш-памяти выше 512 кбайт, но зато очень чувствительна к скорости системной шины и памяти. Процессоры AMD здесь в аутсайдерах.

Кодирование музыки наиболее современным и популярным кодеком Lame 3.95 снова отбрасывает Prescott «на задворки» — 11% проигрыша Northwood. Впрочем, Athlon 64 тут тоже ведут себя более, чем скромно. Справедливости ради отмечу, что при кодировании аудио в формат Ogg Vorbis (данные по тесту MetaBench 0.98) Prescott также уступает «Нортвуду» около 11%, хотя в декодировании этого формата он почти не отстает от предшественников.

Переходим к тестам кодирования видео. Именно тут более длинный конвейер, по идее, должен давать наименьший «отрицательный» вклад, а улучшенный Hyper-Threading и SSE3 — проявиться в полной мере. Для тестов я постарался использовать самые свежие версии приложений — в частности, самую последнюю версию кодека DivX 5.1.1 Pro (рекомендованную Intel) и программу MainConcept версии 1.4.1 (на практике далеко не все пользователи используют самые современные версии ПО, поэтому в их случая результаты могут быть менее «удачны» для Prescott). Сперва — перекодирование DVD в MPEG4. Тут нам поможет знаменитый FlasK.

Но поможет ли он Prescott’у — еще вопрос. Ведь он здесь все же отстает от Northwood на 1-2 процента. Похожее по своей сути перекодирование качественного MPEG2 в MPEG4 программой Virtual Dub с кодеком кодека DivX 5.1.1 (версии Standard, а не Pro) дает почти такую же картину, лишь Extreme Edition чувствует себя тут чуть более уверенно.

Без комментариев я оставлю результаты теста перекодирования видео в рекомендованной Intel программе MainConcept MPEG Encoder 1.4.1. Честно говоря, мне не верится, что в этой программе «иногда» может получаться преимущество Prescott над Northwood в десятки процентов (как это было в некоторых публикациях).

А вот в Windows Media Encoder 9 новый Prescott, наконец, получил небольшое преимущество над Northwood, хотя и уступил Extreme Edition. Впрочем, преимущество в полтора процента вряд ли можно назвать ощутимым, учитывая предыдущие тесты кодирование видео.

Попутно также отмечу, что во всех тестах этого раздела процессоры AMD явно отстают от процессоров Intel и даже близко «не оправдывают» своих номеров моделей. Впрочем, в этом зачастую заслуга интеловской технологии Hyper-Threading, которая при кодировании видео работает очень прилично.

Напоследок приведу еще один тест — архивирование в новейшей версии программы WinRAR 3.30. Я использовал ее своим традиционным способом (прямым архивированием из командной строки с замером времени) и не привлекал встроенный Benchmark-тест ввиду его меньшего удобства (в частности — отсутствия опции командной строки). Может, так оно и вернее. J

Несмотря, что WinRAR традиционно является очень капризным тестом, чувствительным ко всяческим «латентностям» и пр., в этот раз оказалось, что Prescott в нем весьма неплох — он отыграл у Northwood почти 6% быстродействия (и примерно столько же уступил Extreme Edition’у) и даже обогнав при этом Northwood с частотой 3,4 ГГц! Да и «Атлоны» в этом тесте выглядят достойно, что можно считать лишним подтверждением его «сбалансированности» по отношению к различным процессорным архитектурам.

 

Промежуточные выводы

Наступила пора подвести некоторые промежуточные итоги нашему комплексному исследованию быстродействия Pentium 4 на ядре Prescott в различных задачах. Приложений, в которых Prescott заметно быстрее одночастотного с ним «Нортвуда», как оказалось, пока не так уж много (по крайней мере, в процентном соотношении к общему числу программ). Чаще наблюдается ситуация, когда Prescott немного (а порой — и много) проигрывает Northwood — этим, например, «грешат» многие математические вычисления, и, как ни странно, мультимедиа кодирование. Впрочем, набору SSE3 еще предстоит раскрыться (обещается в среднем 5% от оптимизации приложений под SSE3).

На последней диаграмме я привел усредненный рейтинг быстродействия процессоров, вычисленный как геометрическое среднее от результатов всех проведенных в данной части обзора бенчмарков (кроме тестов памяти и Queens) и нормированный к 100% для 3,2-гигагерцового Northwood.

В данном случае мы видим, что Prescott в среднем уступает Northwood’у почти 4% (а Extreme Edition’у — около 7%). Вместе с тем, он все же быстрее (всего на 3%) такого же по частоте «Нортвуда» на системной шине около 533 МГц (с памятью DDR333) и на данном наборе приложений (на мой взгляд, он достаточно репрезентативен и разнообразен) опережает все текущие процессоры AMD.

Впрочем, мы еще не рассмотрели игры и некоторые профессиональные приложения, где картина может существенно поменяться. Но этим мы займемся уже в следующих частях нашего обзора, которые выйдут совсем скоро.

Предлагаем обсудить этот материал в нашем форуме

© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.