Intel Centrino: детальный обзор технологии, подробные тесты производительности и энергосбережения на примере ноутбуков ASUS S1N и Roverbook Nautilus B570
Архив/system/=+=+=+=
Бог троицу любит
Замысел поистине велик. Все началось больше года назад с разработки нового мобильного процессора под кодовым именем Banias (см. наш репортаж с IDF EMEA 2002). Intel уже тогда заявляла, что строит его практически с нуля, абсолютно не похожим на Pentium 4-M (Northwood) и лишь отдаленно напоминающим Pentium III-M (Tualatin). Вне зависимости от конечного официального названия все, в общем-то, ожидали хоть и революционного, но все-таки только процессора. Разумеется, предполагалось, что с ним будет объявлен и соответствующий чипсет, — это уже никого не удивляет. Не удивило бы и на этот раз, однако уже на осеннем IDF в Сан-Хосе под именем Banias стали прорисовываться не только процессор и чипсет, но и третий неотъемлемый компонент — контроллер беспроводного доступа. Прошло еще три месяца, и 7 января Intel, пожалуй, впервые в микропроцессорной истории заявила не процессор как таковой с типичным окружением, а собственно окружение, с процессором как составной частью цельного решения для построения мобильных компьютeров нового поколения.
Centrino — это... |
Intel именует Centrino технологией и просит придерживаться этой терминологии. Однако для лучшего понимания и удобства читателей отметим, что Centrino имеет все черты платформы, тщательно оптимизированной для мобильных нужд. Она включает процессор Pentium M, семейство чипсетов Intel 855 и беспроводные адаптеры семейства Intel Pro/Wireless 2100.
Эволюция энергосберегающих технологий и инициатив Intel. |
Процессор и платформа действительно разрабатывались с белого листа. Кристалл Pentium M содержит, как и ожидалось, 77 млн. транзисторов (на 40% больше, чем у нынешних Pentium 4 Northwood), причем, судя по его фотографиям, чуть меньше половины из них приходится на мегабайтный кэш второго уровня). Новую микроархитектуру отличают усовершенствованный метод прогнозирования ветвлений (Advanced Branch Prediction), технология наслоения микроопераций (Micro-Ops Fusion) и технология выделенного диспетчера стеков (Dedicated Stack Manager). Энергию в Centrino вообще и в процессоре в частности экономят все: кэш-память второго уровня, системная шина процессора, улучшенная (простите за тавтологию, но это именно так) технология Enhanced SpeedStep; ядро процессора оптимизирует потребляемую мощность интеллектуальным распределением энергии между своими блоками (отключая простаивающие). Программно процессор полностью совместим со всеми предыдущими настольными процессорами архитектуры IA-32 (имеется в виду уже созданное программное обеспечение), поддерживается набор инструкций SSE2.
Хотим обратить внимание, что в технологии Centrino разработчки стремились не просто к высокой производительности или минимально потребляемой мощности платформы — они прежде всего искали баланс между ними.
Pentium M (Илья Муромец?)
Для начала рассмотрим основные приемы и новации в архитектуре процессора.
Tехнология Enhanced SpeedStep была впервые представлена с процессорами Pentium III-M. Главным ее свойством является способность динамически выбирать между максимальной и минимальной тактовой частотой и разным напряжением ядра процессора в зависимости от его загрузки. Для сравнения, технология AMD PowerNow! с момента представления в мобильном процессоре К6-2+ поддерживает до 64 рабочих точек частоты и напряжения, программируемых производителем (обычно используется только 10–12 точек, иначе становятся заметными транзакционные задержки при переключении между ними). В ядре Pentium M и схеме Intel Mobile Voltage Positioning 4 наконец реализована похожая схема: доступны несколько (по первым тестам и оценкам — не менее пяти) состояний частота—напряжение. Ниже в тестах мы покажем, что благодаря такой гибкости Pentium M значительно выигрывает в экономичности у своих предшественников.
Технология Intel Enhanced SpeedStep наконец стала |
Оптимизация энергопотребления при использовании системной шины очень эффективна (как будет показано ниже) и заключается в следующем. Усилители считывания используются на шине данных (64 вывода), стробах данных (8 выводов), а также для сигналов инверсии данных (4 вывода) и потребляют значительную энергию при использовании шины процессора. 855-й чипсет посылает команды (DPWR#) на включение этих усилителей перед посылкой данных в процессор и отключает их при отсутствии транзакций данных, даже в те периоды, когда процессор управляет шиной. Таким образом, усилители считывания данных процессора Pentium M включены только непосредственно при приеме данных.
Наслоение микроопераций и внеочередное суперскалярное выполнение улучшают баланс производительности и энергопотребления. IA-32 принадлежит к классу CISC-архитектур. Поэтому, перед исполнением, они должны быть декодированы в RISC-образные (reduced ISC) микрооперации, понятные для исполняющих блоков процессора. Традиционно они обрабатываются по отдельности. Но так как в современных процессорах арифметические команды обрабатываются одним блоком, а работой с памятью заведует другой, выполнение подобных микроопераций можно совместить. Если параллелизуемые инструкции не идут непосредственно друг за другом, нужную пару могут достать из следующих команд и провести вне очереди. По данным Intel, такая техника экономит не менее десяти процентов числа микроопераций. Если вы знакомы с технологией HyperThreading, то это все то же стремление к максимальному параллелизму суперскалярности, просто в гораздо меньшем масштабе.
Набор инструкций IA обеспечивает непосредственное управление стеком программным путем (например, команды push, pop, ret и call). Но операции управления стеком приводят к непроизводительным затратам. Как правило, это сводится к обычному исполнению команд, даже если они совсем элементарные вроде приращения указателя стека. Выделенный диспетчер стеков процессора Pentium M реализует усовершенствованную технологию аппаратного управления стеком, заменяя энергозатратное управление на уровне микроопераций. По данным, полученным при моделировании, это технология снижает число микроопераций более чем на пять процентов.
В Pentium M реализована новая возможность предварительной выборки данных — поиск потоковых операций в памяти сразу двух типов: до восьми операций «поток вверх» (от низших адресов к высшим) и до четырех «поток вниз» (от высших к низшим адресам). Для сравнения, Pentium III-M отслеживал только операции типа «поток вверх», а Pentium 4-M отслеживает до восьми «вверх» и «вниз» в сумме.
Pentium M имеет самую совершенную, как по организации, так и по объему, кэш-память среди потребительских процессоров (см. таблицу ниже). При обращении к ней активизируется только тот квадрант одного из восьми путей, с которым предстоит обмен данных, затрачивая только 1/32-ю часть традиционной для этой операции мощности.
Организация кэш-памяти некоторых современных |
Громкое архитектурное обещание — улучшенное прогнозирование ветвлений. Напомним, что для увеличения тактовой частоты работу блоков процессора выстраивают в виде конвейера. Чем больше стадий у конвейера, тем меньше времени каждый блок затрачивает на свою стадию. Однако у этого подхода есть серьезный недостаток, приведем упрощенное объяснение. Положим, у нас конвейер с двадцатью стадиями (Pentium 4). Хотя мы можем достигаем на нем очень больших значений тактовой частоты, безболезненно это возможно только при полностью последовательном коде. Главная проблема состоит в том, что программный код содержит много условных переходов и prefetcher (блок упреждающей выборки в начале конвейера) не может самостоятельно решить, какую ветвь кода ему надо доставать из памяти для процессора, пока арифметико-логический блок (АЛУ, почти последний блок конвейера) не обработает этот условный переход. Prefetcher может выбрать ближайшую (в адресном пространстве) из ветвей, и процессор начнет декодировать громоздкие CISC-инструкции в RISC-образный вид микроопераций для АЛУ. Однако, очевидно, что когда через 10-20 циклов АЛУ обсчитает дошедший до него условный переход, с большой вероятностью окажется, что все эти циклы блоки процессора проработали зря, и надо брать другую ветвь и начинать все сначала.
Чтобы как можно меньше загружать конвейер вхолостую, применяют методы прогнозирования ветвлений (branch prediction). В основном условные переходы в коде программ происходят из-за циклов типа do-while, for-next и т. п. Как правило, переход на начало цикла совершается многократно до того, как сработает условие перехода к исполнению следующих инструкций. Данные для проверки условия могут быть одними и теми же или размещаться по адресу, изменяющемуся с постоянным шагом, свойственному этому циклу. Поэтому мы можем вести журнал переходов, и если заметим что-то похожее на цикл, prefetcher поймет, что надо нести в L1-кэш код и данные, угаданные опытным путем. Чем больше записей мы можем хранить в журнале, тем «больше опыта» может иметь процессор, а значит, точнее прогнозировать ветвления. Pentium 4 имеет таблицу в несколько тысяч записей, что позволяет ему правильно угадывать около 94 процентов переходов, больше чем у Athlon’а (92-93%), но все же меньше, чем у K6 (95%).
В новом мобильном процессоре Intel реализованы блоки прогнозирования ветвлений трех типов. Бимодальный — прогнозирование условных и безусловных переходов. Локальный — прогнозирование циклов, завершающихся при определенном значении стека. Глобальный — прогнозирование ветвлений путем отслеживания хода выполнения программ. Такими усилиями число ошибок прогнозирования сокращается более чем на двадцать процентов. Для сравнения, процессоры Intel с микроархитектурой P6 (Pentim Pro/II/III), отличающиеся не очень длинным конвейером в двенадцать стадий, содержат только блок локального прогнозирования; основанные на архитектуре NetBurst (двадцать стадий) — уже способны на бимодальное и глобальное прогнозирование.
Чипсет Intel 855 (Добрыня Никитич...)
Одновременно с Pentium M представлено два поддерживающих его чипсета семейства Intel 855, имеющих, как и предсказывалось, хабовую архитектуру: два варианта северного моста и один южный (концентратор ввода-вывода) — ICH-4M.
Блок-схема чипсета Intel 855GM (Montara). |
Блок-схема чипсета Intel 855PM (Odem). |
В первую очередь надо отметить Intel 855GM — первый интегрированный мобильный северный мост корпорации, работающий c DDR-памятью (напомним, что Intel не стала выводить интегрированное графическое ядро на мобильный рынок для Pentium 4-M). Дискретный вариант северного моста маркируется как 855PM. Оба северных моста поддерживают до двух гигабайт оперативной памяти стандарта PC2100 в одноканальном режиме, а новый южный мост имеет встроенную поддержку шины USB 2.0 (остальные подробности см. в таблице).
Основные отличия новых мобильных чипсетов Intel 855. |
Очевидные преимущества новых чипсетов — удвоение максимального объема поддерживаемой памяти, увеличение тактовой частоты интегрированного графического ядра и доступной ему пропускной способности памяти. Видимо, новые чипсеты производятся по более тонкому (130 нм) техпроцессу, так как потребляют энергии меньше, чем их предшественники.
Снижению энергопотребления чипсета служит целый ряд способов и решений, которые коснулись напряжения Vcc для ядра (оно снижено до 1,2 В вместо 1,5 В) и Vccp (перепад PSB, уменьшено до 1,05 В вместо 1,5 В), управления питанием памяти DDR SO-DIMM (отключение питания памяти при любой возможности плюс улучшенный метод управления страницами) и блока ввода-вывода Intel 855 DDR I/O (использование сигналов управления с тремя состояниями, по возможности неполный их запуск, сокращение числа переключений линйи управления), оптимизации буферов ввода-вывода (отключение при первой возможности). С помощью внешнего датчика поддерживается технология DDR Read Throttling, сбрасывающая частоту памяти, если она перегревается от интенсивного обмена, — это может пригодиться в ультапортативных ноутбуках и планшетах, лишенных активного охлаждения.
темной шины и памяти.
Любопытно, что ни одна из программ, измеряющих частоту системной шины, не доказала, что это именно 400 МГц, то есть шина действительно динамически отключается, а частота ядра регулируется не только изменением множителя.
Intel Pro/Wireless LAN (Алеша Попович)
Третий неотъемлемый компонент, на котором сосредоточили небывалые (сравниться с этим может разве что раннее продвижение Pentium 4) усилия маркетологи и идеологи корпорации, — это адаптеры беспроводных сетей IEEE 802.11b (а позднее — 802.11a) Intel Pro/Wireless 2100 на чипах Calexico. О стандартах 802.11 и их реализации, в том числе и в картах mini-PCI, ведущими телекоммуникационными компаниями мы писали уже неоднократно, совсем недавно рассматривали новейшие устройства стандарта 802.11g, поэтому, даже несмотря на некоторые оригинальные разработки в адаптерах и программном обеспечении Intel Pro/Wireless 2100 (например, это принципиально одночиповые экономичные решения), комментировать здесь беспроводную составляющую Centrino не будем. Коснемся этого позднее, когда, по прогнозам, это коснется нас.
Важнее другое. Intel не отказывается лицензировать компоненты Centrino (кроме, процессора) другим производителям интегральных схем и не будет препятствовать гибридным решениям, однако без любой из трех составляющих этой технолгии в корпусе ноутбука его производитель не имеет право использовать сине-пурпурный логотип. Проводные Ethernet-контроллеры производители ноутбуков вольны выбирать на свое усмотрение, с Centrino это, в общем-то, никак не пересекается.
Технология Intel Stable Image очень полезна для сборщиков и системных администраторов. Для установки операционных систем на большое количество похожих компьютеров использует эталонный образ разделов жесткого диска. Он уже содержит операционную систему с указанными параметрами сетевых подключений, пользовательского интерфейса, предустановленными программами и т.п. Все это безболезненно переносится на идентичные конфигурации. Однако если вы обновили парк компьютеров, начали продавать более новые модели, или просто появилась новая ревизия чипсета, вам придется внести изменения в эталонный образ, так как изменилось аппаратное обеспечение. С введением унифицированного драйвера это стало менее критичным, но все таки ОС замечает что изменился Hardware ID и может запросить, у ничего не подозревающего пользователя, обновить драйвер. С технологией Stable Image вводится Compability Hardware ID, который может заменить меняющийся основной Hardware ID, оставаясь неизменным. Новые ревизии уже не нуждаются в обновленных драйверах, а новые чипсеты могут ориентироваться на Compability ID. Все это контролируется через BIOS, инструменты клонирования которого также существуют.
Батарейтинг
На момент презентации нам удалось довольно подробно протестировать два из показанных в Москве ноутбука: тонкий одношпиндельный ASUS S1N на чипсете Intel 855GM (построен на базе успешной модели S1) и двухшпиндельный Roverbook Nautilus B570 на 855PM с внешним видеоускорителем ATI M9. Для сравнения мы выбрали ASUS S1 — вариант на Pentium III-M в том же конструктиве, ASUS L3 — как высокопроизводительный ноутбук на Pentium 4-M + Intel845MP с внешней графикой, а также ASUS L3D — ноутбук среднего класса, обладающий очень высокой производительностью и временем жизни от батарей.
ASUS S1N | Roverbook Nautilus B570 | |
Процессор | ||
Чипсет | ||
Видеоускоритель | ||
Оперативная память | ||
Накопители | ||
Дисплей | ||
Аудиосистема | ||
Порты ввода-вывода | ||
Слоты расширения | ||
Что мы тестируем? Методика подробно описана в предыдущих публикациях (см. www.ferra.ru/online/mobilis/19816/) и для оценки возможностей Centrino чуть дополнена. Здесь же в тридцать третий раз подчеркиваем: нам важно выяснить не отвлеченную производительность вычислительной платформы, упрятанной в корпус ноутбука, и не отдельно абстрактное время до полной разрядки батарей. Мы оцениваем баланс этих показателей, и, заметьте, в отличие от других тестлабов, как минимум для трех режимов энергосбережения, в которых может работать ноутбук под управлением операционных систем Windows: Always On, Portable/Laptop и Max Battery. Напомним и подчеркнем: именно эти настройки в разделе Power Options контрольной панели (если не предусмотрены фирменны утилиты, как у ASUSTeK, IBM, Toshiba) заведуют поведением фирменных технологий AMD PowerNow! и Intel SpeedStep, которые в свою очередь управляют рабочими точками процессоров. Прочие настройки этих режимов (обесточивание по тайм-ауту дисплея и жесткого диска) мы, как правило, отключаем, чтобы сравнивать в первую очередь исключительно процессоры.
Результаты сведены в три таблицы. Модели с Centrino безусловно лидируют по времени жизни от батарей. Сравнивая разницу продолжительности работы в режима максимальной (Always On) и адаптивной (Portable/Laptop) частоты, отметим выигрыш от использования Pentium M нескольких рабочих точек тактовой частоты и напряжения, в отличие от Pentium III.
Хотя производительность сама по себе не ставилась во главу угла, обратите внимание, что SYSscore в 211 баллов на частоте 1600 МГц — очень высокий результат. Время отклика компактных ноутбуков на Centrino с полуторагигагерцовыми процессорами сравнимо с полноразмерными системами на мобильных или настольных процессорах Pentium 4 c частотой 2400/2600 МГц. Они с легкостью выиграли у нашего бывшего лидера ASUS L3D с процессором Athlon XP 2000+ на интегрированном чипсете SiS740 (впрочем, цена систем различается почти в два раза не в пользу Centrino).
В тестах трехмерной графики система на процессоре Pentium M и чипе ATI M9 почти в два раза, а иногда и более быстрее конфигурации ASUS L3 (P4-M 1700, чипсет 845MP, видео ATI M7). Показательно, что в стандартном режиме 3DMark 2001SE модель Nautilus B570 быстрее своего родственника Explorer KT7+, имеющего Pentium 4 2,4 ГГц на чипсете i845E и такую же в точь видеокарту от ATI. В 3DMark 2001 процессор Pentium M 1500 МГц на восемнадцать процентов быстрее Pentium 4-M 2400 МГц.
По балансу производительности и энергопотребления Centrino оставил конкурентов далеко позади. Никогда ранее ноутбуки не демонстрировали такую производительность и продолжительность работы от батарей одновременно. Как показывает колонка эффективности, победой над более быстрым процессором ASUS S1N во времени работы RoverBook B570 обязан более емкой батарее.
Тест-проигрывание DVD показывает экономичность системы при постоянной загрузке, с активным использованием видеоускорителя и оптического привода. Для справедливого сравнения разных ноутбуков делим время каждого на емкость его аккумуляторов. Пусть вас не слишком смущают результаты Nautilus B570 — у мощной видеокарты этого инженерного сэмпла не была установлена технология энергосбережения ATI PowerPlay. Зато хорошо видно, насколько сбалансирован интегрированный чипсет в тонком ASUS S1N.
Далеко идущие выводы можно сделать с помощью последней таблицы. В MPEG4-тесте (проигрывание с жесткого диска) разница между аналогичными по конструктиву S1 составляет 10–11 Вт! Загрузка процессора Pentium III-M при этом составляла от 80 до 95% на частоте 1067 МГц (другой-то не дано!). Pentium M же в среднем держался на частоте 800 МГц (sic! новые рабочие точки в действии) с загрузкой на уровне 80%. Главное же — оценка средней потребляемой мощности в режимах проигрывания музыкальных электронных форматов и при обычном бездействии операционной системы (кстати, творческий процесс в текстовом или табличном редакторе по прожорливости как раз где-то посередине). Это — 12–13 ватт. То есть, минус дисплей и винчестер, на процессор действительно приходится около 7 ватт, и при использованиии батареи емкостью от 60 Вт·ч мы легко получим заявленные пять часов непрерывной работы.
Итак, мы можем сделать следующие выводы: Сравнивая четвертую строчку с первой, которая отличается только выключенным дисплеем, мы получаем 3 ватта энергопотребления для ЖК панели. Полученный результат приемлемо коррелирует с ожидаемым, так как мы точно не знаем, какая у Asus S1N матрица, и мы не стали отключать автоматический сброс уровня яркости лампы в BIOS’е (см обзор первого S1). Примерно то же самое можно сказать о результатах проигрывания MPEG 4 записи мюзикла Notre Dame de Paris. Немногим бОльшая разница в 4-5 ватт происходит из-за постоянно играющей музыки, и не забывайте о погрешности измерений (на Banias’е я выкрутил звук на максимум только после 75 % разряда).
При сравнении MPEG4 теста, разница между аналогичными S1 составляет 10-11 вт, более чем в два раза больше разницы при проигрывании DVD. Загрузка процессора Pentium III-M при этом составляла от 80 до 95 процентов на частоте 1067 МГц. Pentium M в среднем держался на частоте 800 МГц с загрузкой на уровне 80 %, по-видимому этот уровень является пределом перехода на более высокую частоту, так как при малейшем усложнении декодирования сцены частота поднималась до 1000 а иногда и до 1200 МГц.
Производительность в тестах 3DMark 2000/2001 | ||||
|
3DMark 2000 |
3DMark 2001 | ||
Модель ноутбука |
Default |
Default |
1024х168х16 |
800х600х16 |
Roverbook Nautilus B570 |
9453 |
7300 |
7924 |
9207 |
Roverbook Explorer KT7+ |
н. д. |
6172 |
н. д. |
н. д. |
Toshiba Satellite Pro 6100 (P4-M 1600, Intel 845MP, GF4 420Go) |
6296 |
3900 |
4338 |
5124 |
ASUS L3 (P4-M 1700, |
6715 |
3734 |
4052 |
4602 |
ASUS L3D |
2901 |
1393 |
1894 |
2243 |
ASUS S1N |
2498 |
1935 |
2354 |
2988 |
MaxSelect U1 (A-XP 1700+, Radeon IGP, Hardware T&L) |
1757 |
1409 |
1741 |
2146 |
Acer TravelMate 272XC |
2763 |
1377 |
1712 |
1952 |
ASUS S1 |
2396 |
866 |
1211 |
1574 |
Цена вопроса
Стоимость комплектов Centrino (чипсет Intel 855PM, карта Intel Pro/Wireless 2100 и процессор Pentium M с тактовой частотой 1600, 1500, 1400 или 1300 МГц) равна 720, 506, 377 и 292 долларов соответственно в партиях от тысячи штук. Для субноутбуков и планшетов предусмотрены процессоры на 1100 МГц с пониженным энергопотреблением (LV) и на 900 МГц со сверхнизким энергопотреблением (ULV). Цена этих комплектов 345 и 324 долларов соответственно. Уже известны рекомендованные цены на некоторые ноутбуки. Так, описанный здесь RoverBook Nautilus B570 (с приводом DVD и потрясающей по углам обзора 15,1-дюймовой матрицей 1400х1050) — от 1745 долларов, а ThinkPad T40, похудевший и похорошевший флагман от IBM, помимо Centrino вобравший ряд фирменных новаций, — от 2700 долларов.
Ноутбуки на Centrino, представленные 12 марта в Москве: Fujitsu-Siemens Lifebook E4010, ASUS S1N, Acer TravelMate 800, RoverBook Nautilus B570 и IBM ThinkPad T40 (в руке Григория Давыдова, менеджера по продажам мобильных систем российского офиса компании).
Соотношение производительности и времени автономной работы ноутбуков, рассчитываемое по методике Ferra.ru на основе пакета SYSmark 2001.
Время жизни батарей в режимах минимальной активности и развлекательных приложениях.
Благодаря потрясающему балансу производительности и |
В тестовом образце ноутбука S1N компания ASUSTeK применила |
Двухшпиндельный Roverbook Nautilus B570 был первым в России |
ASUS S1N — один из первых не только в России, но и в мире |
Acer TravelMate 800 — потрясающе красивая (дизайнеры Acer в который раз нашли новые характерные очертания в рамках фирменного стиля) двухшпиндельная высокопроизводительная модель на i855PM c ATI M9. |