Архивы: по дате | по разделам | по авторам

Методика тестирования КПК в лаборатории Terralab.ru

АрхивMobilis
автор : Владимир Сперанский   05.04.2004

Долой бестолковые абстрактные синтетические бенчмарки! Есть способы сравнить карманные компьютеры, причем даже на разных платформах, более объективно.

Для исследования карманных компьютеров, которые попадают к нам в лабораторию TerraLAB, мы с Ильей Хрупаловым разработали некогда методику тестирования. Точнее, придумал ее Илья еще до того, как я обосновался в разделе «Mobilis», но он ориентировался исключительно на PocketPC-машинки, так что пришлось мне приводить каким-то образом результаты к общему знаменателю. Вначале, когда КПК были все однотипными и практически друг от друга не отличались (имеется в виду платформа Windows CE), ей было очень удобно пользоваться, и она вполне удовлетворяла нас. На том этапе возникла идея написать данную статью для того, чтобы при каждом последующем обзоре ручного компьютера не описывать все заново, а просто отсылать читателя к соответствующему материалу. Но постепенно в процессе работы стало ясно, что разработанная методика не то, чтобы не идеальна — просто-таки далека от таковой. Я начал ее дорабатывать. О том, к каким мыслям и результатам это привело, вы можете прочитать ниже.

Вначале было слово, и слово это было главного редактора проекта Ильи Хрупалова. Слово это было обращено ко мне, и повествовал Илья про то, что нужно, очень нужно замерять производительность карманных компьютеров на Windows CE. Но то, что демонстрируют нам синтетические бенчмарки, далеко от реальности, как коммунизм. Так было тогда, и ничего не изменилось по сей день. Синтетические бенчмарки и на настольных-то компьютерах не всегда корректно себя ведут, а в КПК они просто демонстрируют результаты ни к чему не приложимые. Достаточно вспомнить технологию авторегуляции скорости процессора наладонниками ASUS MyPal, эффективность которой не мог ни показать ни один из тестовых пакетов, но которая стала сразу хорошо видна при нашем тестировании.

И сказал Илья, что нужно загружать процессор карманного компьютера реальными приложениями и реальными задачами. Есть такая партия, то есть такие приложения, — молвил Илья. И действительно — каждый КПК на Windows CE, кроме облегченных вариантов типа Casio Pocket Viewer, где как следует из названия, о редактировании речи не шло, поставлялся с предустановленными «карманными» версиями офисных Word и Excel, которыми пользовалось большинство владельцев таких наладонников. Илья придумал способ заставить эти приложения совершать действия, время выполнения которых можно было бы замерять и по этому показателю судить о производительности. Он взял достаточно большой текстовый файл (роман Михаила Булгакова «Мастер и Маргарита» на английском языке) и сгенерировал таблицу со случайными данными из 52000 ячеек (вначале он пытался использовать файл с 260000 ячеек, но это оказалось чересчур — большинство компьютеров не справлялись с этим монстром, некоторые не справляются и сейчас), после чего заставил Pocket Word везде в тексте романа искать слово «the» и заменять его на «ooops», а Pocket Excel заменять в таблице сочетания цифр «12» на «34». Время, которое занимал этот процесс у устройства, и служило собственно показателем производительности. В неизмененном виде этой методикой мы пользуемся и сейчас, и не предвидится никаких весомых причин от нее отказываться.

Любой, кто скажет, что время, за которое устройство заменяет в текстовом файле одно слово на другое, не является достаточно качественным мерилом производительности, будет абсолютно прав. Но! Никакого другого не то что лучшего, хоть просто приемлемого способа к сожалению на сегодняшний день не существует. Этот действительно использует самые популярные на Pocket PC приложения и действительно загружает и память, и процессор, и шину реальной работой. Причем, поскольку при тестировании соблюдаются некоторые правила (например, для того, чтобы лишить КПК возможности взять данные из кэша, перед повторным тестированием устройство перегружается) и все запускается вручную, выход получается наиболее объективным из возможных, не подверженным влиянию кэширования и систем оптимизации.

Следующим тестом на производительность было выбрано архивирование четырех файлов (текстового документа, таблицы, двух картинок) программой IA Zip. Тоже вполне показательно.

И, наконец, мы замеряли количество пропущенных кадров в программе PocketDivX при проигрывании достаточно насыщенного спецэффектами видеоролика — трейлера мультфильма «Шрек». Поток 24 кадра в секунду, всего 3036 кадров.

Но производительность — далеко не самая важная характеристика карманного компьютера, это вам не сервер. Время автономной работы — вот что интересно. Для его измерения стандартный медиаплеер мы заставляли играть по кругу четыре файла с разным битрейтом (56, 128, 192 и 320 кбит/с; разный битрейт был нужен для разносторонней нагрузки процессора, и к тому же некоторые КПК в экономном режиме работы процессора не могли проиграть файл с битрейтом 320 кбит/с). В первый раз при включенной на максимум подсветке и выключенном звуке, во второй раз наоборот — при минимальной (или выключенной) подсветке и максимальном звуке, выведенном на наушники (режим MP3-плеера). Надо отметить, что у наших тестовых наушников сопротивление довольно высокое, да и на максимальной громкости мало кто музыку слушает, так что при нормальной эксплуатации (гипотетическим средним пользователем) время работы должно быть побольше.

Мне захотелось разнообразия, и я нашел еще один способ тестировать время автономной работы: заставлять КПК непрерывно прокручивать текст в какой-нибудь читалке, тем более что это приложение из самых распространенных. Такое тестирование очень сильно нагружает процессор, при этом оно отражает реальную ситуацию: многие читают с экранов КПК, включив режим автопрокрутки, не желая нажимать все время кнопку «вниз» (очень приятно в метро в час пик). В качестве тестовой программы была выбрана iSilo — по двум причинам. Во-первых, это одна из самых распространенных читалок для PalmOS. Во-вторых, и это решающий момент, разработчики выпускают версии не только для Palm OS и Pocket PC, но и для Handheld PC (то есть, например, для WinCE-планшетов) и даже для настольной Windows.

Третий способ замерять время автономной работы — зацикленное прокручивание видеоролика. В настоящее время мы не используем его по ряду причин, среди которых как вполне достаточная репрезентативность первых двух режимов (хочу заметить, что общее время тестирования ручного компьютера ограничено по ряду причин, так что гонять все пришедшие на ум тесты просто не получится), так и нестабильная работа его на многих устройствах на обеих платформах: компьютеры вместо того, чтобы нормально крутить ролик до тех пор, пока не сядет аккумулятор, либо зависают где-то в середине процесса, либо умирают при попытке вывести первое предупреждение о низком заряде аккумуляторов.

Помимо двух вышеперечисленных параметров я одно время собирался замерять еще яркость экрана, но сегодня в этом нет никакой необходимости. Все соревнования из разряда «у наладонника X экран при максимальной подсветке чуть ярче, чем у КПК Y» не имеют никакого практического применения. О яркости имеет смысл говорить в том случае, если используются принципиально разные технологии, например, рефлективный экран Tungsten T и трансфлективный экран Tungsten T2. Но у подавляющего большинства современных КПК используется очень качественная матрица либо трансфлективная, либо так называемая полу-трансфлективная (как, например, в ASUS MyPal A620); в любом случае запас яркости более чем достаточен. Современные карманные компьютеры позволяют совершенно комфортно использовать устройство при минимальной подсветке экрана, более того — именно так большинство пользователей и работает, экономя заряд аккумуляторов. Именно поэтому мы изменили схему тестирования времени автономной работы проигрыванием MP3 и теперь запускаем наладонники играть музыку в двух режимах: MP3-плеер (с выключенным полностью экраном) и с выключенным звуком, но включенным на минимум экраном. Так мы получаем более или менее достоверную картину энергопотребления наладонника. Читать дальше >>>

Вот мы и подошли к первой неприятности — изменению методики тестирования. В идеале (и как вначале подразумевалось) нам бы хотелось разработать порядок тестирования, выбрать программы для обеих платформ и накапливать базу данных, которая позволяла бы рассматривать устройства разных лет выпуска и наблюдать за ходом прогресса, попутно сравнивая разные платформы. Но сейчас со всей определенностью стало ясно, что этот идеал, к сожалению, недостижим. Причин тому две.

Во-первых, изначально Илья, как уже было сказано, придумывал способ тестирования исключительно КПК на Pocket PC (тогда еще Windows CE 3.0), соответственно, его интересовали только универсальные для этой платформы приложения. Но когда я занялся анализом устройств на Palm OS, то столкнулся с тем, что на этой ОС в те времена не было нормальных архиваторов и не было стандартного офисного пакета. То есть вообще — были, но стандартного — не было.

В результате я рассмотрел наиболее популярные решения и с изумлением обнаружил, что из всех присутствовавших на тот момент на рынке табличных процессоров только QuickSheet умеет делать автозамену по всему документу, но при этом тестовый файл ему оказался не по зубам — он в процессе начинал требовать больше памяти, больше, еще больше; 16 Мбайт, которые в те времена были максимумом, ему не хватало. Оставался текстовый редактор, и был выбран WordSmith, который мне и сейчас кажется наиболее удобным в использовании (достаточно отметить великолепное решение проблемы с юникодными шрифтами в наладоннике и реальный прогресс-бар на долгие операции). Tungsten T (см. www.terralab.ru/mobilis/32768) стал первым наладонником PalmOne, с которым производитель поставлял офисный пакет — DocumentsToGo. Его же выбрала Sony для своих топ-моделей, так что у меня возникла перспектива переезжать на стандартное решение — для порядка. Но SheetToGo так и не научился осуществлять автозамену, а WordToGo не справляется с мегабайтным файлом. Так было и на m515, то же мы наблюдаем и на Tungsten T3 — при замене тестовой матрицы WordToGo некоторое время честно работает, после чего уходит в астрал, уводя машину в жесткую перезагрузку, что само по себе очень неприятно. Так что WordSmith по-прежнему в строю.

Во-вторых и в-главных. Устройства давно уже перестали быть однотипными и, самое главное, обновляются не только технологии, но и программы. И результаты, которые демонстрируют разные версии программ, отличаются. Иногда очень сильно. И, следовательно, их нельзя объективно соотносить друг с другом. К примеру, нам на тестирование достался инженерный образец ASUS MyPal A620 (см. www.terralab.ru/mobilis/25269), который работал на Pocket PC 2002. Я честно замерил все что нужно, после чего отдал его обратно. А через некоторое время из другого источника получил уже окончательный экземпляр, аналогичный тем, которые поступили в продажу. На нем была установлена Windows Mobile 2003. Я интереса ради снял заново показания, после чего обнаружил с изумлением, что производительность Pocket Word немного снизилась, а производительность Pocket Excel — значительно увеличилась.

Другим примером может служить iSilo. Версия 3.3, которой я пользовался до выхода Tungsten T3, потребляет при прокрутке текста меньше энергии, чем новая 4.0, причем заметно. А продолжать использовать старую версию, например, из соображений корреляции со старыми результатами, нельзя — только начиная с четвертой версии iSilo поддерживает разрешение экрана 320x480, и мне трудно представить, что кто-то будет на T3 пользоваться третьей версией. То есть либо нужно обновлять приложение, теряя возможность объективно сравнить новые и старые результаты, либо делать тестирование синтетическим, не связанным с реальной жизнью. Разумеется, был выбран первый вариант, мы полагаем, что читателя соотносимость результатов интересует меньше, чем реальная оценка устройства.

С этой же проблемой я столкнулся при тестировании всего семейства «Тангстенов». При демонстрации конвертированных со стандартными настройками видеороликов Tungsten T3 шел со значительным опережением, но когда был создан файл со специальными установками Kinoma Producer для Tungsten T3 (с высоким разрешением и большим битрейтом — для лучшего качества), производительность наладонника резко снизилась. При этом визуально ролик смотрелся просто отлично и не было никаких причин использовать в реальной жизни другие настройки.

Итак, сравнивать достаточно объективно можно только карманные компьютеры одного поколения, на которые установлены последние версии программ, те, которые будут использовать покупатели. При сравнении с прошлыми наладонниками надо учитывать, что прогресс или регресс может быть вызван не только аппаратными обновлениями, но и программными.

Теперь хотелось бы сказать, что вообще объективные результаты далеко не всегда могут быть достигнуты. До сих пор я упоминал глобальные причины, но беда в том, что конкретные модели имеют зачастую свои капризы, которые не позволяют провести тестирование стандартно, по общему шаблону. Если с производительностью в этом плане проблем практически нет, то вот измерение времени автономной работы устройства каждый раз является проблемой. Получая на тестирование новый КПК, я каждый раз завидую Илье Хрупалову, тестирующему ноутбуки: для него не составляет проблемы отключить «предупреждения о низком заряде и прочую самодеятельность». С карманными компьютерами такие фокусы не проходят.

На Palm OS нельзя вообще отключить предупреждение о низком уровне заряда батарей, в результате тестирование времени скроллинга текста выглядит очень занимательно: нужно дождаться первого предупреждения, которое иногда бывает на 20, иногда на 17, а иногда и на 10% заряда (кстати, это может случится через два часа, через три, через семь — поди постереги!), после чего убрать окошко и запустить скроллинг заново, желательно это делать побыстрее. Сам КПК с выброшенным сообщением выключаться не умеет, только при полном разряде аккумуляторов. Когда сообщения начинают появляться чаще, чем два раза в минуту, я считаю тестирование законченным. Но вот с проигрыванием MP3 дело обстоит хуже. Единодушия здесь добиться нельзя: некоторые играют пока есть порох в пороховницах, то бишь заряд в батареях, после чего мирно выключаются и ждут подключения кабеля питания, некоторые выбрасывают перед комой несколько раз предупреждение, некоторые — особенно этим отличается продукция Sony — никогда не оставляют пользователя совсем в одиночестве и отказываются работать со звуком или там с картой памяти при достижении некоторого критического уровня заряда, причем его можно только снизить (и то не всегда), а отключить совсем нельзя никак. Sony CLIE PEG 770 и SJ33, например, после того, как отказываются проигрывать дальше музыку в некоторых случаях еще несколько часов (sic!) позволяют работать с офисными приложениями или читать. И как тут, спрашивается, сравнивать результаты?

У наладонников на Windows Mobile свои трудности. С помощью редактора реестра можно отключить предупреждение о близящемся энергетическом кризисе, и если в случае прокрутки текста это помогает, то вот с MP3 — не всегда. Тут уже речь идет об особенностях отображения уровня заряда аккумуляторов у разных моделей и об интеллекте плееров. Особенно в этом плане отличается продукция ASUS, ее наладонники имеют обыкновение за пару часов разряжаться до 10%, после чего работать еще несколько часов на оставшемся якобы критическом минимуме (очевидно, что на самом деле просто врет схема отслеживания разряда, а сам аккумулятор разряжается равномерно). Стандартный Media Player в Windows Mobile 2003 отказывается функционировать в таких условиях и приходится прибегать к ухищрениям, например, проигрывать MP3 программой Pocket DivX. Также есть устройства, которые после того, как проигрывание музыки становится невозможным, продолжают работать, работать и работать, а другие просто тихо умирают на определенном этапе. Сравнивать такие результаты не совсем корректно, а приходится. Читать дальше >>>

На сегодняшний день тестирование проходит следующим образом.

Производительность замеряется вышеописанными приложениями, при этом отключены все утилиты, могущие как-то повлиять на результаты. Вопреки распространенному мнению, кстати, подключение КПК к сети питания на производительность не влияет, равно как и уровень заряда батарей (если, конечно, не работают специальные утилиты, снижающие производительность при дефиците энергии). Для того, чтобы КПК не мог взять данные из кэша, устройство перед каждым тестированием перегружается. Каждый тест проводится три раза, результаты — если разнятся — усредняются. При тестировании видео (с отключенным звуком) используется программа Pocket MVP (бывший Pocket DivX), которая сообщает количество потерянных кадров (скоро, надо полагать, этот режим перестанет быть актуальным) и FPS. На Palm OS используется Kinoma Player, которая показывает в специальном режиме тестирования время демонстрации и FPS. При конвертации видеофайла выбираются установки Kinoma Producer под конкретное устройство.

Тестирование времени автономной работы производится после полной зарядки, которая определяется по соответствующему индикатору или по уровню напряжения. На всякий случай накидываем полчаса сверху. При этом, разумеется, отключаются все энергоемкие компоненты типа беспроводных адаптеров или инфракрасного порта (кстати, как показали тестирования, он потребляет ничтожно мало энергии, обычно разница составляет меньше одного процента). Тест прекращается, когда устройство выключается, отказывается запускать тестовое приложение или когда предупреждающие сообщения начинают появляться чаще чем два раза в минуту. При возможности и это исследование проводим три раза с усреднением результатов, но, к сожалению далеко не всегда это получается по объективным причинам; зачастую устройство попадает к нам в лабораторию только на несколько дней и просто не хватает на все времени.

Описанная методика обязательно будет дорабатываться — ничего не поделаешь. Либо будут выходить новые программы, которые лучше будут подходить для наших целей, либо новые КПК будут требовать особенного подхода, но в любом случае мы постараемся, в разумной мере соблюдая совместимость со старыми решениями, проводить тестирование наиболее реалистичными приложениями. С тем, чтобы читатель смог примерить результаты к своему наладоннику — или определиться с покупкой.

© ООО "Компьютерра-Онлайн", 1997-2019
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.