Архивы: по дате | по разделам | по авторам

Crude Reader, или Не будите спящую собаку

АрхивОгород Козловского
автор : Козловский Евгений   14.11.2007

В ABBYY мне предложили протестировать последний, девятый, FineReader в комплекте с фотоаппаратом Optio A30 от Pentax. У них, дескать, скоро будет акция: фотоаппарат с FineReader’ом дешевле голого фотоаппарата!

Люда Булавкина, новый PR-менеджер ABBYY, предложила мне протестировать последний, девятый, FineReader в комплекте с фотоаппаратом Optio A30 от Pentax. У них, дескать, скоро будет акция: фотоаппарат с FineReader’ом дешевле голого фотоаппарата!

Я стал ее отговаривать: "Люда! Не буди спящую собаку! Распознавание фотоснимков я тестировал на прошлой версии Fine-Reader’а, оно... ну, мягко скажем... не потрясает... Может, не надо? Ведь, если ты будешь настаивать, я напишу правду: ровно как получится!" "Ты не понимаешь, - сказала она. - Новый аппарат - десятимегапиксельный, он дает очень хорошее разрешение, и все будет отлично! Мы позиционируем эту связку для студентов в библиотеках, для журналистов на презентациях..." "Ты хочешь сказать, что, если я сделаю снимки с экрана на презентации, FineReader их распознает?" "Безусловно". "Хорошо, - сказал я. - Послезавтра я собираюсь на презентацию компании ECS, - если мне к этому времени доставят аппарат - я протестирую. Только еще раз предупреждаю: может, лучше не надо?" "Надо!" - решительно подвела черту Людмила и прислала мне информацию об акции, а спустя сутки - и фотоаппарат.

Информация (с соответствующими картинками) меня позабавила: Optio A30 (9100 р.) + ABBYY FineReader (3750 р.) = (красным цветом!) 8999 р. Цену FineReader’а обсуждать бессмысленно1, а вот по поводу Optio A30 я тут же полез на price.ru и вместо 9100 р. обнаружил (на первой странице) цены между 7700 и 7999 рублями. Оно конечно, не все продавцы с price.ru действительно предложат этот товар за такие деньги, но готов спорить, что за 7900 я куплю аппарат в полчаса. Обнаруживается лаг в тысячу рублей, которую, похоже, и должен бы был стоить FineReader. Сообщил о результатах исследований Булавкиной. Она тут же отозвалась: "Это же серые поставки. 9150 - рекомендованная розничная цена для дилеров Pentax". На что я ответил: "Булавкина! Цвет поставки интересует нормального покупателя в последнюю очередь! Возьми хоть себя!"

Дальше пошло довольно стандартное переругивание на навязшую в зубах тему:

- Ну так что, будем поддерживать нелегальный рынок? ))

- А почему бы и нет? Мне-то с легального ничего не перепадает, чем я ему, интересно, обязан, что должен его защищать? Объясни по-простому! - ну и так далее.

С утра привезли аппарат, я быстренько с ним ознакомился2 и поехал на презентацию (предварительно сделав снимок экрана с текстом Sony Reader’а). Постарался настроить аппарат максимально точно, режим выбрал текстовый, переключался в "негатив" на "выворотных" слайдах. Правда (так оно впоследствии и оказалось), из представленных на презентации сотни слайдов добрая половина для распознавания не годилась: усердные китайцы вовсю используют нехитрые возможности Power Point’а, подкладывая под тексты разного рода картинки и декоративные загогулины. Вернулся домой, снял - для комплекта - страничку журнала и, скинув снимки на диск, приступил к экспериментам.

Слайд презентации, сделанный вывороткой и снятый в режиме "текст с негативной инверсией". "Восьмерка" распознала все, хоть и не без лакун
Тот же самый слайд: "девятка" не сумела углядеть никакого текста вообще (словечко в заголовке - графика)!

Но тут вдруг получилось, что моя система, незадолго до этого "нелегально" вылетев, усердно пересчитывала и верифицировала диски RAID’а, так что программы еле шевелились. Прождав минут десять открытия первой картинки девятым FineReader’ом и так и не дождавшись, я обратился к оставленному в системе FineReader’у восьмому, который проще и потому чуть ли не вдвое "легче". И пару снимков распознал со, скажем так, вполне ожидаемым и, в общем, удовлетворительным результатом. Чтобы меня не обвинили в нежелании сотрудничать с программой, я даже один из снимков (как раз сониевский) слегка обработал в Фотошопе, - что, впрочем, на результирующем качестве распознанного текста сказалось... незначительно. К этому времени RAID, наконец, пришел в себя, и я вернулся к "девятке".

Слайд презентации, снятый с экрана. Распознан "восьмеркой" почти на сто процентов
Тот же самый слайд в исполнении "девятки". Комментарии излишни

И тут уж начались чудеса, которых я сам ни в коей степени не ожидал. Качество распознавания оказалось таким низким, какого не было (правда, на сканированных текстах) и у незапамятной третьей версии. Я просто не верил глазам! Если б не сбой RAID’а и не спровоцированный им уход на "восьмерку", - я поворчал бы о том, что фотографические оригиналы пока еще плохо поддаются распознаванию, а чтобы они были хороши, надо соответственно снимать, держать перпендикуляр оптической оси, заботиться о свете, - ну и так далее в том же роде. Но ровно те же самые файлы на "восьмерке" распознавались когда процентов на сорок (в пресс-релизе к "девятке" писали аж про шестьдесят процентов - только не в минус, а в плюс!), когда - вдвое лучше. А один из слайдов, сколько я с ним ни колдовал на "девятке", вообще не захотел распознаваться: оставил белое поле в рамочке, - хотя он же, на "восьмерке", безо всяких ухищрений, по умолчанию, распознался процентов на 90, если не на 95.

 
Съемка с Sony Reader’a, распознанная "девяткой". Внизу - результат распознавания того же снимка "восьмеркой". Проценты не считал, но очевидно, что верхний вариант совершеннее (в нижнем, например, просто пропущена вторая строчка)

Все еще опасаясь верить собственным глазам, я подавал на распознавание туда и туда следующий слайд, следующий... Результат был один: "девятка" распознает текст с фотографий (я уж не стал включать сканер, чтобы совсем не расстроиться: чем черт не шутит!) намного, сильно, заметно хуже "восьмерки". Только текстовая колонка из журнала распозналась "девяткой" почти так же, как и "восьмеркой". Ну то есть - тоже похуже, но... незначительно! Возникает вопрос: неужели программисты ABBYY, нашивая на новую версию FineReader’а перламутровые пуговицы, умудрились упростить/испортить сам движок? Ничего не понимаю!

Официальный комментарий компании ABBYY

При разработке ABBYY FineReader 9.0 мы проводили тесты на множестве изображений, полученных с нескольких камер, при различных условиях съемки. На некоторых типах изображений улучшение работы FineReader 9.0 по сравнению с FineReader 8.0 достигало 60%.

В данном случае недостаточная освещенность и предположительно завышенное значение ISO создали высокий уровень шума на изображении, что в сочетании с высокой детализацией заставило программу ошибиться в "угадывании" правильного разрешения изображения. Условия съемки играют решающую роль для качества распознавания изображения, полученного с фотоаппарата, поэтому мы разработали простые рекомендации по съемке текста.

В "ABBYY FineReader 9.0 шаг за шагом" - "Получение изображения" есть закладка "Съемка текста фотоаппаратом", которая ведет на страницу "Фотографирование текста".

Данную страницу можно найти по содержанию: "Как улучшить полученные результаты" - "Советы по получению изображения" - "Как сфотографировать текст".

Следуя этим простым советам, вы сможете получить превосходный результат распознавания фотоснимков.

В тех случаях, когда следовать рекомендациям не удается, достаточно вручную немного "помочь" программе (например, выставить правильное разрешение изображения), и результат снова будет вас удовлетворять.

С уважением и благодарностью,

Григорий Липич,

генеральный директор компании ABBYY Россия

Осознавая, что этот мой "Огород" может вызвать много обид и наездов, я намеренно делаю его покороче - чтобы побольше вошло результирующих картинок3, но достаточного их количества да еще и в достаточном размере не войдет все равно, - потому я отсылаю в редакцию и в ABBYY полный тестовый набор, да еще и запомненные в формате FineReader’а пары картинка/документ, которые готов предоставить каждому по требованию.


1. Обсуждать, увы, бессмысленно, но поговорить на этот предмет можно вполне: для профессионалов, которые на оцифровке зарабатывают деньги, - каких-нибудь там социологов или бухгалтеров, - это так даже и слишком дешево; для заграничного юзера, привыкшего, что за софт с него берут такие и бо,льшие деньги, да и заработки имеющего вполне достаточные, - нормально. А вот для отечественных одиночек-любителей, на мой взгляд, - сильно дороговато (кстати, скидка за переход с предыдущей, тоже не дешевой, версии - какая-то просто символическая). И ведь эти любители, выяснив цену, тут же побегут искать пиратскую копию - и найдут! А соответствовала бы цена реалиям нашего отечества, - может, решили бы, что проще (и, в сумме, дешевле) - купить... [вернуться]

2. Не только цифровые зеркалки, но и цифровые мыльницы все больше и больше сходятся к единому стандарту. Те же примерно возможности, те же размеры, те же системы меню и кнопок управления. Растут только мегапикселы, но насколько честно растут - никому не известно. Год с небольшим назад видеолюбительская общественность всего мира была потрясена анонсом новой трехматричной HD-камеры от JVC - GZ-HD7: профессиональная оптика, полное HD-разрешение (1920х1080!). Спустя некоторое время в Сети стали появляться сделанные ею кадры и, мягко говоря, сильно всех разочаровали. А еще некоторое время спустя дотошные видеолюбители выяснили, что на самом деле разрешение матрицы у камеры (976x548) только чуть превышает стандартное, а хваленое Full HD получается с помощью программного ухищрения под названием Pixel Shift. Впрочем, что касается Optio A30, я на глаз мухлежа не заметил. И, возможно, единственно для оцифровки текстов большое разрешение - вещь не вполне лишняя: при переводе в dpi получается около 600, что требует для распознавания даже некоторого понижения. [вернуться]

3. Кстати, каждый сможет убедиться, что, как бы плохо ни распознавались тексты FineReader’ом, глазом они читаются всегда. На прошлогоднем CeBIT я, чтобы облегчить себе дальнейшую жизнь, фотографировал много пояснительных табличек - и с комфортом пользовался информацией со снимков при написании статей, - однако мне ни разу не пришло в голову распознавать их FineReader’ом: у любых технологий просто должны быть в каждый период времени какие-то ограничения. [вернуться]

- Из журнала "Компьютерра"

© ООО "Компьютерра-Онлайн", 1997-2023
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.