Архивы: по дате | по разделам | по авторам

FormReader 6.0 - крупный шаг на пути к безбумажному офису

АрхивДостижения
автор : К. Т.   02.06.2003

Компьютерщики уже не первое десятилетие проповедуют идею безбумажного офиса. До её полной реализации еще достаточно далеко, хотя усилий уже приложено немало. Программа FormReader6 - еще один крупный шаг в этом направлении.

Компьютерщики уже не первое десятилетие проповедуют идею безбумажного офиса. До её полной реализации еще достаточно далеко, хотя усилий уже приложено немало. И все-таки офис по-прежнему нельзя представить без бумаги. А в некоторых случаях у бумаги вообще нет конкурентов.

Представьте официанта в ресторане - блокнот, где он делает свои записи, пока заменить нечем. Карманные компьютеры, беспроводная связь и тому подобные технологии пока что слишком дороги, да и сложны для таких целей. Проведение любого исследования, теста или опроса подразумевает сбор информации у множества людей. И здесь также практически невозможно сейчас обойтись без бумажных анкет и опросных листов. Заявление в банке или страховой компании должно заполняться на бумаге хотя бы из-за того, что от клиента требуется подпись, а подпись электронная не получила еще достаточно широкого распространения.

Однако отказываясь от компьютеров при вводе информации, мы фактически отказываемся и от помощи компьютеров при её обработке. Если задуматься, именно из решения этой проблемы выросла значительная часть ИТ-отрасли. Достаточно вспомнить, что история IBM, крупнейшей компьютерной компании мира, началась с выпуска так называемых табуляторов. Табуляторы были созданы для автоматического ввода и обработки результатов переписи населения, которая прошла в начале века в Соединённых Штатах.

Наши коллеги из аналитической службы ИД "Компьютерра" не понаслышке знакомы с проблемой ввода такой информации в компьютер. Многие исследования, которые они проводят, начинаются с опросов тысяч людей. Извлечь данные из огромных пачек бумажных анкет не так просто, как кажется.

Самый очевидный (а ещё недавно - едва ли не единственный) способ оцифровки анкет заключается в использовании неквалифицированного человеческого труда. Посадите за компьютеры машинисток в достаточном количестве и работа будет сделана. Правда, времени потребуется немало, особенно если учесть сложность поиска и исправления ошибок. На дворе двадцать первый век, и ручной труд давно вышел из моды. Неужели техника не продвинулась дальше табуляторов?

Продвинулась, и ещё как. Об успехах технологий распознавания текста рассказывать нет нужды: большинство пользователей компьютеров в России если и не сталкивались с такими программами лично, то наверняка пользовались результатами их работы. Упрощённые программы для распознавания текстов сейчас прилагаются даже к самым дешёвым сканерам.

Разумеется, обычная программа для распознавания текста в нашем случае не походит. Программы для распознавания текста, которые известны большинству пользователей, предназначены для распознавания только печатного текста (OCR-системы). Текст, написанный от руки, даже печатными буквами, им не по зубам.

Что представляет собой анкета? Как правило, это множество полей, куда положено вписывать текст или ставить "галочки", и комментарий, который поясняет, как это делать. Наша цель - сохранить вписанную от руки в анкету информацию в базу данных или электронную таблицу. Для решения подобной задачи существуют специальные программы распознавания – ICR-системы. Они как раз предназначены для распознавания текста, написанного от руки раздельными буквами. И именно такие системы помогают обрабатывать огромные массивы различных анкет, бланков и опросных листов.

Компания ABBYY, где была разработана одна из самых мощных систем распознавания текстов - всем известный FineReader – еще в 1997 году занялась разработкой подобной технологии. В тот момент вновь созданная система FineReader Рукопись предназначалась для обработки поступающей в Пенсионный Фонд РФ информации от граждан. К 2001 году из технологии FineReader Рукопись вырос универсальный продукт ABBYY FormReader, ориентированный на решение именно тех задач, которые мы только что описали – ввод различных анкет и бланков, заполненных от руки.

Итак, чем же FormReader отличается от дедовских способов ввода данных?

На входе - заполненные бумажные бланки. Их нужно отсканировать. Если материала накоплено много, лучше взять скоростной сканер, способный сканировать сотни страниц в час. Введённые в компьютер бланки программа сравнит с введённым заранее образцом и попытается распознать. После этого оператор может оценить правильность распознавания и, если необходимо, внести поправки.

На выходе мы получаем данные, сохранённые в СУБД или файле (поддерживается несколько распространённых файловых форматов, в том числе XML). Кроме того, FormReader'ом можно управлять программным способом при помощи стандартных средств Windows.

Так обстоит дело в теории. Устоять перед искушением испытать программу собственноручно было сложно. Компания Abbyy предоставила нам экземпляр FormReader для тестирования, за что ей, конечно, большое спасибо.

Установив в порт USB аппаратный ключ, призванный защитить от пиратов, и подключив к компьютеру сканер, мы приступили к делу. После установки программа предложила создать шаблоны. Для этого необходимо отсканировать пустые бланки, а затем отметить на нём все поля, в которых может содержаться полезная для нас информация.

Практически любой бланк содержит не один десяток полей. В перспективе отмечать все поля на всех видах бланках вручную нет ничего весёлого. К счастью, это и не требуется: FormReader способен взять часть работы на себя и разметить бланк самостоятельно в меру своего понимания. Впрочем, без вмешательства человека всё равно, скорее всего, не обойтись. Даже если FormReader с блеском справится со своей задачей и ни разу не ошибётся при разметке, осмысленные названия полям он дать не может.

Тут самое время рассказать об одной особенности программы. Чудес не бывает: официально FormReader предназначен для сканирования не любых, а только специальных, так называемых машиночитаемых бланков. Это означает, что все бланки должны быть одинаковыми и содержать специальные пометки, облегчающие распознавание. Кроме того, хотя бланки заполняются вручную, делать это, увы, можно только определённым образом, а именно – раздельными и, желательно, печатными буквами. Почерк у людей бывает самый разнообразный, и разобрать написанные от руки каракули порой бывает не под силу даже автору, что уж говорить о машине.

На самом деле, всё не так страшно: все мы постоянно сталкиваемся с машиночитаемыми формами, просто не знаем, что они так называются. Для создания машиночитаемых форм Abbyy предлагает подробные инструкции и специальные средства. Сделать их совсем несложно. Кроме того, на деле программа куда умнее, чем кажется, в чём мы скоро убедимся.

Создание шаблона - это, пожалуй, самое сложное, что поджидает тех, кто решил использовать FormReader в работе. К счастью, заниматься этим придётся только однажды. Преодолев этот этап и закрыв мастер создания пакета (пакет - это набор шаблонов и обработанных документов), вы, наконец, столкнётесь с программой лицом к лицу.

Интерфейс FormReader покажется знакомым всякому, кто хоть раз работал с FineReader. Долго разбираться не придётся - всё понятно и без пояснений. Первая кнопка на основной панели, озаглавленная Scan&Read, запускает весь процесс сканирования и распознавания, так что, по всей вероятности, ей придётся пользоваться чаще всего. Большинство остальных кнопок на панели управления служат для перехода к отдельным этапам этого процесса.

Интерфейс FormReader основан на MDI; иными словами, внутри основного окна программы могут находиться дочерние окна. Как правило, всегда открыто дочернее окно текущего пакета, в котором перечислены все отсканированные или распознанные документы. Прочие окна, в большинстве своём, служат для работы с отдельными документами.

Вооружившись увесистой стопкой составленных по всем правилам машиночитаемых бланков с заполненными опросниками, мы принялись за работу. Продолжалось это довольно долго (при тестировании использовался обычный планшетный офисный сканер), а рассказ об этом, к нашему великому сожалению, выйдет очень коротким. Если не считать пары случаев (на полторы сотни двухстраничных анкет), когда шаблон по какой-то причине наложился на отсканированный бланк неправильно, и нескольких некачественно заполненных бланков, анкеты были введены в компьютер безошибочно. Да и тех считанных "бракованных" страниц, скорее всего, можно было избежать, имея больший опыт работы с FormReader, чем у нас (это, впрочем, нарушило бы чистоту эксперимента).

Результат совершенно предсказуемый. Мы далеко не первые пользователи программы. С помощью FormReader решались задачи пограндиознее нашей. Однажды Налоговая служба России обработала с помощью FormReader порядка 28 миллионов страниц, причём, заметьте, это случилось целых пять лет назад - с тех пор на компьютерном рынке сменилась целая эпоха. Впрочем, рассказывать все "истории успеха", связанные с FormReader, в этой статье нет смысла: у нас совсем другая цель. Если есть интерес, зайдите на сайт Abbyy, там их много (и не забывайте, что вскоре к ним вполне можно будет добавить и нашу историю).

Обнаружив, что FormReader работает, мы не устояли и решили попытаться найти предел возможностей программы. Под рукой у нас были немалые запасы анкет, сохранившихся с эпохи "до FormReader'а". Их готовили и заполняли, не предполагая, что кто-то попытается заставить компьютер разбираться в них.

Создание шаблона потребовало определённых усилий: на этот раз FormReader не всегда верно определял типы полей. Разобравшись с этим, мы приступили к сканированию старых анкет. К нашему великому удивлению, FormReader без особых усилий "проглотил" первую страницу, выдав единственную ошибку - неправильно распознанный чекбокс. Распознать написанный лихой скорописью текст ему не удалось, хотя, видно, он очень старался. Не обратив на это внимания (текста в данном типе анкет мало), мы продолжили опыт.

FormReader с честью выдержал нелёгкое испытание. Не на каждую анкету ему удалось с первой попытки верно наложить шаблон, многие содержали ошибку (как правило, одну, редко больше). Однако поиск и проверка ошибок, которые можно проводить прямо на экране компьютера, настолько просты и удобны, что в целом дело шло куда быстрее, чем когда данные этих анкет вводили в компьютер вручную. Будь в своё время FormReader, справиться с этой задачей было бы куда проще. Впрочем, главный итог этого эксперимента заключается в другом: он показывает, что у программы достаточно большой "запас прочности". Даже в не самых идеальных условиях она продолжает работать.

Нуждается ли эта статья в какой-то морали? Вряд ли рассказанное в ней вызвало у кого-то удивление. Репутация создателей FineReader всем известна, и то, что ещё один продукт, сошедший с их конвейера, работает именно так, как должен, не стало сюрпризом. Если вам однажды придётся столкнуться с тем же вопросом, который стоял перед нами, имейте это в виду.

© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.