Архивы: по дате | по разделам | по авторам

Автоматическая классификация документов

автор : Татьяна Хапаева 07.02.2002

В статье описываются современные методы классификации информации . Особое внимание уделено различным методам классификации при помощи нейро-сетей.

Возможности человека воспринимать и преобразовывать в своём сознании информацию за последние 100 лет особенно не изменились. В то же время, Интернет и IT, наоборот, развиваются галопирующими темпами, множа бесчисленные файлы, мейлы, формы и прочую информацию. Отсюда возникает вопрос: можно ли найти универсальную систему сортировки этого огромного потока информации, документов, файлов?

К примеру, последняя новинка Yahoo-Spamguard , который автоматически отсылает спам в папку “Bulk Mail”. Принцип сортировки прост — в “Inbox” попадает корреспонденция лишь от известного отправителя. Дальнейшая настройка осуществляется пользователем путем создания фильтров с нужными условиями.

А что происходит в более крупных масштабах? США с завистью взирает на Европу, где используются системы, позволяющие автоматически сортировать около 100 тыс. писем в день. Входящая почта поступает на сканер, где формируется TIF-изображение. Далее с помощью приложений OCR/ICR (Optical/Intelligent Character Recognition) распознаётся текст, и делопроизводитель уже имеет дело с электронными версиями писем и виртуальными почтовыми ящиками внутри предприятия.

По данным Gartner Group ежедневно по всему миру бюрократами подшивается порядка 200 млн. бумаг. Некоторые организации по медицинскому страхованию пропускают через себя около 150 тыс. квитанций в день. Но, скажем, квитанция за очки обрабатывается ими иначе, чем счёт за пребывание в больнице.

Наиболее логичный путь сортировки — поиск по ключевым словам. В данном случае процедура носит итерационный характер (итерационный подход, заключается в последовательном решении более простых задач — прим.ред.). Сначала в тексте письма ищутся наиболее общие понятия. К примеру, «Счёт», «Сумма», «оплачиваемый клиентом». В базе поиска хранятся разнообразные комбинации этих слов. В зависимости от результатов дальнейший поиск ведётся уже по другим ключевым словам, и т.д. Точность такого метода — порядка 80%.

Для повышения точности классификации зачастую приходится комбинировать несколько метод. Предположим, что перед нами на столе лежит конверт с целой пачкой бумаг: заявление, ходатайство, план, несколько мелких копий. В данном случае различаются 3 типа документов:

Организованные физически. Как анкета или формуляр. Зачастую внутри встречается текст, написанный от руки.

Организованные логически. То есть с текстом предопределённого содержания. Они легко распознаются по заглавию («Счёт», «Квитанция» и т.п.).

Но чаще всего встречаются документы в «свободном формате». Такие как запросы или жалобы от клиентов. Это самый сложный случай, и одним заглавием здесь не обойтись. Приходится анализировать тело документа. Ведется поиск сразу множества альтернативных понятий и результат зависит от частоты встречаемости их во всем тексте, контекста и многого другого.

Дополнительно с помощью известных прототипов определяются «избранные зоны» в документе. Им сопоставляется определённый шаблон и в соответствии с ним выявляется, например, страховой номер или адрес. Это уже комбинация анализа формуляра и полнотекстового разбора.

В случае формуляров и счетов изучается содержимое определённых полей. К примеру, адрес, дата или размер вклада. Далее применяется инструментарий для анализа документа в «свободном формате». В результате сопоставления со списком известных понятий и их альтернатив всплывают разнообразные данные. Для того, чтобы их упорядочить и связать друг с другом, используются логические операторы. Свет также проливают устойчивые речевые обороты и синонимы.

Программа, которая хорошо себя показала в одной области, не всегда легко переносится на другую. К примеру, счета и квитанции, скажем, для редакции и научного института сильно различаются. Разработчики SER предлагают для этой цели использовать самообучающиеся нейро-сети. Процессы в нейро-сетях по своей сути ориентируются на биологическую модель искусственного интеллекта. Следует отметить, что нейро-сеть по определению является чёрным ящиком. То есть, если процессы внутри неё пойдут не в нужном русле, то извне их ход изменить уже нельзя. Более того, невозможно даже уяснить в какой момент и что за ошибка произошла. Пользователю в помощь даётся только дерево правил, где можно просмотреть и исправить итоговую структуру документации.

В случае, когда возможна двоякая трактовка при анализе документов, как, например, между цифрами 4 и 9, написанными от руки, или ошибок неточного формулирования, нейро-сети могут распознавать отдельные символы.

Точная структура, основанная на правилах, выполняет также интегрирующую функцию: она позволяет сравнить извлечённые данные с исходными и разложить их по виртуальным почтовым ящикам делопроизводителей. Такая актуализация производится OCR/ICR-сервером. Довольно быстро и без особой нагрузки на сеть протекает поиск документов по заданным параметрам. Сервер допускает до 40 запросов в секунду.

Производители приложений и оборудования

Paradatec предлагает для классификации OCR-сервер. За высокую скорость обработки приходится платить большими объёмами памяти. Самая маленькая лицензия рассчитана на 5000 страниц. Поддерживается разрешение от 100 dpi. Имеется также база данных почерков и штрих кодов разных цветов. Пользователь может работать с отдельными классами документов и явно сформулированными правилами. Он может также создавать свои собственные выражения на базе правил. Ocè, ICR, Insiders и SER устроены аналогично.

В ситуации архивов, литературных БД или библиотек SER подключают нейро-сети. Поскольку, например, вопрос о классификации статьи на тему «Влияние ошибок строителей на дыхательные пути» является спорным (Медицина, Архитектура или Строительство), его решение лучше предоставить экспертной системе. Ни один библиотекарь не в состоянии самостоятельно осмысленно разобрать все такие спорные моменты в диссертации или книге. Однако, гарантировать однозначность классификации, даже выполненной системой, также невозможно.

IBM и Autonomy работают на статистической основе, позволяющей отображать документ в многомерном векторном тематическом пространстве. Якобы, такой подход решает проблему однозначности.

Следует также обратить внимание на технологию «списков стоп-слов». Артикли, междометия, некоторые союзы и т.д. при тематическом распределении не важны. SER предлагает выбрасывать их из текста.

Каждый, кто хоть раз пытался что-то отыскать в Интернете, знает через какую чащу избыточной информации приходится пробиваться. Также обстоят дела и при работе с гетерогенным (неоднородным) архивом.

SER предлагает инструмент, который запускается каждую ночь или каждые 2 часа — по желанию и производит подготовку архива к поиску по определённым параметрам.

Поиск — стандартный, без булевых операций. Кто хочет большего, может подключить Lotus Discovery Server Themes . Такая возможность предусмотрена.

Методы анализа текста

Автоматический статистический анализ текста базируется на том, что понятие должно встречаться в тексте с определённой частотой. Здесь важно подобрать нужные ключевые слова. Поскольку почти в каждом официальном документе стоит слово «уважаемый», для классификации это явно не подходит. Тут нужны понятия со средней вероятностью. К примеру, если в документе встречается «DM» или «Euro», скорей всего это документ типа «Счёт». Т.е. в целом, если содержимое архива является приблизительно гомогенным (однородным), то статистический способ может подойти.

Вероятностные методы базируются на релевантности понятий. Этот подход весьма user-friendly, но в то же время и очень субъективный. Один и тот же термин может иметь различное значение для разных пользователей. К примеру, «рак» — это беспозвоночное, болезнь и созвездие. Необходимо сужать тематическое пространство.

Лингвистический анализ решает проблему контекстного согласования понятий, состоящих из нескольких подпонятий, которые вместе несут смысловую нагрузку. На уровне языка программирования это приводит к использованию регулярных выражений и кэшей. Тем, кто работал с Перлом, это очень понятно. При таком анализе в отличие от статистического метода охватывается весь текст, так что подчас вычислительные расходы очень велики.

На самом примитивном уровне речь идёт о морфологическом анализе. Ищутся отдельные словоформы или части слова. Например, понятия «платить», «оплаченный» и «платный» должны указывать на дескриптор «Счёт».

При синтаксическом анализе определяется структура предложения. Так, соответствующий инструментарий должен преобразовать предложение «Методы следует тестировать» во внутреннюю нормализованную форму — «тестируемые методы». То есть данный метод учитывает семантические связи между словами.

На этой странице Вы можете опробовать любопытную online-демонстрацию: вводите URL, а в ответ получаете «ключевые слова», «похожие сайты», «основные моменты».