Послескание
Архив
Выполняя данное две недели назад обещание, рассказываю о тестировании программы AfterScan.
Как я писал в «Новом маркетинговом слове», AfterScan возник из модуля проверки орфографии редактора Иероглиф, который вышел из-под пера Михаила Морозова 1. Напомню читателям, как этот модуль работал: если в процессе печатанья вы совершали ошибку, справа от курсора тут же выскакивал список со всеми возможными вариантами исправления, так что достаточно было выбрать клавишей стрелки нужный вариант и нажать Enter!
С самого начала было ясно, что новый модуль орфографической проверки - довольно оригинальный ход в обстоятельствах (офисные приложения), которые, казалось, не оставляют никаких шансов для новаторства - так тщательно всё вылизали и обскребли все сусеки редмондские умельцы. Однако никак нельзя было предположить, что Михаилу Морозову и Сергею Москалеву удастся развернуть эту курицу таким боком, что она начнет нести уж совсем неожиданные золотые яйца. Тем не менее, это факт: из небольшого модуля родилась программа, помеченная родимым пятном новаторства на сей раз уже по всему лбу. Так что, неровен час, и авторам AfterScan’а тоже вручат премию мира. Судите сами.
AfterScan автоматизирует обработку текстов большого объема, введенных как вручную, так и при помощи программ распознавания (OCR). Именно - обработку, а не проверку орфографии, потому что алгоритмы программы существенно отличаются от того, что делают традиционные спеллчекеры. Как искренне верят авторы, AfterScan - это программа следующего поколения. Предполагается, что традиционный спеллчекер находит ошибки в знакомых ему словах, тогда как AfterScan анализирует даже незнакомые конструкции.
Установив AfterScan на своем компьютере, я с замиранием сердца прочитал в описании, что программа «исправляет ошибки, основываясь на вероятностных и эмпирических знаниях о структуре языка и при этом придерживается принципа „не навреди“». Как только я это увидел, меня холодный пот и прошиб: похоже - влип! Ничего более ужасного и представить нельзя: компьютерная программа будет сама за меня решать, что является ошибкой, а что нет! Вот они - благие намерения, которыми умостили сами знаете какую дорогу.
Отступать было поздно, поэтому с опаской и оглядкой взялся за дело. Для начала решил испытать AfterScan не на группе файлов, а на одном, но заковыристом: индуистском трактате с множеством нерусских (однако - не английских!) слов. Файл - в формате HTML. Надо сказать, что AfterScan существует в нескольких версиях: базовый Express, издательский вариант Professional, Antique для обработки старорусской орфографии и ее перевода в новое написание и WebMaster для пакетной обработки большого числа документов (например, веб-сайтов целиком). Я тестировал именно WebMaster, способный автоматически обнаруживать HTML-теги и скрипты в тексте.
После загрузки файла программа предлагает выбрать автоматический или интерактивный режим. «Гулять, так гулять!» - махнул я рукой и выбрал полный автомат.
Шаманство запустилось, и я едва успевал следить за тем, что творила программа: сначала она отыскала все URL, затем - математические символы и химические формулы, новые слова, сокращения и прочие чудаковатости текста. Затем AfterScan взялся за правку: удалил лишние (как ему казалось) символы, обработал знаки препинания, восстановил длинные тире, исправил переносы, скобки, русские и английские слова, составил список неопознанных слов и множественных вариантов. После этого он перешел в очень интересный двухоконный режим: редактора и журнала исправлений.
Безусловно, журнал исправлений - изюминка AfterScan. В одном месте собраны все изменения, самостоятельно сделанные программой, а также неопознанные слова, так называемые аномалии (как правило, такими «странностями» оказались отдельно стоящие буквы), новые слова и множественные варианты. Даже если бы новаторство AfterScan ограничилось журналом, этого бы за глаза хватило для похвалы: вместо того, чтобы тратить часы на перелистывание сотен страниц текста и поиск обнаруженных ошибок, теперь достаточно пройтись по списку журнала и внести ручные исправления прямо в нем. При этом текст в редакторе будет исправляться автоматически!
Что можно сказать по поводу исправлений орфографии, сделанных AfterScan самовольно? Честно сказать: ожидал чего-то более страшного. На самом деле правка оказалось деликатной. Ясное дело, с ошибками - уж больно слова подобрались специфические: ну разве можно винить программу за изменение «Сурьи» на «Суры», а «Шивы» на «шину»? Главное, что AfterScan не утаил свои проделки и вывел их в журнале, где я легко и быстро вернул все на свои места.
В списке не узнанных слов вполне оправданно оказались «Аум», «Шабда», «Бриндавана» и тому подобные «индийскости». Правда, туда же попали и самые заурядные английские «claimed», «copyrights», «place» и «are». Полагаю, сбой возник из-за кодировок, с которыми в моей Windows XP чуть ли не каждый день творятся сущие чудеса.
В окне самого редактора очень удобной мне показалась система цветных разметок: черным выделен нетронутый текст, темно-синим - исправления, для которых был найден единственно правильный вариант, голубым - исправления с множественными вариантами, зеленым - неизвестное слово, которое несколько раз повторялось в тексте, зелено-голубым - аббревиатуры, наконец, красным - не исправленные и неопознанные слова. Не менее удобна опция удаления и восстановления этих разметок путем выбора соответствующих опций в меню.
Резюме: AfterScan - монстрюга. Особенно я это почувствовал, запустив пакетную обработку сотен документов смешанного типа - чистого текста и HTML. Конечно, после работы программы пришлось основательно поковыряться ручками, но сэкономленное время (кстати, указанное в отчете программы) исчисляется многими и многими часами.
Как обычно, линки на программы, помянутые в «Голубятне», вы найдете тут: internettrading.net/beritut.
[i42242]
1 (обратно к тексту) - Об Иероглифе я писал в «Голубятне» «Наш особый путь» («КТ» #405).