Архивы: по дате | по разделам | по авторам

PROMT и СОКРАТ: концепции и впечатления

Архив
автор : Юлия Воронкова   05.08.2002

Казалось бы, что общего между богатством русского языка с его относительно свободным порядком слов в предложении, спецификой советской системы и потрясениями эпохи перестройки. Однако все эти факторы, каждый по-своему, способствовали тому, что исследования по машинному переводу, ведущиеся сегодня в России, разделены на строго научные, нацеленные на решение задачи перевода в ее академической постановке, и исследования прагматического характера, ориентированные на максимально достижимый существующими средствами практический результат.

Казалось бы, что общего между богатством русского языка с его относительно свободным порядком слов в предложении, спецификой советской системы и потрясениями эпохи перестройки. Однако все эти факторы, каждый по-своему, способствовали тому, что исследования по машинному переводу, ведущиеся сегодня в России, разделены на строго научные, нацеленные на решение задачи перевода в ее академической постановке, и исследования прагматического характера, ориентированные на максимально достижимый существующими средствами практический результат. Лидером некоммерческих научных проектов безусловно является разрабатываемая в ИППИ РАН система ЭТАП, уже упомянутая в материалах этого номера. Коммерческих же (что, разумеется, не означает «ненаучных») коробочных продуктов на российском рынке два: это линейки систем PROMT (разработка компании ПРОМТ, www.e-promt.ru) и СОКРАТ (разработка компании «Арсеналъ», www.ars.ru).

Объективно оценить качество такого рода продуктов непросто. Для этого - как минимум! - необходимо всестороннее тестирование на специальных примерах и на представительных наборах больших текстов, с последующей статистической обработкой результатов. Мы не пытались провести такое тестирование PROMT’a (PROMT XT Office) и СОКРАТа (СОКРАТ Персональный 4.1). В предлагаемом вашему вниманию материале мы лишь делимся впечатлениями и обсуждаем некоторые ключевые параметры этих двух систем. Приведенные примеры дают представление о сложности проблем, стоящих перед компьютерной лингвистикой.

Функциональность

Компания ПРОМТ идет по пути создания комплексных офисных продуктов, предоставляющих большие возможности для организации рабочего места переводчика - как профессионала, так и любителя. В новой версии PROMT XT Office реализованы богатые возможности работы со словарями, включая создание пользовательских словарей, возможность интерактивного просмотра и управления переводом, предусмотрены персональные настройки, в том числе так называемые «Алгоритмы перевода», которые позволяют задавать собственные правила и шаблоны для определенных конструкций, фразеологизмов языка.

В последней версии PROMT появилась принципиально новая функциональность, «Ассоциированная Память». По сути, это первый шаг внедрения технологии, известной на Западе под названием «Translation Memory» (TM), на которой построена, например, популярная профессиональная корпоративная система для переводчиков TRADOS (ПРОМТ недавно стала эксклюзивным представителем компании TRADOS в России, см. www.promt.ru/solutions/trados. phtml). Описание основных идей TM, взятое из документации TRADOS, приведено на [2] (в переводе PROMT).

Механизм «Ассоциированной Памяти» позволяет обучать систему. С его помощью можно сохранить удовлетворяющий вас перевод текста в базе знаний и в дальнейшем использовать его фрагменты при переводе похожих текстов. Этот механизм очень полезен для профессиональных переводчиков, а также при коллективной работе в фирмах, оперирующих обширной документацией на разных языках.

Напротив, продукты линейки СОКРАТ - скорее, инструментальные средства для массового использования, предназначенные в первую очередь для встраивания в офисные продукты и использования в Интернет-приложениях.

Обе системы позволяют отредактировать перевод, однако делают это по-разному. СОКРАТ пытается найти однозначное решение и не дает вариантности в терминах: слово, отсутствующее в словаре, остается в исходном написании. PROMT же обычно предлагает несколько вариантов перевода слов и словосочетаний [3], [6].

Лингвистические особенности

Качество перевода, обеспечиваемое коробочными системами, зависит от многих факторов, в первую очередь от объема и качества словарей и от набора алгоритмов анализа предложений и текстов в целом. Использование любой из имеющихся систем требует большой осторожности (особенно для автоматического перевода в делопроизводстве и Интернет-приложениях); ни от одной из них пока нельзя ожидать «правильного», литературного перевода текста, состоящего из сложных фраз. Тем не менее, представление о сильных и слабых сторонах той или иной программы можно получить, испытав ее на нескольких каверзных предложениях - например, требующих построения модели управления или корректного семантического анализа с последующим разрешением омонимии.

Посмотрим, как ведут себя PROMT и СОКРАТ на классических (и очень суровых!) примерах, связанных с различным использованием слов «стекло», «лужу» (которые могут быть и существительными, и глаголами), как они реагируют на изменение порядка слов в почти букварной фразе «Мама мыла стекло».

СОКРАТ не смог адекватно перевести эти примеры, так как не справился с анализом предложений [4]. У PROMT’а [3] возникли проблемы с порядком слов в русском предложении; впрочем, он не смог справиться ни с одним из вариантов предложения «Мама мыла стекло». Однако явно видны попытки семантико-синтаксического анализа: и «стекло» у него везде переведено как надо, и слово «лужу» он в одном случае из двух все-таки правильно связал с лужением, а не с лужей.

Очевидно, что базовые словари обеих программ сравнительно полны. Однако на уровне морфологического анализа часто возникают проблемы. Когда необходимо анализировать словообразование, искать сложные производные, оба переводчика начинают сбоить. Слова «почтальонша» и «генеральша» не распознаются, результаты определения слов типа «двухдверный» могут зависеть от падежа.

Показателем количества труда, вложенного в создание программы-переводчика, может служить способность распознавать и корректно переводить устойчивые словосочетания. Оба обсуждаемых переводчика справляются с составными предлогами и союзами. Однако нам не удалось найти фразеологизмов, с которыми СОКРАТ смог бы справиться. Соответствующего словаря у него, похоже, нет, а используемые в таких словосочетаниях отдельные слова не распознаются («мудрствуя») или переводятся неверно («мил» - как «миля») [5].

PROMT в целом справляется с фразеологизмами, даже если они не занесены в словарь как устойчивое словосочетание («<русский> мужик задним умом силен»). Интересно, что PROMT смог правильно определить одно и то же устойчивое словосочетание «насильно мил не будешь» для перевода на английский и французский, не распознав его при переводе на немецкий [6]. Вообще, в PROMT’е наблюдается сильная зависимость от языковой пары. Например, если при переводе на английский междометие «ах» распознается, то при переводе на немецкий оно фиксируется как неопределенное слово. Видимо, в данном случае дело не в русской морфологии или постморфологии, а все-таки в двуязычных словарях, которые отстают от базовых словарей для русского языка.

PROMT, странным образом, не справился с простым примером «Из правил всегда бывают исключения», переведя его «в лоб», без поправок на строгий порядок слов в английском предложении. А вот на немецкий фраза была переведена корректно. Не справился PROMT и с довольно простой грамматической конструкцией «Первое мая - это праздник труда, поэтому никто не работает», не помогло даже указательное местоимение «это». В обоих направлениях перевода глагол берется из придаточного предложения. Кроме того, в немецком варианте PROMT не смог выбрать верное по смыслу слово [5], [6].

Мы привели эти примеры не для того, чтобы подвести читателя к выводу: все плохо! Наоборот, мы считаем, что прогресс коммерческих, общедоступных систем машинного перевода огромен, и можно лишь порадоваться тому, что несмотря на все трудности развитие этих систем продолжается.


Мы ограничились бы рассмотрением только систем PROMT и СОКРАТ, если б не недавняя статья Алексея Сокирко («Будущее машинного перевода» - «КТ» #446), содержащая множество задорных заявлений о концептуальных преимуществах системы перевода, созданной группой «ДИАЛИНГ» (www.aot.ru). Мы решили предложить один из наших тестовых примеров и этой системе (в варианте, доступном на сайте разработчиков). Увы, результат не дал оснований для оптимизма [1]. Разработчики не располагают не только средствами серьезного семантического анализа (обратите внимание, что их семантические графы не смогли даже оставить рядом имя и отчество), но и полноценным морфологическим модулем. Да и перевод в транслитерацию, которым система явно злоупотребляет, все-таки не то же самое, что перевод на английский. В общем, декларации о перспективности разработки «ДИАЛИНГа» кажутся нам преждевременными.


© ООО "Компьютерра-Онлайн", 1997-2021
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.