Архивы: по дате | по разделам | по авторам

Будущее машинного перевода

Архив

автор : Алексей Сокирко 05.06.2002

Системы машинного перевода еще далеки от совершенства. Мои знакомые профессиональные переводчики, не раз вынужденные оценивать своих электронных конкурентов, в один голос твердят, что машина языка не понимает и не поймет. Один даже категорически заявил: «Учить машину естественному языку - все равно что поставить обезьяну вместо регулировщика: палочку крутить будет, а зачем это нужно делать, так и не уразумеет». Но есть и другое мнение. Например, моя бывшая одноклассница полгода вела электронную переписку с французом, пользуясь системой ПРОМТ для перевода с русского на французский и наоборот. Французского она не знала совсем, но адресат об этом так и не догадался.

И все же, почему серьезные люди начинают плеваться после первого же сеанса работы с любым машинным переводчиком. Мне кажется, неприязнь частично связана с самим термином «машинный перевод» или с еще более громким - «искусственный интеллект». Пафоса в обоих терминах гораздо больше, чем реального наполнения. Они даже построены одинаково. Берется слово («перевод» или «интеллект»), которое применимо только к человеческой деятельности, и к нему добавляется что-то от компьютера. И обычные люди, неспециалисты, ошибочно полагают, что компьютер может здесь подменить человека, а на самом деле подменить человека он может только в редких, оговоренных программистами случаях!

Машинных переводчиков довольно много, и они очень разные. Есть старые заслуженные системы, например, основанная в 1968 году Systran (www.systransoft.com). Ее разработка стала целой научной эпохой в машинном переводе. Есть и новые, среди которых немало халтурных. Одна из них носит название LanguageForce (www.languageforce.com). Несколько лет назад фирма LanguageForce объявила, что сделала переводчик, который включает пятьдесят языков (перевод со всех на все), и стала продавать его задешево. Объем продаж был огромен, но вскоре клиенты, сравнив качество перевода с аналогами, поняли, что их надули. О LanguageForce сейчас ничего не слышно.

Традиционно системы машинного перевода делятся на две категории: основанные на правилах (rule-based) и основанные на примерах (example-based). В первых языковая грамматика проработана глубже, языковых правил больше. Системы второго типа - самообучающиеся, они строятся на динамическом порождении языковых правил для конкретных текстовых примеров. Границы между системами example-based и rule-based не очень четкие, поскольку и те и другие используют словари (статическая информация о языке) и правила работы со словарями. Яркий представитель класса example-based - система Trados (www.trados.com), работающая фактически на одних примерах, без грамматики. Trados предназначена для больших переводческих центров, где накопилось много параллельных текстов (два текста, один из которых является переводом другого). Она позволяет не переводить дважды одно и то же предложение, а просто находит такое же или очень похожее предложение в базе параллельных текстов и выдает уже сделанный кем-то перевод. При больших массивах однотипных текстов такой подход весьма эффективен. Вообще, понятие массива документов очень важно для машинного перевода. Большинство специалистов сходится во мнении, что машинный перевод возможен только для прикладных (технических) текстов, которые могут быть заданы определенными, порой гигантскими массивами. Художественная литература, как антипод технических текстов, никогда не будет переводиться компьютером адекватно.

На российском рынке машинных переводчиков немного, и главный среди них - система ПРОМТ (www.translate.ru). По моему субъективному мнению, ПРОМТ занимает до 95 процентов рынка машинного перевода в России, причем его позиции сильны не только у нас, но и в Европе. О бывшем конкуренте ПРОМТа - системе «Сократ» - почти ничего не слышно, хотя они вышли из одной питерской лаборатории и еще лет пять назад конкурировали. Ходят слухи, что компания «Арсеналъ» (создатель «Сократа») готовит новую версию системы машинного перевода, на порядок превосходящую аналоги. Дождемся ли? Кроме коммерческих машинных переводчиков, есть и академические. Самый авторитетный - это русско-англо-русская система ЭТАП (proling.iitp.ru). Для России ЭТАП - то же, что Systran для остального мира: она дала начало целому научному направлению, ставшему основным в российских академических разработках машинного перевода. В отличие от ПРОМТ, технологии системы ЭТАП описывались в открытых публикациях. ПРОМТ в этом смысле - черный ящик. Кто из них победит на рынке, сказать, конечно, трудно. Но что значит «победит»? Как оценить качество работы машинного переводчика? Одна из технологий построена на подсчете того, сколько раз нужно нажать на клавиши, чтобы исправить допущенные программой ошибки, но мне кажется, что правильнее считать ошибки так, как это делается в школе. Не поставил запятую в диктанте - ошибка, выбрал не ту грамматическую форму слова - ошибка и т. д. Отдельно нужно присвоить каждому предложению коэффициент понятности. Перевод может содержать массу грамматических ошибок, но быть предельно ясным. Как, например, предельно ясен перевод русской фразы «иду я домой» на английский «go I home», хотя порядок слов - неверный. Используя такую систему оценки, можно легко понять, чем ПРОМТ отличается от ЭТАПа. Создатели ПРОМТа готовы пожертвовать грамматической правильностью в пользу понятности перевода. Создатели ЭТАПа, напротив, уделяют пристальное внимание грамматике и стараются выдавать только грамматически верные результаты. Дело в том, что ПРОМТ ориентирован на конечного пользователя, а ЭТАП - академическая разработка, ей ошибаться нельзя. Можно ли синтезировать эти два подхода? Трудно, но попытки уже есть. Один из вариантов представлен на сайте www.aot.ru (группа «Диалинг»).

Сразу скажу, что русско-английский машинный переводчик, выложенный на этом сайте, пока не дотягивает ни до ПРОМТа, ни до ЭТАПа. Однако я уверен, что у него большое будущее. В чем конструктивное превосходство аотовского переводчика? Он лучше ПРОМТА тем, что у него открытая задокументированная архитектура с четко прописанными компонентами и интерфейсами между ними. Он лучше ЭТАПа тем, что не «зациклен» на грамматической правильности. Аотовский переводчик скорее выдаст перевод с несколькими ошибками, чем не выдаст ничего. Он лучше ПРОМТа и ЭТАПа вместе взятых, потому что у него есть так называемый поверхностно семантический модуль. А вот здесь начинается что-то непонятное. Что такое семантика? Сам термин «семантический анализ», несмотря на популярность, не является устоявшимся. Теоретические лингвисты и вообще гуманитарии трактуют его гораздо глубже, чем прикладники. Под семантикой обычно понимают выражение смысла слов путем их толкования. Однако многие специалисты приходят к выводу о невозможности эффективной алгоритмической реализации семантического анализа через толкования. Таким образом, толкование теряет прикладное значение. Надо искать что-то другое. Подход, который группа «Диалинг» взяла за основу, называют информационно-ролевым. Это означает, что смысл текста выражается графом, в узлах которого стоят слова или единицы, равные по объему словам. Например, числительные, которые в русском языке выражаются многословной конструкцией, сливаются в один узел. Или, например, связка «быть», которая в русском языке иногда опускается («она пионерка»), должна быть восстановлена в отдельный узел. Отношения графа задаются перечнем и называются семантическими отношениями. Рассмотрим примеры.

«Дом Пашкова стоял на пригорке»:

Кроме слов, семантические узлы могут включать:

знаки препинания. Например, для предложения «Он купил картошку, лук».
устойчивые обороты. Например, для предложения «По правде говоря, я сплю»:
абстрактные узлы связки. Например, для предложения «Он считал этого человека великим ученым»:
устойчивые словосочетания. Например, «Ему не хватило духа сказать об этом»:
жесткие синтаксические группы, например, для словосочетания «двадцать два мальчика»:

Получив для каждого предложения входного текста такую семантическую структуру, мы можем построить вопросно-ответную систему. Например, для построения ответа на вопрос «Где стоит дом Пашкова?» нам нужно сравнить семантическую структуру вопроса со структурой предложения «Дом Пашкова стоял на пригорке» и отождествить слово «пригорок» со словом «где», поскольку все остальное у вопроса и исходного предложения будет совпадать. На сайте www.aot.ru любой желающий может ввести свое предложение и попробовать выстроить похожую семантическую структуру. Во многих случаях она не будет полностью связанной - из-за неполноты словарей (сейчас их наполнение составляет 50 процентов) или ошибки во входном предложении.

Как же осуществляется машинный перевод на базе аотовской семантической структуры? По русской семантической структуре строится такая же, но уже английская, в узлах которой стоят английские слова или устойчивые словосочетания. Затем по семантической структуре синтезируется цепочка английских слов. Например:

Руccкое предложение: «Своим неожиданным приездом он застал меня врасплох».

Русская семантическая структура:

Английская семантическая структура:

Английский перевод: «He took me by surprise by his unexpected arriving».

Теперь понятно, что использование аотовской семантической структуры полезно как в вопросно-ответных системах и системах машинного перевода, так и в любых системах автоматической обработки текста. Самый серьезный недостаток нашего подхода в том, что семантика работает довольно медленно (двадцать слов в секунду), но качество того стоит. Как же строится семантическая структура?

Первый этап - построение узлов и словарных интерпретаций каждого узла. В большинстве случаев узел - это одно слово, но могут быть и словосочетания (например, «застать врасплох»). В прикладной лингвистике нет четких границ между понятием устойчивого словосочетания и свободной цепочки слов. Но есть некоторые методологические принципы. Один из них - принцип удаления: cемантическая или синтаксическая структура некоторой фразы P должна быть инструкцией по добавлению или удалению разных частей этой фразы. Причем при любых модификациях структуры действуют два правила:

cтруктура не должна содержать разрывов.
чем ближе друг к другу слова в структуре, тем сильнее их смысловое взаимовлияние. Слова, стоящие в одном узле, должны оказывать друг на друга максимальное влияние, именно об этом думают составители словаря, когда указывают, что те или иные слова образуют устойчивое словосочетание.

Словарная интерпретация узла - это множество словарных статей, в каждой из которых записано, какими другими узлами может управлять данный узел.

На втором этапе первичного семантического анализа строится граф гипотетических связей - в котором отношения между узлами проводятся только на основе грамматических условий. Граф гипотетических связей почти всегда содержит много лишних гипотез, которые придется отбрасывать на последнем этапе.

Например, для фразы: «Одной из главных задач 1999 года Банк России считает восстановление доверия населения и хозяйствующих субъектов к российскому рублю» будет построен такой граф гипотетических связей (рис. 1).

Не пытайтесь понять эту структуру, просто подумайте, о том количестве вариантов, которые машина должна перебрать, чтобы получить дерево.

Третий этап первичного семантического анализа - получение деревьев и выбор лучшего дерева по строгим лингвистическим критериям. Например, предыдущий граф будет превращен в следующий (рис. 2).

В заключение хочу поблагодарить участников проекта www.aot.ru и д.т.н. Н. Н. Леонтьеву, из работ которой я многое заимствовал.