Архивы: по дате | по разделам | по авторам

Неразрешимая проблема компьютерной лингвистики

Архив

автор : Андрей Чеповский 02.08.2002

Первая ассоциация, которую у многих вызывает словосочетание "искусственный интеллект", - автоматический машинный перевод и "понимание" устройством текста на естественном языке. Эту проблематику в последние годы все чаще относят к особой научной дисциплине под названием "компьютерная лингвистика", успехи которой кажутся призрачными.

Первая ассоциация, которую у многих вызывает словосочетание «искусственный интеллект», - автоматический машинный перевод и «понимание» устройством текста на естественном языке. Эту проблематику в последние годы все чаще относят к особой научной дисциплине под названием «компьютерная лингвистика», успехи которой кажутся призрачными: не желают компьютеры различать смысловые оттенки и выдавать красивые литературные переводы.

Проблему автоматического перевода и анализа текста на естественном языке можно сопоставить с проблемой управляемого термоядерного синтеза. Мировая наука активно работает и над той, и над другой вот уже полвека, но, вопреки оптимистическим прогнозам, обе далеки от решения. Есть, правда, маленькое отличие между этими двумя фундаментальными технологическими вызовами: естественных термоядерных реакторов, насколько мне известно, на Земле нет, а вот созданных природой «устройств», понимающих естественный язык, - миллиарды. Гигантский прогресс науки и технологий не дает утратить оптимизм относительно проблемы машинного перевода. Однако большинству специалистов и наблюдателей свойствен здоровый скептический юмор, прекрасно проиллюстрированный Станиславом Лемом в рассказе «Вторжение с Альдебарана»:

- А, мать вашу сучью, дышлом крещенную… - гремело ему вслед. <…>

В тот момент, когда альдебаранец с трудом разбирал на экране Телепатика первую переведенную фразу существа: «Предок по женской линии четвероногого млекопитающего, подвергнутый действию части четырехколесного экипажа в рамках религиозного обряда, основанного на…» - воздух завыл над его каракатицевидной головой и смертельный удар обрушился на него.

Компьютерная лингвистика родилась в январе 1954 года, когда в Джорджтаунском университете (США) был проведен первый в мире публичный эксперимент по машинному переводу. В те же времена под руководством крупнейшего математика и кибернетика Алексея Ляпунова начались активные работы по машинному переводу и в Москве. В созданную Ляпуновым группу вошли, в частности, тогдашние студенты и аспиранты, будущие «родители» отечественной компьютерной лингвистики Игорь Мельчук и Ольга Кулагина.

Впрочем, основа для успехов отечественных ученых закладывалась намного раньше. В 1920-х годах в России велись интенсивные исследования по семиотике текста, в то время как широкомасштабное изучение семиотики во всем мире относится только к началу 1960-х годов (что в значительной мере связано с работами эмигрировавшего из России в 1920 году создателя структурной лингвистики Романа Якобсона ¹). Стремительный прогресс семиотики стал основой для сближения лингвистики и математики на почве популярного в 1950-60-е годы математического структурализма, в духе предельно формализованных математических структур Бурбаки. Идеи семиотики объединяли крупнейших ученых, среди которых математик Владимир Успенский и лингвист Вячеслав Иванов. Успехи формального подхода к описанию языка наглядно продемонстрировали возможность превращения чисто гуманитарной науки в логически строгую дисциплину.

Работы по кибернетике и, в частности, по структурной лингвистике, развернутые в конце 50-х годов под руководством академика Акселя Берга и члена-корреспондента АН СССР Алексея Ляпунова, вывели отечественную науку на передовые позиции. Уже в начале 1956 года в Институте прикладной математики (ИПМ) им. М. В. Келдыша заработала первая отечественная система машинного перевода с французского на русский язык. Система ФР-I давала перевод явно более высокого качества, чем у американцев. Интересно, что математики рассматривали алгоритмы машинного перевода как частные случаи изучаемых в кибернетике алгоритмов перекодирования.

Огромное значение имело выработанное Алексеем Ляпуновым и Ольгой Кулагиной теоретико-множественное представление грамматических категорий языка. Эти результаты были получены независимо от работ Ноама Хомского (Noam Chomsky), считающегося создателем теории формальных грамматик. Большую роль сыграли работы Игоря Мельчука по автоматическому грамматическому анализу. Обобщения и систематизация результатов математической лингвистики позволили создать стройную теорию формальных языков. Проблема заключалась в одном: аппарат теории формальных языков был очень хорош для искусственных языков, в частности для языков программирования, но не давал приемлемых результатов для анализа естественного языка и построения адекватной системы машинного перевода.

Семиотика - научная дисциплина, изучающая общее в строении и функционировании различных знаковых систем, хранящих и перерабатывающих информацию. Семиотика рассматривает как природные знаковые системы (коммуникация в мире животных), так и действующие в человеческом обществе (язык, обряды и др.)

Впоследствии сам Мельчук признал, что работы по автоматическому синтаксическому анализу русского языка были «абсолютно тупиковые». А могло ли быть иначе? Искусственные языки специально создаются так, чтобы было удобно манипулировать формальными конструкциями, описывающими «прозрачную» семантику, которая сводится, как правило, к конкретным действиям. Таковы алгоритмические языки в программировании. В естественном языке есть нечто большее - буквальная семантика, с которой и связано понимание человеком текста. Понимание это может быть не таким уж простым даже для носителя языка и связано с мыслительными процессами, а не с формальными правилами описания самого языка. Поэтому для автоматического перевода надо уметь описывать смысл фразы, а не ее формальную запись.

Очевидные сегодня идеи были выстраданы и обнародованы несколько десятилетий назад Игорем Мельчуком и Александром Жолковским. Разработка ими лексических функций, создание теории «Смысл-Текст» явились колоссальным скачком в построении строгой концептуальной системы, применимой для анализа естественного языка.

Мельчук был слишком талантлив и поэтому, видимо, неудобен. Советская система вытолкнула его из страны. Книги по общей теории морфологии он заканчивал уже в эмиграции. Пятитомная фундаментальная монография «Курс общей морфологии» вышла на Западе в 90-х годах. Не вдаваясь в подробности и несколько упрощая, суть теории Мельчука можно свести к построению формального семантического языка, на котором и будет описываться смысл текста. Это открывает огромные возможности как для задач анализа текстовой информации, так и для задач машинного перевода.

Реализацией этих возможностей занимался коллектив под руководством академика Юрия Апресяна, разрабатывающий систему машинного перевода ЭТАП. В настоящее время эти очень важные работы продолжаются в лаборатории Института проблем передачи информации РАН, возглавляемой Ильей Богуславским.

Питерским математиком Виталием Тузовым недавно была создана модель естественного языка, использующая упрощенный вариант идей Мельчука. В модели Тузова сделана попытка свести задачу извлечения информации из текста к задаче преобразования текста на формальном семантическом языке во внутреннее представление базы знаний. Статья с рассказом о работах по реализации этой, безусловно, интересной модели («КТ» #450) вызвала активную дискуссию на сайте журнала. В связи с этим не могу удержаться от одного замечания: поразительно, что многие программисты, занимающиеся созданием коммерческих продуктов в области обработки текстовой информации, не понимают, что некоторые задачи составления и пополнения словарей вполне алгоритмизуемы - как и многое другое в этом мире…

Путь идей к признанию иногда очень долог и труден. Потребовалось более тридцати лет, чтобы перейти к реальным разработкам на основе созданной Валентином Турчиным теории суперкомпиляции (см. «КТ» #402). Сменилась элементная база, появились совершенно новые технологии программирования, и то, что раньше многие причисляли к нереализуемым теоретическим изыскам, становится востребованным. Возможно, такой же путь ждет и теорию Мельчука. Наверное, неслучайно похожи судьбы этих ученых.

Компьютерная лингвистика стремительно развивалась в СССР в 1960-е годы. Однако в следующем десятилетии работы в области машинного перевода оказались под жестким государственным контролем. В отличие от атомного проекта (время уже было другое), этот контроль не сконцентрировал силы отечественных ученых, а наоборот, способствовал прекращению или замедлению многих работ. Явная «нелюбовь» властей того времени к одному из ярчайших представителей отечественной лингвистики Юрию Апресяну на долгие годы затормозила самый интересный из отечественных проектов. Исследования по машинному переводу в ИПМ им. М. В. Келдыша тоже практически прекратились…

Мы пока не знаем, какие возможности даст человечеству надвигающаяся новая компьютерная революция. Однако можно надеяться, что компьютерная лингвистика перейдет на совершенно новую технологическую базу, основа которой закладывается в наше время.

1 (обратно к тексту) - См., например, книгу Юрия Лотмана «Внутри мыслящих миров» (М.: Языки русской культуры, 1999.), в частности, предисловие Умберто Эко к ее английскому переводу. - Л.Л.-М.