Архивы: по дате | по разделам | по авторам

Что такое UNL?

Архив

автор : Леонид Крейдлин 02.04.2001

Под UNL скрывается обозначение универсального сетевого языка, разрабатывающегося в настоящее время семнадцатью научными институтами, университетами, заинтересованными фирмами из разных стран под эгидой UNU/IAS.

Под аббревиатурой UNL скрывается обозначение универсального сетевого языка (The Universal Networking Language), разрабатывающегося в настоящее время семнадцатью научными институтами, университетами, заинтересованными фирмами и исследовательскими центрами из разных стран под эгидой Института передовых исследований токийского университета Организации Объединенных Наций (UNU/IAS).

По замыслу, UNL - это искусственный семантико-синтаксический язык, предназначенный для описания, хранения и распространения информации в WWW в не зависящем от какого-либо естественного языка виде, а также независимо от конкретной компьютерной платформы или операционной системы. В отличие от систем машинного перевода, призванных осуществлять перевод с одного естественного языка на другой, предполагается, что система UNL должна уметь автоматически (или полуавтоматически) преобразовывать исходный текст в его UNL-представление, а затем синтезировать из этого представления текст на нужном языке. Таким образом, о UNL можно говорить как о своеобразном языке-посреднике, удобном для хранения информации и ее восстановления на любом естественном языке из числа поддерживаемых системой. По словам директора UNU/IAS профессора Тарчизио делла Сента (Tarcisio Della Senta), речи о переводе поэтических произведений или философских трактатов, разумеется, не идет. Однако система должна оказаться весьма полезной для перевода научных, финансово-экономических и социально-экономических текстов, разнообразной документации (всем известно, как много документов блуждает по многочисленным ООНовским инстанциям). Иными словами, ожидается, что с использованием UNL в Интернете обмен информацией станет проще, а у людей, говорящих на разных языках, появится возможность получать и распространять информацию, используя свой родной язык.

В настоящее время люди используют для общения около трех тысяч языков и диалектов. На сорока языках говорит более трех миллиардов человек. В проекте UNL, реализация которого началась в апреле 1996 года (всего же он рассчитан на десять лет), ведутся в том числе работы по интеграции языков в систему. На данный момент задействовано шесть официальных языков ООН (арабский, китайский, английский, французский, русский и испанский), а также хинди, индонезийский, итальянский, японский, латышский, немецкий, монгольский, португальский, суахили и тайский. Русский язык «представляют» две организации: компания «СТАР СПб» и Лаборатория компьютерной лингвистики Института проблем передачи информации Российской академии наук.

Особенности языка UNL

Итак, назначение UNL - представить смысл исходных естественно-языковых слов, словосочетаний, предложений или же целых текстов. Для этого разработан целый аппарат записи этих смыслов, смысловых концептов.

Как и всякий язык, UNL имеет свой словарь (или лексикон), который называется UW (от англ. universal word - универсальное слово). В словаре содержатся сведения о единицах языка UNL. Из общей идеи об описании смыслов и об универсальности языка вытекает его важная особенность: единицами языка UNL являются не слова, а так называемые концептуальные элементы (UW). Безусловно, здесь возникает проблема с определением множества концептуальных элементов (или концептов), которые будут иметь место в языке. Было решено, что словарь UW должен быть составлен на основе английского языка. Именно английские слова (и признанные устойчивыми словосочетания) являются входами (entries) словаря UW, именно при помощи английских слов (= элементарных UW) задаются смысловые ограничения каждого отдельно взятого UW. Подобные ограничения смысла, с одной стороны, неимоверно увеличивают количество словарных входов и раздувают лексикон, но с другой - позволяют снять столь частую в естественных языках омонимию и точно задать необходимое значение слова. В то же время понятия, тесно связанные с каким-либо иным языком, или с культурой, отличной от англо-американской, также фиксируются в словаре.

Пополнение UW происходит за счет информации, содержащейся в базе знаний KB (англ. knowledge base) - особом перечне сочетаемости всевозможных смыслов друг с другом. Уточнение значений концептуальных элементов производится путем приписывания им ограничительных помет (restriction labels). Пометы описывают смысл UW и представляют собой пару или пары вида (f > S), где f - некоторое семантическое бинарное отношение, а S - иное, отличное от данного (элементарное) UW, в отношении f к которому находится рассматриваемое UW. Система UNL постоянно совершенствуется, так что список отношений периодически изменяется. Судя по последней спецификации языка UNL, сейчас устанавливается около сорока таких отношений. В их числе - гипонимическое отношение (icl - от англ. inclusion), отношения синонимии (equ - англ. equal) и антонимии (ant - англ. antonym), объекта (obj - англ. object) и агента (agt - англ. agent) действия и многие другие. Однако говорить о полноте списка пока, к сожалению, нельзя.

Приведу, наконец, пример. Так, английскому слову dog в словаре UW будут среди прочих соответствовать такие концептуальные элементы:

dog(icl>animal) - собака (животное)

dog(icl>male) - собака мужского пола - кобель

dog(icl>#event, agt>human) - травить собаками (#event указывает на то, что данное UW - какое-то действие

dog’s meat(icl>food) - мясо для собаки

dog’s meat(icl>meat) - собачатина

Что же такое текст на языке UNL? Текст на UNL представляет собой граф, узлы которого - смысловые концепты, взятые из словаря UW, с приписанными им морфо-синтаксическими и семантическими характеристиками (атрибутами), а дуги - семантические отношения (см. выше), устанавливающие связь между двумя UW. Главным членом отношения считается то UW, которому приписан атрибут @entry, а при отсутствии атрибута - первый из двух элементов. В каждом конкретном предложении концепты дополняются специфичными для них в данном предложении атрибутами: категорией времени (@future, @present, …), числа (@sg, @pl), тема-рематическими характеристиками ¹ UW (@emphasis, @focus, …), модальностью (@obligation, @possibility, …) и прочим.

Одним своим положением UNL несколько напоминает грамматику синтаксических групп (по А. В. Гладкому), а именно тем, что отношения могут быть сгруппированы, пронумерованы и объединены в совокупности, называемые scopes. Номер группы наравне с UW может выступать в качестве члена отношения, и ему (номеру) тоже можно приписывать атрибутивные метки, характеризующие всю совокупность. Подобное объединение совсем не обязательно, оно лишь помогает увидеть иерархию структуры в целом.

Значение английского предложения The dog caught a wild cat будет иметь следующее UNL-представление:

[S]

agt(catch(icl>#event).@past.@pred.@entry, dog(icl>animal).@def)
obj(catch(icl>#event).@past.@pred.@entry, cat(icl>animal).@indef)
mod(cat(icl>animal).@indef,wild(icl>#state, ant>domestic))

[/S]

Маркеры [S] и [/S] сродни гипертекстовой (SGML) разметке. В UNL они используются для обозначения начала и конца предложения. Аналогично, существуют теги для разметки UNL-текстов. Маркируются не только предложения, но и абзацы, главы, заголовки, подзаголовки и др. Помимо собственно текстовой разметки, служебной информации, комментариев и UNL-представления, в документе могут содержаться варианты текста на всех языках, обрабатываемых системой. Такой документ имеет особый статус UNL-документа, и именно с ним работает система UNL.

Несколько слов об устройстве системы UNL

UNL-система состоит из трех основных модулей-приложений, называемых конвертер (enconverter), деконвертер (deconverter) и UNL viewer. Первый осуществляет (полу)автоматический анализ и преобразование входного текста в текст на UNL. Задача второго заключается в получении (синтезе) из входного UNL-представления (любого документа на языке UNL) текста на необходимом естественном языке (ЕЯ).

Конвертер и деконвертер - суть правила анализа и синтеза. Разрабатываются эти правила отдельно для каждого конкретного языка, тогда как программы, применяющие их, являются универсальными для всех языков. Тем самым, поскольку язык UNL претендует на универсальность, а анализ и синтез для разных языков независимы, вся система остается открытой для новых языков. Программа анализа воспринимает не только грамматические правила, правила построения фраз, но и недавно предложенные правила извлечения информации о структуре входного предложения через схожие шаблоны выражений. Грамматически неоднозначные интерпретации, морфологическая омонимия разрешаются с помощью статистического анализа контекста, а семантическая неопределенность снимается, насколько это возможно, на основании сведений, почерпнутых из базы знаний.

Особое место отводится программе UNL editor, позволяющей писать вручную или редактировать тексты на UNL. В этой программе комбинируются модули конвертера и деконвертера для данного ЕЯ, что дает пользователю возможность увидеть, насколько корректно или некорректно передает UNL-текст смысл исходного текста. Обратная связь прослеживается при трансляции («деконвертации») UNL-текста назад в текст на ЕЯ. В случае расхождения значений входного и выходного текстов, можно подправлять UNL-текст до тех пор, пока не будет достигнута необходимая с точки зрения пользователя степень точности.

Вся информация, все тексты на языке UNL хранятся в специальном архиве - UNL Document Base. Этот архив, как и словарь UW, может быть пополнен по сети или по электронной почте. Программа UNL viewer позволяет посмотреть на любую естественно-языковую интерпретацию UNL-документа.

Не все участники проекта используют в работе с UNL программы, предоставленные отделением UNU/IAS - UNL Центром. В Лаборатории компьютерной лингвистики ИППИ РАН для целей синтеза и анализа текстов на UNL была адаптирована собственная система машинного перевода «ЭТАП-3». Поскольку в основе языка UNL - английский язык, а текст на UNL имеет вид графа, переход от UNL к русскому (или обратно) происходит не напрямую, а через нормализованную английскую синтаксическую структуру. Так, при анализе UNL-текста из семантического графа строится синтаксическое дерево, к которому затем применяется комплекс автоматического англо-русского перевода, и в результате получается русский текст.

Как система UNL будет работать

Предполагается, что система UNL будет установлена на WWW-серверах в Интернете (кстати, официальная страница UNL расположена по адресу www.unl.ias.unu.edu). Пользователь, попав на страницу, где информация дается в формате UNL-документа, будет вызывать специальное приложение браузера (аналогичное программе UNL viewer). Если же у страницы UNL-представления нет, то она может быть переведена на нужный язык при помощи сервера-переводчика, содержащего только ту часть системы UNL, которая работает с этим языком.

Создатели UNL планируют (при благоприятном развитии системы и достаточном финансировании) распространить сферу действия UNL на периодические издания, публикуемые в Интернете, на электронную почту и конференции, онлайновые библиотечные, научно-технические и информационно-поисковые системы, не говоря уже о публикациях таких организаций, как ООН и ЮНЕСКО. Представляете, вы пишете деловое письмо по-русски, а ваш партнер из Пекина получает его на китайском! Такие дела.

[i39026]

1 (обратно к тексту) - То есть имеющими отношение к делению высказывания на тему (данное, известное, то, о чем сообщается) и рему (новое, то, что сообщается). Например, во фразе «Петя пришел!» - с ударением на «Петя»: «Петя» - рема, «пришел» - тема.