Перевод со смыслом
АрхивОбзоры и тестыКомпания Cognitive Technologies готовит к выпуску систему машинного перевода, которая анализирует тематику переводимого текста и в соответствии с ней подбирает значения слов в случае наличия вариантов.
Похоже, монопольное положение санкт-петербургской компании "ПРОМТ" на рынке систем машинного перевода скоро останется в прошлом. Так, на этой неделе российская компания Cognitive Technologies представила журналистам собственные наработки в области машинного перевода текста – систему Cognitive Translator. Сразу же отметим, родилась эта система далеко не вчера. Процесс разработки начался в далеком уже 2000 году, и с самого начала в нем приняли участие не только сотрудники компании, но и ученые из Московского университета, Института русского языка РАН и других научных организаций. Альфа-тестирование затянулось на несколько лет, а сейчас продукт находится в стадии бета-версии, и каждый желающий может им воспользоваться.
Представители Cognitive в качестве особенности своего продукта, отличающей его от конкурирующих решений, называют новую структурную модель представления языка. Эта модель включает в себя не только морфологию и синтаксис, но и элементы анализа структурных связей. К примеру, программа умеет анализировать семантику слов, определять тему того или иного текста, и, соответственно, подбирать правильное значение перевода. К примеру, если слово "лук" встречается в тексте, повествующем об исторических баталиях и оружии, то оно вряд ли будет переведено в своем растительном значении. Для этой цели используется Dwarf – специальный анализатор текста, разработанный специалистами Cognitive Technologies. Заметим, что проблема несоответствия выбора значения слов общему смыслу текста весьма серьезна, и порой порождает совершенно анекдотические случаи: нетрудно вспомнить, что приложения упомянутой компании "ПРОМТ", еще буквально несколько лет назад выдавали замечательные ляпы вроде "Президента Куста" или "котенка-афроамериканца".
По словам разработчиков, подобный поход является гораздо более эффективным, чем традиционные технологии разработки систем машинного перевода, подразумевающие непрерывное ручное заполнение базы словоформ, требующее огромных ресурсов, что, собственно и ограничивает число коллективов, занятых в данной области.
Фактически, как заявляют представители компании, с помощью подобной модели анализа текста можно очень быстро добавлять и реализовывать в системе новые языковые направления. При этом трудозатраты, необходимые для добавления в программу новой языковой пары, будут существенно ниже, чем у компаний, использующих устаревшие традиционные технологии.
Генеральный директор Cognitive Technologies, член-корреспондент РАН Владимир Арлазаров предупредил журналистов, что проект пока еще находится на ранней стадии развития и, по сути, далек от завершения. Но при этом он подчеркнул, что Cognitive Translator представляет собой уже реальный проект, который достаточно качественен. "Думаю, через два года мы уже будем иметь качественную и конкурентоспособную программу", - заявил он.
Как отметил Василий Постников, руководитель департамента систем массового ввода документов, разработчики системы уже решили такую важную задачу, как автоматическая генерация подстрочника и проверка корректности синтаксиса текстового фрагмента, а также вплотную приблизились к задаче получения адекватного перевода технического текста.
В данный момент переводчик Cognitive Translator поддерживает только англо-русское и русско-английское направления, однако появление новых языков – вопрос ближайшего будущего. Программа пока реализована в виде онлайнового сервиса, который позволяет переводить тексты объемом до 32 килобайт. Представители компании объясняют это ограничение техническими возможностями серверов, на которых работает программа. Но и этот объем намного больше, чем может предоставить пользователям известный сервис Translate.ru, разработанный и поддерживаемый компанией "ПРОМТ". Если в тексте встречаются слова, перевод которых имеет несколько вариантов, программа отобразит всю "палитру".
Пока неизвестно, по какой бизнес-модели будет осуществляться выпуск Cognitive Translator, однако открывать исходные тексты этой программы и предоставлять их независимому сообществу разработчиков, как это было сделано с системой распознавания текстов CuneiForm, руководство компании не планирует. Тем не менее, один из ключевых компонентов – анализатор текста Dwarf - уже распространяется с открытым исходным кодом.