Диалог во время "Цусимы 2002"
АрхивМне не раз приходилось встречать в Сети реплики: встретимся на "Диалоге". "Диалог" как имя собственное за последние пятнадцать лет имел несколько мало связанных друг с другом инкарнаций, в данном случае речь идет о ежегодных семинарах по компьютерной лингвистике - из всех "Диалогов", это сейчас, пожалуй, самые яркие.
- Почему пропали анекдоты об армянском радио?
- Потому что умер тот еврей, который придумывал вопросы.
Из доклада на «Диалоге 2002»
Мне не раз приходилось встречать в Сети реплики: встретимся на «Диалоге». «Диалог» как имя собственное за последние пятнадцать лет имел несколько мало связанных друг с другом инкарнаций, в данном случае речь идет о ежегодных семинарах по компьютерной лингвистике - из всех «Диалогов», это сейчас, пожалуй, самые яркие. История междисциплинарных семинаров по моделям общения началась в 1975 году. С тех пор и вплоть до развала СССР они проводились неформально: желающие просто брали отпуск и ехали на «Диалог», местом проведения которого долгое время была Эстония. В 1995 году семинар возродился уже в официальном статусе международного форума и скоро стал центральным ежегодным событием в отечественной компьютерной лингвистике.
В этом году «Диалог» проводился с 6 по 11 июня в Протвино под лейблом ассоциации КОЛИНТ («Компьютерная лингвистика и интеллектуальные технологии»), объединившей ABBYY, «Яндекс», «Промт» и многие другие компании и организации (www.dialog-21.ru). По формату «Диалог» теперь больше похож на конференцию, хотя дух свободного общения сохранился, привнося изрядную долю ощущения шумного и неформального праздника общения.
Впрочем, несмотря на всю неформальность, «Диалог» во многом уже традиционное действо, с центральными обязательными фигурами и архетипными темами докладов (семантика и грамматика, естественный язык и Интернет, диалог и представление знаний, фонетика и речевые технологии). Абсолютным хитом, как и в прошлые годы, стал традиционный доклад Шмелевых о русских анекдотах, на этот раз «Анекдоты об армянском радио: структура и языковые особенности». Пропустить это сообщение было равносильно пропуску самого «Диалога».
Много докладов было посвящено поиску в Интернете (это ярко выраженная тенденция; похоже, внести свой вклад в качество поиска не хочет уже только ленивый). Порадовал доклад Павла Браславского «Фасетная организация Интернет-каталога и автоматическая жанровая классификация документов», из которого следует, что вскоре «Яндекс» будет учитывать жанр индексируемых документов, что, наряду с уже работающей географической привязкой ресурсов, станет еще одним шагом к более осмысленному поиску. Обычные древовидные Интернет-каталоги выглядят блеклой тенью по сравнению с многообразием и многомерностью контента Сети; введение «фасет» призвано дать каталогам новые измерения, и автоматически определяемый жанр документов - одно из таких измерений.
Как раз к началу семинара вышел в свет номер «Компьютерры» с довольно пессимистической темой, посвященной ожиданиям и реалиям понимания естественного языка машиной. Это было совпадением, но совпадением знаковым: на круглых столах звучали отголоски темы, поднимавшейся здесь ежегодно с классическими лейтмотивами «что делать?» и «кто виноват?» - лингвисты, все еще использующие компьютер в основном как пишущую машинку, или компьютерщики, ничего не смыслящие в лингвистике и порывающиеся все задачи решить чисто математическими подходами, не подпуская к своим проектам «этих гуманитариев». «Матч-цусима» Россия-Япония, который оттянул на себя внимание участников семинара в пику воскресным послеобеденным докладам, последующие события в Москве, а также неработающие лифты в гостинице образовывали фон вполне в духе лемовского «Футурологического конгресса».
С десяток докладов было посвящено распознаванию и синтезу речи. Незадолго до начала семинара был создан консорциум «Российские речевые технологии», впервые после распада СССР объединивший работающие в этой области отечественные фирмы и научные институты. Ведущий речевой секции Николай Загоруйко рассказал об истории развития речевых технологий в СССР и о том печальном факте, как с каждым годом все более скромными оказывались амбиции и более пессимистическими ожидания разработчиков. Последний опрос проводился в 1988 году. По его результатам, мы уже жили бы при довольно сносных системах распознавания в 200 слов (2000 год), до «развитого социализма» рукой подать (2000 слов, 2008 год), а нынешнее поколение читателей «Компьютерры» имело бы шанс дотянуть и до «коммунизма» (распознавание слитной речи, 2029 год).
Хотелось бы также отметить систему генерации речи, разработанную минской фирмой «Сакрамент». Борис Лобанов демонстрировал на ней машинный клон своего голоса. Голос классика советской речевой школы был вполне узнаваем, хотя и звучал с заметным машинным акцентом. Синтезированный персонаж, читая выбранный наугад фрагмент текста, ошибся только на слове «файлов», поставив ударение на второй слог, что, впрочем, встречается и в живой речи, причем не только в хакерском жаргоне.
Российских систем распознавания речи по-прежнему продемонстрировано не было, что, с одной стороны, печально, а с другой - показывает, куда нужно направить усилия (читай - средства) хотя бы в рамках той же «Электронной России». Инфраструктура электронной коммерции, на которую почему-то выделяются немаленькие для отечественной ИТ-отрасли бюджетные средства, вряд ли до такой степени нуждается в бюджетном ассигновании, между тем речевые технологии в программе «Электронная Россия» не значатся вообще. Видимо, чиновникам легче выделить деньги на поголовное обучение жителей России разговорному китайскому.