Мой немой
АрхивГолубятня OnlineО чем поговорить с компьютером?
Удивляет наш «великий и могучий»: попробуйте на слух понять заголовок Голубятни — то ли деваха на ромашке гадает («Мой Вася, не мой, мой — не мой»), то ли автослесарь обреченно оценивает засолидоленные руки («Мой — не мой, один хрен!»), то ли ламер в порыве чувств гладит по мышу любимый писюк («Дурачок ты мой немой…»). Наш контекст — последний.
Писюк принципиально немой и положение вещей не исправит никакая мультимедийность. Потому что все эти пуки и раскаты, сопровождающие шутеры, компрессированные «эмпеги» на диске «Все альбомы Бритни Спирс на одном CD» и мастдайные «тадамы» — не более, чем звуковой поток, навязанный пользователю извне. Тут компьютер ничем не отличается от немых же радиоприемников, видеомагнитофонов и кассетных проигрывателей. Преодолеть немоту компьютера можно только заставив его разговаривать. Не просто говорить, а именно разговаривать, то есть вступать в речевой диалог с пользователем.
Сказать, что потребность в речевом диалоге с PC давно назрела, значит ничего не сказать. На самом деле подавляющее большинство рутинных функций, которые сегодня пользователь выполняет вручную — всевозможные открывания и закрывания файлов, их копирование и сохранение, набивка URL-адреса в браузер или выбор закладки из Избранного, печатание электронных писем, наконец, чтение онлайн-материалов и ибуксов — все это давным-давно следует перепоручить компьютеру. Замахнусь на святое и, набравшись пафоса пламенной нью-васюковской речи Бендера, воскликну: «Окончательное преодоление немоты как раз и явится грядущей писюковой революцией, о которой так много говорили!».
Справедливости ради замечу, что мои мечтания уже давно разделило все ответственное человечество: вспомните раннюю и, увы, обломившуюся, попытку IBM создать «говорящую» операционную систему (OS/2 Warp). Или разработки Dragon, направленные на тотальное голосовое управление PC (сначала — программа Dragon Dictate, сегодня — NaturallySpeaking аж шестой версии), отечественные «говоруны»: ПРОМТовский Magic Goody и VoiceLock-овский «Горыныч».
Однако все перечисленное — это попытка утвердить в правах лишь один поток Диалога с Великим Немым: поток от пользователя к компьютеру. Иными словами, мы говорим, а компьютер слушает (вернее — выполняет команды). Остается замкнуть круг и дополнить диалог обратным потоком, когда заговорит компьютер, а слушать будем мы. Причем заговорит в истинном смысле слова: не от балды (проигрывая диск mp3), а именно в диалоге, в ответ на нашу просьбу прочитать указанный ему (компьютеру) текст, ответить на поставленный вопрос и т.п. Техническое решение этого диалога представлено в системах речевого синтеза, отлившихся на практике в так называемые Text-To-Speech Engines (TTS), движки перевода текста в речь. О них и поговорим в ближайших двух Голубятнях.
В современные мастдайные Форточки (для читателей, ушибленных политкорректностью, перевожу: «Операционные системы Microsoft Windows») движок речевого синтеза встроен и представлен гнусавым голосом дяди Сёмы (Microsoft Sam). Дядя Сёма всем хорош, да вот только не лопочет на нашем родном языке. На своем аборигенном, английском — это пожалуйста. Качество микрософтовского TTS можно определить как базовое и тем самым напоминающее автомобили «Жигули»: у тех тоже четыре колеса, а в последних моделях — даже инжектор. Короче — ездить можно.
Прекрасное применение встроенного в операционную систему речевого синтезатора найдено в компактном переводчике TranslateNow!, о котором я дважды поминал в Голубятнях. И надо сказать, что для нужд озвучания словарных статей штатного дяди Сёмы более чем достаточно. Кроме встроенного Microsoft Speech API, TranslateNow! работает также и с пользовательским речевым синтезатором Digalo TTS engine от французского производителя Elan Speech, крупнейшего в мире разработчика систем речевого синтеза.
Digalo умеет изъясняться на французском, немецком, испанском, бразильском варианте португальского, английском (британский и американский варианты) и русском языках. Digalo поддерживает Microsoft SAPI 4 (последняя версия 5.1) и довольно скромную частоту дискретизации в 16 Khz 16 бит моно. Не ахти какие передовые показатели, но для юзерской программки за 29 долларов более чем.
По-английски Digalo говорит голосами Мэри (Mary) и Уильяма (William) — и то, и другое на мой субъективный слух звучит хуже штатного дяди Сёмы, зато «великий и могучий» для Digalo озвучил Колян (Nikolai) и, надо отдать должное, сделал это просто мастерски: русский речевой синтез в исполнении Коляна — лучшее, что мне довелось протестировать на сегодняшний день.
Подключение движка TTS на пользовательском уровне осуществляется двояко. Либо TTS автоматически распознает сторонняя программа, использующая протокол Microsoft SAPI, либо используется отдельная утилита для считывания буфера обмена. В пакете Digalo таковой является DigIt Clipboard Reader, которая висит в трее и перехватывает текст из клипборда. Вам остается лишь выбрать из контекстного меню нужный язык, задать скорость (rate) воспроизведения, а затем откинуться на спинке кресла и слушать, как ваш компьютер читает только что полученное электронное письмо или передовицу из вебовской версии любимой газеты «Труд». Диалог с Великим Немым пошел!
Впрочем, использование речевых синтезаторов в роли бесплатного чтеца — только начало. Автоматизированные телефонные информационно-справочные системы (ACCA) , системы внутреннего оповещения, интернет-сервисы, мобильные устройства — вот лишь краткий перечень перспективных направлений голосовой революции. В следующей Голубятне мы продолжим разговор о TTS и я расскажу о существующих корпоративных решениях: продукте Speech Cube от помянутого выше французского Elan Speech и Sakrament TTS Engine — детище нового игрока на поле борьбы с писюковой немотой, белорусской компании Сакрамент, которая только-только зарелизила вторую версию своего синтезатора (о первой я писал в Голубятне два года назад).