Архивы: по дате | по разделам | по авторам

Мой немой для серьезных пацанов

Архив
автор : Сергей Голубицкий   08.10.2002

В прошлый раз я рассказал о речевых синтезаторах для домашних пользователей. Простота интерфейса, скромность параметров и непритязательность решаемых задач - залог успеха у нашего брата ламера. Другое дело - серьезные пацаны, чью роль в данном контексте исполняют корпоративные заказчики.

В прошлой «Голубятне» я рассказал о речевых синтезаторах для домашних пользователей. Простота интерфейса, скромность параметров и непритязательность решаемых задач - залог успеха у нашего брата ламера. Другое дело - серьезные пацаны, чью роль в данном контексте исполняют корпоративные заказчики. Первейшая нужда солидных клиентов целиком умещается в два нерусских слова: модульность и проприетарность. Если на пальцах, то под модульностью понимается возможность разобрать программу как конструктор, удалить один узел, добавить другое звено, переставить пятый элемент… Проприетарность же - это подгонка программного комплекса под конкретные частные нужды клиента.

Оба требования легко понять по-человечески, потому как они реализуют главную парадигму всякого бизнеса: «Кто угощает, тот и танцует». Впрочем, для разработчиков софта овчинка стоит выделки, ведь деньги на корпоративном софтверном рынке - не чета пользовательскому - нешуточные.

Очевидно, что и задачи, стоящие перед речевыми синтезаторами на корпоративном уровне, выходят далеко за рамки бесплатного чтеца. Основные области применения:

  • телекоммуникации (автоматизированные телефонные информационно-справочные системы (ACCA) и системы внутреннего оповещения (типа ИССА);

  • мультимедийные приложения (личный секретарь, голосовые электронные словари, программы для изучения иностранных языков, игрушки, различные хелп-системы);

  • мобильные устройства (голосовое управление наладонниками, а также функции бесплатного чтеца, аналогичные писюковым);

  • медицинское приборостроение (системы для адаптации людей с ослабленным зрением, моторными функциями и т. п.);

  • автотранспорт (навигационное оповещение, скажем, говорящий GPS: «Через пятьдесят метров поверните налево», бортовые предупреждения и диагностика систем: «Ваш двигатель взорвется через десять секунд, если вы не снизите скорость», голосовое управление автомобилем: «Ну-ка застегни на мне ремень безопасности»).

На корпоративном рынке речевых синтезаторов практически безраздельно властвует французская компания Elan Speech. Скорее даже не властвует, а свирепствует, что естественным образом вытекает из слова «безраздельно». Высокое качество продуктов Элан дополняется высокой же стоимостью проприетарных разработок, заточенных под узкоспециальные и неповторимые нужды корпоративного заказчика. Есть, правда, и ложечка дегтя - небольшое техническое «но». Русский синтез речи в элановском движке TTS исполняется дифонной базой под кодовым именем «Николай» (см. прошлую «Голубятню»). Однако Колян представлен только в старой версии синтезатора, несовместимой с последним микрософтовским речевым программным интерфейсом (SAPI 5.1). А это не есть хорошо, особенно для клиентских нужд в области разработок прикладных программ. В SAPI 5.1 - совместимой версии элановского TTS - русского языка пока нет. Думаю, это лишь временно и вскоре гэп будет устранен, но все-таки.

И тут на сцену выходит белорусский Сакрамент, который играет в покер с хорошим каре на руках: специализация именно на синтезе русской речи, акцент на встраивание своего движка в программное обеспечение и оборудование корпоративного заказчика (та самая проприетарность), совместимость с самыми последними стандартами мастдая - законодателя всех мод в коммерческом софтостроении (как ни ненавистно это читать эникейщикам), а также убойная стоимость услуг 1.

Читателей «Голубятни» я познакомил с синтезатором речи от Сакрамента два года назад. Недавно вышла вторая версия (рис. 1). Скрупулезно протестировав ее, могу вынести вердикт: она гораздо более продвинутая, чем предыдущая. Первая, бросающаяся в глаза обновка TTS Engine, - возможность работать с XML-размеченным текстом. Именно эта фича с максимальной эффектностью передает магию всего сыр-бора вокруг синтеза речи. Поначалу я даже опешил. Судите сами: обработав теги XML, движок произносит слова по буквам, изменяет скорость чтения, задает точную громкость голоса, меняет ударение в словах, работает с закладками в тексте 2, точно определяет контекст (скажем, распознает в цифровом формате дату либо обыкновенное порядковое числительное, обозначение валюты, телефонного номера, адреса электронной почты и т. п.).

Еще один конек обновленного движка TTS Сакрамент - умение обрабатывать сокращения и аббревиатуры («к.ф.-м.н.» - «кандидат физико-математических наук», «с.-вост. р-н» - «северо-восточный район» и т. п.).

Все остальные достоинства и обновки программы лежат за пределами человеческого уха и доступны пониманию лишь специалистов. Для этой малочисленной категории читателей «Голубятен» оглашу список по-быстрому:

  • функции движка можно вызывать практически из любого языка программирования: С, С++, C#, VB, Delphi, Java, VBScript, JScript, Pascal, Small Talk, Ada и др.;

  • родная частота дискретизации - 22 кГц (у Элана - 8 кГц);

  • традиционный в синтезе речи дифонный принцип (вернее, «принцип конкатенации дифонов», прости меня господи!) заменен дифонно-аллофонным, обеспечивающим более естественное звучание;

  • линейная масштабируемость на многопроцессорных системах;

  • поддержка всех функций синтеза при работе с телефонными линиями;

  • автоматическое определение языка читаемого текста.

Думаю, хватит: правильные пацаны и так поняли, что TTS Сакрамент достоин пристального внимания, а неправильные (то есть наш брат - ламернутый юзер) могли притомиться. Поэтому для тех читателей, кого мой корпоративный экзерсис занудил по полной программе, я приготовил на десерт вкусный гостинчик, впрочем, не выпадающий из общего контекста темы «Голубятни». Знакомьтесь: программка Total Recorder (рис. 2). До тех пор, пока вы не установите ее на своем компьютере, вы не догадаетесь, насколько она необходима всякому уважающему себя пользователю. Total Recorder делает одно маленькое, но чертовски полезное дело: записывает все, что шевелится! То бишь любой звук, выливающийся из вашего компьютера: будь то файл RealPlayer, Windows Media Player, Quick Time, WinAmp, обычный музыкальный компакт-диск, звуковая дорожка фильма и игрушки, телефонный разговор, запараллеленный на компьютер, - что угодно. Все это сохраняется в универсальном wave-формате. Лично я мгновенно нашел дело для Total Recorder - запись радиопередач в формате real audio, которые невозможно сохранить из-за условностей копирайта и отключения опции Save в RealPlayer. Думаю, читатели найдут этой полезняшке и другие применения.

Как обычно, все линки, помянутые в «Голубятне», вы найдете на internettrading.net/beritut.


1 (обратно к тексту) - По словам Сакрамента - ровно втрое дешевле, чем у Элана.
2 (обратно к тексту) - Что незаменимо для синхронизации чтения и каких-то действий со стороны программы.
© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.