Мой немой для серьезных пацанов
АрхивГолубятня Online"Кто угощает, тот и танцует" или Сакрамент против Elan Speech.
В предыдущей Голубятне я рассказал о речевых синтезаторах, ориентированных на домашних пользователей. Простота интерфейса, скромность показателей и непритязательность задач — залог успеха у нашего брата ламера. Другое дело — серьезные пацаны, чью роль в данном контексте выполняют корпоративные заказчики. Центральная нужда солидных клиентов целиком умещается в два нерусских слова: модульность и проприетарность. Если на пальцах, то под модульностью понимается возможность разобрать программу как конструктор, удалить один узел, добавить другое звено, переставить пятый элемент. Проприетарность же — это подгонка программного комплекса под конкретные частные нужды клиента.
Оба требования легко понять по-человечески, потому как они реализуют главную парадигму всякого бизнеса: «Кто угощает, тот и танцует». Впрочем, для разработчиков софта овчинка стоит выделки, ведь деньги на корпоративном софтверном рынке — не чета пользовательскому — нешуточные.
Очевидно, что и задачи, стоящие перед речевыми синтезаторами на корпоративном уровне, выходят далеко за рамки бесплатного чтеца. Основные области применения:
- телекоммуникации (автоматизированные телефонные информационно-справочные системы (ACCA) и системы внутреннего оповещения (типа ИССА);
- мультимедийные приложения (личный секретарь, голосовые электронные словари, программы для изучения иностранных языков, игрушки, различные хелп-системы);
- мобильные устройства (голосовое управление наладонниками, а также функции бесплатного чтеца, аналогичные писюковым);
- медицинское приборостроение (различные системы для адаптации людей с ослабленным зрением, моторными функциями и т.п.);
- автотранспорт (навигационное оповещение, скажем, говорящий GPS: «Через пятьдесят метров поверните налево», бортовые предупреждения и диагностика систем: «Ваш двигатель взорвется через 10 секунд, если вы не снизите скорость», голосовое управление автомобилем: «Ну-ка застегни на мне ремень безопасности»).
На корпоративном рынке речевых синтезаторов практически безраздельно властвует французская компания Элан (Elan Speech). Скорее даже не властвует, а свирепствует, что вытекает естественным образом из слова «безраздельно». Высокое качество продуктов Элан достойным образом дополняется высокой же стоимостью проприетарных разработок, заточенных под узко-специальные и неповторимые нужды корпоративного заказчика. Есть, правда, и ложечка дегтя — небольшое техническое «но». Как читатель помнит из предыдущей Голубятни, русский синтез речи в элановском движке TTS исполняется дифонной базой под кодовым именем «Николай». Однако Колян представлен только в старой версии синтезатора, несовместимой с последним микрософтовским речевым программным интерфейсом (SAPI 5.1). А это не есть хорошо, особенно для клиентских нужд в области разработок прикладных программ. В SAPI 5.1 — совместимой версии элановского TTS русский язык пока не представлен. Думаю, такое положение дел лишь временно и вскоре гэп будет устранен, но все-таки.
Именно в этот момент на сцену выходит белорусский Сакрамент, который играет в покер с хорошим карэ на руках: специализация именно на синтезе русской речи, акцент на встраивание своего движка в программное обеспечение и оборудование корпоративного заказчика (та самая проприетарность), совместимость с самыми последними стандартами мастдая — законодателя всех мод в коммерческом софтостроении (как ни ненавистно это читать эникейщикам), а также убойная стоимость услуг [1].
Читателей Голубятни я познакомил с синтезатором речи от Сакрамента два года назад. Недавно вышла вторая версия (рис. 1), я ее скрупулезно протестировал и могу дать однозначный вердикт: она гораздо более продвинутая, чем предыдущая. Первая обновка TTS Engine от Сакрамента, бросающаяся в глаза — это возможность работать с XML-размеченным текстом. Именно эта фича с максимальной эффектностью передает магию всего сыр-бора вокруг синтеза речи. Поначалу я даже опешил. Судите сами: обрабатывая тэги XML, движок умеет произносить слова по буквам, изменять скорость чтения, задавать точную громкость голоса, менять ударения в словах, работать с закладками в тексте [2], точно определять контекст (скажем, распознать в цифровом формате дату либо обыкновенное порядковое числительное, обозначение валюты, телефонного номера, адреса электронной почты и т.п.).
Рисунок 1
Еще один конек обновленного движка TTS Сакрамент — умение обрабатывать сокращения и аббревиатуры (типа «к.ф.-м.н.» — «кандидат физико-математических наук», «с.-вост. р-н» — «северо-восточный район» и т.п.).
Все остальные достоинства и обновки программы лежат за пределами человеческого уха и доступны пониманию лишь специалистов. Для этой малочисленной категории читателей Голубятен оглашу список по-быстрому.
- Функции движка можно вызывать из практически любого языка программирования: С, С++, C#, VB, Delphi, Java, VBScript, JScript, Pascal, Small Talk, Ada и другие.
- Родная частота дискретизации 22 кГц (у Элана — 8).
- Традиционный в синтезе речи дифонный принцип (вернее, «принцип конкатенации дифонов», прости меня господи!) заменен на дифонно-аллофонный, обеспечивающий более естественное звучание.
- Линейная масштабируемость на многопроцессорных системах.
- Поддержка всех функций синтеза при работе с телефонными линиями.
- Автоматическое определение языка читаемого текста.
Думаю, достаточно: правильные пацаны и так поняли, что TTS Сакрамент достоен пристального внимания, а неправильные (то есть наш брат — ламернутый юзер) мог притомиться. Поэтому для тех читателей, кого занудил по полной программе мой корпоративный экзерсис, я приготовил на десерт вкусный гостинчик, впрочем, не выпадающий из общего контекста темы Голубятни. Знакомьтесь: программка Total Recorder (рис. 2). До тех пор, пока вы не установите ее на своем компьютере, вы не догадаетесь, насколько она необходима всякому уважающему себя пользователю. Total Recorder делает одно маленькое, но чертовски полезное дело: записывает все, что шевелится! То бишь любой звук, выливающийся из вашего компьютера: будь то файл RealPlayer, Windows Media Player, Quick Time, WinAmp, обычный музыкальный компакт-диск, звуковая дорожка фильма и игрушки, телефонный разговор, запараллеленый на компьютер, — что угодно. Все это сохраняется в универсальном wave-формате. Лично я мгновенно нашел применение для Total Recorder для записи радиопередач в формате real audio, которые невозможно сохранить из-за условностей копирайта и отключения опции Save в RealPlayer. Думаю, что при минимуме фантазии всякий читатель найдет собственное применение для этой полезняшки.
Рисунок 2
[1] — По словам Сакрамента — ровно в три раза дешевле, чем у Элана.
[обратно к тексту]
[2] — Что незаменимо для синхронизации чтения и каких-то действий со стороны программы.
[обратно к тексту]