Архивы: по дате | по разделам | по авторам

Пара слов о речи

Архив

автор : Михаил Брауде-Золотарев 12.04.1999

В этой теме мы попытались взглянуть на проблемы обработки речи с технологической точки зрения. Обзоров прикладных программных продуктов, работающих с речью, опубликовано немало, в том числе и в "Компьютерре", но на саму речь - как на "объект", подлежащий обработке, - внимание обращают реже. А он весьма и весьма интересен.

Если механизм речеобразования более или менее изучен, то в отношении восприятия человеком звуков ясности совсем немного. Вероятно, потому, что точно разделить, где кончается физиология восприятия, а где начинается обработка, "подцепляющая" интеллект и культурный опыт слушателя, невозможно, и именно поэтому лучше говорить о психофизиологии восприятия. С этой тонкостью постоянно сталкиваются разработчики речевых алгоритмов - скажем, повсеместно используемый в технике среднеквадратический критерий в качестве меры близости сигналов для речи подходит довольно плохо, и используют его только потому, что ничего лучше не предложено. Известен также эффект привыкания (обучения) слушателя, когда звучание какого-либо кодека, показавшееся при первом с ним столкновении неприемлемым, со временем становится настолько привычным и комфортным, что замена его на более качественный может вызвать протест и недовольство. Хороший пример тому - пользователи первых вокодеров, на первых порах не желавшие признавать преимущества более совершенных кодеков.

ИКМ, вокодеры, далее везде

Если передавать оцифрованную речь "как есть", не подвергая ее никакой обработке, то для сохранения "телефонного" качества звучания потребуется пропускная способность канала на уровне 100 кбит/с. Проецируя полученное число на скорость твоего, читатель, модемного соединения, ты без труда поймешь, что при таком подходе поговорить "по Интернету" не удастся никак... А ведь для полного дуплекса - одновременной двустронней передачи речи - придется еще умножить 100 кбит/с на два!

Но сделав первый шаг в сторону сжатия и применив элементарную (и вычислительно, и концептуально) обработку по рекомендации G.711 1960 года Международного союза электросвязи (ITU), мы уже получим скорость передачи 64 кбит/с. Процедура, называемая логарифмической импульсно-кодовой модуляцией (ИКМ), такова: отсчеты аналоговой речи дискретизируют и квантуют на базе 8-разрядной нелинейной логарифмической шкалы, имеющей малый шаг квантования на слабых сигналах и увеличенный на сильных, чем достигается эффект независимости шумов квантования от уровня сигнала. Эта очень простая и эффективная технологияпередачи речи по цифровым сетям применяется и поныне.

Что ж, 64 кбит/с немного лучше, чем 100, но именно немного. Настоящее сжатие речи - некая ее обработка, приводящая к сокращенному цифровому описанию, сохраняющему требуемые параметры качества, - появилось позднее. Традиционно устройства, реализующие такое сжатие, называются вокодерами, или кодеками речи (и то, и другое от англ. voice coder-decoder).

Первым таким устройством, фильтровавшим спектр речи с интервалом в 20-30 мс на несколько полос, в каждой из которых измерялась энергия, стал параметрический вокодер Дадли. На каждом интервале определялась характеристика речи "звонкая-глухая" и, в случае звонкой речи, частота основного тона. Эти параметры вместе с общей оценкой громкости передавались на прием. Декодер по полученным параметрам с помощью соответствующих фильтров восстанавливал речь - фильтры возбуждались импульсами соответствующей величины, следующими с интервалами основного тона, а при воспроизведении глухих звуков - шумом. Спектр полученного в результате звука был похож на спектр исходной речи, что обеспечивало высокую разборчивость и низкую скорость (до 2,4 кбит/с), но качество вокодерной речи было очень плохим. Резкие изменения спектральных параметров на границах интервалов, грубые переходы между глухими и звонкими звуками, неточная передача основного тона, неспособность воспроизводить частично приглушенные звуки и другие "свойства" значительно снизили возможности узнавания голоса и придавали речи неестественный характер. Хотя в одном телефонном канале можно было передать несколько вокодерных, из-за своей сложности и недостаточной надежности аппаратуры вокодерная телефония в сетях общего пользования применения не получила.

Чтобы повысить качество, в некоторых вокодерах низкочастотную часть спектра придумали передавать обычным путем, без параметрического кодирования. Благодаря неискаженной передаче первых гармоник основного тона у полувокодеров, как их назвали, достигалось более естественное звучание и качество речи, хотя широкого применения они не получили. Оценка качества звучания такого вокодера была на уровне 1-2 баллов по пятибалльной шкале MOS.

Критерий MOS (mean opinion score - усредненная субъективная оценка) используется как альтернатива "технократическому" среднеквадратическому критерию, не в полной мере отражающему истинное качество синтеза речи. Испытания для получения MOS проводятся на репрезентативном речевом материале, произносимом дикторами с разными голосами. Оценка слушателями выставляется по принципу: 1 - плохо, 2 - посредственно, 3 - удовлетворительно, 4 - хорошо, 5 - отлично. В тестах должно участвовать достаточное число неподготовленных слушателей (минимум 40), чтобы полученные ими выводы были представительны. Провести такое испытание, кстати, под силу только крупным организациям, так как оно не только дорого, но и требует крайне высокой грамотности от организаторов испытания. - Ю.Б.-З.

Ведущие игроки на рынке обработки речи хорошо известны и всячески продвигают свои стандарты. Например - многоплатформный Speech Recognition API (SRARI), поддерживающий распознавание, синтез речи и некоторые другие прикладные речевые задачи. В разработке SRARI участвуют Novell, Dragon Systems, IBM, Intel и множество других компаний (Microsoft, как водится, идет своим путем, предлагая собственный API).

А что вообще можно делать с речью? По большому счету, технологий обработки всего три. Первая из них - сжатие речи (темапервой статьи) - весьма специфична и внешне схожа с той, что решают многочисленные программы-архиваторы. Но хоть и схожа, а на деле совсем иная: попробуйте, записав с помощью микрофона и звуковой карты пару слов, обработать их архиватором. Хорошего сжатия вы не получите из-за специфики избыточности речи. Собственно, все специализированные сжимающие алгоритмы тем и занимаются - устраняют заложенную в речи избыточность, а вот архиваторы распознавать ее не умеют. Области применения сжатия речи - это все те задачи, где требуется ее передача по каналу связи или, что в статье не упоминается, хранение, например, в аудиоархивах. Область тоже огромная и только зарождающаяся, так как раньше в отсутствиедешевых и экономичных кодеков и носителей информации ее развитие было просто невозможно. Еще одна намеренно исключенная область - сжатие высококачественной широкополосной речи (и музыки). Это слишком большой и отдельный вопрос, так как подходы там во многом другие, да и скорости передачи отличаются на порядки. Возможно, мы еще уделим этому внимание, например, в рамках обсуждения технологии МР3.

Распознавание речи - вторая статья темы номера, - наверное, самая "волнующая" из всех. Оптимизм по поводу распознавания в 70-е годы достиг такого уровня, что, казалось, вот-вот и мы получим новый интерфейс с машинами, но до сих пор пока что-то не получается... Проблемы все те же - нереализуемость для машины функции распознавания смысловой и интонационной нагрузки речи и недостаточная надежность ввода, отягощенная к тому же довольно специфичными требованиями к акустическим свойствам помещения и произношению диктора. Поэтому в статье Елены Галяшиной в большей степени рассматриваются "технологические" вопросы распознавания, а не прикладные свойства доступных на рынке систем. Что-то прикладное, конечно, постепенно "прорастает" - на сегодня областями применения речевого ввода стали средства взаимодействия человек-машина для людей с физическими недостатками, например, с ослабленным зрением, а также отдельные компьютерно-телефонные системы (автоматизированный заказ билетов, получение справок и т. п.), работающие с ограниченным словарем, в который могут входить, например, всего десять цифр и несколько спецсимволов, имеющихся у телефонных аппаратов.

Но распознавание речи - это лишь одна, "вводная", часть интерфейса человека и машины. "Ответная" технология - синтез речи, необходимый для всевозможных систем интерактивного взаимодействия (компьютерная телефония, игры и пр.), стал третьей и последней затронутой нами темой. Тут тоже часто возникает путаница, так же как и с архиваторами, поскольку есть принципиальная разница между предварительно записанными речевыми фразами, выдаваемыми пользователям в соответствующих ситуациях, и "настоящим" синтезом, когда нужная фраза генерируется "на лету" по набору правил. Первый вариант, слов нет, хорош (ему, кстати, уделено должное внимание в третьей статье, где имеется прекрасный обзор истории "говорящих машин"), но требует много памяти и непригоден для озвучивания заранее неизвестных текстов. Интересующимся синтезом также могу предложить заглянуть в давнюю "КТ" #226 от 8 декабря 1997 года, в которой есть подборка статей по речевой тематике, в том числе и по синтезу речи, а также в тему номера "Идентификация личности" в "КТ" #288. Обратите внимание и на "КТ" #292, где в статье Дмитрия Симаненкова много внимания уделено спектральному анализу - основе основ обработки речи, а также в подготовленную им же тему номера "Цифра и звук" ("КТ" ##259, 260).

Сейчас, как и в 70-е, снова принято считать, что вскоре речевой интерфейс чуть ли не вытеснит традиционные клавиатуру и мышь. Прогресс, в самом деле, заметен, но оснований для избыточного "технооптимизма" я не вижу. Об этом, в частности, можно прочесть в статье про распознавание речи, а причина здесь та, о которой я уже говорил: процесс генерации и восприятия речи слишком сильно "завязан" на психофизиологию человека. По-моему, наибольшего прогресса стоит ждать на фронте сжатия речи, так как тут ставится относительно "чистая" задача - наилучшим способом повторить форму речевого сигнала безотносительно семантической и прагматической подоплеки сказанного. В задачах синтеза и особенно распознавания от этого ограничения избавиться труднее. Хотя, как ни крути, а перспективы применения речи в качестве универсального интерфейса очень заманчивы!

Логичным следствием сказанного и хорошим продолжением разговора, возможно, стал бы переход от темы речи как самостоятельного объекта к более общим вопросам коммуникации, языка и взаимосвязи всего этого с социокультурой и мышлением людей. Область менее техническая, но для техники более чем прикладная. Но это потом, и если получится, а пока займемся "чистой" речью.