Пара слов о речи
АрхивВ этой теме мы попытались взглянуть на проблемы обработки речи с технологической точки зрения. Обзоров прикладных программных продуктов, работающих с речью, опубликовано немало, в том числе и в "Компьютерре", но на саму речь - как на "объект", подлежащий обработке, - внимание обращают реже. А он весьма и весьма интересен.
Если механизм речеобразования более или менее изучен, то в отношении восприятия человеком звуков ясности совсем немного. Вероятно, потому, что точно разделить, где кончается физиология восприятия, а где начинается обработка, "подцепляющая" интеллект и культурный опыт слушателя, невозможно, и именно поэтому лучше говорить о психофизиологии восприятия. С этой тонкостью постоянно сталкиваются разработчики речевых алгоритмов - скажем, повсеместно используемый в технике среднеквадратический критерий в качестве меры близости сигналов для речи подходит довольно плохо, и используют его только потому, что ничего лучше не предложено. Известен также эффект привыкания (обучения) слушателя, когда звучание какого-либо кодека, показавшееся при первом с ним столкновении неприемлемым, со временем становится настолько привычным и комфортным, что замена его на более качественный может вызвать протест и недовольство. Хороший пример тому - пользователи первых вокодеров, на первых порах не желавшие признавать преимущества более совершенных кодеков.
|
Ведущие игроки на рынке обработки речи хорошо известны и всячески продвигают свои стандарты. Например - многоплатформный Speech Recognition API (SRARI), поддерживающий распознавание, синтез речи и некоторые другие прикладные речевые задачи. В разработке SRARI участвуют Novell, Dragon Systems, IBM, Intel и множество других компаний (Microsoft, как водится, идет своим путем, предлагая собственный API).
А что вообще можно делать с речью? По большому счету, технологий обработки всего три. Первая из них - сжатие речи (темапервой статьи) - весьма специфична и внешне схожа с той, что решают многочисленные программы-архиваторы. Но хоть и схожа, а на деле совсем иная: попробуйте, записав с помощью микрофона и звуковой карты пару слов, обработать их архиватором. Хорошего сжатия вы не получите из-за специфики избыточности речи. Собственно, все специализированные сжимающие алгоритмы тем и занимаются - устраняют заложенную в речи избыточность, а вот архиваторы распознавать ее не умеют. Области применения сжатия речи - это все те задачи, где требуется ее передача по каналу связи или, что в статье не упоминается, хранение, например, в аудиоархивах. Область тоже огромная и только зарождающаяся, так как раньше в отсутствиедешевых и экономичных кодеков и носителей информации ее развитие было просто невозможно. Еще одна намеренно исключенная область - сжатие высококачественной широкополосной речи (и музыки). Это слишком большой и отдельный вопрос, так как подходы там во многом другие, да и скорости передачи отличаются на порядки. Возможно, мы еще уделим этому внимание, например, в рамках обсуждения технологии МР3.
Распознавание речи - вторая статья темы номера, - наверное, самая "волнующая" из всех. Оптимизм по поводу распознавания в 70-е годы достиг такого уровня, что, казалось, вот-вот и мы получим новый интерфейс с машинами, но до сих пор пока что-то не получается... Проблемы все те же - нереализуемость для машины функции распознавания смысловой и интонационной нагрузки речи и недостаточная надежность ввода, отягощенная к тому же довольно специфичными требованиями к акустическим свойствам помещения и произношению диктора. Поэтому в статье Елены Галяшиной в большей степени рассматриваются "технологические" вопросы распознавания, а не прикладные свойства доступных на рынке систем. Что-то прикладное, конечно, постепенно "прорастает" - на сегодня областями применения речевого ввода стали средства взаимодействия человек-машина для людей с физическими недостатками, например, с ослабленным зрением, а также отдельные компьютерно-телефонные системы (автоматизированный заказ билетов, получение справок и т. п.), работающие с ограниченным словарем, в который могут входить, например, всего десять цифр и несколько спецсимволов, имеющихся у телефонных аппаратов.
Но распознавание речи - это лишь одна, "вводная", часть интерфейса человека и машины. "Ответная" технология - синтез речи, необходимый для всевозможных систем интерактивного взаимодействия (компьютерная телефония, игры и пр.), стал третьей и последней затронутой нами темой. Тут тоже часто возникает путаница, так же как и с архиваторами, поскольку есть принципиальная разница между предварительно записанными речевыми фразами, выдаваемыми пользователям в соответствующих ситуациях, и "настоящим" синтезом, когда нужная фраза генерируется "на лету" по набору правил. Первый вариант, слов нет, хорош (ему, кстати, уделено должное внимание в третьей статье, где имеется прекрасный обзор истории "говорящих машин"), но требует много памяти и непригоден для озвучивания заранее неизвестных текстов. Интересующимся синтезом также могу предложить заглянуть в давнюю "КТ" #226 от 8 декабря 1997 года, в которой есть подборка статей по речевой тематике, в том числе и по синтезу речи, а также в тему номера "Идентификация личности" в "КТ" #288. Обратите внимание и на "КТ" #292, где в статье Дмитрия Симаненкова много внимания уделено спектральному анализу - основе основ обработки речи, а также в подготовленную им же тему номера "Цифра и звук" ("КТ" ##259, 260).
Сейчас, как и в 70-е, снова принято считать, что вскоре речевой интерфейс чуть ли не вытеснит традиционные клавиатуру и мышь. Прогресс, в самом деле, заметен, но оснований для избыточного "технооптимизма" я не вижу. Об этом, в частности, можно прочесть в статье про распознавание речи, а причина здесь та, о которой я уже говорил: процесс генерации и восприятия речи слишком сильно "завязан" на психофизиологию человека. По-моему, наибольшего прогресса стоит ждать на фронте сжатия речи, так как тут ставится относительно "чистая" задача - наилучшим способом повторить форму речевого сигнала безотносительно семантической и прагматической подоплеки сказанного. В задачах синтеза и особенно распознавания от этого ограничения избавиться труднее. Хотя, как ни крути, а перспективы применения речи в качестве универсального интерфейса очень заманчивы!
Логичным следствием сказанного и хорошим продолжением разговора, возможно, стал бы переход от темы речи как самостоятельного объекта к более общим вопросам коммуникации, языка и взаимосвязи всего этого с социокультурой и мышлением людей. Область менее техническая, но для техники более чем прикладная. Но это потом, и если получится, а пока займемся "чистой" речью.