Архивы: по дате | по разделам | по авторам

Услышь меня, машина

Архив

автор : ВЯЧЕСЛАВ АЛЕКСЕЕВ 08.12.1997

- Пусть же празднество начнется, - говорит он и хлопает в ладоши.

И тут же между колонн проскальзывают столы, уставленные яствами и напитками, а в воздухе разливается музыка. И, подчиняясь его приказу, шевелятся мертвые.

Р. Зилазни. "Порождения света и тьмы"

Что такое распознавание речи? На первый взгляд, все очень просто: вы произносите фразу, на которую техническая система реагирует адекватно - либо автомат выполняет команду, содержащуюся во фразе, либо набирает диктуемый текст, либо распоряжается извлеченной из фразы информацией иным образом. Как именно, зависит от конкретной реализации.

На самом деле за столь простой идеей кроются огромные сложности. С давних времен проблема распознавания речи беспокоила умы многих исследователей. Но то, что эта задача очень долго оставалась на стадии начальных исследований, уже говорит о нетривиальности требующихся подходов. Если порождающей силой любого технического "чуда" является мечта, то и распознавание речи не является в этом смысле исключением. Достаточно вспомнить сказки, которые буквально напичканы различными устройствами, управляющимися речевыми командами. Это скатерти-самобранки и печки-самоходы, ковры-самолеты, дудочки, горшки и прочая утварь. И все эти "устройства" можно считать автоматами, управляемыми речью. Если обратить внимание на отношение к ним сказочных персонажей, то становится ясно, что многие из таких "устройств" изначально были выдуманы как вещи неодушевленные (мало кому придет в голову интересоваться душевным состоянием той же печи-самохода). Следовательно есть идея, есть давняя мечта, есть постановка вопроса. А что же с воплощением?

Интерес к давней проблеме с новой силой вспыхнул с появлением вычислительной техники. В пятидесятые-шестидесятые годы, окрыленные высокими темпами научно-технического прогресса, многие полагали, что с компьютером можно будет общаться исключительно "естественным" образом уже через 10-15 лет. Впоследствии эра "бесклавиатурного" общения была отодвинута к концу восьмидесятых годов, потом девяностых… Конечно, в настоящее время имеется некоторый прогресс и рынок проявляет все возрастающий интерес к этой технологии. Программы и системы, обладающие средствами речевого ввода информации, получают все большее распространение, но они еще ой как далеки от совершенства. Проблема оказалась весьма сложной и обладающей свойством разветвляться в другие области знаний: статистическую радиотехнику, лингвистику, психоакустику ¹ и многие другие, упираясь в конце концов в стену, за которой скрывается тайна функционирования человеческого интеллекта. Как всегда, обнаруживается старая тенденция: чем больше мы знаем, тем больше появляется новых вопросов.

Почему же между постановкой задачи и ее решением лежит дистанция огромного размера? Распознавание речи - молодая, развивающаяся технология. Ее очертания пока зыбки и изменчивы. Поэтому в статье пока больше вопросов, чем ответов. Но вспомните экзаменационную банальность: грамотно поставленный вопрос уже содержит в себе часть ответа. Я попытаюсь немного рассказать о технологиях распознавания речи, и, надеюсь, вам будет интересно.

Немного о терминах

Начнем с главного термина. Что есть речь?

Говоря о речи, мы должны различать такие понятия, как "речь", "звуковая речь", "звуковой сигнал", "сообщение", "текст".

В нашем случае, в приложении к задаче распознавания такие понятия, как "речь" и "звуковая речь" означают одно и то же - некое генерируемое человеком звуковое сообщение, которое может быть объективно зарегистрировано, измерено, сохранено, обработано и, что важно, воспроизведено при помощи приборов и алгоритмов. То есть речь может быть представлена в виде некоего речевого сигнала, который в свою очередь может использоваться для обратного воспроизведения речи. То есть можно поставить знак эквивалентности между звуковой речью и ее представлением в виде речевого сигнала. При этом под понятием "сообщение" может скрываться любая полезная для получателя информация, а не только текст. Например, если интересоваться не словами а интонациями, то сообщением будут просодические ² нюансы речи. Что же касается распознавания речи, то в нашем случае задача сводится к извлечению из речи текста.

Но здесь мы сталкиваемся с одним противоречием. Текст, как известно, состоит из букв, слов, предложений, - то есть он дискретен. Речь же в нормальных условиях звучит слитно. Человеческая речь, в отличие от текста, вовсе не состоит из букв. Если мы запишем на магнитофонную ленту или на диск компьютера звучание каждой отдельной буквы, а потом попробуем скомпоновать из этих звуков речь, у нас ничего не получится. Взгляните на фонограмму слова "мама" (рис. 1). Мы знаем, что это слово вроде бы должно состоять из четырех букв, однако отчетливо видно, что на самом деле оно состоит не из четырех, а только из двух звуков: по-видимому, это те звуки, которые можно выразить слогами "ма" и "ма".

Рисунок 1.

Люди уже довольно давно догадались о том, что элементарные звуки, из которых состоит речь, не эквивалентны буквам. Поэтому и придумали понятие фонемы для обозначения элементарных звуков речи. Хотя до сих пор специалисты никак не могут решить - сколько же всего различных фонем существует. Есть даже такой раздел лингвистики - фонетика. По ней написано множество работ, некоторые очень давно. Большинство авторов даже для одного и того же языкового диалекта приводят разное количество фонем. В русском языке по одним данным 43 фонемы, по другим - 64, по третьим - более сотни… Но так уж повелось, что есть миф о незыблемости понятия фонемы. И о том, что речевой сигнал состоит непосредственно из кусочков сигнала, каждый из которых является фонемой. К сожалению, все далеко не так просто.

Поначалу ученые рассматривали речевой сигнал как набор неких универсалий, расположенных друг за другом на временной оси, и считали этими универсалиями фонемы. Однако дальнейшие исследования речевых сигналов никаких фонем не обнаружили. Если взглянуть на ту же диаграмму со словом "мама", то легко заметить, что две составные части этого слова, которые мы определяем в общем-то как одинаковый звук "ма" (ма-ма), на самом деле различны. Далее, если мы возьмем и поменяем местами два этих звука "ма", то получившееся слово вовсе не будет звучать, как слово "мама".

Тогда одни исследователи справедливо решили, что при генерации речевых сигналов наблюдается коартикуляция, то есть взаимопроникновение соседних звуков (мышцы лица, язык и челюсти обладают разной инерцией). Значит, речевой сигнал должен состоять не из фонем, а из аллофонов - комбинаций "слипшихся" фонем. Другие исследователи, подобно физикам, атаковали идею элементарности фонем и стали утверждать, что фонемы надо поделить на еще более короткие кусочки или даже вообще отказаться от этого понятия и "расчленять" речевой сигнал как-то иначе. Так родились фоноиды и еще масса авторских названий элементарных звуков.

А дальше все многозначительно замолчали. Каждый принялся рассматривать речевой сигнал со своей позиции, сообщая об успехах весьма туманно. Последнее, весьма вероятно, можно объяснить желанием сохранить ноу-хау. Вот такая картина. Люди изобрели целую кучу претендентов на универсальность. Конечно, в их основу положено прежде всего человеческое ощущение звука. Возможно, поэтому фонемы ничем не лучше букв. А фоноиды, аллофоны и прочая - лишь усовершенствованная версия звукового деления речи. Может быть, в них и есть какой-то смысл. Мы ведь так слышим. А технически-то сигнал состоит не из наших, человеческих компонентов восприятия. Сигнал можно разложить, отфильтровать, как-то еще преобразовать. Задача не в этом. Необходимо найти некий эквивалент, построить модель механизма восприятия звуков речи.

Багаж знаний

Технология распознавания речи развивается не на пустом месте. Богатая научно-техническая база имеется в смежной области. Это связь и обработка (сжатие) речевых сигналов. Давным-давно телефонисты опытно-экспертным путем сформировали требования к линии речевой связи. Появилась своя теория, понятия и термины. Появились различные подходы к обработке речевых сигналов. Для специалистов, взявшихся за проблему распознавания речи, значительный интерес представляли наработки по системам связи с сильным сжатием речевого сигнала, так называемым вокодерам. Их было придумано великое множество: полосные вокодеры и полувокодеры, формантные, корреляционные, ЛПК-вокодеры, фонемные вокодеры - вот лишь некоторые разновидности этих приборов. Более подробную информацию о вокодерах заинтересовавшиеся могут почерпнуть в [1].

Остановимся на фонемных вокодерах. Принцип действия этих устройств сходен с работой простой системы распознавания речи. Он заключается в выделении из речевого сигнала потока фонем на передающем конце линии связи и синтез речи из потока фонем на приемном конце. По линии связи передавались только кодовые обозначения фонем. Задача выделения фонем из сигнала очень сложна, и причин тому множество. Забегая вперед можно упомянуть спектрально-временную и коартикуляционную нестационарности фонемных реализаций. (Обычно так оправдываются разработчики.) Поэтому качество связи в существовавших фонемных вокодерах было отвратительным, но они обеспечивали самое сильное сжатие речевых сообщений, что и требовалось от вокодера. Подчеркиваю: не речевых сигналов, а речевых сообщений! Часто сигнал на приемном конце линии связи не имел ничего общего с отправленным оригиналом. (Почти как e-mail после многократного перекодирования.) Тем не менее иногда что-то удавалось разобрать.

В технике связи существует несколько различных показателей качества работы системы. Основные из них являются разборчивость речи и узнаваемость диктора. Когда требовалось максимально сжать речевое сообщение, сохранив на приемлемом уровне разборчивость, то узнаваемостью обычно жертвовали. Иногда жертвовали всей просодической информацией: интонацией, частотой основного тона и прочими "не текстовыми" признаками. В этом случае речь на приемном конце линии связи была похожа на звуки, которые издают роботы из видеофильмов. Однако это не мешало восприятию содержательной части, если действительно обеспечивалась хорошая разборчивость.

Кроме связи, большой интерес для ученых, работающих в области распознавания речи, представляют различные разделы лингвистики, науки о языках. Возможно, удачный синтез достижений этих наук и теории обработки речевых сигналов приведут к успешному созданию систем распознавания речи, а возможно, потребуется нечто другое.

Главные трудности фонемного подхода

1. Темп речи варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропорционально. Например, гласные изменяются значительно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых звуков есть свои закономерности. (Полугласные - это звуки при генерации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в обиходе считаются согласными. Например, так обычно звучат "м", "н", "л" и "р". Смычные звуки образуются при резком смыкании и размыкании органов артикуляции. Например "б", "п", "д", "т". Образование щелевых звуков связано с шипением и прочими эффектами турбулентности в органах артикуляции. Можно назвать "в", "ж", "с", а также "ш" и другие шипящие. В качестве примеров для простоты намеренно не приведены звуки, не имеющие буквенных обозначений.) Эта свойство называется временной нестационарностью образцов речевого сигнала.

2. Произнося одно и то же слово или фразу в разное время, под влиянием различных факторов (настроения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-временные распределения энергии. Это справедливо даже для дважды подряд произнесенного слова. Намного сильнее этот эффект проявляется при сравнении спектрограмм одной и той же фразы, произнесенной разными людьми. Обычно этот эффект называют спектральной нестационарностью образцов речевого сигнала (см. примеры спектрограмм).

3. Изменение темпа речи и четкости произношения является причиной коартикуляционной нестационарности, означающей изменение взаимовлияния соседних звуков от образца к образцу.

4. Проблема кластеризации слитной речи. Из непрерывного речевого потока довольно непросто выделить какие-либо речевые единицы. Многие звуки "слипаются" либо имеют нечеткие границы.

Вот лишь некоторые причины, препятствующие реализации систем распознавания речи.

"Распознавалка" изнутри

Идеологически система распознавания речи состоит из двух частей. Эти части могут быть неявно выделены в самостоятельные блоки или подпрограммы. Какая-то из них может существовать в упрощенном до крайности виде, но в любой реализации всегда есть эти части. В литературе можно встретить разные варианты названия этих составных частей. Для простоты скажем, что система распознавания речи состоит из акустической и лингвистической частей. Последняя, впрочем, лингвистической названа не строго. В общем случае она может включать в себя фонетическую, фонологическую, морфологическую, лексическую, синтаксическую и семантическую модели языка, как это предложено считать в [2]. Или, наоборот, представлять собой простенький коррелятор.

Акустическая модель отвечает за представление речевого сигнала. Вернее, за его преобразование (из традиционного временного процесса) в некоторую форму, в которой в более явном виде присутствует информация о содержании речевого сообщения. Лингвистическая модель интерпретирует информацию, получаемую от акустической модели, и отвечает за представление результата распознавания потребителю (в роли которого может выступать не только человек, но и техническая система, управляемая речью).

Акустическая модель

В любой системе распознавания речи есть тонкий момент, остающийся целиком на совести разработчика. Это представление речи в промежутке между акустическим и лингвистическим блоками. Иными словами, как построить акустическую модель? Здесь традиционно существует два общих подхода: изобретательский и бионический.

Первый базируется на результатах эвристического поиска механизма функционирования акустической модели, на известных приемах и алгоритмах, а так же имеющихся у разработчика ресурсах. При втором подходе разработчик пытается понять и смоделировать работу естественных живых систем. В нашем случае - слуха. От ушной раковины до глубин речевого центра мозга. В идеале, конечно.

Оба подхода имеют свои достоинства и недостатки. Для первого - широчайшая свобода творчества и сопутствующая ей полная неопределенность является и тем и другим. Что касается второго подхода, то и он не свободен от творческих изысков. И по сей день очень трудно судить о работе даже одного нейрона с его несколькими десятками дендритов, синаптическими окончаниями, веществами-нейромедиаторами и многом другом, о чем часами могут рассуждать биохимики, нейрофизиологи и нейропсихологи. Что уж говорить о сотнях тысяч нервных клеток, находящихся во внутреннем ухе человека и взаимодействующих между собой и с речевым центром головного мозга - тоже с немалым числом нейронов.

При разработке технических систем, напрямую взаимодействующих с человеком, выбор подхода имеет первостепенное значение. И у бионического подхода есть противники. Конечно, можно оспорить его обоснованность. Скажем, существует "черный ящик", на вход которого подана речь, а на выходе получается текст. И не важно, соответствуют ли процессы, протекающие в ящике, процессам, происходящим в голове слушателя. Ведь моделирование процесса восприятия не является самоцелью, важен результат - распознавание речи.

В принципе, верно - но до тех пор, пока не доходит до реализации системы на практике. Каждый разработчик остается один на один со своим "черным ящиком". Если та часть ящика, которая ближе к выходу, уже обретает ясные очертания (лингвисты не зря едят хлеб), то с его входной частью полная тьма. Не будем вдаваться в трудности разработки лингвистического блока. Хотя его реализация сама по себе очень непроста, но тут целина поднята. Следует обратить внимание на то, как быстро развиваются системы оптического распознавания текста и системы автоматического перевода, в том или ином виде включающие в себя лингвистическую модель языка (языков). Поэтому будем считать, что у некоторого абстрактного разработчика системы распознавания речи уже есть приемлемая лингвистическая модель, то есть "выход" системы. Остается промежуток между речевым сигналом на входе системы и условным входом лингвистического блока.

Что же дальше? Произведем декомпозицию нашего "черного ящика" на "черный ящик" акустической модели и условно готовой лингвистической модели. И вновь, оставшись один на один с необходимостью строить акустическую модель, наш разработчик, возможно, начнет рассуждать о правомочности бионического подхода. Потому что эвристика пока дает неважные результаты. Например, опираясь на миф о спектральном разложении, происходящем на основной мембране слуховой улитки, был предложен метод "чтения спектрограмм". (Как выяснилось, ухо совсем не обычный анализатор спектра. Спросите у музыкантов о неравномерности разрешения слуха на разных частотах. Или у психоакустиков - о сложнейших нелинейных эффектах маскировки звуков.)

Считалось, что при правильном выборе параметров спектрального преобразования, можно с высокой вероятностью "читать" "текст" речевого сообщения по цветным рисункам срезов энергетического спектра. Спектральные срезы производятся с временным интервалом, обеспечивающим приемлемую динамику спектрально-временной картинки. Метод стал классическим несмотря на скромные результаты и критику за "биологическую несогласованность" со слухом.

Справедливости ради нужно отметить, что многие из существующих систем включают в себя акустический блок, созданный на основе смешанного подхода. Как говорится, моделируем, что знаем, остальное изобретаем.

Так что же делать разработчику? Сомнений масса. Стоит ли лезть в биологию? С одной стороны, интуитивно понятно, что в преобразовании "раздражитель - образ" у природы все приоритеты. Но с другой стороны, в нашем распоряжении лишь несколько весьма смутных гипотез о "представлении" звука в биологической системе. Вот здесь и возникает пресловутый тонкий момент. Основная задача акустической модели - выделить информативные параметры (признаки) из речевого сигнала. Другими словами, где-то в этой части системы проходит тонкая грань между некоторой совокупностью параметров речевого сигнала и более крупными единицами речи. Чем более грубо эта грань преодолевается, тем более "глухой" бывает система в целом. Просто взять чувствительный микрофон и обнаружить в некоторые моменты времени частотные составляющие спектра речевого сигнала недостаточно. В большинстве случаев это не позволяет идентифицировать речевые единицы, речевые признаки "спрятаны" глубже!

Каждый разработчик системы распознавания речи по-своему пытается решить эту проблему. Именно пытается, так как она пока не решена, насколько это известно из доступных источников. (Здесь мне следовало бы быть осторожным, так как проблема, возможно, решена на приемлемом уровне, но ее решение является важнейшим ноу-хау в технологиях распознавания речи и потому не опубликовано.) Ведь вспомним, до сих пор фактически не ясно, возможно ли разбить речь на некие элементарные универсальные составляющие, неважно, как их называть, фонемы ли, морфемы, аллофоны… Так где же заканчивается сигнал и начинается некая элементарная универсалия? Универсалия, которая базируется не на сходных звуковых ощущениях людей, а на возможности реализации в технической системе. Как построить процедуру опознавания таких единиц? Скорее всего эта процедура есть важнейшая "деталь" системы распознавания речи. Если ее удастся сделать качественно, то дальнейшее - дело лингвистического обработчика. Пока приемлемого решения не видно. Но не стоит отчаиваться. Определенный опыт все же накоплен.

Лингвистическая модель

Согласно [2] , лингвистический блок подразделяется на следующие ярусы (слои, уровни): фонетический, фонологический, морфологический, лексический, синтаксический, семантический. Всего их шесть. За основу взят русский язык. Все ярусы суть априорная информация о структуре естественного языка, а, как известно, любая априорная информация об интересующем предмете увеличивает шансы принятия верного решения. На том стоит вся статистическая радиотехника. А естественный язык несет весьма сильно структурированную информацию, - из чего, кстати, вытекает, что для каждого естественного языка может потребоваться своя уникальная лингвистическая модель (предвижу трудности с русификацией сложных систем распознавания речи).

В соответствии с данной моделью на первом - фонетическом - уровне производится преобразование входного (для лингвистического блока) представления речи в последовательность фонем, как наименьших единиц языка. Считается, что в реальном речевом сигнале можно обнаружить лишь аллофоны - варианты фонем, зависящие от звукового окружения. Но сути это не меняет. Обратите внимание, что фонемы со товарищи могут перекочевать в лингвистический блок.

На следующем - фонологическом - уровне накладываются ограничения на комбинаторику фонем (аллофонов). Ограничение - это правило наизнанку, значит, опять есть полезная априорная информация: не все сочетания фонем (аллофонов) встречаются, а те, что встречаются, имеют различную вероятность появления, зависящую еще и от окружения. Для описания этой ситуации используется математический аппарат цепей Маркова.

Далее, на морфологическом уровне оперируют со слогоподобными единицами речи более высокого уровня, чем фонема. Иногда они называются морфемами. Они накладывают ограничение уже на структуру слова, подчиняясь закономерностям моделируемого естественного языка.

Лексический ярус охватывает слова и словоформы того или иного естественного языка, то есть словарь языка, так же внося важную априорную информацию о том, какие слова возможны для данного естественного языка.

Семантика устанавливает соотношения между объектами действительности и словами, их обозначающими. Она является высшим уровнем языка. При помощи семантических отношений интеллект человека производит как бы сжатие речевого сообщения в систему образов, понятий, представляющих суть речевого сообщения. Отсюда следует вывод, что система должна быть "умной". Чем лучше у нее будет построена модель семантических связей, эквивалента "системы мысленных образов", тем больше вероятность правильно распознать речь.

Многообразие видов

Существующие системы распознавания речи можно классифицировать по разным признакам.

По назначению:

командные системы,
системы диктовки текста.

По потребительским качествам:

диктороориентированные (тренируемые на конкретного диктора),
дикторонезависимые (рискую предложить термин "омнивойс"),
распознающие отдельные слова,
распознающие слитную речь.

По механизмам функционирования:

простейшие (корреляционные) детекторы,
экспертные системы с различным способом формирования и обработки базы знаний,
вероятностно-сетевые модели принятия решения, в том числе нейронные сети.

Довольно трудно выбрать удобный показатель качества работы системы распознавания речи. Наиболее просто такой показатель качества вводится для командных систем. При тестировании в случайном порядке произносятся все возможные команды достаточно большое число раз. Подсчитывается количество правильно распознанных команд и делится на общее количество произнесенных команд. В результате получается оценка вероятности правильного распознавания команды в заданной при эксперименте акустической обстановке. Для систем диктовки похожий показатель качества может вычисляться при диктовке некоторого тестового текста. Очевидно, что это не всегда удобный показатель качества. В действительности мы сталкиваемся с самыми различными акустическими обстановками. А как быть со сменой дикторов и сопутствующей ей тренировкой системы? Различным системам может требоваться разный объем настройки, что сильно влияет на удобство пользования. Стандартным выходом может стать использование многокритериального, так называемого комплексного показателя качества, [3].

В качестве примера рассмотрим вариант простейшей командной системы распознавания речи. Функционирование системы основано на гипотезе о том, что спектрально-временные характеристики команд-слов для отдельно взятого диктора изменяются слабо. Акустическая модель такой системы представляет собой преобразователь из речевого сигнала в спектрально-временную матрицу может служить типичным примером изобретательского подхода. В самом простом случае команда локализуется во времени по паузам в речевом сигнале. Лингвистический блок способен обнаружить ограниченное число команд плюс еще одну, которая означает все остальные неизвестные системе слова. Как правило, лингвистическая модель строится как алгоритм поиска максимума функционала от входного образца и образцов всего "словарного запаса" системы. Часто это обычный двумерный коррелятор. Хотя выбор размерности пространства описания и его метрики может широко варьироваться разработчиком.

Уже исходя из "конструкции" описанной системы понятно, что она представляет собой скорее игрушку, нежели полезный инструмент. В настоящее время на рынке представлено множество коммерческих систем распознавания речи с гораздо большими возможностями:

Voice Type Dictation, Voice Pilot и ViaVoice от IBM;
Dragon Dictate и Naturally Speaking от Dragon Systems;
Voice Assist от Creative Technology;
Listen for Windows от Verbex и многие другие.

Некоторые из них (например, ViaVoice и Naturally Speaking) способны, как заявляют разработчики, вводить слитную речь.

Лингвистические блоки современных систем реализуют сложную модель естественного языка. Иногда она основана на математическом аппарате скрытых цепей Маркова, иногда использует последние достижения технологии нейронных сетей либо других ноу-хау. Устройство же акустических блоков подобных систем держится в строгом секрете. По некоторым признакам можно догадаться, что акустический блок некоторых систем пытается моделировать естественный слуховой аппарат.

Что дальше?

А дальше… С одной стороны, нужно не забывать, что речь - это все-таки одно из проявлений высшей нервной деятельности человека, и потому вряд ли в ближайшие несколько лет стоит ожидать появления систем распознавания речи, по эффективности и удобству сравнимых с секретарем-машинисткой, печатающей "со слов". С другой стороны, в мире технологий все меняется очень быстро, и не известно, что сложнее: расслышать непринужденно сказанную фразу или разыграть красивый эндшпиль…

Список литературы:

Калинцев Ю. К. Разборчивость речи в цифровых вокодерах. - М.: Радио и связь, 1991.
Потапова Р. К. Речевое управление роботом. - М.: Радио и связь, 1989.
Березин Л. В., Вейцель В. А. Теория и проектирование радиосистем. - М.: Советское радио, 1977.

Речевой аппарат человека

Легкие играют роль источника энергии. Воздух из легких проходит через трахею и голосовые связки. Голосовые связки смыкаются и размыкаются, модулируя воздушный поток, вследствие чего он приобретает вид последовательности импульсов сложной формы. Некоторые индивидуальные различия в строении голосовых связок обуславливают различия в форме импульсов, а значит, тембр голоса.

Частота импульсов называется частотой основного тона. Она играет главную роль в образовании интонаций и пении, а также является "несущей" для гласных звуков. В некоторых восточных языках, например в китайском, изменение частоты основного тона - важный информативный параметр речи. Звуки речи, в которых присутствует основной тон, называются вокализованными.

Далее, через гортань воздух попадает в ротовые и носовые резонансные области. Небная занавеска делит воздушный поток между ротовой и носовой полостями в различной пропорции. При значительном перераспределении в носовую полость получаются назализованные (то есть приобретшие носовой тембр) звуки. При соответствующей артикуляции языка, зубов и губ в речевом тракте могут образовываться щели. При прохождении через них воздух завихряется, то есть шумит. Такие шумящие и шипящие звуки называются щелевыми.

Когда мы говорим, происходит процесс изменения формы резонансных областей ротовой и носовой полостей, движение языка, нижней челюсти и губ, запуск и останов (раскрытие) голосовых связок. Трудности акустического моделирования речевого тракта заключаются прежде всего в том, что весь речевой тракт можно считать цепью с сосредоточенными параметрами только на низких (порядка нескольких сотен герц) частотах. При более высоких частотах длина звуковой волны близка или превышает длину речевого тракта. В этом случае процесс генерации звука относительно точно может описываться только сложными волновыми уравнениями, даже без учета перестройки речевого аппарата при артикуляции. Поэтому на практике применяют упрощенные подходы. Описания некоторых из них можно найти в [1].

Как мы слышим

Анатомия слухового аппарата изучена весьма подробно, но принцип работы, даже на уровне "механики", изучен недостаточно. Создание хорошей математической модели слуха требует более глубокого понимания процессов, происходящих в слуховом аппарате.

Для знакомства с устройством собственных ушей очень хороша фундаментальная монография виднейших психоакустиков Э. Цвикера и Р. Фельдкеллера "Ухо как приемник информации". Основываясь на многочисленных экспериментах, авторы доказывают, что слуховые ощущения подчиняются общим законам, не зависящим от индивидуальных свойств человека, - в противовес давнему спору о субъективности ощущений каждого человека.

Авторы поставили своей целью ответить на вопрос: для каких слуховых ощущений можно сформулировать закономерности взаимосвязи ощущения со звуком. В монографии приведены результаты многочисленных исследований слухового аппарата человека, изложенные в доступной форме. Очень подробна и интересна та часть, где описана "конструкция" уха. Наружное ухо представляет собой ушную раковину и слуховой проход, заканчивающийся барабанной перепонкой. Последняя отделяет наружное ухо от среднего уха и способна приоткрываться на короткое время в момент глотания. При этом слышится негромкий характерный хруст. Звуковые колебания раскачивают барабанную перепонку и далее, через слуховые косточки, играющие роль согласующего трансформатора и расположенные в среднем ухе, передаются мембране овального окна. За овальным окном расположено внутреннее ухо, заполненное жидкостью, так называемой перилимфой. Похожее формой на улитку, оно так и называется: слуховая улитка. Это часть слухового аппарата до сих пор остается самой загадочной. В ней расположены основная и покровная мембраны и мембрана Рейснера. Звуковая волна распространяется внутри улитки вдоль основной мембраны, на которой расположен кортиев орган, являющийся датчиком. В нем несколькими рядами расположено множество чувствительных клеток, связанных с мозгом слуховым нервом. Авторы указывают: "Ряды чувствительных клеток кортиевого органа улавливают все особенности формы колебаний основной мембраны, в результате чего в слуховом центре формируется ощущение громкости звука и высоты тона. Как именно это происходит, пока еще далеко не ясно". Очевидно, что ухо не кончается улиткой. Есть еще слуховой центр мозга, где протекают пока не разгаданные процессы формирования слухового ощущения.

Может быть, более важным, с точки зрения полезности для формирования акустической модели систем распознавания речи, является то, что авторы подчеркивают сложность, нелинейность слухового аппарата. Слух - это не простой параллельный анализатор спектра энергии звука. Основываясь на этих и многих других работах, можно выступить с критикой линейных стационарных подходов, применяемых многими разработчиками систем распознавания речи. В общем, необходимы дальнейшие исследования, так как в наших знаниях о слухе еще полным-полно белых пятен.

Как мы говорим

Считается, что о процессе речеобразования мы знаем больше, чем о слухе. Практически в любом труде по распознаванию речи и вокодерной технике описывается устройство речевого аппарата человека, сопровождаемое соответствующей математической моделью. Появлялись в печати и сообщения о работах по озвучиванию "внутренней речи". На лицевые и другие артикулирующие мышцы испытуемого прикреплялись датчики электрической активности, подключенные к компьютеру. Испытуемый произносил тестовые звуки и слова, а компьютер снимал показания датчиков и строил базу данных образцов, то есть "обучался". Впоследствии, благодаря накопленным данным, программа могла печатать или синтезировать произносимые вслух слова.

Самое поразительное заключается в том, что если увеличить чувствительность датчиков, то они давали аналогичные сигналы и при речи "про себя". Оказалось, что если думать словами, то на артикулирующие мышцы тоже поступают слабые сигналы возбуждения, аналогичные речевым. Конечно, "подслушать" удавалось только мысли в форме "внутренней речи", составляющей, как выяснилось, далеко не полную картину мышления. Да и то, по отзывам разработчиков, наблюдалась дикая мешанина из обрывков фраз. И как только мы умудряемся до чего-то додуматься, имея такую "кашу" в голове!

¹ Психоакустика - наука, изучающая воздействие звука на психику человека.

² То есть относящиеся к акустическим компонентам интонации фразы - мелодике, временным характеристикам.