Архивы: по дате | по разделам | по авторам

Речь под микроскопом

Архив
автор : ЕЛЕНА ГАЛЯШИНА    12.04.1999

Сначала было Слово. Потом люди научились его произносить и понимать, а спустя еще некоторое время захотели разобраться, что же это такое - речь... Как люди общаются с помощью звуков? Как в шумах и при плохой слышимости понимают передаваемое им сообщение? Как иногда по одному-двум словам узнают знакомый голос собеседника? И почему никак не могут научить тому же "умную" машину - компьютер?


Оказывается, не все так просто. С одной стороны, в речевом сигнале содержатся некоторые структуры, соответствующие инвариантным языковым символам, общие для людей, говорящих на одном языке (иначе мы не могли бы понимать друг друга). Они - основа понимания человеком речевого сообщения. С другой - голос и речевые навыки каждого человека строго индивидуальны - и это основная аксиома распознавания (различения) дикторов.

Отделение инвариантного от индивидуального, соотнесение непрерывного и постоянно меняющегося речевого сигнала с конечным числом дискретных фонем (или аллофонов), выявление и классификация индивидуальных признаков, отличающих одного человека от других, ему подобных, - все это общие вопросы распознавания речи, сводящиеся так или иначе к идентификации диктора, его верификации и преобразованию речи в текст. Причем подход к распознаванию речи во многом схож: что у лингвистов, что у экспертов-криминалистов, что у программ автоматического распознавания речи.

Как изучают речь?

Современный персональный компьютер в реальном времени может представить речь графически - во временной или спектральной области. Осциллограмму речи можно получить с помощью обычного микрофона и звуковой карты, а обработать и проанализировать простейшим звуковым редактором. Более информативный способ анализа - это спектральное представление, когда акустический сигнал представляется в виде наложения большого числа синусоид. Разложение сигнала в спектр обычно проводится с помощью быстрого преобразования Фурье - БПФ (см. ##31, 32 [259, 260], 13 [291], 14 [292]), реализованного в большинстве компьютерных звуковых редакторов и специальных программ обработки речи.

Рис. 1
Трехмерная сонограмма слова "терра" (диктор №1). Хорошо видно развитие во времени спектральных составляющих. Сечение сонограммы плоскостью, перпендикулярной оси времени, образует мгновенные спектры.


Речевики и лингвисты в своих исследованиях чаще всего используют представление речевого сигнала в виде трех- или двухмерных сонограмм. В первом случае по осям координат откладываются время, частота и спектральная плотность (энергия) частотной составляющей (рис. 1), а на двухмерной сонограмме ось энергии заменяется интенсивностью цвета в плоскости время-частота. На рис. 2-5 показаны двухмерные сонограммы, причем более яркому цвету на них соответствует большая спектральная плотность.
Рис. 2
Широкополосная сонограмма слова "терра" (диктор №2, высокий женский голос). Видна особенность в произношении звука "Р" как многоударного звука (вертикально ориентированные разрывы спектральной картины).


Рис. 3
Узкополосная сонограмма слова "терра" (диктор №1, стандартный мужской голос). Роль верхних частот относительно диктора №2 меньше, так как мужской голос ниже женского.


Рис. 4
Узкополосная сонограмма слова "терра" (диктор №3, стандартный мужской голос). Красные полосы - формантные траектории.


Рис. 5
Узкополосная сонограмма слова "терра" (диктор №4, высокий женский голос). Расстояние между гармониками ОТ велико по сравнению с другими сонограммами, так как данный голос высокий.


По сонограммам удобно анализировать основной тон и формантные траектории речи (горизонтально ориентированные узкие полосы - гармоники частоты основного тона речи; желто-зеленые горизонтальные области - траектории формант), но об этих величинах - чуть ниже, а сначала перечислим основные понятия, которые характеризуют параметры голоса человека, связанные с формой, размерами и динамикой изменения речеобразующего тракта. Это, прежде всего, спектр мощности (средний и мгновенный спектр, кросскореляции спектральных компонентов), формантные характеристики (частоты формант, их амплитуда и ширина, скорость изменения), кепстральные характеристики (преобразование Фурье от логарифма модуля спектра), параметры основного тона голоса (среднее значение, дисперсия, статистические моменты, изрезанность мелодического контура, микро- и макровариации), статистические характеристики ритмики и темпа речи (количество фонетических слов, звуков в секунду, распределение длительности звуковых сегментов, речевых пауз) и многие другие.

Частота колебания голосовых связок, характеризующая основной тон (ОТ), составляет в среднем от 100 до 200 Гц для мужских голосов и от 220 до 350 Гц для женских, причем даже у одного и того же человека в зависимости от эмоционального состояния и ситуативности речи ОТ может изменяться в довольно ощутимых пределах. С акустической точки зрения речевой сигнал может быть разделен на три типа: тональные (озвученные) участки, образуемые при участии в фонации голосовых связок, не тональные (шумовые) и речевые паузы, вовсе не содержащие сигнала.

Рис. 6.
Форма звуковой волны гласного звука "а" в увеличенном масштабе. Отчетливо проявляющаяся периодичность соответствует частоте основного тона речи.


Для тональных участков речевого сигнала спектр функции голового возбуждения состоит из ряда гармоник ОТ, расстояние между которыми определяется величиной частоты ОТ, а во временной области сигнал периодичен (см. рис. 6). Для шумовых участков спектр возбуждения более всего напоминает белый шум.

Другой важнейший параметр речи - это форманты и их изменение во времени. Они отражают не только дифференциальные признаки фонем, но и индивидуальные артикуляционные стереотипы человека. Обычно при спектральном представлении сравнительно "чистого" сигнала на сонограмме просматриваются четыре-пять формант. Высокие форманты менее заметны на спектре, но именно они несут важную информацию (и криминалистическую, в частности) об индивидуальности человека. Формантные траектории необходимо изучать в их взаимосвязи на протяжении нескольких высказываний, отмечая локальные расщепления или исчезновения и исключая случайные пики на коротких отрезках сигнала. При этом формантные траектории для мужских и женских голосов различны, не говоря уже о детских или подростковых голосах, где форманты "живут" совсем своей жизнью и проблема отличия "настоящих" формант от ложных максимумов спектра становится крайне сложной.

Считается, что частоты формант не зависят от свойств голосового источника, а полностью определяются формой голосового тракта. Это положение является одним из основных постулатов современной акустической теории речеобразования. И позволяет, во-первых, использовать анализ параметров основного тона условно независимо от параметров, описывающих динамику речеобразующего тракта. А во-вторых, устанавливает однозначную корреляцию между аудитивно воспринимаемым способом артикуляции звука и его акустическим представлением в виде формантной картины. От формант следует отличать понятие тембра, характеризующего аудитивное восприятие окраски звуков речи. Тембр акустически определяется характеристиками гармоник основного тона речи, а также высокочастотными составляющими спектра.

Рис. 7.
В верхнем ряду показаны типичные формы звуковой волны трех гласных "а", "и", "о" (слева направо) изолированного произнесения (мужской голос), на которых хорошо видна нестационарность периодов ОТ. В нижнем ряду показаны соответствующие им спектры. По горизонтали отложена частота в Гц, по вертикали амплитуда в дБ. Вертикально ориентированные пики соответствуют гармоникам ОТ. Если провести плавную огибающую, охватывающую гармоники в областях спектральных максимумов, можно выделить частоту, уровень и ширину формант (например, для звука "а" хорошо видны три форманты: 300-1500 Гц - первая, 2200-3100 Гц - вторая и 3300-2900 Гц - третья).


На рис. 7 в верхнем ряду графиков показаны типичные формы звуковой волны трех русских гласных ("а", "и", "о"), а на графиках нижнего ряда представлены в том же порядке спектры тех же гласных на стационарных участках сигнала, где видны пики гармоник частоты основного тона и форманты речи. Сравнение спектров дает довольно наглядные признаки, отличающие одни гласные от других. Например, гласную "и" всегда отличает относительно большая роль высших формант.

Помимо формант и основного тона спектральная картина звуков определяется и шумовым источником - турбулентным или импульсным шумом при образовании щелевых (фрикативных) и взрывных (эксплозивных) согласных звуков, которые представлены в виде иррегулярного распределения акустической энергии во времени.

Речеобразование и криминалистические признаки

А как формируются те специфичные признаки речи, которые эксперт или машина "вычисляют" по голосу человека?

С научной точки зрения речеобразование божественного создания по имени человек можно представить в виде простой модели, в которой речевой тракт представляется линейным фильтром с изменяющимися во времени параметрами и возбуждается генератором периодических импульсов, белого шума или их совокупности. Анатомически линейный фильтр формируется акустической трубой, состоящей из дыхательного (легкие, бронхи, трахея) и произносительного аппаратов (гортань с голосовыми связками, глотка, носовая и ротовая полости, язык, небо, губы). При разговоре грудная клетка расширяется и сжимается, прокачивая воздух из легких по трахее через голосовую щель. Звуки образуются при выдохе воздуха при условии, что давление воздуха под голосовыми связками превышает давление над ними, тогда воздух, проходя через голосовую щель, смыкает и размыкает голосовые связки, колебания которых модулируют звуковую волну. Частота смыкания-размыкания связок и представляет собой частоту основного тона речи. Если голосовые связки расслаблены, воздух свободно проходит через голосовую щель, не подвергаясь модуляции, и речь получается не озвученная. После голосовых связок воздушный поток проходит через глоточную полость мимо основания языка и, в зависимости от положения мягкого неба, через ротовую и (или) носовую полости, производя при этом шум. Добравшись наконец до "выхода", поток воздуха излучается в пространство в виде акустических волн и, достигнув слухового аппарата человека, интерпретируется им как речь. Голосовой тракт (и соответствующий ему в модели речеобразования линейный фильтр) имеет несколько резонансных областей, создающих энергетически сильные спектральные области - упоминавшиеся выше форманты. Ясно, что индивидуальные акустические параметры человека определяются уникальными формой и размерами голосового тракта, свойствами его стенок, динамикой изменения его геометрии, формой и периодичностью импульсов голосового источника, а также зависят от взаимодействия носовой и ротовой полостей, анатомических свойств груди, бронхов, пазух черепа. Характер измененияформы артикуляторов обусловлен сокращением мышц, управляемых центральной и периферической нервной системой, которые даже у однояйцевых близнецов, идеально похожих друг на друга, различаются настолько, что позволяют точно отличать их друг от друга.

Классификация и анализ речевых параметров может строиться по различным основаниям, исходя от того, какие свойства личности или физиологии человека они отражают: психолингвистические, интеллектуальные, голосовые или артикуляционные и т. д. Либо исходя из методов, с помощью которых эти признаки изучаются, к примеру, перцептивных, лингвистических, инструментальных, акустических или спектрально-временных.

Огромную дополнительную информацию об идентифицируемом субъекте, на сегодня практически не доступную компьютерам, дает анализ лингвистических особенностей речи, то есть ее изучение как социального объекта. Индивидуальные лингвистические признаки - это навыки речи человека, связанные с его языком, диалектом или говором. Они характеризуют индивидуальную вариативность произнесения звуков и их сочетаний, способы мелодического оформления высказываний, длительность и распределение языковых элементов и речевых пауз, а также индивидуальные предпочтения в выборе фонетических, лексических и синтаксических единиц и многое, многое другое. Лингвистические особенности речи человека оказываются просто незаменимыми, когда надо исследовать фонограмму низкого качества (запись на плохой аппаратуре или в сложных акустических условиях), так как они не зависят от помех и шума.

Автоматическое распознавание дикторов

Благодаря тому, что наработаны абстрактные математические модели, описывающие речь, к ее анализу можно подходить с физических позиций, исследуя звуковую волну, преобразованную математическими методами, безотносительно смысловой или какой-либо иной нагрузки, передаваемой словами и в отрыве от опыта и квалификации эксперта. Такой подход реализован в автоматических или полуавтоматических системах идентификации и верификации (аутентификации) дикторов.

При идентификации задача заключается в том, чтобы классифицировать неизвестный звуковой образ как произнесенный одним из дикторов некоторого эталонного множества, а при верификации требуется принять решение, принадлежит ли некоторый спорный звуковой образ одному конкретному эталонному диктору из справочной базы голосов. Верификация значительно проще идентификации, поскольку тут принимается альтернативное решение - "да" или "нет".

Несмотря на некоторое сходство этих задач, используемые алгоритмы распознавания могут существенно различаться.

Технология автоматического распознавания диктора делает возможным применениеголоса в самых различных приложениях - для обеспечения допуска в пропускных и контрольных системах ограниченного использования, в системах речевого ввода информации, в интерфейсах. Например, доступ к банковским вкладам или совершение покупки по телефону, в электронной почте и т. п.

По существу же задача компьютера опознать личность человека по голосу не отличается от решаемой экспертом в криминалистике. Задача компьютера - сравнить параметрический код предъявляемого голоса с эталонным высказыванием заявленного лица (при верификации) или сравнить с каждым из конечного числа параметрических описаний зарегистрированных лиц (при идентификации). Если сравнение при верификации показывает достаточную по критериям системы близость, диктор считается системой "своим", а если близость превышает некий порог, то диктор объявляется "чужим". При идентификации компьютер, сравнивая спектральные коды, выбирает наиболее близкое из числа лиц, имеющихся в его памяти.

Полная процедура обычно такова. Анализ речевого сигнала начинается с перевода его в цифровую форму. Производится сегментация сигнала на отдельные элементы. Затем акустический сигнал обрабатывается с помощью определенных алгоритмов - спектрального анализа, линейного предсказания, кепстральной обработки и других. В результате получается параметрическое описание сегментов речевого сигнала в виде вектора параметров. Следующий этап - сравнение с имеющимися эталонными описаниями зарегистрированного числа дикторов в базе данных компьютера. Это достигается путем использования метода динамического программирования, скрытых Марковских моделей (особенно для распознавания по слитной речи), искусственных нейронных сетей или комбинаций указанных методов.

Качественным показателям любой системы идентификации служит вероятность правильного обнаружения, оцененная на представительной выборке реализаций. Вычисляются также вероятности пропуска "чужого" (когда разные люди ошибочно отождествляются) и отказа в идентификации "своего" (реализации голоса одного диктора опознаются как принадлежащие разным людям). Очевидно, кстати, что эти ошибки имеют "противоположный" характер. Снижая вероятность одной, мы неизбежно повышаем вероятность второй. Имеется множество разных критериев построения эффективной системы, и все они так или иначе "взвешивают" два типа ошибок в зависимости от степени их важности для системы.

Реальные автоматические системы идентификации при работе с зашумленными сигналами, записанными в разных условиях и в разное время, в общем случае обладают сравнительно низкой надежностью. Вероятно, создание надежно функционирующих текстонезависимых систем автоматического распознавания диктора для фонограмм любого качества на открытом множестве - дело не близкого будущего, особенно в криминалистических задачах. Там обычно требуется провести идентификацию на открытом эталонном множестве, так как голос подозреваемого человека не обязательно присутствует в базе речевых эталонов. И еще: в большинстве криминальных случаев человек, подозревающий, что его голос может быть записан на пленке, не сотрудничает с экспертом, а пытается исказить свою речь, чтобы затруднить опознание. Все мы помним "гнусавых" переводчиков видеофильмов 80-х годов, которые, для того чтобы труднее было их узнать, надевали для изменения голоса на нос прищепку.

При верификации, кстати, человек обычно заинтересован в сотрудничестве с компьютером. Предъявляя свое речевое высказывание в качестве голосового пароля, он старается помочь машине провести опознание. Потенциальный злоумышленник, правда, тоже будет стараться ей "помочь", но с этим разработчики успешно борются, настраивая систему так, чтобы она надежно пропускала только "своих" - ценой отказа кому-то из них в допуске, смещая статистику работы в область малых вероятностей пропуска чужого. Здесь возможна ситуация, когда компьютеру вместо речи живого человека предъявляется голос, заранее записанный на пленке или вовсе скомпилированный из различных высказываний. Как правило, в кино система принимает фальшивку и допускает злодея; на практике все сложнее, не говоря о том, что возможны различные дополнительные средства контроля. Так, например, компьютер может запрашивать другую вербальную форму пароля или его иное грамматическое оформление.

Криминалистическая идентификация

Криминалистическая идентификация - это сравнительное исследование объектов, связанных с криминальным событием, с целью разрешения вопроса об их тождестве. Она достигается путем последовательного выделения и накопления идентификационных признаков. Чем больше эксперт сумеет установить идентификационных признаков речи, чем выше их идентификационная значимость, тем уже группа лиц, которую они характеризуют. Например, проводится распознавание диктора по среднестатистическим параметрам спектра голоса. Это группа параметров может совпадать у людей с похожими конфигурациями речевого тракта, и поэтому этим способом эксперт не может доказать тождество двух лиц, а лишь ограничивает круг людей, которым могут принадлежать исследуемые голоса.

Прежде чем проводить идентификацию человека по голосу, эксперт должен убедиться, что спорная фонограмма аутентична, а не скомпилирована из отдельных фрагментов, записанных в ином контексте. Иначе может быть "вычислен" не говорящий, а звукорежиссер, искусно смонтировавший фонограмму. Для идентификации приходится тщательно анализировать особенности артикуляции звуков, мелодику речевых высказываний, специфичных для диалекта или местного говора. Кстати, с развитием технологии речевого синтеза, уже сейчас позволяющего получить естественно звучащую речь с мужскими, женскими и детскими голосами (правда, пока только на ограниченном словаре), задача будет многократно усложняться. Эксперту в принципе доступны все те средства, что используют автоматизированные системы, но помимо них у него имеется еще множество дополнительных возможностей - тот же опыт, интуиция и языковое чутье, наконец. Об этом напоследок пара слов.

Мысли вслух

Почему до сих пор не удается создать автомат, безошибочно опознающий диктора и "понимающий" речь? Наверное, все дело в самом речевом сигнале. Сегодня нет окончательного ответа на вопрос, как человек превращает физическую звуковую волну, распознаваемую его слуховым аппаратом, в понимаемую им ментальную сущность. Мы легко распознаем любые единицы речи - высказывания, слова и отдельные фонемы и понимаем их значение. Компьютеру же, прежде чем распознавать, взвешивать и измерять, надо выделить элементы речи, то есть сегментировать акустический сигнал на отдельные части, и классифицировать их в соответствии с единицами языка (фонемами). Ту же функцию "вручную" и довольно долго выполняет эксперт, используя при этом свою языковую компетентность и собственные "золотые уши".

Автомат это однозначно сделать не может, так как в слитной речи нет четких стационарных процессов - это сплошная, постоянно меняющаяся, бурлящая каша различных состояний. Слова в естественной речи не разделены паузами, они соединены в более крупные лингвистические элементы (синтагмы, высказывания), и алгоритм точной сегментации речевого потока на звуковые сегменты пока не разработан. Из-за большой вариативности речи, нечеткости произношения, быстрого темпа и коартикуляции трудно однозначно определить начало и конец слова или фонемы даже опытному эксперту - что уж говорить об автомате, лишенном другого важнейшего признака человека - интеллекта, активнейшим образом участвующего в распознавании.

Не всякий человек, получивший диплом о соответствующем образовании, может стать экспертом-фоноскопистом - равно как не всякий может творить, быть художником или поэтом. И дело не в сумме знаний и умении пользоваться сложными аналитическими приборами. По большому счету каждая экспертиза - это творческий процесс, в который человек вкладывает частицу своей души, и его нельзя запрограммировать или формализовать. Надо иметь талант и способности от бога. Одному эксперту достаточно одной фразы и простейшей логарифмической линейки, чтобы сделать безошибочный вывод, а другой, вроде, и все алгоритмы знает, дотошно выполняет правила и методики, самые современные приборы использует - а все равно ошибается, и в этом его родство с распознающим компьютером. Мастерство эксперта-криминалиста - это не просто высочайший интеллект, помноженный на каждодневный каторжный труд добывания новых знаний, это еще интуиция и чутье, произрастающее из опыта, и еще щепотка неизвестно чего, превращающая блюдо под названием экспертиза из несъедобного обеда в столовке в непревзойденный шедевр дорогого ресторана.

А значит, различные автоматические системы речевого распознавания и идентификации - это попытки формализовать творчество, научить компьютер творить, заменив им человека. Возможно, в далекой перспективе это реализуемо, но я надеюсь не дожить до эры компьютерного Толстого, потому что тогда история человечества закончится в наказание за создание суррогата Души.



© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.