Архивы: по дате | по разделам | по авторам

Речевые технологии - проблемы и перспективы

Архив

автор : АНАТОЛИЙ ЧЕКМАРЕВ 08.12.1997

Нет повести печальнее на свете, чем повесть о распознавании речи.

Не Шекспир.

Писать о речевом интерфейсе сложно. С одной стороны, тема абсолютно не нова, с другой, - активное развитие и применение этой технологии только начинается (в который раз). С одной стороны, успели сформироваться устойчивые стереотипы и предубеждения, с другой, - несмотря на почти полвека настойчивых усилий не нашли разрешения концептуальные вопросы, вставшие еще перед родоначальниками речевого ввода.

Первый и, пожалуй, основной касается области применения. Поиск приложений, где распознавание речи могло бы продемонстрировать все свои достоинства, вопреки устоявшемуся мнению, является задачей далеко не тривиальной. Сложившаяся практика применения компьютеров вовсе не способствует широкому внедрению речевого интерфейса.

Становление современной компьютерной индустрии проходило под флагом графического интерфейса, альтернативы которому в круге решаемых сегодня компьютерами задач не существует. Развитие автоматизации отдельных секторов промышленности задало направление развитию пользовательского интерфейса, форма которого, утвердившись, в свою очередь оказала свое ограничивающее влияние на основные тенденции автоматизации. Массовые приложения: САПР, офисные и издательские пакеты, СУБД составляют основной объем интеллектуальной начинки компьютеров, оставляя в их нынешнем виде очень мало места для применения альтернативных моделей пользовательского интерфейса, в том числе и речевого.

Для подачи команд, связанных с позиционированием в пространстве, человек всегда пользовался и будет пользоваться жестами, то есть, системой "руки - глаза". На этом принципе построен современный графический интерфейс. Перспектива замены клавиатуры и мыши блоком распознавания речи абсолютно отпадает. При этом выигрыш от возложения на него части функций управления настолько мал, что не смог предоставить достаточных оснований даже для пробного внедрения в массовых компьютерах на протяжении уже более тридцати лет. Именно таким сроком оценивается существование коммерчески применимых систем распознавания речи.

Сегодня среди ведущих производителей систем распознавания речи не принято отдавать должное достижениям исследователей прошлых лет. Причина понятна: это не только в значительной степени снизит видимые показатели достигнутого ими прогресса, но и поспособствует возникновению вполне обоснованных сомнений в перспективности осуществляемых подходов вообще.

Проект ARPA (1971-1976 гг.)

Проект ARPA (Advanced Research Projects Agency) является самым крупным из всех когда-либо предпринимавшихся проектов в области распознавания речи. На этот проект в США затрачено пять лет и 15 млн. долларов. Основной задачей было создание машин, способных понимать произносимые слитно предложения, с объемом словаря не менее 1000 слов. В проекте были использованы достижения в области искусственного интеллекта и вычислительной лингвистики. В 1971 году была создана исследовательская группа, состоящая вначале из пяти подрядчиков, которые должны были построить отдельные системы понимания речи. На определенном этапе каждый из участников проекта должен был представить пробный вариант своей системы, и лучшую из них следовало разрабатывать дальше. С учетом быстрых темпов развития технологии ЭВМ допускалось, чтобы время обработки одного предложения в несколько раз превышало время, затрачиваемое на его произнесение.

В конце 1976 года было продемонстрировано несколько систем. Университет Карнеги-Меллона представил две системы - HARPY и HEARSAY II, фирма Bolt, Branec and Newmen представила систему HWIM, еще одна система была поставлена фирмой System Development Corporation (SDC). Лидером проекта оказалась система HARPY. Она удовлетворяла всем требованиям проекта, а по отдельным характеристикам даже превосходила их. Эта система понимала 95% произносимых пятью операторами предложений, используя словарь объемом 1011 слов. Система работала хорошо, даже когда исходные условия были хуже требуемых, например, при наличии акустических помех и использовании низкокачественных микрофонов.

Недостаточно высокие показатели, достигнутые остальными системами, в значительной степени объясняются дефицитом времени для окончательной подготовки к демонстрации.

Ниже приведены основные требования постановщиков задач и окончательные характеристики всех упомянутых систем.

Характеристики систем

Требования проекта	HARPY	HEARSAY II	HWIM	SDC
Восприятие слитной речи	184 предло- жения	22 предло- жения	124 предло- жения	54 предло- жения
большого количества говорящих	3 мужчины и 2 женщины	1 мужчина	3 мужчины	1 мужчина
в тихой комнате	Зал терминалов ЭВМ	Звуко- изолированное помещение с хорошими микрофонами	Низко- качест- венные микро- телефоны	Хорошие микро- фоны
при незначительной настройке на говорящего	20 контрольных предложений	60 контрольных предложений	Без настройки	Без настройки
при словаре объемом 1000 слов	1011	1011	1097	1000
при менее чем 10% семантических ошибок	5%	9%	56%	76%

Для объективной оценки прогресса технологии распознавания речи сравните характеристики систем, реализованных в рамках проекта ARPA к 1976 году (см. врезку) и систем, продвигаемых на рынок в настоящее время. Возникает два вопроса. Почему не нашли достойного применения разработки двадцатилетней давности, и почему за такой продолжительный период не произошло видимого качественного сдвига в характеристиках конкретных систем? Ответ на первый вопрос частично изложен выше: основная проблема в области применения. Можно добавить, что вопреки настойчиво навязываемому сегодня в маркетинговых целях (в частности, для продвижения процессоров MMX) мнению, высокие требования данной технологии к вычислительным ресурсам не являлись основным препятствиям к ее широкому внедрению. Возникновение схожих проблем у разработчиков графических систем привело к созданию и массовому применению графических аппаратных ускорителей, а не отказу от оконного интерфейса. При этом разрабатываемые речевые адаптеры не превосходят по себестоимости графических.

Ответ на второй вопрос напрямую связан с первым. Технология, не находящая применения, не может себя прокормить и обеспечить свой рост. Кроме того, вполне возможно, что ориентация большинства исследовательских центров на увеличение распознаваемого словаря является ошибочной как с точки зрения применимости, так и с точки зрения научной перспективности. Еще в 1969 году в своем знаменитом письме редактору журнала Акустического общества Америки Дж. Пиес, сотрудник фирмы Bell Laboratories, указал на отсутствие явного прогресса в то время и возможности такого прогресса технологии распознавания речи в ближайшем будущем в связи с неспособностью компьютеров анализировать синтаксическую, семантическую и прагматическую информацию, содержащуюся в высказывании. Имеющийся барьер может быть преодолен только с развитием систем искусственного интеллекта - направлением, натолкнувшимся в 70-х на барьер сложности и находящимся в настоящее время практически в полном забвении. Трудно надеяться на дальнейшее улучшение характеристик устройств речевого ввода, учитывая, что уже в 70-х годах их способность распознавать звуки речи превосходила человеческую. Данный факт был подтвержден серией экспериментов по сравнению уверенности распознавания человеком и компьютером слов иностранного языка и бессмысленных цепочек звуков. При отсутствии возможности подключения прагматических (смысловых), семантических и других анализаторов человек явно проигрывает.

Для иллюстрации приведенных выше, возможно, несколько спорных утверждений рассмотрим перспективу и основные проблемы применения систем речевого ввода текстов, особенно активно продвигаемых в последнее время.

Для сравнения: спонтанная речь произносится со средней скоростью 2,5 слов в секунду, профессиональная машинопись - 2 слова в секунду, непрофессиональная - 0,4. Таким образом, на первый взгляд речевой ввод имеет значительное превосходство по производительности. Однако оценка средней скорости диктовки в реальных условиях снижается до 0,5-0,8 слова в секунду в связи с необходимостью четкого произнесения слов при речевом вводе и достаточно высоким процентом ошибок распознавания, нуждающихся в корректировке.

Речевой интерфейс естественен для человека и обеспечивает дополнительное удобство при наборе текстов. Однако даже профессионального диктора может не обрадовать перспектива в течение нескольких часов диктовать малопонятливому и немому (к этому еще вернемся) компьютеру. Кроме того, имеющийся опыт эксплуатации подобных систем свидетельствует о высокой вероятности появления заболевания голосовых связок операторов, связанной с неизбежной при диктовке компьютеру монотонностью речи.

Часто к достоинствам речевого ввода текста относят отсутствие необходимости в предварительном обучении. Однако одно из самых слабых мест современных систем распознавания речи - чувствительность к четкости произношения - приводит к потере этого, казалось бы, очевидного преимущества. Печатать на клавиатуре оператор учится в среднем 1-2 месяца. Постановка правильного произношения может занять несколько лет. Кроме того, дополнительное напряжение - следствие сознательных и подсознательных усилий по достижению более высокой распознаваемости - совсем не способствует сохранению нормального режима работы речевого аппарата оператора и значительно увеличивает риск появления специфических заболеваний.

Существует и еще одно неприятное ограничение применимости, сознательно не упоминаемое, на мой взгляд, создателями систем речевого ввода. Оператор, взаимодействующий с компьютером, через речевой интерфейс вынужден работать в звукоизолированном отдельном помещении либо пользоваться также звукоизолированным шлемом. Иначе он будет мешать работе своих соседей по офису, которые, в свою очередь, создавая дополнительный шумовой фон, будут значительно затруднять работу речевого распознавателя. Таким образом, речевой интерфейс попадает в явное несоответствие с современной организационной структурой предприятий, ориентированных на коллективный труд. Ситуация несколько смягчается с развитием удаленных форм трудовой деятельности, однако еще достаточно долго самая естественная для человека производительная и потенциально массовая форма пользовательского интерфейса обречена на суженный круг применения.

Ограничения применимости систем распознавания речи в рамках наиболее популярных традиционных приложений заставляют сделать вывод о необходимости поиска потенциально перспективных для внедрения речевого интерфейса приложений за пределами традиционной офисной сферы, что подтверждается коммерческими успехами узкоспециализированных речевых систем. Самый успешный на сегодня проект коммерческого применения распознавания речи - телефонная сеть фирмы АТ&Т. Клиент может запросить одну из пяти категорий услуг, используя любые слова. Он говорит до тех пор, пока в его высказывании не встретится одно из пяти ключевых слов. Эта система в настоящее время обслуживает около миллиарда звонков в год.

Данный вывод находится в противоречии с устоявшимися широко распространенными стереотипами и ожиданиями, что не только делает его очевидность скрытой от основной массы разработчиков и пользователей, но и мешает эффективной расстановке приоритетов научных исследований и практических разработок.

Несмотря на то, что одним из наиболее перспективных направлений для внедрения систем распознавания речи может стать сфера компьютерных игр, узкоспециализированных реабилитационных программ для инвалидов, телефонных и информационных систем, ведущие разработчики речевого распознавания наращивают усилия по достижению универсализации и увеличения объемов словаря даже в ущерб сокращению процедуры предварительной настройки на диктора. А между тем именно эти приложения предъявляют очень низкие требования к объему распознаваемого словаря наряду с жесткими ограничениями, налагаемыми на предварительную настройку.

Более того, в то время как распознавание спонтанной слитной речи практически топчется на месте с 70-х годов в силу неспособности компьютера эффективно анализировать неакустические характеристики речи, претендующие на роль бога творцы от программирования в погоне за ушедшей молодостью информатики изобретают велосипед при рождении каждого нового поколения процессоров и рапортуют о достижении каких-то чудесных показателей безошибочности и скорости обработки речевого сигнала, естественным образом прирастающих в линейной зависимости от увеличения производительности массовых процессоров.

Даже Билл Гейтс, являющий собой в некотором смысле идеал прагматизма, оказался не свободен от исторически сложившихся стереотипов. Начав в 95-96 году с разработки собственной универсальной системы распознавания речи и окрылившись первыми и, пожалуй, сомнительными успехами, в 97-м он провозгласил очередную эру повсеместного внедрения речевого интерфейса. Средства речевого ввода планируется включить в стандартную поставку новой версии Windows NT - чисто офисной операционной системы. При этом руководитель Microsoft упорно повторяет фразу о том, что скоро можно будет забыть о клавиатуре и мыши. Вероятно, он планирует продавать вместе с коробкой Windows NT акустические шлемы вроде тех, которые используют военные летчики и пилоты "Формулы 1". Кроме того, неужели Microsoft в ближайшем будущем прекратит выпуск Word, Exel и т. д.? Управлять графическими объектами экрана голосом, не имея возможности помочь руками, более чем затруднительно.

Говоря о речевом интерфейсе, часто делают упор на распознавание речи, забывая о другой его стороне - речевом синтезе. Заглавную роль в этом перекосе сыграло бурное развитие в последнее время систем, ориентированных на события (event-driven), в значительной степени подавляющих отношение к компьютеру как активной стороне диалога.

Еще относительно недавно (лет тридцать назад) подсистемы распознавания и синтеза речи рассматривались как части единого комплекса речевого интерфейса. Однако интерес к синтезу пропал достаточно быстро. Во-первых, разработчики не встретили даже десятой доли сложностей, с которыми они столкнулись при создании систем распознавания. Во-вторых, в отличие от распознавания синтез речи не демонстрирует значительных преимуществ перед другими средствами вывода информации из компьютера. Практически вся его ценность заключается в дополнении речевого ввода. Для человека естественным и привычным является именно диалог, а не монолог. Как следствие недооценки необходимости речевого ответа появляется повышенная утомляемость операторов, монотонность речи и ограниченность применимости речевого интерфейса. Чем может помочь слепому компьютер, оснащенный распознавателем речи, если он лишен устройства обратной не визуальной связи?

Широко известен факт непроизвольной подстройки голоса под голос собеседника. Почему не использовать эту способность человека для увеличения безошибочности распознавания речи компьютером за счет корректировки произношения оператора с помощью двустороннего диалога? Кроме того, вполне возможно, что правильно организованный и модулированный синтез может в значительной степени снизить риск появления у оператора заболеваний, связанных с монотонностью речи и дополнительным напряжением.

Повсеместное проникновение графического пользовательского интерфейса было обеспечено за счет совместного применения графического монитора, средства вывода графической информации, и мыши - для ее ввода, а также, не в последнюю очередь, благодаря гениальным концептуальным находкам в области оконного интерфейса фирмы Xerox.

Будущее речевого интерфейса в не меньшей степени зависит от умения современных исследователей и разработчиков не только создать технологическую основу речевого ввода, но и гармонично слить технологические находки в единую логически завершенную систему взаимодействия человек - компьютер. Основная работа еще впереди.

Интересующимся темой распознавания речи могу посоветовать изучить следующие материалы:

"Методы автоматического распознавания речи" под редакцией У. Ли, Москва, "Мир", 1983;

http://www.phon.ucl.ac.uk;

http://www.cse.ogi.edu/cslu/hltsurvey/

http://www-ugrad.cs.colorado.edu/~machowsk/ui/ speech.html

Базовая технология

Не следует путать термины "понимание" и "распознавание" речи. В то время как второй непосредственно относится к технологии преобразования акустических речевых сигналов в последовательность символов машинной кодировки, например ASCII, первый подразумевает анализ более высоких уровней (прагматический, семантический и т. д.) и формирование на его основе представления о смысловом содержании высказывания. Объединение этих двух понятий, имевшее место вплоть до последнего времени и призванное способствовать построению интеллектуальных систем автоматического понимания речи на основе анализа человеческой модели распознавания, не принесло значительного выигрыша в связи с проблемами, общими для всего набора технологий искусственного интеллекта. Дальнейшее разграничение задач укрепилось благодаря коммерческому успеху узко специализированных систем, ни в малейшей степени не нуждающихся, например, в модуле анализа контекста высказывания.

Традиционно процесс распознавания речи подразделяется на несколько этапов. На первом - производится дискретизация непрерывного речевого сигнала, преобразованного в электрическую форму.

Обычно частота дискретизации составляет 10-11 кГц, разрядность - 8 бит, что считается оптимальным для работы со словарями небольшого объема (10-1000 слов) и соответствует качеству передачи речи телефонного канала (3 Гц - 3,4 кГц). Понятно, что увеличение объема активного словаря должно сопровождаться повышением частоты оцифровки и в некоторых случаях поднятием разрядности.

На втором этапе дискретный речевой сигнал подвергается очистке от шумов и преобразуется в более компактную форму. Сжатие производится посредством вычисления через каждые 10 мс некоторого набора числовых параметров (обычно не более 16), с минимальными потерями информации, описывающей данный речевой сигнал. Состав набора зависит от особенностей реализации системы. Начиная с 70-х годов наиболее популярным методом (практически стандартом) построения сжатого параметрического описания стало линейно-предиктивное кодирование (ЛПК), в основе которого лежит достаточно совершенная линейная модель голосового тракта. На втором месте по популярности находится, вероятно, спектральное описание, полученное с помощью дискретного преобразования Фурье.

Очень хорошие результаты, однако, могут быть достигнуты и при использовании других методов, часто менее требовательных к вычислительным ресурсам, например, клипирования. В этом случае регистрируется количество изменений знака амплитуды речевого сигнала и временные интервалы между ними. Получаемая в результате последовательность значений, представляющих собой оценку длительностей периодов сохранения знака амплитудой, несмотря на кажущуюся примитивность метода, достаточно полно представляет различия между произносимыми звуками. На таком методе предобработки основана, в частности, система распознавания речи, разработанная в конце 80-х в НИИ счетного машиностроения (Москва).

Временной (10 мс) интервал вычисления был определен и обоснован экспериментально еще на заре развития технологии автоматического распознавания речи. На этом интервале дискретный случайный процесс, представляющий оцифрованный речевой сигнал, считается стационарным, то есть, на таком временном интервале параметры голосового тракта значительно не изменяются.

Следующий этап - распознавание. Хранимые в памяти компьютера эталоны произношения по очереди сравниваются с текущим участком последовательности 10 мс-х векторов, описывающих входной речевой сигнал. В зависимости от степени совпадения выбирается лучший вариант и формируется гипотеза о содержании высказывания. Здесь мы сталкиваемся с очень существенной проблемой - необходимостью нормализации сигнала по времени. Темп речи, длительность произношения отдельных слов и звуков даже для одного диктора варьируется в очень широких пределах. Таким образом, возможны значительные расхождения между отдельными участками хранимого эталона и теоретически совпадающим с ним входным сигналом за счет их временного рассогласования. Достаточно эффективно решать данную проблему позволяет разработанный в 70-х алгоритм динамического программирования и его разновидности (алгоритм Витерби). Особенностью таких алгоритмов является возможность динамического сжатия и растяжения сигнала по временной оси непосредственно в процессе сравнения с эталоном. С начала 80-х все более широкое применение находят марковские модели, позволяющие на основе многоуровневого вероятностного подхода к описанию сигнала производить временную нормализацию и прогнозирование наиболее вероятных продолжений высказывания, что значительно ускоряет процесс перебора эталонов и повышает надежность распознавания.