Архивы: по дате | по разделам | по авторам

Сжатие речи

Архив

автор : Юрий Брауде-Золотарев 12.04.1999

При передаче речи по цифровым каналам связи, будь то сотовая или Интернет-телефония, самый важный вопрос - это сколько информации (число бит в единицу времени) придется передавать по каналам, чтобы снабдить пользователя качественной голосовой связью. Ответ на него в каком-то смысле определяет все - стоимость и качество предоставляемых пользователям услуг и аппаратуры, емкость и масштабируемость сети передачи данных и многое другое. Давайте посмотрим, с чем на сегодняшний день мы имеем дело, а чтобы было понятнее, о чем идет речь, загляните во врезку.

Сжатие речи при ее передаче сокращает объем передаваемых данных, затраты и, благодаря этому, позволяет снижать цены на услуги и привлекать новых пользователей. Именно поэтому рынок цифровой телефонии развивается под непосредственным технологическим диктатом ученых и разработчиков кодеков речи.

Очевидно, что только начиная с каких-то пороговых значений соотношения скорости передачи и доступной емкости каналов операторы связи имеют достаточную (для развития и своего, и рынка) прибыль. В настоящее время можно сказать, что этот порог уже превышен. Это привело к тому, что расценки на цифровую связь стали более чем конкурентны по сравнению с проводной аналоговой, а благодаря скорому переходу к кодекам речи на скорости порядка 2,4 кбит/с и ниже, цена минуты междугородного разговора может в ближайшие годы снизиться до нескольких центов за минуту. Тут уже из-за массовости услуги можно говорить о сверхприбылях, и неудивительно, что только ленивый на рынке сегодня не косит глаз в сторону услуг передачи речи.

Сказав про успехи, нельзя не сказать хотя бы пару слов и о недостатках. Качество звучания сжатой речи, что в сотовой, что в Интернет-телефонии, мягко говоря, "не очень". Некоторые (из тех, конечно, кто имеет такой выбор) до сих пор предпочитают аналоговые сотовые сети цифровым, поскольку в последних речь часто звучит механически, случаются посторонние звуки и т. п. - и все из-за сжимающих кодеков речи, так как в остальном цифровые протоколы передачи обеспечивают лучшее качество звучания. В компьютерной телефонии снижению качества мы, помимо кодеков речи, обязаны заметным запаздываниям сигнала и ошибкам при сборке пакетов. Впрочем, это болезни роста: понятно, что если с кодеком на 2,4 кбит/с "узкий" канал справляется с трудом, то на скорости 1,2 кбит/с проблем будет меньше. Да и пропускная способность компьютерных сетей возрастает настолько быстро, что в ближайшей перспективе сетевая задержка снизится в несколько раз и дефекты сборки пакетов будут маловероятны или исчезнут. И тогда и у пользователей, и у операторов на первое место могут встать высокие требования именно к низкоскоростным кодекам речи.

Речь представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего. Спектр речи весьма широк (примерно от 50 до 10000 Гц), но для передачи речи в аналоговой телефонии когда-то отказались от составляющих, лежащих вне полосы 0,3-3,4 кГц, что ухудшило восприятие ряда звуков (например, шипящих, существенная часть энергии которых сосредоточена в верхней части речевого спектра), но мало затронуло разборчивость. Ограничение частоты снизу (до 300 Гц) также ухудшает восприятие из-за потерь низкочастотных гармоник основного тона. А в цифровой телефонии к влиянию ограничения спектра добавляются еще шумы дискретизации, квантования и обработки, дополнительно зашумляющие речь.

Решающими в выборе полосы 0,3-3,4 кГц были экономические соображения и нехватка телефонных каналов. Более того, в те времена, когда время ожидания заказанного разговора составляло десятки часов, экономические ограничения привели к установке на трансконтинентальных линиях США и атлантическом кабеле так называемой аппаратуры J2, каналы которой и вовсе имели полосу 0,3-1,7 кГц. Такая аппаратура некогда работала и на линии Москва-Владивосток. Качество ее каналов едва достигало двух баллов MOS, но решающим оказалось двукратное увеличение числа телефонных соединений. Потребности пользователей в каналах сделали тогда вопросы качества речи второстепенными.

Для совместимости по полосе с распространенными аналоговыми сетями в цифровой телефонии отсчеты аналоговой речи приходится брать согласно теореме Котельникова с частотой 8 кГц - не меньше двух отсчетов на 1 Гц полосы. Правда, в цифровой телефонии существует принципиальная возможность использовать спектр речи за пределами полосы 0,3-3,4 кГц и тем самым повысить качество, но эти методы не реализуются, так как они вычислительно пока еще очень сложны. Впрочем, кое-что появляется: уже разработаны универсальные кодеки для компьютерной телефонии и мультимедиа, способные пристойно передавать не только речь, но и музыку. При полосе исходного сигнала до 6 кГц и тактовой частоте отсчетов около 16 кГц сжатый цифровой сигнал требует для передачи канал в 12 кбит/с. При этом оценка качества по критерию MOS может быть выше 4,5 балла.

Более подробно о механизмах речеобразования можно прочесть в соседних с этой статьях, а нам важно вот что: озвученная речь, представляющая большую трудность для сжатия, образуется с помощью звуковых связок человека. Скорость их периодических колебаний задает так называемую частоту основного тона (ОТ) - периодическую подпитку энергией голосового тракта человека, который представляет собой объемный резонатор. Голосовой тракт формирует спектральную окраску речи, или, другими словами, ее формантную структуру. Другое название голосового тракта - синтезирующий фильтр - нам более удобно, так как математическое описание речеобразования обычно ведется в терминах линейной фильтрации. Тогда, условно, речевой сигнал можно разделить на две составляющие, отвечающие за (1) ОТ (возбуждение фильтра) и (2) голосовой тракт (формантная структура сигнала). Соответственно, большинство на сегодня используемых алгоритмов, так или иначе, решают один вопрос - как наиболее эффективно выделить и сокращенно описать обе составляющие. А отрезки глухой речи при моделировании заменяют спектрально окрашенным шумом.

Линейное предсказание

Вкратце очень красивая идея линейного предсказания (ЛП) такова: сформировать из нескольких отсчетов речи линейную комбинацию, наиболее точно аппроксимирующую следующий отсчет (формула 1). Для этого сигнал речи сегментируют на блоки, обрабатывают окном и для каждого блока вычисляют автокорреляционную функцию (АКФ), число отсчетов которой обычно около 10. Оказывается, что такая АКФ содержит исчерпывающую информацию о формантном спектре речи на данном сегменте. На втором шаге находят решение системы линейных уравнений относительно коэффициентов предсказания - тех самых, что нужны для формирования синтезирующего фильтра. Фактически найденные коэффициенты задают спектральную модель голосового аппарата человека, и чем выше порядок ЛП (Р в формуле 1), тем точнее модель.

(1)

(2)

Пропустив исходную речь через фильтр, обратный полученному, мы получаем функцию, близкую к сигналу возбуждения. В ее спектре формантные области сглажены, а спектральный характер напоминает белый шум. Поэтому обратный фильтр также называют отбеливающим.

На третьем шаге параметры ЛП квантуются, после чего передаются на приемную сторону. А ошибка предсказания (разностный сигнал), обозначенный в формуле 2 через R(n), обрабатывается с целью выделения существенных для человеческого восприятия параметров. Например, в простейших кодеках ЛП передается период ОТ и мощность возбуждающих импульсов. В кодеке RPE-LTP таких импульсов уже несколько, а в кодеках CELP (code-excited linear prediction - ЛП с кодовым возбуждением) вместо передачи самих импульсов подбирается наиболее подходящая запись из набора хранящихся в заранее сформированной кодовой книге. Тогда, вместо самой последовательности можно на прием передать ее порядковый номер в кодовой книге. Однако существуют и другие подходы.

В любом случае по каналу связи вместо самой речи передают так или иначе выделенные и квантованные параметры предсказания, интервал и усиление ОТ, параметры возбуждения.

В декодере ЛП по принятым параметрам восстанавливают сигнал возбуждения, пропускают его через синтезирующий фильтр и так восстанавливают речь.

Пояснения сказанному приведено на рис. 1, где в верхнем ряду в осях время (в отсчетах) - амплитуда показаны осциллограммы фрагмента звонкой речи (на графике слева - исходный сигнал, справа - сигнал возбуждения ОТ, выделенный из речи). В нижнем ряду соответствующие верхним графикам спектры показаны в осях частота (в Гц) - амплитуда (в дБ).

На графиках речи и возбуждения отчетлива видна их квазипериодичность, отраженная линейчатостью спектров. В спектре звонкой речи на фоне общего спадания его к верхним частотам просматриваются три резонансные области - в районе 300 Гц, 1700 Гц и 2600 Гц, - описанные выше форманты. Спектр же возбуждения, сохраняя линейчатость (голосовые связки, вспомним, колеблются периодически), выровнен по амплитуде, или, как еще говорят, отбелен. Это происходит потому, что возбуждение носит случайный шумовой характер, хотя и следующий с некоторой периодичностью. Обратите также внимание на то, что энергия возбуждения много меньше энергии самой речи, то есть синтезирующий фильтр помимо спектрального окрашивания еще и усиливает входной сигнал. Говорят, что в ближней зоне сигнал возбуждения декоррелирован (статистически независим), что, кстати, усложняет его сжатие, и, напротив, в дальней зоне корреляция очень высока, достигая максимума в точке, равной периоду ОТ. Последнее свойство очень полезно, так как свидетельствует об избыточности, и в этом заложен большой ресурс для сжатия. Из-за периодичности сигналов присутствующий на показанном участке звонкой речи случайный компонент визуально обнаружить довольно трудно. Но он есть, и именно из-за него спектр речи в областях между гармониками частоты ОТ не спадает до нуля. Опыт разработки кодеков показал, что этот случайный компонент необходим для полноценного восприятия. Без него синтезированная речь звучит неестественно (вспомним, как иной раз разговаривает цифровой сотовый или Интернет-телефон).

Артикуляционные изменения характеристик синтезирующего фильтра, формирующие звуки речи, происходят непрерывно, но медленно. Поэтому при сжатии речь сегментируют на короткие блоки (длиной 5-30 мс), в пределах которых параметры этого фильтра считают постоянными (свойство локальной квазистационарности речи).

Известно, что значение ОТ для разных голосов может изменяться почти в 10 раз - от 2 до 18 мс. Это обстоятельство создает немало трудностей при оценке ОТ, так как слух очень чувствителен к его искажениям. Методов измерения ОТ известно очень много, и ежегодно на международных конференциях ICASSP (International Conference on Acoustics, Speech and Signal Processing) предлагаются вс§ новые и новые, так как до сих пор достаточно надежный и простой и, вместе с тем, не требующий чрезмерной задержки метод пока не появился. Что касается сокращенного описания сигнала возбуждения в целом, то с этим дела обстоят еще хуже: эффективных "конструктивных" методов не предложено, и значительная часть вычислительного ресурса CELP-кодеков, к примеру, расходуется именно на кодирование возбуждения.

На рис. 2, организованном аналогично рис. 1, но в другом масштабе, показана глухая речь. Видно, что она имеет случайный, шумовой характер. Это же отражается на ее спектре. Возбуждение, хотя и лишенное периодической составляющей, в голосовом тракте получило какое-то спектральное усиление, что отражено на спектре, а в целом, что речь, что возбуждение малокоррелированы.

После появления первых вокодеров случилась "пауза": развитие техники связи и появление многоканальных высококачественных телефонных линий, с одной стороны, и неразвитость цифровой техники, с другой, на некоторое время ослабили интерес к сжатию речи. Вокодеры уцелели только в системах засекреченной военной и правительственной связи, в некоторых каналах спецрадиосвязи, вроде аэродромной. А в нарождающейся цифровой связи господствовали два алгоритма нелинейной ИКМ, обеспечивающие прекрасное телефонное качество. Два - потому, что в Европе ("А-закон") и в США ("мю-закон") были приняты разные реализации одного и того же стандарта! Отсутствие единого стандарта с развитием международных связей стало очень неудобным, так как требовало перекодировки речи при передаче речевого сигнала из одной сети связи в другую, а с учетом того, что трафик между США и Европой большой, то и перекодировок требовалось немало... Кстати, вынужденная перекодировка вносит дополнительные шумы и снижает оценку MOS.

Перекодировки, а говоря грамотнее: отсутствие единых стандартов - вообще больная тема. В России, например, это вечный матч KOI-8 vs. CP1251 с подсуживающими судьями-провайдерами и всегда проигрывающими пользователями. Но если проблема перекодировок русских кодовых таблиц более или менее поддается решению, хотя и не всегда без потерь, то при передаче речи "перекодировки", возникая постоянно (сегодня в разных сетях связи используют кодеки разных стандартов), могут сильно ухудшать качество звучания и сдерживать развитие рынка. Правда, для сетей IP-телефонии это не самая большая проблема. Гораздо более важную сдерживающую роль играет несовместимость протоколов и аппаратуры, используемой провайдерами IP-телефонии, когда каждый из них строит чуть ли не выделенную сеть связи, примерно также, как это было в эпоху зарождения традиционной телефонии. В последнее время процесс сближения пошел веселее, о чем, например, см. КТ #48 [276], стр. 7 ("Долго запрягают"), но сколько их уже было, таких процессов, за последние пару-тройку лет! А сейчас при передаче речи из одной сети в другую дополнительные искажения просто неизбежны.

Логарифмическая ИКМ никак не использует взаимную корреляцию между соседними отсчетами речи, поэтому первым примером сжимающей обработки стоит считать дифференциальную ИКМ (ДИКМ), при которой осуществляется предсказание речи первого порядка. Предыдущий отсчет берется с определенным весом, формируя прогноз. Разница между предсказанным и реальным отсчетом речи подвергается квантованию. Позднее появилась более продвинутая технология - адаптивная дифференциальная ИКМ (АДИКМ). При АДИКМ размеы шкалы квантования подстраивают в соответствии с энергией речи так, чтобы слабые сигналы квантовались малыми ступенями квантования, а сильные сигналы - большими. Благодаря непрерывной подстройке шага квантования к текущей мощности речи, разрядность шкалы квантования при АДИКМ удалось снизить до четырех бит и получить кодек со скоростью передачи 32 кбит/с и качеством, близким к ИКМ.

Алгоритм управления адаптацией шкалы вносит запаздывание, ухудшающее качество речи. В 1987 году во вкладе СССР в Международный консультативный комитет по телефонии и телеграфии был описан алгоритм АДИКМ G.721-bis с ускоренной адаптацией шага. Затем рекомендация G.721 еще несколько раз улучшалась, и в 1984 году был принят стандарт ITU-T G.726 на АДИКМ (32 кбит/с), но с лучшим качеством, используемый по настоящее время на спутниковых и других линиях связи.

Дальнейшая история такова: 1984 год - стандарт ITU-T G.726 на скорость 32 кбит/с; 1990 год - сложный, дорогой, но все-таки низкоскоростной кодек на 6,4 кбит/с (спутниковая связь INMARSAT); 1992 год - европейский сотовый стандарт GSM (13 кбит/с) и стандарт ITU-T G.728 LD-CELP (16 кбит/с) и т. д. Подробности относительно некоторых стандартизированных кодеков приведены в таблице, но, помимо них, имеется еще много так или иначе общепризнанных алгоритмов; мы ограничились лишь основными стандартами.

Настоящим же прорывом в кодировании речи стали кодеки на базе линейного предсказания (ЛП), появившиеся в конце 60-х и до сих пор остающиеся основным способом сжатия речи. В таблице кодеки на базе ЛП занимают позиции с четвертой по девятую. Кстати говоря, сигнал возбуждения и спектрограммы, показанные на рис. 1 и 2, были получены именно с помощью ЛП.

Из относительно новых алгоритмов стоит назвать совместную разработку фирм Audiocodec (Израиль) и DSP Group (США) - ЛП-кодек на скорость 6,3 кбит/с. Несмотря на значительно большую, чем у АДИКМ, среднеквадратичную погрешность синтеза, получена лучшая (3,9 балла MOS) оценка качества, чем у АДИКМ. Это достигнуто благодаря двум усовершенствованиям алгоритма линейного предсказания алгебраического CELP. Первое: длина сглаживающего окна трехкратно увеличена относительно длины анализируемого сегмента речи, что ослабило искажения, вносимые асинхронностью анализируемых сегментов речи и интервалов ОТ. Второе: метод более точного формирования сигнала возбуждения синтезирующего фильтра, названный авторами MP-MLQ (Multipulse Maximum Likelihood Quantisation). Еще одним важным преимуществом этого алгоритма является более надежное по сравнению с предшественниками вычисление параметров ОТ.

На базе этого кодека фирма Rad Data Communications (США) выпускает аппаратуру статистического уплотнения телефонных каналов сетей общего назначения: в канале 64 кбит/с удается разместить до тринадцати телефонных каналов. На сегодняшний день этот кодек является видимо одним из наиболее перспективных и для IP-телефонии.

Другой интересный подход реализован в кодеке MELP (Mixed Exitation Linear Prediction - кодек ЛП со смешанным возбуждением) на скорость 2,4 кбит/с, разработанный фирмой Texas Instruments и выигравший открытый конкурс по замене кодека федерального стандарта США FS-1016, до сих пор используемого в правительственных сетях США. В этом кодеке использованы четырехполосный анализ речи и ЛП, на его базе уже появилась аппаратура для систем мобильной радиосвязи, не уступающая по качеству речи известным цифровым радиостанциям и более доступная по цене.

Скорость передачи, кбит/с	Субъек-тивное качество	Название стандарта	Год выпуска	Алгоритм	Область приме-нения
64	4,1	ITU-T G.711	1960	PCM	Телефон-ные сети
32	3,8	ITU-T G.726	1984	ADPCM	Телефон-ные сети
6,4	3,1	INMAR-SAT-M	1990	IMBE	Спутни-ковая телефония
13	3,3	ETSI GSM	1992	RPE-LTP	Сотовая телефония (Европа)
16	3,6	ITU-T G.728	1992	LD-CELP	Телефон-ные сети
4,8	3,4	ETSI TETRA	1996	ACELP	Сотовая телефония (Европа)
6,3	3,9	ITU-T G.723.1	1996	MP-MLQ	Телефон-ные сети
5,3	3,7	ITU-T G.723.1	1996	ACELP	Телефон-ные сети
8	3,9	ITU-T G.729	1997	CS-ACELP	Телефон-ные сети
2,4	3,5	США (проект)	1998	MELP	Мин. обороны США

В будущем можно ожидать появления кодеков с качеством, не уступающим ITU-T G-729 (8 кбит/с, см. таблицу), но работающих на скоростях ниже 4,8 кбит/с и вносящих задержку, не превышающую предельно допустимую (0,2 с), некогда установленную МККТТ для телефонных сетей общего назначения. По-видимому, кодеки ЛП следующего поколения будут работать рекуррентно, и поэтому будут исключены имеющие сегодня место искажения от блочной сегментации, появятся новые принципы выделения ОТ и получения сигнала возбуждения, синхронные с интервалом ОТ, и другие усовершенствования, о которых, наверное, стоит говорить отдельно.

Для радиотелефонной связи с подвижными объектами ни ИКМ, ни АДИКМ не годятся из-за их слишком высоких скоростей и узости радиоканалов связи. Для связи с морскими судами было предложено несколько кодеков, среди которых наибольший интерес представляет кодек Inmarsat-М (система спутниковой радионавигации), используемый ныне всеми странами и работающий по алгоритму IMBE (улучшенное многополосное возбуждение). По факту широкого применения этот кодек является международным стандартом. В этом алгоритме спектр речи делят фильтрами на несколько полос и в каждой полосе принимают отдельное решение "звонко-глухо". Благодаря подстройке фильтров к гармоникам частоты ОТ достигается вполне удовлетворительное качество речи, несмотря на низкую скорость. Для лучшего выделения ОТ анализируют нескольких интервалов ОТ и формируют его интегральную оценку. Правда, кодек IMBE отличает высокая сложность и стоимость.

Обо всех подходах к компрессии речи в одной статье не расскажешь. Здесь мы постарались дать лишь самое общее их описание, а более подробные сведения стоит поискать на многочисленных сайтах, посвященных речевой тематике. Начать можно, например, с адреса www.itl.atr.co.jp/comp.speech, а оттуда ниточки приведут во все мыслимые речевые центры. Кстати, в Сети нетрудно отыскать не только множество программ, реализующих обработку речи, но даже и открытые исходники ко многим упомянутым и не упомянутым здесь алгоритмам, так что интересующиеся читатели могут попытаться встроить обработку речи в свои собственные программные разработки.

Кстати, ни один мало-мальски заметный американский или европейский университет не может себе позволить не иметь кафедры, специализирующейся на речи, - это престижно, да и емкость речевого сегмента рынка постоянно растет. Об интересе к теме можно судить по доле "речевых" сообщений на лентах информационных сетевых агентств, с которой может сравниться разве что криптографическая тематика. А в нашей стране, где речевая школа была очень сильно развита, сейчас хотя и остались серьезные специалисты, работающие на мировом уровне, но возможности их крайне невелики как по причине отстающего от Запада спроса и ориентации на западные технологии, поставляемые под ключ, так и по всеобщей нищете. Что обидно, но, увы, неизбежно.