Архивы: по дате | по разделам | по авторам

ААС: сжатие звука XXI века?

Архив
автор : Андрей Волов   08.08.2000

Не так давно из Dolby Laboratories поступило сообщение, что S3's Rio Group обзавелась лицензией на AAC (Advanced Audio Coding), с тем чтобы использовать ее в третьем поколении портативных цифровых аудиоустройств - в частности, в Rio 600.


Утверждается, что AAC, стандартизованная ISO как часть спецификации MPEG-2, обеспечивает более высокое качество звука, нежели MP3 (MPEG1 Layer-3), а при сопоставимом качестве требует на 30% меньше дискового пространства или величины сжатого потока [1]. ААС-поток способен нести 48 каналов аудио при изначальной оцифровке до 96 кГц, 15 встроенных потоков данных и "говорить" на разных языках. ААС выбран для цифрового радиовещания в АМ-диапазоне (<30 МГц). Высококачественное радиовещание достигается при 320 кбит/с для 5+1-канальной программы. Более того, ААС (с некоторыми модификациями) является единственной высококачественной аудиотехнологией, используемой в рамках стандарта MPEG-4 - глобального мультимедийного формата будущего. Среди создателей ААС - AT&T, Dolby Laboratories, Fraunhofer IIS, Lucent Technologies, Sony Corporation и другие [2].

Так же как в МР3 и АС3, сжатие в ААС основано на психоакустических особенностях восприятия звука. Вместе с тем между ними имеются существенные различия:

- Вместо гибридного (каскадного) банка фильтров ААС использует модифицированное дискретное преобразование в частотную область (MDCT) с импульсным откликом 5,3 мс (18,6 мс для МР3) при дискретизации 48 кГц, что уменьшает артефакты сжатия в момент взрывного нарастания амплитуды. Наряду с увеличением разрешения по частоте (1024 линии вместо 576 для МР3) MDCT повышает эффективность кодирования.

- Для улучшения кодирования чистых тонов опционно применяется обратное адаптивное предсказание.

- Информация, которая должна быть донесена да слушателя, подвергается энтропийному кодированию [1], чтобы устранить избыточность, насколько это возможно.

- Минимизация переходных шумов (Temporal Noise Shaping - TNS) сглаживает распределение шума квантизации во времени посредством предсказания в частотной области. В частности, благодаря TNS улучшается качество воспроизведения голосовых сигналов, особенно - на низких потоках.

Как МР3, так и ААС имеют критическое значение битрейта, выше которого качество звука улучшается очень медленно (по мере дальнейшего увеличения потока), зато ниже - ухудшается очень быстро. Так вот, для МР3 критический битрейт составляет около 1,33 бита на дискрету (128 кбит/с для стереосигнала 48 кГц), а для ААС - 1 бит на дискрету (96 кбит/с для стерео 48 кГц). В плане критического битрейта многоканальное кодирование еще более эффективно.

Технология ААС позаимствовала у АС3 возможность кодирования нескольких параллельных каналов, а у МР3 - принципы психоакустической модели. Судя по скупым функциональным схемам, разработчики ААС отказались от характерного для АС3 представления в виде мантиссы и экспоненты результата преобразования в частотную область, внеся параметр настройки уровня "громкости" для каждого блока данных. Этот параметр обеспечивает динамический диапазон ААС, эквивалентный 24 битам.

Оригинальные нововведения ААС привели к увеличению продолжительности кодирования чуть ли не вдвое, но почти не сказались на "прожорливости" декодирования.

Существует "облегченная" версия ААС (MPEG-2 AAC low complexity profile): предсказание отсутствует, а TNS ограничено двенадцатью коэффициентами, но с рабочей полосой до 18 кГц [4]. Частная модификация этой версии привела к рождению оригинального формата a2b, предназначенного для легального получения "сжатой" музыки через Интернет.

Тесты на прослушивание

Конечно, основатели ААС не замедлили выдвинуть аргументы в пользу своего детища. В отчете ISO титулованные эксперты утверждают, что ААС превосходит все другие технологии кодирования [5] и что полноценный ААС при 128 кбит/с неотличим от оригинала на большинстве музыкального материала. Исключения составляют кастаньеты, клавесин, камертон, металлофон, а так же некоторые женские голоса и редкие сочетания инструментов и их аранжировки. Главное, эксперты оценивали звучание вслепую, не зная, какой именно и посредством чего сжатый звук прослушивался; кроме того, экспертные оценки подвергались статистической обработке.

Слухачи-эксперты из народа высказывают мнение, что ААС на 128 кбит/с звучит лучше, чем МР3 с тем же потоком, а на потоке 160 кбит/с качество МР3 сравнимо с ААС на 128 кбит/с [6]. При этом справедливо замечается, что многое зависит от конкретного кодера (использовались MBSoft и PsyTEL encoder), и с появлением новых кодеров мнение может измениться.

Вряд ли последующие кодеры и декодеры (плейеры) окажутся хуже своих предшественников, посему не за горами лавина хвалебных отзывов в адрес ААС. Однако настораживают "обоснования" сторонников ААС: мол, все равно взрослые люди не слышат чистые тона с частотой выше 16-18 кГц и сохранять эти частоты незачем. Помилуйте, ведь никто еще толком не показал, сколь сильна роль псевдонеслышимых гармоник в формировании нашим мозгом звукового образа в целом. Посудите сами, если мозг не воспринимает отдельные частотные составляющие, то это еще не значит, что их не слышат наши уши. Не исключено, что для восприятия очень важны сочетания (!) гармоник, в том числе из "неслышимого" диапазона.

Кодирование/декодирование

Вынужден огорчить любителей сжимать звук самостоятельно. ААС-кодеры, не успев расплодиться, "прибраны к рукам": в Интернете удалось найти лишь один доступный для свободного скачивания ААС-кодер/декодер от Astrid Quartex [7], датированный 1998 годом. Интерфейс отсутствует, единственный параметр (величина битрейта) задается из командной строки. Кодер позволяет манипулировать с 16 бит 44,1 кГц РСМ-стереофайлами, сжимая их в потоки 64, 96 и 128 кбит/с. Под стать кодеру и декодер, но все работает, и неплохо.

Из доступных плейеров воспроизводить стандартный ААС-звук согласился лишь K-Jofol, который использовался для сравнения МР3 и VQF [8, 9]. По слухам, должен появиться plug-in и к WinAmp.

Кодирование и воспроизведение АС3-звука обсуждалось недавно [10]. Необходимо добавить, что рабочий диапазон частот при кодировании в АС3 зависит от задаваемой величины потока, которая, в свою очередь, зависит от числа каналов. Так, для двухканального потока 384 кбит/с верхняя частота составляет 20,7 кГц, а для 128 кбит/с - всего 13,48 кГц. Забегая вперед, скажу: ААС-кодер от Quartex поступает аналогичным образом, обрезая верхние частоты на ~11 кГц для потока 64 кбит/с и на ~17,5 кГц для 128 кбит/с. Однако каналы не поварьируешь, кодируются исключительно стереофайлы.

SoftEncoder в отличие от Quartex позволяет кодировать и декодировать не только классические два канала, однако логично сравнить с помощью объективных оценок стереозвук, сжатый как в АС3, так и в ААС, с потоком 128 кбит/с. Кодирование огорошило прожорливостью вычислительных ресурсов: времени потребовалось чуть ли не в десять раз больше, чем в АС3, и примерно в полтора раза меньше, чем в VQF! В частности, на 30-мегабайтный трек ушло 15 минут на Celeron 400. Не думаю, что виной тому огрехи в алгоритме Quartex: видно, ААС нелегко дается повышение эффективности сжатия без потери качества звука.

Анализ

Для объективного сравнения ААС с АС3 прибегнем к спектральному анализу, как к самому бескомпромиссному средству (методика описана в [8, 9]). Влияние АЦП/ЦАП аудиокарты и прочих "железок" исключается, оцениваемое качество звука зависит исключительно от свойств кодера и декодера. Нужно отметить, что в силу специфики "психоакустического" кодирования было бы большим заблуждением измерять соотношение сигнал/шум или оценивать амплитудно-частотные характеристики преобразователя "кодер+декодер". Анализ в комплексе спектрограмм, мгновенных спектров и изменения отдельных частотных составляющих во времени позволяет выяснить, какие аномалии привносятся тем или иным сжатием. Однако заметить их на слух может лишь опытный эксперт.

Анализировать будем только один (левый) канал (взаимное влияние каналов не исследовалось). На рис. 1 представлена спектрограмма исходного сигнала, на рис. 2 - декодированного из АС3, на рис. 3 - из ААС [2]. Красочные спектрограммы компактны и удобны для визуального сравнения, но для строгих выводов использовались в совокупности количественные оценки и изучение крупномасштабных спектральных "срезов".

Кстати, сложность кодирования тестового сигнала обусловлена тем, что многочисленные гармоники (вплоть до 22 кГц) довольно быстро изменяют текущую частоту во времени, к тому же динамика сигнала изобилует резкими всплесками.

Как видно из сравнения рис. 2 с рис. 1, АС3 при потоке 128 кбит/с отменно справился со своей задачей, не привнеся "своих" созвучий, - но только в полосе частот до 13,5 кГц (как и предвещал используемый кодер). ААС-128 хладнокровно точно воссоздал тестовый сигнал в полосе частот уже до 17,5 кГц (см. рис. 3), но не дотянул до широкополосности МР3-128 [8]. За пределами рабочей полосы частот оба кодера подавляют все подряд на ~20 дБ и более, не делая исключения для чистых тонов.

Коэффициент сжатия разнообразной стереомузыки у ААС и АС3 оказался близким (см. таблицу), что указывает на приближение к барьеру по увеличению "сжимаемости" звука. Равно тяжело дался шум моря, причем следует ожидать наиболее заметных шероховатостей при воспроизведении из-за грубоватой работы "шумоподавления". Звуки органа и саксофона были переданы достоверно, без привнесения искусственных созвучий, как в АС3, так и в ААС, хотя последний бережнее обращается с чистыми тонами в пределах рабочего диапазона. Декодер АС3 проштрафился на композиции Линды, локально добавив громкости в моменты внезапной смены тихих участков громкими. Плейер PowerDVD не наделал подобных локальных всплесков, зато исказил высокие гармоники вокала. Фазовые эффекты, дающие мнимые пространственные источники звука (надо заметить, очень убедительные), были переданы претендентами на удивление точно.

Коэффициент сжатия (для стереофайлов)AC3 128 кбит/сAAC 128 кбит/сПобедитель [*]
Тестовый сигнал (см. спектрограммы)10,9411,28ААС
Melody Alto F7 (sample of Sonic Foundry Inc.)11,0011,00-
Шум моря10,2310,23-
Линда. "Ляп-ляп-ляп-ляп-ляп..." (фазовые эффекты)11,0311,08ААС
Церковный орган (один аккорд)10,5611,27ААС




* (обратно к тексту) - Субъективные оценки качества звучания и эффективность сжатия не были приняты во внимание. Выводы основываются только на результатах спектрального анализа.



Заключение

ААС будет не просто оттеснить МР3, но, похоже, обновлять форматы сжатого звука нам придется так же часто, как апгрейдить материнские платы. На самом тяжелом для сжатия музыкальном материале, на котором МР3/128 продемонстрировал сжатие оригинала всего лишь в ~5 раз [9], ААС/128 стабильно дает почти двукратный выигрыш, но сравнимость качества звука остается спорной. Сопоставляя математику ААС и МР3, приходится признать, что на высоких потоках ААС должен быть более аккуратен и правдив, однако согласно теории максимальный выигрыш по сжатию не может превысить 30% без потери качества. ААС уступает МР3 и АС3 в продолжительности кодирования на порядок с гаком, но гигагерцовые процессоры призваны смягчить этот недостаток.

В области многоканального звука АС3 будет популярным еще долго, но участь его предрешена. Близкое качество стереозвука при двух/трехкратном уменьшении потока - мощный аргумент в пользу ААС. Как проявит себя ААС на тех же 5-6 каналах - покажет время. Очевидно, ААС не удастся без боя "прописаться" на DVD: стремительно растущий клан владельцев аппаратных DD5.1-декодеров встанет на дыбы, да и киномагнаты молчать не будут. Что ж, подождем доступных многоканальных ААС-кодеров, тогда и расставим точки над i...

ИСТОЧНИКИ

[1] www.aac-audio.com/press/m.pr.0006.AAC_S3.html
[2] www.iis.fhg.de/amm/techinf/aac/index.html
[3] www.mp3-tech.org/aac.html
[4] www.a2bmusic.com/pressroom/releases/a2bmusic.html
[5] www.aac-audio.com/technology/aac.rp.0002.xprtL.snr.html
[6] www.mp3-tech.org/tests/pm/AAC-128k.htm
[7] www.firstpr.com.au/audiocomp/aacdec01.zip
[8] www.computerra.ru/2000/19/47.html
[9] www.computerra.ru/2000/20/40.html
[10] А. Волов. "Пространство звука" ("КТ" #351, с. 38-39)



1 (обратно к тексту) - Родоначальник теории кодирования (и теории информации) К. Шеннон предложил в 1948 году использовать понятие энтропии в качестве вероятностной меры информации. Его последователь А. Винер перешел к практическому рассмотрению проблем оценки энтропии дискретного источника информации по ограниченному количеству данных и степени сжатия конечной последовательности, производимой этим источником информации.

"Энтропийное" кодирование, которое сейчас широко используется в сжатии видео с наименьшими потерями, предполагает наличие двух основных шагов. Первый выполняется после дискретного преобразования в частотную область, при этом полученные ненулевые коэффициенты считываются первыми (выборка зигзагом), а оставшиеся ненужные нулевые коэффициенты не передаются. Второй шаг (кодирование переменной длины) является эффективным методом сжатия благодаря снижению среднего числа бит на слово за счет различного отнесения вероятных и маловероятных бит в короткую и длинную часть слова соответственно.

2 (обратно к тексту) - По вертикали - частота, по горизонтали - время; цвет от синего до красного - амплитуда от 0 до 100 дБ.



© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.