Загадки и парадоксы цифрового звука
Архив Спектр - видим почти то, что слышим
Рис. 1.
Синусоидальный сигнал.
Рис. 2.
Спектр БПФ синусоидального сигнала в случае совпадения его частоты с одной из образцовых частот БПФ.
Рис. 3.
Спектр БПФ синусоидального сигнала в случае несовпадения его частоты ни с одной из образцовых частот БПФ.
Рис. 4.
Спектр БПФ синусоидального сигнала в случае совпадения его частоты с одной из образцовых частот БПФ и предварительной обработкой отсчетов методом наложения окна Blackman-Harris.
В откликах, поступивших на мой адрес после публикации в прошлом году в "КТ" #31(259), #32 [260] темы "Цифра и Звук", довольно часто встречается просьба максимально просто, без математики, объяснить, что такое спектр, полученный с помощью БПФ (быстрого преобразования Фурье), и какая от него польза. Итак, на графике спектра мы видим результат сравнения сигнала с набором синусоидальных колебаний с разными, постепенно увеличивающимися на постоянную величину, частотами. Чем больше похож сигнал на синусоиду с данной образцовой частотой, тем больше величина пика на графике по оси Y. Таким образом, чисто синусоидальный сигнал должен иметь график спектра в виде одиночного пика (рис. 1 и 2). Так и есть на самом деле, но только если частота такого сигнала точно совпадает с частотой одной из образцовых синусоид. В противном случае сигнал в некотором смысле (корреляции) будет похож и на близлежащие по частоте образцовые синусоиды, и, следовательно, на графике спектра появятся дополнительные пики (рис. 3). Вот это уже можно назвать парадоксом. Сигнал, реально состоящий из одной синусоиды, представится нам как сумма нескольких синусоид. Этот парадокс характерен именно для БПФ-спектров. Другими словами, если мы оцифруем, скажем, аналоговый синусоидальный сигнал с частотой FS на частотах F1 и F2, то цифровые БПФ-спектры одной и той же синусоиды могут выглядеть по-разному. Кроме того, на рисунках 3 и 4 видно значительное уменьшение амплитуды пиков по оси Y (на 4 и 9 дБ соответственно, относительно 0 дБ). Не улучшает ситуацию популярный метод наложения "окна" или предварительного, до применения БПФ, "взвешивания" (умножения) отсчетов на некоторые функции, обычно имеющие вид колокола. Этот метод приводит практически к полному абсурду: ведь после него "размывается" и расщепляется даже одиночный пик на графике БПФ (рис. 4). При непродуманном использовании результатов БПФ это может привести к значительным ошибкам в измерениях.
К счастью, существуют более точные методы вычисления спектров, широко применяемые в статистическом анализе временных рядов (анализ курса доллара и т. д.), свободные от описанного выше эффекта "расщепления", но зато имеющие другие недостатки.
Рис. 5.
График БПФ звукового сигнала скрипки.
Но даже несмотря на перечисленные выше недостатки БПФ-спектр позволяет наблюдать интересные явления. Например, весьма занимательно и информативно рассматривать, как изменяется график БПФ спектра некоторого сигнала во времени. На рис. 5 вы можете видеть такой график для сигнала скрипки, где по оси Х отложена частота, а по оси Y - время. В "третьем измерении" отложена амплитуда синусоид, из которых, "по мнению" БПФ, состоит сигнал. Парадоксально, но столь сложный с точки зрения цифрового спектрального анализа сигнал субъективно ощущается как монолитный, цельный и "простой" звук определенной высоты (частоты).
Человеческое ухо физиологически имеет около 20 тысяч резонаторов (это не совсем точно, специалисты по анатомии человека меня поправят, но для дальнейшего изложения их поправки несущественны), настроенных на разные частоты, покрывающие весь слышимый человеком диапазон от 10-20 Гц до 20-25 кГц. Если во входном звуковом сигнале содержится синусоидальное колебание с частотой, близкой к частоте настройки одного из резонаторов, на его выходе появится электрическое напряжение, пропорциональное мощности колебания, и по нервам поступит в мозг для дальнейшего анализа. Я уверен, что эффект "расщепления" или "размывания" спектра имеет место и в человеческом ухе. Синусоидальный сигнал возбуждает не только резонатор, точно настроенный на его частоту, но и несколько соседних. Однако при последующей обработке в мозге "расщепление" устраняется. Во всяком случае, синусоидальный сигнал мы всегда слышим как чистый простой тон. Таким образом, по крайней мере на первом этапе, функционирование нашего слуха весьма напоминает вычисление спектра с помощью БПФ. Видимо, это и определяет популярность использования спектрального анализа, графических эквалайзеров и индикаторов в звуковоспроизводящей и записывающей аппаратуре, в программном обеспечении персональных компьютеров, предназначенном для обработки звуковых файлов (см. CoolEdit, WaveLab, Sound Forge и др.). Однако человеческий слух обладает свойством маскирования в частотной и временной областях, подробно описанным в моей статье "Компрессия звуковых данных" ("КТ" #32 [260]). Кроме того, человеческий слух менее чувствителен к самым низким и самым высоким частотам. Можно считать, что частоты ниже 10 Гц и выше 25 кГц подавляющее большинство людей не слышит. В результате, на графике БПФ звукового сигнала некоторые частоты будут показаны, хотя реально они не будут слышны или будут значительно ослаблены.
Аналоговый звук против цифрового
Почти все читатели, откликнувшиеся на мои публикации, утверждают, что аналоговый звук отличается от цифрового. При современном уровне развития общедоступной звуковоспроизводящей аппаратуры большинство из них довольно легко отличают "живой" звук от цифровой записи с компакт-диска. С другой стороны, преимущества аналоговых магнитофонов и проигрывателей виниловых пластинок очевидны далеко не для всех. Несколько читателей справедливо отмечают, что так называемые аналоговые ленточные магнитофоны по своей сути являются цифровыми устройствами. Дело в том, что число магнитных доменов, попадающих в зазор звукоснимающей магнитной головки, конечно. Читатели предполагают числа от 16000 до 100000 (точные данные неизвестны). Но, в любом случае, это относительно небольшое число и уж точно это не бесконечность. А домены имеют всего два устойчивых состояния намагниченности. Таким образом, магнитная головка, по сути, есть ЦАП с конечной разрядностью от 14 до 17 бит и высококачественным интерполирующим фильтром низкой частоты (его образует система магнитная головка-зазор-лента), возможно, дополнительно увеличивающим разрядность до 18-19 и даже 20 бит. Из сказанного выше следует, что мы просто не можем слышать чисто аналоговых записей, так как ленточные магнитофоны применялись и при создании виниловых пластинок. А значит, со старого доброго "винила" тоже идет цифровой звук! Поэтому когда утверждается, что "аналоговый" звук лучше цифрового, на самом деле утверждается, что одна цифровая система лучше другой!
Найквист, Котельников, АЦП/ЦАП
Многие читатели указывают на приоритет Котельникова в разработке теории дискретизации аналоговых сигналов, хотя детального сравнительного датологического обоснования никто дать не смог. Поэтому спор о приоритете Котельникова вряд ли можно считать законченным. Читатели, имеющие математическую подготовку на уровне четвертого курса матфака университета, могут детально ознакомиться с теорией оценки точности восстановления аналогового сигнала, оцифрованного в соответствии с теоремой Котельникова-Найквиста, открыв "Справочник по теоретическим основам радиоэлектроники" (том 2 стр. 33, 34, стр. 126, 127, разделы, посвященные вычислению ошибки интерполяции восстановленного по цифровым отсчетам сигнала, рекомендовано профессором, д. т. н. Варламовым Р. Г.). Из приведенных в этой книге формул следует, что при использовании реализуемых цифровых и аналоговых фильтров будет возникать ошибка интерполяции. Это одна из главных причин отличия цифрового и аналогового звучания. Разработчикам цифровой звуковоспроизводящей и записывающей аппаратуры разумно стремиться не к полному устранению этой ошибки (на практике это невозможно), а к снижению ее уровня до такой степени, чтобы она не влияла на субъективно воспринимаемое качество звука. Читатель Сергей Подоляк указывает на типичные ошибки разработчиков современной цифровой аппаратуры Hi-Fi и Hi-End, приводящие к значительным дополнительным искажениям сигнала. Применение ЦАП с оверсэмплингом в современном конструктивном исполнении с предварительной фильтрацией частотных составляющих сигнала только выше 20 кГц, но без фильтрации составляющих ниже 20 Гц приводит к возникновению специфических, неприятных на слух цифровых искажений. Сергей располагает убедительным математическим доказательством необходимости фильтрации сигнала как по высоким, так и по низким частотам, которое, однако, сложно для восприятия даже подготовленным человеком (теорема Агеева). Далее я попробовал объяснить проблемы предварительной и восстанавливающей фильтрации и интерполяции без формул, в виде наглядных картинок. Интересно, что искажения формы сигнала возникают в АЦП до собственно дискретизации и квантования. Вследствие причин, подробно рассмотренных в моей статье об АЦП/ЦАП ("КТ" #31 [259]), необходимо ограничить спектр входного аналогового сигнала с помощью фильтра низкой частоты. Такое ограничение приводит к существенному искажению формы прямоугольного сигнала, хотя синусоидальный сигнал проходит такой фильтр "почти" без искажения формы. "Почти" - это то, что называется переходными процессами в фильтрах низкой частоты. Как видно на рисунках 6 и 7, искажения формы сигнала еще до самой оцифровки могут быть весьма значительными.
Рис. 6.
Искажения "прямоугольного" сигнала предварительным фильтром АЦП.
Рис. 7.
Искажения синусоидального сигнала предварительным фильтром АЦП.
Переходные процессы свойственны любым фильтрам, как цифровым, так и аналоговым. Поэтому даже АЦП с оверсэмплингом не свободны от подобных искажений. Способы борьбы с этим явлением разрабатывались еще для аналоговых усилителей мощности звуковых сигналов на транзисторах (УНЧ). Заключаются они в расширении полосы пропускания УНЧ до нескольких сотен килогерц или даже до мегагерца! К сожалению, звуковых карт с такими характеристиками обнаружить в продаже (и испытать) мне не удалось. Хочу, однако, отметить, что элементная база, выпускаемая, в частности, фирмой Analog Devices, и характеристики шины PCI (и даже ISA) вполне допускают создание недорогих широкополосных звуковых карт! Таким образом, из-за повсеместного применения устаревших узкополосных, с низкой частотой дискретизации (не более 48 кГц) АЦП форма сигнала портится еще до оцифровки. Примерно такие же искажения вносятся и при восстановлении аналогового сигнала по цифровым отсчетам. Интересно, что особенно портятся "прямоугольные" сигналы, когда синусоидальные получаются "почти" идеальными, и наоборот. Опять же "почти" - из-за так называемых переходных процессов.
Рис. 8.
Синусоидальный и "прямоугольный" сигнал ЦАП до восстанавливающей фильтрации.
Рис. 9.
Противоречивость требований к восстанавливающему фильтру ЦАП.
Возможно, единственный путь борьбы с искажениями подобного рода - это расширение полосы пропускания системы. При фиксированной же частоте дискретизации имеется такой парадокс: чем лучше восстанавливается форма прямоугольного сигнала, тем сильнее будет искажена синусоида, и наоборот (рис. 8 и 9). Возможно, кому-нибудь и удастся разрешить его. Представьте устройство, которое понимает, прямоугольный или синусоидальный сигнал в данный момент восстанавливается из цифры в аналог, и соответствующим образом (оптимальным) настраивает интерполирующие фильтры. Но, конечно, более простой и дешевый путь - увеличить частоту дискретизации. Технически, как я уже говорил, это легко реализуется. Но еще более интересно было бы и вовсе отказаться от интерполирующих фильтров низкой частоты (ФНЧ) на выходе ЦАП. В настоящее время все (!) обследованные мной звуковые карты стоимостью от 9 до 700 долларов (см. "КТ" #14 [242]) используют мощные ФНЧ с оверсэмплингом и подавлением не слышимых человеческим ухом высоких частот выше 22-24 кГц на 80 дБ и более. Но, с другой стороны, зачем подавлять такие высокие частоты, если они все равно не слышимы?! (Может быть, чтобы не создавать помехи телевидению?) Человеческое ухо и есть ФНЧ с бесконечным подавлением частотных компонентов выше 25-30 кГц (идеальный теоретически невозможный фильтр!). Было бы крайне интересно прослушать звуковую карту без выходного ФНЧ. К сожалению, ни одна из доступных мне звуковых карт (Acer S23, CS4237, AD1848, ESS1868, Opti-931, Yamaha Sax700, SB-16/Vibra, AWE64, Turtle Beach Pinnacle, Digital Wings, Monster Sound 3D) не имеет такой возможности. Заметьте, что на некоторых DVD можно увидеть надпись "Audio 24 bit, 96 kHz". Значит, все же существуют АЦП/ЦАП с такой высокой частотой дискретизации. А так как DVD рассчитан на более или менее массовую аудиторию, цена таких АЦП/ЦАП не должна быть слишком высокой. Звуковая карта с частотой дискретизации 96 кГц позволила бы проверить, каково будет качество звука стандартного компакт-диска с 44,1 кГц без выходного интерполирующего ФНЧ с "завалом" частот выше 20 кГц. Ведь при частоте дискретизации 96 кГц частота среза ФНЧ, видимо, будет установлена в районе 48 кГц, а передискретизация с 44,1 кГц на 96 кГц технически достаточно легко реализуется. Так что, если хотите по-настоящему классный цифровой звук, ищите звуковые карты с частотой дискретизации 96 кГц!
|