Архивы: по дате | по разделам | по авторам

Загадки и парадоксы цифрового звука

Архив
автор : ДМИТРИЙ СИМАНЕНКОВ    06.04.1999

   Спектр - видим почти то, что слышим


Рис. 1.
Синусоидальный сигнал.



Рис. 2.
Спектр БПФ синусоидального сигнала в случае совпадения его частоты с одной из образцовых частот БПФ.



Рис. 3.
Спектр БПФ синусоидального сигнала в случае несовпадения его частоты ни с одной из образцовых частот БПФ.



Рис. 4.
Спектр БПФ синусоидального сигнала в случае совпадения его частоты с одной из образцовых частот БПФ и предварительной обработкой отсчетов методом наложения окна Blackman-Harris.


   В откликах, поступивших на мой адрес после публикации в прошлом году в "КТ" #31(259), #32 [260] темы "Цифра и Звук", довольно часто встречается просьба максимально просто, без математики, объяснить, что такое спектр, полученный с помощью БПФ (быстрого преобразования Фурье), и какая от него польза. Итак, на графике спектра мы видим результат сравнения сигнала с набором синусоидальных колебаний с разными, постепенно увеличивающимися на постоянную величину, частотами. Чем больше похож сигнал на синусоиду с данной образцовой частотой, тем больше величина пика на графике по оси Y. Таким образом, чисто синусоидальный сигнал должен иметь график спектра в виде одиночного пика (рис. 1 и 2). Так и есть на самом деле, но только если частота такого сигнала точно совпадает с частотой одной из образцовых синусоид. В противном случае сигнал в некотором смысле (корреляции) будет похож и на близлежащие по частоте образцовые синусоиды, и, следовательно, на графике спектра появятся дополнительные пики (рис. 3). Вот это уже можно назвать парадоксом. Сигнал, реально состоящий из одной синусоиды, представится нам как сумма нескольких синусоид. Этот парадокс характерен именно для БПФ-спектров. Другими словами, если мы оцифруем, скажем, аналоговый синусоидальный сигнал с частотой FS на частотах F1 и F2, то цифровые БПФ-спектры одной и той же синусоиды могут выглядеть по-разному. Кроме того, на рисунках 3 и 4 видно значительное уменьшение амплитуды пиков по оси Y (на 4 и 9 дБ соответственно, относительно 0 дБ). Не улучшает ситуацию популярный метод наложения "окна" или предварительного, до применения БПФ, "взвешивания" (умножения) отсчетов на некоторые функции, обычно имеющие вид колокола. Этот метод приводит практически к полному абсурду: ведь после него "размывается" и расщепляется даже одиночный пик на графике БПФ (рис. 4). При непродуманном использовании результатов БПФ это может привести к значительным ошибкам в измерениях.

   К счастью, существуют более точные методы вычисления спектров, широко применяемые в статистическом анализе временных рядов (анализ курса доллара и т. д.), свободные от описанного выше эффекта "расщепления", но зато имеющие другие недостатки.


Рис. 5.
График БПФ звукового сигнала скрипки.


   Но даже несмотря на перечисленные выше недостатки БПФ-спектр позволяет наблюдать интересные явления. Например, весьма занимательно и информативно рассматривать, как изменяется график БПФ спектра некоторого сигнала во времени. На рис. 5 вы можете видеть такой график для сигнала скрипки, где по оси Х отложена частота, а по оси Y - время. В "третьем измерении" отложена амплитуда синусоид, из которых, "по мнению" БПФ, состоит сигнал. Парадоксально, но столь сложный с точки зрения цифрового спектрального анализа сигнал субъективно ощущается как монолитный, цельный и "простой" звук определенной высоты (частоты).

   Человеческое ухо физиологически имеет около 20 тысяч резонаторов (это не совсем точно, специалисты по анатомии человека меня поправят, но для дальнейшего изложения их поправки несущественны), настроенных на разные частоты, покрывающие весь слышимый человеком диапазон от 10-20 Гц до 20-25 кГц. Если во входном звуковом сигнале содержится синусоидальное колебание с частотой, близкой к частоте настройки одного из резонаторов, на его выходе появится электрическое напряжение, пропорциональное мощности колебания, и по нервам поступит в мозг для дальнейшего анализа. Я уверен, что эффект "расщепления" или "размывания" спектра имеет место и в человеческом ухе. Синусоидальный сигнал возбуждает не только резонатор, точно настроенный на его частоту, но и несколько соседних. Однако при последующей обработке в мозге "расщепление" устраняется. Во всяком случае, синусоидальный сигнал мы всегда слышим как чистый простой тон. Таким образом, по крайней мере на первом этапе, функционирование нашего слуха весьма напоминает вычисление спектра с помощью БПФ. Видимо, это и определяет популярность использования спектрального анализа, графических эквалайзеров и индикаторов в звуковоспроизводящей и записывающей аппаратуре, в программном обеспечении персональных компьютеров, предназначенном для обработки звуковых файлов (см. CoolEdit, WaveLab, Sound Forge и др.). Однако человеческий слух обладает свойством маскирования в частотной и временной областях, подробно описанным в моей статье "Компрессия звуковых данных" ("КТ" #32 [260]). Кроме того, человеческий слух менее чувствителен к самым низким и самым высоким частотам. Можно считать, что частоты ниже 10 Гц и выше 25 кГц подавляющее большинство людей не слышит. В результате, на графике БПФ звукового сигнала некоторые частоты будут показаны, хотя реально они не будут слышны или будут значительно ослаблены.

   Аналоговый звук против цифрового
   Почти все читатели, откликнувшиеся на мои публикации, утверждают, что аналоговый звук отличается от цифрового. При современном уровне развития общедоступной звуковоспроизводящей аппаратуры большинство из них довольно легко отличают "живой" звук от цифровой записи с компакт-диска. С другой стороны, преимущества аналоговых магнитофонов и проигрывателей виниловых пластинок очевидны далеко не для всех. Несколько читателей справедливо отмечают, что так называемые аналоговые ленточные магнитофоны по своей сути являются цифровыми устройствами. Дело в том, что число магнитных доменов, попадающих в зазор звукоснимающей магнитной головки, конечно. Читатели предполагают числа от 16000 до 100000 (точные данные неизвестны). Но, в любом случае, это относительно небольшое число и уж точно это не бесконечность. А домены имеют всего два устойчивых состояния намагниченности. Таким образом, магнитная головка, по сути, есть ЦАП с конечной разрядностью от 14 до 17 бит и высококачественным интерполирующим фильтром низкой частоты (его образует система магнитная головка-зазор-лента), возможно, дополнительно увеличивающим разрядность до 18-19 и даже 20 бит. Из сказанного выше следует, что мы просто не можем слышать чисто аналоговых записей, так как ленточные магнитофоны применялись и при создании виниловых пластинок. А значит, со старого доброго "винила" тоже идет цифровой звук! Поэтому когда утверждается, что "аналоговый" звук лучше цифрового, на самом деле утверждается, что одна цифровая система лучше другой!

   Найквист, Котельников, АЦП/ЦАП
   Многие читатели указывают на приоритет Котельникова в разработке теории дискретизации аналоговых сигналов, хотя детального сравнительного датологического обоснования никто дать не смог. Поэтому спор о приоритете Котельникова вряд ли можно считать законченным. Читатели, имеющие математическую подготовку на уровне четвертого курса матфака университета, могут детально ознакомиться с теорией оценки точности восстановления аналогового сигнала, оцифрованного в соответствии с теоремой Котельникова-Найквиста, открыв "Справочник по теоретическим основам радиоэлектроники" (том 2 стр. 33, 34, стр. 126, 127, разделы, посвященные вычислению ошибки интерполяции восстановленного по цифровым отсчетам сигнала, рекомендовано профессором, д. т. н. Варламовым Р. Г.). Из приведенных в этой книге формул следует, что при использовании реализуемых цифровых и аналоговых фильтров будет возникать ошибка интерполяции. Это одна из главных причин отличия цифрового и аналогового звучания. Разработчикам цифровой звуковоспроизводящей и записывающей аппаратуры разумно стремиться не к полному устранению этой ошибки (на практике это невозможно), а к снижению ее уровня до такой степени, чтобы она не влияла на субъективно воспринимаемое качество звука. Читатель Сергей Подоляк указывает на типичные ошибки разработчиков современной цифровой аппаратуры Hi-Fi и Hi-End, приводящие к значительным дополнительным искажениям сигнала. Применение ЦАП с оверсэмплингом в современном конструктивном исполнении с предварительной фильтрацией частотных составляющих сигнала только выше 20 кГц, но без фильтрации составляющих ниже 20 Гц приводит к возникновению специфических, неприятных на слух цифровых искажений. Сергей располагает убедительным математическим доказательством необходимости фильтрации сигнала как по высоким, так и по низким частотам, которое, однако, сложно для восприятия даже подготовленным человеком (теорема Агеева). Далее я попробовал объяснить проблемы предварительной и восстанавливающей фильтрации и интерполяции без формул, в виде наглядных картинок. Интересно, что искажения формы сигнала возникают в АЦП до собственно дискретизации и квантования. Вследствие причин, подробно рассмотренных в моей статье об АЦП/ЦАП ("КТ" #31 [259]), необходимо ограничить спектр входного аналогового сигнала с помощью фильтра низкой частоты. Такое ограничение приводит к существенному искажению формы прямоугольного сигнала, хотя синусоидальный сигнал проходит такой фильтр "почти" без искажения формы. "Почти" - это то, что называется переходными процессами в фильтрах низкой частоты. Как видно на рисунках 6 и 7, искажения формы сигнала еще до самой оцифровки могут быть весьма значительными.


Рис. 6.
Искажения "прямоугольного" сигнала предварительным фильтром АЦП.



Рис. 7.
Искажения синусоидального сигнала предварительным фильтром АЦП.


   Переходные процессы свойственны любым фильтрам, как цифровым, так и аналоговым. Поэтому даже АЦП с оверсэмплингом не свободны от подобных искажений. Способы борьбы с этим явлением разрабатывались еще для аналоговых усилителей мощности звуковых сигналов на транзисторах (УНЧ). Заключаются они в расширении полосы пропускания УНЧ до нескольких сотен килогерц или даже до мегагерца! К сожалению, звуковых карт с такими характеристиками обнаружить в продаже (и испытать) мне не удалось. Хочу, однако, отметить, что элементная база, выпускаемая, в частности, фирмой Analog Devices, и характеристики шины PCI (и даже ISA) вполне допускают создание недорогих широкополосных звуковых карт! Таким образом, из-за повсеместного применения устаревших узкополосных, с низкой частотой дискретизации (не более 48 кГц) АЦП форма сигнала портится еще до оцифровки. Примерно такие же искажения вносятся и при восстановлении аналогового сигнала по цифровым отсчетам. Интересно, что особенно портятся "прямоугольные" сигналы, когда синусоидальные получаются "почти" идеальными, и наоборот. Опять же "почти" - из-за так называемых переходных процессов.


Рис. 8.
Синусоидальный и "прямоугольный" сигнал ЦАП до восстанавливающей фильтрации.



Рис. 9.
Противоречивость требований к восстанавливающему фильтру ЦАП.


   Возможно, единственный путь борьбы с искажениями подобного рода - это расширение полосы пропускания системы. При фиксированной же частоте дискретизации имеется такой парадокс: чем лучше восстанавливается форма прямоугольного сигнала, тем сильнее будет искажена синусоида, и наоборот (рис. 8 и 9). Возможно, кому-нибудь и удастся разрешить его. Представьте устройство, которое понимает, прямоугольный или синусоидальный сигнал в данный момент восстанавливается из цифры в аналог, и соответствующим образом (оптимальным) настраивает интерполирующие фильтры. Но, конечно, более простой и дешевый путь - увеличить частоту дискретизации. Технически, как я уже говорил, это легко реализуется. Но еще более интересно было бы и вовсе отказаться от интерполирующих фильтров низкой частоты (ФНЧ) на выходе ЦАП. В настоящее время все (!) обследованные мной звуковые карты стоимостью от 9 до 700 долларов (см. "КТ" #14 [242]) используют мощные ФНЧ с оверсэмплингом и подавлением не слышимых человеческим ухом высоких частот выше 22-24 кГц на 80 дБ и более. Но, с другой стороны, зачем подавлять такие высокие частоты, если они все равно не слышимы?! (Может быть, чтобы не создавать помехи телевидению?) Человеческое ухо и есть ФНЧ с бесконечным подавлением частотных компонентов выше 25-30 кГц (идеальный теоретически невозможный фильтр!). Было бы крайне интересно прослушать звуковую карту без выходного ФНЧ. К сожалению, ни одна из доступных мне звуковых карт (Acer S23, CS4237, AD1848, ESS1868, Opti-931, Yamaha Sax700, SB-16/Vibra, AWE64, Turtle Beach Pinnacle, Digital Wings, Monster Sound 3D) не имеет такой возможности. Заметьте, что на некоторых DVD можно увидеть надпись "Audio 24 bit, 96 kHz". Значит, все же существуют АЦП/ЦАП с такой высокой частотой дискретизации. А так как DVD рассчитан на более или менее массовую аудиторию, цена таких АЦП/ЦАП не должна быть слишком высокой. Звуковая карта с частотой дискретизации 96 кГц позволила бы проверить, каково будет качество звука стандартного компакт-диска с 44,1 кГц без выходного интерполирующего ФНЧ с "завалом" частот выше 20 кГц. Ведь при частоте дискретизации 96 кГц частота среза ФНЧ, видимо, будет установлена в районе 48 кГц, а передискретизация с 44,1 кГц на 96 кГц технически достаточно легко реализуется. Так что, если хотите по-настоящему классный цифровой звук, ищите звуковые карты с частотой дискретизации 96 кГц!

 
   Сказать по правде, беглое чтение статьи Дмитрия Симаненкова оставляет очень симпатичное впечатление - и наглядностью, и весьма неожиданными поворотами мысли. Более же внимательное изучение некоторых идей вызвало, по крайней мере у меня, желание включиться в разговор.




   Итак, по порядку. В той части, где говорится о парадоксах БПФ - расщеплении чистой синусоиды на ряд гармонических составляющих, Дмитрий, как мне представляется, совершенно упускает из внимания фактор, куда более существенный, чем приведенный им, а именно: "уширение" спектра синусоиды неизбежно, так как по определению ее спектр состоит из единственной гармоники только в том случае, если синусоида имеет бесконечную протяженность. И ее "размывание" имеет место всегда, определяясь тем, насколько сильно мы сигнал укоротили. Поэтому говорить о "парадоксальных" искажениях, вносимых именно БПФ, нельзя. БПФ честно измеряет то, что ему досталось измерять, и псевдоуширение спектра при этом совершенно неизбежно. Интересно, что этот якобы недостаток присущ не только БПФ, но и непрерывному преобразованию Фурье. Кстати, обработка окном некоторый смысл все-таки имеет: увеличивая ширину гармоники, окно усиливает "внеполосное" затухание спектра (см. графики на рисунке во врезке, сравнивающие спектры синусоид разной длины, в том числе и при обработке окном).

   Сказать, что дискуссия об устройстве человеческого уха и механизме слуха стара, - значит не сказать ничего. К сожалению, четко установить, где кончается функция уха (как приемного блока) и начинается работа мозга (блока интерпретирующего), невозможно, и, как следствие, трудно выработать хорошую математическую модель. Аналогии же между устройством уха и дискретным преобразованием Фурье (ДПФ) были проведены еще в 60-е годы, и хотя они и интересны, но не вполне адекватны. За недостатком места скажу лишь о том, что ухо воспринимает звуки рекуррентно, обрабатывая их последовательно по мере поступления (не дробя на блоки). А БПФ работает только с блоками. В одном этом содержится принципиальная невозможность для приведенных в статье аналогий. Они, скорее чем научный факт, красивый образ или метафора, чем, кстати, и интересны, но не более того.

   Я категорически не согласен с тезисом о дискретности пленочных магнитофонов. Да, магнитные домены дискретны. Да, они имеют всего два состояния намагниченности. Но цифровым воспроизведение от того все равно не становится... Посудите сами: домены ориентированы в пространстве случайным образом вокруг доминирующего направления непрерывно, и, следовательно, снимаемый с них сигнал не дискретен. Его значение меняется в пределах между +U и -U, определяясь проекцией направления домена на звукоснимающую головку, измеряющую поле с сотен тысяч доменов одновременно. Это дает статистически очень сильное усреднение, полностью скрывающее "дискретность" доменов. А после этого остаются шумовые факторы, сопровождающие снятие звука с пленки, в виде толщины магнитного слоя, собственных шумов магнитной головки и т. п., в свою очередь лишающих сигнал всяких признаков дискретности. (Кстати, идея о дискретности пленочных магнитофонов вызывает у меня такую ассоциацию: попытки измерять высоту самолета, летящего на высоте нескольких километров с точностью до сантиметров, игнорируя факт, что самолет в полете попадает в воздушные ямы, что меняется рельеф местности и т. п.)

   Теперь о концовке "загадок и парадоксов", где речь идет об АЦП/ЦАП звуковых плат. Там Дмитрий рассматривает искажение формы прямоугольного сигнала НЧ-фильтрацией, предшествующей АЦП. Но, господа! Человеческое ухо слышит частоты вплоть до примерно 20 кГц. Все, что свыше того, сохранять в сигнале попросту не имеет смысла, так как услышать этого невозможно. А прямоугольный сигнал имеет бесконечный спектр, поэтому и анализ искажений его формы проводить бессмысленно, форма искажается - и ладно! То же самое и при выходной фильтрации, предшествующей ЦАП. Просто надо грамотно выбирать НЧ-фильтр - так, чтобы срез его частотной характеристики был строго за пределами звуковых частот (потребуется ли тогда карта с частотой дискретизации 96 кГц?) - тогда и проблем не будет.

   А вот дальше у Дмитрия есть просто шикарная идея - совсем отказаться от НЧ-фильтрации перед ЦАП! Если когда-то это было принципиально невозможно из-за внеполосных, но слышимых, шумов, сопровождавших звуковой сигнал, то сегодня, когда весь спектр цифрового сигнала полезный, применение выходного фильтра обязательным не является. Ухо, столкнувшись с импульсным сигналом, все, что требуется, услышит. Да и динамик "поможет", сработав как какой-никакой, а все-таки НЧ-фильтр. Проблема только в выводе звука - современные динамики не пригодны для работы с импульсным сигналом, который быстро загонит их в недопустимый тепловой и (возможно) механический режим. Что дешевле - придумать новый тип динамиков, толерантный к импульсным сигналам, или действовать по-старому, используя ЦАПы, - не знаю, но, думаю, что традиционный подход экономически предпочтительней. На сегодня же, как я знаю, "импульсной" звуковоспроизводящей аппаратуры не существует, и потому звуковых плат без выходного ЦАП не производят. - М.Б.-З.



© ООО "Компьютерра-Онлайн", 1997-2022
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.