Аналог или дискрет?
АрхивНекоторые принципы важнее знания многих фактов.
Клод Гельвеций, 1719 г.
Клод Гельвеций, 1719 г.
Серия статей в "Компьютерре" о музыке (#46 [223]), виртуальных студиях звукозаписи (#7 [235]), цифре и звуке (#30-32 [258-260]) не могла не привлечь внимание радиоинженера: в подобных материалах большинства аудиожурналов научно-технический уровень не очень высок и потому не закрывает заказные "рекламные уши".
Из компьютерровских статей хотелось бы выделить и уточнить следующие (по моему мнению, принципиальные) вопросы: источники живого и технического звука, усиление или преобразование, преобразование аналога в дискрет, чем и как мы слышим, звукоряды, эмоции и вовлеченность.
Основой для ответа на эти вопросы автор считает тезис, что high-end - это система технических устройств, оптимально согласованных как с источником живого звука, так и с его слушателем - человеком.
Источники живого и технического звука
Источники живого (естественного) звука - это голоса людей, щебетание птиц, звуки (не электронных!) музыкальных инструментов, шум моря и многое другое, не связанное со столь любимыми технарями микрофонами, усилителями, преобразователями и подобными устройствами. Принципиальным отличием живого звука от технического является управление механизмом звучания: напрямую или посредством сложной цепочки технических устройств.
При этом если входное устройство в виде микрофона отчасти аналогично уху, то выходные (наушники, головки громкоговорителей и акустические системы) не подобны голосовому тракту человека, музыкальным инструментам и другим устройствам.
Одними из основных характеристик звука являются частота (Гц) и амплитуда (дБ). В пении и музыке используются не произвольные, а определенные значения частот базовых звуков, которые находятся между собой в различных геометрических пропорциях с множителями 1,5, 1,25, 1,2, 1,1224, ..., а для измерения амплитуды звуков используется логарифмическая шкала.
Звуковой сигнал, проходя по звуковому тракту, претерпевает множество преобразований с энергетическими и информационными потерями.
Дискретное (цифровое) преобразование звуков по частоте и амплитуде подобно попытке преобразования данных, нанесенных на миллиметровую бумагу с двойной логарифмической сеткой, путем наложения на нее равномерной миллиметровой сетки.
Технический звук - это преобразованный (искаженный) живой звук. Причины искажений - методологические (замена звуковых рядов с различными коэффициентами изменения частоты и амплитуды "сетками" с равными ячейками) и функциональные (энергетические и информационные потери преобразования, отсутствие подобия искусственных "звучателей" естественным).
Усиление или преобразование?
Что нужно сделать со слабыми сигналами от антенны радиоприемника или головок звукоснимателя ЭПУ? Чтобы превратить в громкие звуки акустической системы, их надо усилить! А есть ли усилители сигналов вообще? Как понимать, например, термин "усилитель мощности"? Как устройство, которое усиливает входной сигнал мощностью 10 мВт и получает выходной мощностью 10 Вт, "отрицая" тем самым закон сохранения энергии?
Как работает усилитель на электронной лампе или транзисторе? Маломощный входной сигнал в промежутке "сетка-катод" (или "база-эмиттер") преобразуется в электрическое поле, управляющее анодным током (током коллектора), поступающим из анодной (коллекторной) цепи питания. Промодулировав анодный или коллекторный ток, маломощный входной управляющий сигнал "гибнет" в промежутке "сетка-катод" ("база-эмиттер"). Мощный выходной сигнал усилителя образуется не из усиленного входного, а за счет мощности источника питания. Он фотографически подобен входному, но не как усиленный, а как преобразованный! При таком рассмотрении физики усиления нет нарушения закона сохранения энергии. Анализ остальных компонентов усилителей показывает, что все они по физике своей работы - те же преобразователи.
Усилителей тока, напряжения, мощности - нет. Все эти устройства, как и трансформаторы, электронные лампы, транзисторы, резисторы, индуктивности и емкости - преобразователи [1]. Общим для всех таких устройств являются потери энергии и информации сигнала в процессе преобразования.
Преобразование аналога в дискрет
Преобразование аналогового сигнала в аналоговый или цифрового в цифровой не вызывает столько эмоций и дебатов, сколько преобразование аналогового сигнала в цифровой и обратно. Возможно ли такое преобразование без потерь? Дм. Симаненков, ссылаясь на теорему об отсчетах (см. "КТ" #30-31 [258-259], стр. 22), говорит о возможности абсолютно точного восстановления аналогового сигнала по его дискретным отсчетам.
Подобное утверждение можно рассматривать только как справедливое пожелание или стремление. В действительности же за семь десятилетий работы над данной проблемой теоретиков и практиков удалось добиться только частичного соответствия при преобразовании аналогового сигнала в дискретный. Исследования проблемы шли по двум направлениям: дискретизации непериодических сигналов ограниченной длительности (спектр таких сигналов непрерывен) и дискретизации периодических сигналов (с дискретным или линейчатым спектром). Последняя модель наиболее адекватно описывает музыкальные и речевые сигналы. Поэтому следует более подробно ознакомиться с развитием именно этого направления.
Теоретические основы дискретизации периодических сигналов были заложены английским математиком Вэтачером, опубликовавшим в 1929 году статью [2], которая, как и разложение в ряд Фурье, осталась для многих специалистов абстрактным исследованием. Лишь в 1933 году 25-летний Владимир Котельников опубликовал целостную систему теорем, заложивших основу дискретизации аналоговых сигналов с целью их передачи по каналам связи. Базовую теорему из этой совокупности принято называть "теоремой Котельникова" [3].
Однако при практическом использовании теоремы Котельникова (ее еще называют теоремой отсчетов) возникли принципиальные трудности [4]. Действительно, в теореме постулировалась ограниченность спектра некоторой максимальной частотой и в скрытом виде подразумевалась симметрия самого спектра. На практике имеет место дискретизация сигналов ограниченной длительности, но в этом случае уже не выполняется условие ограниченности спектра (некоторой максимальной частотой). Симметрия же спектра обеспечивается только при амплитудной модуляции или в частных случаях совместной амплитудной и угловой модуляции и не обеспечивается для угловой модуляции.
Поэтому дальнейшие исследования шли именно в направлении преодоления этих ограничений. В работах Турбовича и Гусева [5,6] было показано, как практически можно применить теорему отсчетов для неограниченного спектра, в частности, было показано, какими весовыми функциями необходимо пользоваться между отсчетными точками, чтобы минимизировать среднеквадратическую ошибку аппроксимации.
Эти исследования имеют практическое значение при организации процедуры быстрого преобразования Фурье. Теоретические основы дискретизации сигналов с несимметричным спектром были заложены в работе Крамера [7], практические рекомендации нашли свое развитие в работе Гусева [8].
Поэтому приходится отметить и особо подчеркнуть то, что при прямых и обратных преобразованиях аналога в дискрет (цифру) и наоборот абсолютные соответствия будут только в точках отсчетов. Между точками отсчетов соответствие будет с погрешностями до единиц процентов.
Кроме того, полагая диапазон звуковых частот высококачественного звучания от 20 до 20000 Гц, мы получим длительности периодов в 0,05 и 0,00005 с. Взяв округленное значение частоты дискретизации 100 кГц, мы получим на 20 Гц 5000 точек отсчетов, а на 20000 Гц - всего 5. Но высокочастотная часть звукового спектра характеризуется тембральными гармониками, неполное преобразование которых в цифру будет "сушить" звук.
Складывается впечатление, что более естественное преобразование звука по частоте и амплитуде можно получить, используя неравномерные сетки с частотным коэффициентом геометрической прогрессии, равным коэффициенту звукоряда, а по амплитуде - пропорциональным логарифмической шкале, что будет соответствовать особенностям восприятия звуков нашим органом слуха.
Как следует из теории и практических экспертных оценок, цифровой звук, полученный из аналогового, не может быть ему адекватным. Споры поклонников аналогового и цифрового звука скорее имеют эмоциональную основу.
Чем и как мы слышим?
Ухо - существенно нелинейный элемент [1]. Из-за того, что постоянная времени звукового анализатора достаточно велика, чувствительность уха максимальна при длительности звукового сигнала около 0,5 с, если же длительность сигнала составляет 0,15-0,2 с, то кажущийся уровень громкости резко падает. Кроме того, на порог слышимости влияют другие тоны и шумы разной интенсивности, наличие модуляции и ряд других факторов, главнейшим среди которых являются не средние значения каких-либо параметров, а их конкретные значения у разных людей.
Приведенные здесь сведения относятся к восприятию чистых тонов. Но ведь музыка или пение, это не только (и не столько!) отдельные звуки. Музыкальный (звуковой) образ есть созвучие нескольких исходных звуков, объединенных по определенным правилам и на определенной базе. В процессе восприятия звукового образа уши выступают только в виде датчиков-преобразователей. На их выходе формируются электрические сигналы, поступающие по нервным путям в мозг - для сравнения с теми, что уже есть в памяти, решения о временном или длительном их сохранении в памяти и общей оценки.
Таким образом, слышим мы не столько ушами, сколько своей "бортовой ЭВМ" - слуховым отделом мозга. Поэтому у нас как бы две группы слуховых "входов": через уши и (или) через наводки на нервные пути и мозговой центр.
Слуховой аппарат человека - система весьма нелинейная и сугубо индивидуальная. Оценка звуков зависит от многих факторов и мозговой деятельности. Возможны паразитные каналы проникновения звуков и звуковые галлюцинации. Есть и другие факторы, влияющие на восприятие звуков конкретным человеком.
Ноты - "буквы", звукоряды - "слова" и "предложения"
Любой язык, любая письменность имеет уровень терм - неделимых базовых символов в виде букв или иероглифов (узелков на веревочках, символических фигурок и т. п.) и следующий уровень в виде комбинаций терм - "слов" и комбинаций "слов" в "предложения". В музыке, музыкальном языке, в качестве "букв" выступают ноты, в качестве "слов" - нотные комбинации и в качестве "предложений" - законченные музыкальные произведения от "рассказов" (романсов) до "романов" (симфоний).
В природном звуковом ряде музыканты использовали триады созвучий ("слова") с отношениями частот 4:5:6 [2] и свой ряд базовых частот у нот ("букв") (см. "КТ" #46 [223]). Коэффициент роста частоты равнялся 1,25 и 1,2. Значения частот Пифагорового ряда в пределах одной октавы имеют коэффициент изменения частоты 1,5, что частично совпадает с частотами природного звукоряда, частично отличается на 1,1-1,2% (что довольно заметно). Значения частот темперированного ряда в пределах одной октавы и коэффициент частоты 1,122462048 совпадают с природными только в ноте ля (440 Гц), во всех остальных случаях различие составляет около 1% (кроме двух точек). Отличия от значений ряда Пифагора (кроме одной ноты) - от 0,8 до 1,5%.
Указанные различия в частотах нот в диапазоне от 1000 Гц и выше в 3-8 раз больше средних погрешностей различения частот "средним" человеком. Это позволяет принять допущение, что значения частоты базовых нот в разных рядах разные, как и строящиеся на их основе музыкальные языки.
Приведем другой пример. Используя практически одинаковый алфавит (кириллицу) мы строим на его основе три разных языка (русский, украинский и белорусский).
А что с компьютерной музыкой, ее рядами? Кроме природного, Пифагорического и темперированного, там можно создавать любые другие ряды. Музыка со столь различными звуковыми рядами будет аналогом разговора полиглота, использующего разные языки. Понять ее сможет только другой полиглот. Большинство же слушателей будут говорить лишь о приятной или неприятной (непонятной) странности звучания.
В отечественной песенной музыкальной культуре был период моды на аранжировки, экономической базой которых было получение авторских прав (и гонораров) на "новое исполнение" популярных мелодий и песен. Отбросив экономический базис этого явления, почему бы не рассмотреть цифровой ремастеринг и реставрацию фонограмм не с точки зрения преобразования аналога в цифру, а как аранжировку аналога для цифрового звучания? Ведь переход со старого аналогового редактирования фонограмм с помощью ножниц и клея на новый цифровой, с мощной компьютерной базой - это не столько ускорение процесса редактирования, сколько замена старых аналоговых технологий на новые цифровые. А это, как говаривали в доброе старое время в славном городе Одесса, "две большие разницы" (и два разных музыкальных произведения).
Рассматривая музыку как эмоциональный язык, а процессы перехода от нот одного звукоряда к другому как своеобразный перевод с одного частного музыкального языка на другой, мы должны также рассматривать "переводы" с аналогового на цифровой "язык" как создание новой музыкальной версии аналогового произведения. При этом не следует забывать, что перевод, например, хрестоматийной фразы из стихотворения Heine "Eines Madchen mit goldenes Haar" может быть выполнен двояко: или "дева с золотистыми кудрями", или "девка с рыжими патлами".
Эмоции и вовлеченность
В простейшем случае при прослушивании живого звука мы имеем источник звука И (например певца) и приемник звука П (например слушателя). Правильно ли в этом случае говорить только об этих двух звеньях? Нет. Кроме них существует среда С, в которой находится певец И и слушатель П. Среда может быть разной: чистое поле, поляна в лесу, комната в "хрущевке", зал консерватории, подвальная дискотека и т. п. И хотя мы не будем менять певца с его программой и слушателя с его ушами, ясно, что в разных местах характер звучания будет разный.
А как с переносом эмоциональных воздействий? Может быть, эти невидимые и неслышимые воздействия в виде какого-то поля имеют место? В этом случае поле эмоций певца Эи может непосредственно восприниматься мозгом слушателя (минуя слуховые рецепторы) и создавать эффект "вовлеченности" и совместного эмоционального сопереживания. Допустим, что возможна и обратная связь по этому каналу, когда слушатель своим эмоциональным полем Эп поддерживает певца и "помогает" ему. Такая поддержка может быть у меломанов, фанатов и других увлеченных общим делом лиц.
Естественно допустить и то, что характер эмоциональных полей будет зависеть от среды, которая влияет на настроение и эмоции людей (как исполнителей, так и слушателей). Таким образом, дополнительным фактором воздействия на слушателя может быть невидимый полевой (или какой-то другой) канал переноса эмоций.
Можно ли записать эти эмоциональные воздействия на фонограмму? Каким-то образом, при условии, что фонограмма записана с "одного захода", это оказывается возможно. Интересно, что это практически известно артистам, об этом рассказывали Кобзон и Паваротти, которые специально готовились к записи и делали ее с одного, первого захода.
Если же итоговая фонограмма "склеивается" из кусочков разных записей, она, как правило, не обеспечивает эффекта "вовлеченности" из-за разрывов эмоционального ряда.
Кроме источников, преобразователей и излучателей звука, кроме исполнителей и слушателей надо учитывать свойства среды, в которой происходят все перечисленные выше воздействия, и то, как передаются эмоции.
Для объективного и полного учета особенностей звуковосприятия, звукоусиления, звукопреобразования и звукоизлучения необходимо рассматривать high-end как многозвенную систему, обязательным и определяющим звеном которой является человек-слушатель и его среда обитания.
Автор благодарит М. И. Гусева за обсуждение материала.
1 (обратно к тексту) - Усредненные спектральные оценки можно найти в статье А. Волова "Как звучок-с?".
2 (обратно к тексту) - Интересно, что и в геральдических щитах отношения ширина/высота составляли 4/5 и 5/6.
Список литературы
[1] Варламов Р. Г. "Введение в теорию конструирования РЭА". М.: "Советское радио", 1970.
[2] Whithacker F. M. The "Fouruer" Theory of the Cardinal Function. Рrос. Edinburg Math. Soc., 1, 1929, p. 169-176.
[3] Котельников В. А. "О пропускной способности "эфира" и проволоки в электросвязи". Всесоюзный энергетический комитет, 1933.
[4] Справочник по теоретическим основам радиоэлектроники. Под ред. Б. Х. Кривицкого. В 2-х т. Т. 2. М.: "Энергия", 1977.
[5] Турбович И. Т. "Метод близких систем и его применение для создания инженерных методов расчета линейных и нелинейных радиотехнических систем". М.: АН СССР, 1961.
[6] Гусев Н. И. "Представление периодических сигналов для анализа дискретных радиотехнических систем". "Радиотехника", 1994, . 4-5.
[7] Кrаmеr Н. Р. A generalized sampling Theorem. J. of Math. and Physics. v. XXXVIII, #1, 1959.
[8] Гусев Н. И. "Дискретизация периодизированных узкополосных сигналов с несимметричным спектром". Сб. "От фундаментальных исследований до практического внедрения". - М.: ГАСБУ, 1993.
[9] Варламов Р. Г. "High-End - "живой звук" или параакустика?" В сб. "Российский High-End '98" - М.: МГУСИ, 1998.