Архивы: по дате | по разделам | по авторам

Из слона муху: теория

Архив
автор : Тарас Бризицкий   10.03.2004

Как ни жаль, но российские пользователи на протяжении многих лет были практически лишены достоверной информации о возможностях психоакустической компрессии аудиоданных.

Как ни жаль, но российские пользователи на протяжении многих лет были практически лишены достоверной информации о возможностях психоакустической компрессии аудиоданных. В результате пустые домыслы не только множились, но и активно распространялись некоторыми изданиями, а обзоры и технические статьи, написанные некомпетентными авторами, привели к тому, что даже сейчас пользователь Рунета нередко оказывается отрезан от достоверной информации на родном языке.
В этой теме мы постараемся популярно изложить базовые принципы функционирования аудиокодеков, некоторые тонкости работы с ними, а также рассмотрим типичные ошибки, которые совершают начинающие пользователи, желающие создать фонотеку при помощи персонального компьютера.

MP3

Старый добрый MP3, начавший победное шествие по миру лет десять назад, получил столь широкое распространение именно благодаря персоналкам. До появления этого формата хранить высококачественную музыку на компьютере было практически невозможно, из-за недостаточной емкости винчестеров и несовершенства алгоритмов компрессии звуковых данных. Разумеется, MP3, способный сжимать музыку с коэффициентом 1:10 и имевший неслыханное ранее качество звучания, произвел настоящий фурор. Не слишком требовательные к «железу» кодеки позволяли с приемлемой скоростью перегонять музыку в новый формат на первых «Пентиумах», а с воспроизведением MP3-файлов справлялись даже «четверки». К тому же MPEG Layer 3 (полное название формата, существующего в виде нескольких модификаций: MPEG-1/2/2.5) имел статус международного стандарта, что положительно сказалось на его судьбе.

Из всего доступного диапазона битрейтов и режимов кодирования, имевшихся в распоряжении среднестатистического «чайника», самым популярным и известным был и до сих пор остается CBR 128 кбит/с, 44,1 кГц, стерео (при котором одна минута музыки занимает на носителе один мегабайт). Почему именно он? Да потому, что к тому моменту, как VBR и ABR были доведены до более или менее приемлемого состояния, сжатие с постоянным битрейтом уже прочно засело в мозгах пользователей. Битрейт в 128 кбит/с оказался идеальным компромиссом между качеством и размером, вдобавок миф «128 кбит/с = качество CD» стал таким популярным, что его «истинность» до сих пор почти не вызывает сомнений. Главным, конечно же, было удобство обмена аудиофайлами через Интернет, приведшее к тому, что очень скоро серверы, предлагавшие бесплатные коллекции MP3-файлов, стали одними из самых популярных ресурсов Сети, наряду с порносайтами и варезниками.

Первые кодеры, созданные институтом Фраунгофера (Fraunhofer, FhG), разработавшим формат, стоили баснословных денег, так что простые смертные, как правило, могли работать только с кодеками, основанными на демонстрационном коде ISO (International Standard Organization, Международная организация стандартизации). Одним из подобных кодировщиков был Blade — слегка оптимизированная по скорости версия ISO-кодека.

Разумеется, авторы демонстрационного кода вовсе не стремились оптимизировать качество кодирующей части (MP3 позволяет использовать различные алгоритмы кодирования сигнала, в то время как декодер жестко стандартизирован), потому и получаемые при помощи Blade файлы имели посредственное качество звучания.

Еще одним «движком», подорвавшим доверие меломанов к формату, был Xing. На данный момент существует по крайней мере две его версии, последняя из которых может похвастаться вполне приемлемым (www.rjamorim.com/test/mp3-128/results.htm ) качеством работы. Главное отличие Xing от кодеков FhG или ISO — высокая скорость сжатия, что было актуально для владельцев компьютеров середины и даже конца 1990-х годов. Ведь на тогдашних машинах скорость создания MP3-файлов даже в режиме CBR-компрессии едва превышала 1х. Правда, «реактивный» Xing имел существенные недостатки: количество артефактов в синтезированном файле было велико, да и звук оставлял желать лучшего.

Выходом из сложившейся ситуации стал LAME. Этот кодировщик (на базе демонстрационного кода ISO) поначалу делала группа энтузиастов, а потому он распространялся в виде патча к ISO-кодеру. Через некоторое время исходный код ISO был полностью переписан, а проект получил статут open source. Как ни странно, энтузиастам из LAME удалось то, что оказалось не под силу ни FhG, ни создателям какого-либо другого MP3-кодера. В частности, LAME имеет наиболее качественный режим работы Joint Stereo (позволяющий кодировать стереосигнал, учитывая зависимость между звуком в правом и левом каналах) и превосходные средства создания ABR- и VBR-файлов. А с выходом Gogo, значительно «разогнанной» версии LAME, даже у самых нетерпеливых меломанов появилась возможность приобщиться к высокому уровню качества.

Практически все версии LAME, работающие в консоли (последние релизы обычно содержат консольный кодек, DLL-версию и ACM-кодек, используемый для создания и воспроизведения wave MP3-файлов), имеют огромное количество параметров, изменение которых может сильно сказаться на качестве. В результате неопытный пользователь фактически лишался многих преимуществ кодировщика. Положение исправило появление пресетов (от англ. preset), сокращенных наборов команд, оптимизированных для той или иной ситуации.

Первые пресеты, создаваемые разработчиками LAME, не отличались высоким качеством, способным удовлетворить растущие запросы меломанов. Как следствие, начали появляться альтернативы. Например, --r3mix, созданный участниками одноименного форума и вошедший в «официальные» версии кодека, был предназначен для прозрачного кодирования музыки в режиме VBR со средним битрейтом до 200 кбит/с.

Весомый вклад в развитие как самого кодировщика, так и формата MP3 внес Dibrom, основатель форума Hydrogenaudio (www.hydrogenaudio.org ). Создав альтернативные, или альт-пресеты (название появилось из-за того, что при работе перед именем пресета надо было набрать --alt-preset), он сумел оптимизировать настройки кодека во всем диапазоне битрейтов. Наибольшим же достижением Dibrom’а стал --alt-preset standard (или aps), задействовавший все возможности формата для прозрачного кодирования файлов в режиме переменного битрейта. Потребовавший немало усилий (пришлось, например, переписать часть кода LAME), aps стал самым эффективным способом использования возможностей MP3. Затем появилось решение в виде fast-пресетов, с возросшей вдвое скоростью при незначительном снижении эффективности. Фактически возможностей для совершенствования LAME (да и MP3 в целом) остается все меньше, а ограничения формата становятся все более заметными, делая дальнейшую настройку кодека все более сложной. Вероятно, последним крупным событием в истории развития MP3-кодеков станет выпуск LAME 4.

Несмотря на то что MP3 наименее эффективный из современных форматов, хоронить его рано. Ведь многих людей качество звучания МР3-файлов вполне удовлетворяет, а поддержка многоканального звука, gapless-воспроизведения (при использовании стандартного декодера в конец MP3-файла добавляется небольшая пауза, что ограничивает применение формата при кодировании больших миксов, концертных записей и т. д.) или replaygain (алгоритм выравнивания уровня громкости группы аудиофайлов, см. replaygain.hydrogenaudio.org) волнует «чайников» в последнюю очередь. С другой стороны, подавляющее большинство файлов, сжатых при помощи психоакустических алгоритмов, имеет именно формат MP3… Огромное количество MP3/CD-плейеров, DVD-проигрывателей и даже автомагнитол поддерживает воспроизведение файлов этого формата, их попросту нельзя игнорировать.

Психоакустика

Психоакустика — относительно молодая наука, изучающая, как именно человеческий мозг воспринимает аудиосигнал. Не секрет, что даже такой чувствительный инструмент, как человеческое ухо, имеет ограничения. Взять хотя бы эффект маскировки, в результате которого более сильный сигнал полностью заглушает слабый, или инертность слуха, не позволяющую мозгу мгновенно отреагировать на резкое изменение громкости. К сожалению, построить точную математическую модель человеческого до сих пор не удалось. (Подробнее см. www.is.main.vsu.ru/~sav/Multimedia/Materials.htm , журнал «Звукорежиссер» за 1999–2000 гг.)

Musepack (MPEG Plus/MPC)

Musepack, возможно, самый недооцененный из аудиокодеков. Первые версии формата (тогда он еще назывался MPEG Plus) появились во времена молодости MP3, когда бесплатных кодировщиков было немного, а существующие не позволяли получать качественные записи. Формат создавался энтузиастами, которые, впрочем, сумели сделать его эталоном качества для современных lossy-кодеков (lossy-compression — сжатие с потерями). Автор кодировщика и декодера — Андри Бушман (Andree Buschmann) — довольно быстро потерял к ним интерес, и дальнейшую доводку продукта взял на себя Франк Клемм (Frank Klemm), представивший миру кодек в его нынешней (Stream Version 7) форме.

В Musepack — основе MP2 — лежит несколько иной принцип кодирования, нежели у многих современных форматов, что позволяет избежать некоторых характерных проблем, в частности преэха (pre-echo, ringing) — артефакта, проявляющегося при кодировании резких четких звуков, таких как звук кастаньет. Причем эхо возникает перед звуком, вызвавшим его. На слух оно воспринимается как «чирканье» или «размывание» звука. В отличие от многих кодеков, созданных для того, чтобы «побить» MP3, Musepack ориентирован на достижение максимально высокого качества, поэтому неудивительно, что он работает в «чистом» VBR-режиме, меняя битрейт в зависимости от сложности сигнала (MP3 в режиме VBR способен использовать лишь ограниченный набор битрейтов из диапазона 32–320 кбит/с). Наиболее распространенными параметрами кодирования музыки в формат Musepack являются --standard и --extreme, создающие файлы со средними битрейтами 170–200 кбит/с (в пределах композиции битрейт нередко доходит и до 600 кбит/с), превосходя при этом MP3, в принципе неспособный прозрачно кодировать некоторые звуки. Многочисленные тесты, проведенные участниками форума Hydrogenaudio, показали, что даже на тех редких сэмплах, когда Musepack ошибался, разница была гораздо меньше, чем при использовании других форматов. Применение же пресетов Extreme, Insane, Braindead и подобных в подавляющем большинстве случаев приводит лишь к трате пространства на жестком диске или «болванке» и может иметь хоть какой-то смысл только при транскодировании, когда заранее нужно обеспечить достаточный «запас прочности».

Кодек неплохо чувствует себя и при снижении доступного потока данных до 128 кбит/с и ниже. Разумеется, в этом случае резко повышается вероятность появления артефактов. В слепом тестировании различных кодеков на битрейтах уровня 128 кбит/с (www.rjamorim.com/test/128extension/results.html ) Musepack успешно конкурировал с такими форматами, как AAC и Vorbis.

Как бы ни был хорош Musepack, он, как и любой кодек, имеет недостатки. Так, в рамках нынешней версии, Stream Version 7, невозможно обеспечить сжатие многоканального звука, а также поддержку некоторых частот дискретизации. Ситуация с выпуском SV8 непонятна. С одной стороны, демонстрационный код SV8 уже имеется, с другой — Musepack находится в подвешенном состоянии уже больше года, до сих пор не имея аппаратной поддержки (единственный flash-плейер с неофициальной поддержкой формата не в счет) и оставаясь своего рода «форматом для избранных».

CBR? VBR? ABR?

На данный момент существуют три основных принципа кодирования аудио/видеоданных. Первый из них состоит в получении максимально возможного качества при заданной ширине потока. Это так называемое CBR (constant bitrate — постоянный битрейт) сжатие. Подавляющее большинство MP3-файлов создается с помощью именно CBR. Недостатки этого метода очевидны: при невысокой сложности кодируемых данных возникает избыток «свободного места», тогда как для сжатия более сложного сигнала ширины потока может не хватить. В результате поток используется неэффективно, что ведет к снижению качества. Тем не менее, если постоянство потока данных важнее качества, например при трансляции в Интернет, такой подход вполне оправдан.

VBR (variable bitrate — переменный битрейт) принципиально отличается от своего предшественника тем, что его задача — получить максимально возможное качество при минимальном объеме данных. В этом случае ширина потока данных динамически меняется в зависимости от сложности сигнала, а потому и объем файла, сжатого по технологии VBR, хуже поддается оценке. Если задаваемым параметром в CBR служит битрейт, то для VBR им является уровень качества, обычно представляемый в виде цифрового значения. К слову, практически любой современный формат аудиосжатия предусматривает возможность работы в режиме VBR.

Промежуточным между CBR и VBR является ABR (average bitrate — средний битрейт). В этом режиме кодировщик пытается использовать достоинства обоих подходов, изменяя ширину потока данных в небольших пределах от среднего заданного значения.

MP3pro

Помните, в старом советском мультике была песенка про то, как «жадность Билла погубила»? Так вот, MP3pro, похоже, пал от жадности своих создателей, враз решивших обогатиться за счет пользователей, клюнувших на рекламу. Конечно, формат жив и, можно сказать, почти здравствует, однако его актуальность тает с каждым днем.

Прежде всего, давайте вспомним, как MP3pro появился… Одним из главных недостатков MP3, с точки зрения некоторых компаний, было резкое падение качества музыки при кодировании на битрейтах ниже 128 кбит/с. Причем «корень зла» крылся в самом формате: тонкая настройка кодировщика могла лишь незначительно улучшить ситуацию. Как раз для работы с низкими битрейтами Coding Technologies совместно с институтом Фраунгофера и разработала формат MP3pro. Весь трюк заключался в применении технологии SBR (spectral band replication), восстанавливающей высокие частоты из MP3-файла и небольшого потока дополнительных данных. Восстановление, разумеется, весьма приблизительное, но как компромисс между «полным мраком» и «чем-то похожим на сносный звук» вполне годилось. Таким образом, MP3pro представлял собой «бутерброд», один «слой» которого — MP3-файл, а другой — дополнительный поток данных, игнорируемый обычными MP3-плейерами. В результате появилась обратная совместимость, то есть MP3pro-файлы могли худо-бедно воспроизводиться любым MP3-плейером, однако использование специального декодера значительно улучшало качество. Так как задача SBR — восстанавливать верхние частоты, MP3-часть имела четкую частоту среза, находящуюся примерно на уровне 10 кГц. Очевидно, что ни о каких высоких частотах в режиме обратной совместимости речи быть не могло.

Вроде бы выход был найден, и MP3 получил возможность довольно эффективно работать даже в недоступной ранее низкобитрейтной области, однако радуясь новому чуду, которому прочили едва ли не роль «убийцы MP3» (сколько их еще будет…), разработчики решили зашибить на нем деньгу, что в конечном счете и погубило формат. Дабы поддать жару, Thompson выпускает бесплатный демонстрационный кодер/плейер, создающий MP3pro-файлы только с битрейтом 64 кбит/с и призванный показать потенциал формата (а еще отличающийся убогим интерфейсом и скудными возможностями). Этим, впрочем, дело и ограничилось, так как из-за не слишком малых лицензионных отчислений разработчики программных и аппаратных плейеров предпочли обойти MP3pro стороной, а едва ли не единственной возможностью для создания файлов этого формата сейчас является установка Music Match Jukebox.

Аппаратная поддержка у MP3pro есть, впрочем небольшая: создатели плейеров не стремятся выбрасывать деньги на ветер. MP3pro-плейеры вроде бы существуют — в виде немногочисленных огромных Jukebox’ов и аппаратных устройств, способных воспроизводить файлы, но актуальность использования формата с каждым днем уменьшается, ведь для тех же целей можно применять OGG Vorbis или AAC, кодировщики и проигрыватели которых нетрудно раздобыть на халяву.

Еще один интересный момент. Файлы формата MP3pro имеют стандартное расширение MP3, что из-за отсутствия универсальных проигрывателей только усугубляет путаницу. Thomson, попытавшись исправить ситуацию, выпустила MP3/MP3pro-плагин к Winamp, способный воспроизводить файлы обоих форматов, однако он оказался столь глючным и малофункциональным (и где только берут таких программистов?!), что использовать его для прослушивания MP3-файлов мог только мазохист.

Артефакты

Каждый новичок, увлекшийся психоакустической компрессией, обязательно спотыкается на артефактах. Обычно они проявляются в виде искажений или посторонних звуков, возникающих в процессе сжатия записи и нередко пропадающих при повышении битрейта.

Тем не менее, некоторые артефакты практически неискоренимы, и избавление от них для того или иного формата невозможно. Классическим примером является MP3 при работе с сэмплами вроде фрагмента одной из композиций Fatboy Slim, совершенно не желающими «ужиматься» даже при использовании предельно допустимых спецификацией битрейтов.

С понижением битрейта вероятность возникновения артефактов резко возрастает. И если некоторые артефакты не вызывают раздражения, то звук «воды» в аплодисментах (один из самых сложных для сжатия звуков) взбесит кого угодно.

Впрочем, «не так страшен черт»… Нетренированное ухо не слишком восприимчиво к искажениям, в то время как человек, имеющий не только хороший слух, но и опыт работы с психоакустическими кодеками, как правило, легко обнаруживает изъян.

Некоторые же артефакты, например возникающие при работе кодека Musepack, настолько незначительны, что могут быть выявлены лишь в результате ABX-теста (методика проведения слепого тестирования, значительно снижающая влияние персональных предпочтений на оценку звучания) с использованием качественного оборудования.

Восприимчивость человека к артефактам может быть разной. Например, слепые тесты, в которых принимали участие профессиональные музыканты или создатели Hi-Fi-оборудования, показали, что не все из них могут отличить на слух от оригинала даже 128-килобитный MP3-файл.



Windows Media Audio (WMA)

Думаем, нет нужды представлять этот формат, знакомый всем пользователям Windows. Позиционируемый в качества замены MP3, он имеет множество как положительных, так и отрицательных сторон. Задачей создателей WMA, похоже, являлась разработка формата хранения звукозаписей, альтернативного MP3 и имеющего некоторые преимущества как для пользователей (лучшее качество), так и для звукозаписывающих компаний (технология DRM, Digital Rights Management, позволяла контролировать распространение сжатого аудиоматериала). Что же получилось в результате?

Если вы читали о формате на сайте Microsoft (www.microsoft.com/windowsmedia ), то должны были заметить несколько интересных заявлений. В частности, там утверждается, что WMA-файлы с битрейтом 64 кбит/с позволяют хранить музыку с «CD-качеством», а качество файлов в целом будет большим, чем при использовании MP3. К великому сожалению, эти слова не только были приняты на веру, но и подхвачены многими СМИ. В действительности же полученные файлы вряд ли можно назвать лучшими по качеству при использовании уже средних (от 128 кбит/с) и высоких (160 кбит/с и более) битрейтов. Тесты доказывают, что WMA-файлы, сжатые до 64 кбит/с, далеко не «компакт-диск». Разница зачастую прекрасно ощутима даже на компьютерных колонках, так что знаменитый «металлический» звук WMA-файлов будет с содроганием вспоминать еще не одно поколение меломанов. И совершенно непонятно, на чем основаны подобные заявления Microsoft: либо разработчики формата пользуются какими-то особенными компакт-дисками, либо у них серьезные проблемы со слухом.

К тому же пользователей, решивших поэкспериментировать с WMA, ждет еще одно разочарование: по умолчанию на все создаваемые файлы накладывается защита, не позволяющая прослушивать их при помощи аппаратных плейеров или компьютеров, отличных от того, на котором была проведена компрессия. И если у крупных записывающих компаний есть резон защищать свои фонотеки, то несчастный пользователь, которому только и нужно, что послушать музыку, может столкнуться с множеством проблем при воспроизведении им же созданных файлов. Разумеется, лучше всего защиту отключить, а в крайнем случае использовать утилиту freeme (на создателя которой так ополчилась одна небезызвестная компания; а ведь все, что утилита позволяла делать, это удалять DRM-запись из файла при наличии соответствующей лицензии).

Фактически WMA8 вряд ли можно назвать предпочтительнее MP3 для среднестатистического пользователя (про меломанов речь не идет, в своем отношении к формату они обычно не выбирают выражений). Разница заметна лишь на низких битрейтах, но с их увеличением перевес в качестве может быть уже не в пользу Windows Media. Очевидно, Microsoft уделяет гораздо больше внимания раскрутке формата, чем настройке или оптимизации кодека, не обновляемого годами. Использование WMA сейчас оправдано лишь в том случае, если у вас имеется MP3/WMA-плейер на не слишком вместительной flash-карте, на которую хотелось бы поместить как можно больше музыки.

Недавно Microsoft порадовала нас новой версией формата, WMA9, содержащей три различных кодека. Первый из них фактически отличается от многострадального WMA8 лишь поддержкой режима VBR. Второй кодек, именуемый WMA pro, — совершенно новая разработка, а третий предназначен для loseless-сжатия. Не совсем понятно, что же именно майкрософтовцы настраивали в новых кодеках все это время, но WMA9, помимо совместимости с версией 8, отличался от нее лишь небольшим изменением качества. Причем нередко в худшую сторону. Реализация VBR оказалась не совсем удачной: иногда VBR-файлы при большем размере давали худшее качество (см. например www.computerra.ru/compunity/dos/25596/index.html ). Самый интересный из трех кодеков — WMA9 pro. На низких и средних битрейтах он вполне способен поспорить качеством звука с лидерами в лице MP3pro/Vorbis/AAC+, восстанавливая тем самым сильно подмоченную репутацию формата. Тем не менее, серьезного тестирования («несерьезные» тесты, очень похожие на рекламу, можно найти на сайте разработчика) WMA не проводилось, хотя в небольших бриф-тестах формат не блистал. Даже появление WMA pro не вызвало ажиотажа, ведь доверие пользователей, не понаслышке знающих о «возможностях» предыдущих версий, вернуть непросто. В конце концов, даже находясь на уровне современных активно развивающихся кодеков, он пока не имеет преимуществ, позволивших бы любителям качественной музыки забыть проверенные временем MP3 или Musepack.

Формат WMA, конечно, неплох, однако до заявленных рекордов ему еще ой как далеко. Кодировщики и плейеры (имеется в виду версия 8, более новую версию кодека придется загружать самостоятельно) встроены в Windows (потому их вполне можно назвать бесплатными), а создание WMA-файла не должно вызвать никаких проблем. Несомненным плюсом является сильная аппаратная поддержка (справедливости ради отметим, что полноценной аппаратной поддержки для девятой версии формата пока нет). А минусы? Не слишком высокое качество (WMA8 и ниже) звучания, закрытость формата и исходных кодов кодера, отсутствие сообщества, занимающегося тщательным тестированием и доводкой кодека, отсутствие поддержки replaygain… Пока ни одна версия Windows по умолчанию не поддерживает WMA9, а для создания и воспроизведения файлов вам потребуется загрузить Windows Media Player 9 (9 Мбайт) или Windows Media Encoder 9 (тоже 9 Мбайт). (Учитывая, что объем дистрибутивов многих кодеров MP3, Vorbis, AAC или даже решений «все в одном» редко превышает пару мегабайт, необходимость загрузки втрое более «тяжелой» программы, вдобавок имеющей сомнительную ценность, не назовешь привлекательной. Если вы все же решитесь на подвиг, качайте DB Poweramp Encoder и WMA codec — они в сумме раза в три меньше.) Про работу с WMA файлами в ОС, отличных от Windows говорить не будем (вы и сами без труда догадаетесь).

Транскодирование: зло или благо

Транскодирование (от англ. transcode), или преобразование из одного аудиоформата в другой, равно как и перекодирование (от англ. reencode), то есть повторная компрессия кодированного файла, являются наиболее распространенными ошибками начинающих меломанов.

По своей природе каждое lossy-преобразование аудиофайла необратимо ухудшает качество звука. То, насколько велики потери, зависит от исходного формата и степени компрессии. Ясно, что повторное кодирование MP3-файла с битрейтом 64 кбит/с ради «улучшения качества» звука в файл с битрейтом 320 кбит/с как минимум неразумно, ведь при этом качество звука ухудшается, а размер файла увеличивается. Так что армия поклонников OGG Vorbis, WMA или AAC, переводящая свои коллекции MP3 в новомодный формат для того, чтобы получить «в два раза меньший файл при таком же качестве», заслуживает лишь сочувствия. К слову, битрейт 128 кбит/с для MP3 и так является предельно низким, при котором файлы еще имеют сносное звучание, а повторное выкидывание большей части этих данных приводит к резкому снижению и без того невысокого качества.

При повышении битрейта «устойчивость» к транскодированию повышается, то есть появляется некоторая вероятность того, что после повторного кодирования восприятие фрагмента на слух не изменится или изменится незначительно. Впрочем, даже высокий битрейт и идеальный исходный материал не являются панацеей: достаточно несколько раз перекодировать MP3-файл с битрейтом 320 кбит/с, чтобы от исходного качества не осталось и следа.

Тем не менее, в некоторых ситуациях транскодирование или перекодирование имеет смысл. Например, владельцы плейеров на flash-картах наверняка предпочтут небольшое снижение качества увеличению количества песен, размещенных на флэшке. Иногда транскодирование — практически единственная возможность прослушать композицию. Так, если любимая песня хранится в одном из «вымерших» форматов, вроде VQF, можно воспользоваться транскодированием, разумеется, при условии, что владелец файлов не станет экономить на битрейте. С похожими целями любители слушать музыку в дороге иногда переводят некоторые треки из Musepack или wavpack lossy в MP3.

Если качество для вас действительно важно, постарайтесь провести повторное кодирование композиции в нужный формат, вместо того чтобы перекодировать ее.

Разумеется, все вышесказанное не относится к преобразованиям loseless ® lossy, когда исходный материал сжат без потерь.



OGG Vorbis

В Интернете не раз появлялись сообщения о том, что MP3 вот-вот станет платным. В конечном счете так оно и вышло: Fraunhoffer все же решил «подоить» производителей коммерческого софта и плейеров, что, правда, не слишком сказалось на рядовых пользователях, для которых остались бесплатные Winamp, Windows Media Player, Foobar и множество других проигрывателей, а свободно распространяемый LAME хоть и является «не-MP3-кодировщиком» (LAME — LAME Ain’t an MP3 Encoder), вполне подходит для сжатия музыки. Тем не менее, вопрос о создании свободно распространяемого бесплатного кодека становился актуальным…

В отличие от MP3/AAC/WMA и им подобных, OGG Vorbis был изначально заявлен, как бесплатный открытый формат, не использующий патентованных технологий, а потому любой желающий мог бесплатно использовать его в собственных разработках. Впрочем, ситуация с патентами Vorbis ясна не до конца. Конечно, юристы AOL потратили немало времени и денег, проведя соответствующий поиск, прежде чем сделать вывод о «чистоте» формата. Тем не менее, от ошибки никто не застрахован, а создать современную технологию, в которой не используется ни один патент, вряд ли возможно. Так что не исключена возможность, что в будущем появится какая-нибудь компания, клятвенно заверяющая нас, что популярный кодек использует в своей работе их патентованные алгоритмы… Ну да ладно, вернемся к нашим баранам…

Таким образом, OGG Vorbis (сам кодек называется Vorbis, а OGG — всего лишь контейнер, так что не следует их путать; ведь есть же OGG FLAC или OGM, формат, позволяющий хранить внутри OGG контейнера звук, видео и текст; далее мы будем говорить об OGG в основном применительно к кодеку Vorbis) стал чем-то вроде «бесплатного MP3» (как будто MP3 для обычного пользователя сейчас платный…) в мире аудиоформатов, быстро заполучив огромную армию поклонников. OGG Vorbis имеет немало отличий от MP3. Прежде всего он является VBR-кодеком, ориентированным на качество. Разумеется, можно создавать CBR-файлы и даже «втискивать» композицию в заданный объем, не заботясь о качестве, но главным режимом сжатия для Vorbis-файлов является именно VBR. Как и многие современные кодеки, OGG Vorbis сжимает файлы с учетом их реальной длительности (длина исходного и MP3-файла может отличаться, а во избежание подобных проблем приходится использовать нестандартные решения, не поддерживаемые многими популярными декодерами) и имеет гибкий формат тегов, значительно превосходящий по возможностям популярный в мире MP3 «костыль» ID3v2.

Качество звучания Vorbis заметно выше, чем MP3 при использовании параметров кодирования (ключ Q) от –1 до 4 (45–128 кбит/с); с повышением битрейта картина меняется не так сильно. Как и MP3, OGG Vorbis подвержен разнообразным артефактам (особенно вышеупомянутому преэхо), поэтому, когда речь идет о «прозрачном» кодировании, о достоинствах или недостатках каждого из форматов можно спорить. Ситуацию усугубляет то, что Xiph.org довольно халатно отнеслась к настройке работы кодера на высоких битрейтах, предпочтя заняться более популярным диапазоном <128 кбит/с. В результате увеличение битрейта Vorbis-файла может не принести желаемого результата, и кодек будет ошибаться как ни в чем не бывало. Еще одним не до конца понятным аспектом является наличие «сложных» сэмплов, сжатие которых сопровождается значительными проблемами. И если в случае MP3 или Musepack список «критических» сэмплов хорошо известен, то от новых форматов, вроде OGG или AAC, вполне можно ожидать неприятных сюрпризов.

Альтернативой «официальному» кодировщику от Xiph.org стала серия кодеков GT (Garf tuned), призванных улучшить качество звучания файлов при использовании средних и высоких битрейтов. Настройкой кодека занялся некто под псевдонимом Garf, сумевший в значительной степени избавить Vorbis от эффекта преэхо в последнем своем кодере GT3 beta 1. Таким образом, если вы предпочитаете хранить музыку в OGG Vorbis с высоким качеством, этот кодировщик является «must have». Кстати, помимо GT, Garf демонстрировал возможности формата на еще одном кодере — Floggy (floppy OGG). Для загрузки на сайте (www.users.pandora.be/sjeng/floggy.html ) разработчика доступны несколько композиций, кодированных в Vorbis с совершенно запредельными битрейтами: от 6 до 4 (sic!) кбит/с, что следует признать действительно большим достижением. Можно понять скептиков, которые лишь ухмыльнутся, увидев подобные цифры. Настоятельно рекомендуем им загрузить и прослушать файлы; для такого битрейта — качество звучания более чем приемлемое. Чего стоит одна лишь квиновская «Who Wants to Live Forever» размером менее 200 Кбайт! К сожалению (или к счастью?), несмотря на все уговоры, Garf так и не выпустил отдельный кодировщик, сославшись на его бесполезность (код floggy был включен в GT3, а для доступа к нему нужно использовать параметры кодирования -q-2 --resample 8000).

Кстати, как и многие другие современные форматы (AAC, WMA9pro), Vorbis может компрессировать многоканальный звук. Эта функция еще не доведена до ума, однако факт остается фактом: возможность просмотра DivX/Xvid-фильмов с многоканальной Vorbis-дорожкой, ужатой до 128 кбит/с, выглядит привлекательнее, чем перспектива прослушивания стереофонического саундтрека с тем же битрейтом формата MP3.

Помимо вышеназванных, OGG Vorbis имеет еще несколько интересных особенностей, в том числе возможность деления и «сращивания» OGG-файлов без перекодирования потока (в принципе подобное можно проделать и при помощи MP3 Direct Cut). К примеру, весь альбом (с разбиением на треки, сохранением тегов и т. д.) можно хранить в виде единственного файла, который, если нужно, без потерь режется на отдельные дорожки.

Долгое время в форумах мусолили тему bitrate peeling — возможности создания Vorbis-файлов, позволяющих извлекать из них «компоненты» с меньшим битрейтом, обходясь без повторной компрессии. Этот подход, позволит, например, создавать файлы 128 кбит/с, из которых в последующем можно извлечь и версию 64 кбит/с, не прибегая к перекодировке и не тратя места на хранение нескольких версий одной и той же композиции. Жаль, но слухи так и остались слухами, а с bitrate peeling в OGG Vorbis возникли проблемы, так что эта технология пока не реализована.

Мы говорили про аппаратную поддержку? Уже начинавшие бить тревогу пользователи формата получили-таки в нынешнем году возможность приобрести несколько устройств с поддержкой воспроизведения OGG Vorbis-файлов. В частности, компания iRiver не только обновила прошивки для новых линеек своих плейеров, но и постаралась включить поддержку формата в ранее выпущенные модели (см. www.iriver.com ).

Что дальше?

Пока войны lossy-форматов продолжаются, многие компании всерьез занялись поддержкой алгоритмов, позволяющих производить сжатие без потерь. На данный момент существует огромное количество loseless-форматов, позволяющих хранить любимые композиции, не боясь лишиться хотя бы бита данных. Назовем самые известные из них: FLAC (Free Loseless Audio Codec), Monkeys Audio, Wavpack, LA (Loseless Audio).

Недавно собственный формат (WMA9 loseless) начала продвигать Microsoft, а FLAC стал частью проекта Xiph.org. В новой версии спецификации стандарта MPEG-4 тоже появится поддержка сжатия без потерь.



AAC/MP4

MPEG2/MPEG4 AAC (Advanced Audio Coding) — это новая технология, пришедшая на смену морально устаревшему MP3. Как и MP3, AAC является промышленным стандартом, поэтому, в отличие от «нестандартных» кодеков вроде Vorbis или WMA, ее успех предсказуем. И хотя спецификация принята давно, формат стал интенсивно развиваться лишь в последние годы. С недавнего времени поддержка AAC появилась даже в плейере Winamp (неофициальные версии 2.92, 2.95, 5.х; кроме того, имеется возможность подключения декодеров на базе FAAD).

Впрочем, мало кто использует «голые» AAC-файлы. Чаще для хранения музыки берется контейнер MP4, а сжатые файлы получают расширение MP4 или M4a (расширение, введенное и используемое фирмой Apple, см. www.m4a.com). Контейнер позволяет решить некоторые проблемы, которым подвержены обычные AAC-файлы. Например, при использовании MP4 у вас в руках оказывается продвинутая система работы с тегами.

AAC+SBR, иначе именуемый AAC plus или AAC HE (High Efficiency), является расширением AAC (в отличие от MP3pro, появившимся в рамках формата), предназначенным для создания файлов с низким битрейтом. Принципиально AAC HE ничем не отличается от MP3pro: так же обеспечивается частичная совместимость со старыми декодерами и заметное улучшение качества звучания на низких битрейтах. Уже первые версии кодера показали потенциал технологии, способной разом потеснить MP3pro и Vorbis, господствовавшие в диапазоне <128 кбит/с. Разумеется, сравнивать 20-килобитный AAC+SBR-файл с 256-килобитным MP3 некорректно, но за счет приемлемого качества звучания и малого объема получаемых файлов формат имеет много шансов завоевать популярность в портативных MP3/AAC-плейерах, использующих flash-память. Проверка возможностей формата приятно удивила неплохим качеством звучания на современной pop/rock-музыке даже в диапазоне 20–40 кбит/с, на котором способны обломать зубы многие современные форматы, не говоря об MP3.

На сегодняшний день имеется несколько доступных кодировщиков MP4 AAC, большинство которых платные — из-за неизбежных патентных отчислений. Так, обладатели Nero Burning ROM могут воспользоваться кодеком Nero Digital от компании Ahead. Правда, за него придется выложить дополнительную сумму, что делает покупку связки Nero+кодек накладной. Альтернативой может быть приобретение отдельного кодека и использование для работы с ним плагина к Foobar. Пожалуй, на данный момент кодек Nero AAC (детище Ивана Димковича, автора Psytel AAC encoder) развивается наиболее активно: его последние версии имеют поддержку AAC HE, отсутствующую в конкурирующих продуктах (впрочем, недавно появились сведения о включении ААС НЕ кодека, созданного Coding Technologies, в Real Audio 10).

Одну из лучших реализаций AAC имеет Apple Quick Time, возможности которого, правда, ограничены ABR-режимом. В отличие от Nero, кодек Apple можно заполучить бесплатно, воспользовавшись для создания M4a-файлов программой Apple iTunes.

Еще один коммерческий кодировщик, Compaact (www.compaact.com), предлагают разработчики Zplane. Недавний дебютант, он пока не достиг высот конкурентов, однако его создатели полны энтузиазма. Обновленные версии программы выходят не так уж редко, а ее авторы уделяют немало внимания вылавливанию багов и увеличению качества кодирования. Так что скоро Apple и Ahead, похоже, получат достойного соперника.

Если же необходимость выкладывать «лишние» 20–30 долларов вас не прельщает, можно воспользоваться бесплатной альтернативой. Так, помимо iTunes for Windows, свободно доступны кодировщики FAAC (Free Advanced Audio (en)Coder) и Psytel. И если FAAC активно развивается, то надежд на появление новых версий Psytel, младшего брата Nero AAC, уже нет.

Аппаратные плейеры, способные воспроизводить MP4/AAC-файлы, появились не так давно, однако их число неуклонно растет. Пожалуй, одним из лучших устройств этого класса является Apple iPod, самый серьезный недостаток которого — высокая цена.

Что же заставляет крупные компании обращать внимание на loseless-сжатие?

Прежде всего, сжатие без потерь обеспечивает создание идеальных копий произведений, уменьшая размер файлов примерно вдвое. Объемы носителей растут, а новые винчестеры позволяют не так трепетно относиться к размеру файлов. На практике loseless-сжатие — единственное решение для тех, кто разочаровался в возможностях lossy-компрессии, или в случаях, когда даже незначительное снижение качества звука нежелательно или недопустимо. А с переходом на скоростные каналы связи (к сожалению, пока недоступные многим россиянам) привлекательность использования сжатия без потерь только возрастает. Ведь пользователям FLAC или LA не нужно беспокоиться о том, что формат, в котором они хранят архивные копии любимых дисков, устареет или выйдет из моды: в любой момент они могут не только конвертировать всю фонотеку в другой loseless-формат, не потеряв ни бита, но и сжать, используя любой из доступных кодеков.



Wavpack hybrid/lossy


Вообще-то кодек wavpack предназначался для «математического» сжатия музыки, при котором исходные данные полностью восстанавливаются в процессе декомпрессии. Однако в новых версиях wavpack появилась возможность создания lossy-файлов. Алгоритм работы этого кодека сильно отличается от принципов работы других кодеков. Главное отличие состоит в том, что сжатие происходит без использования психоакустики, а кодирование осуществляется лишь за счет округления данных. В гибридном режиме кодировщик создает сразу два сжатых файла, один из которых является lossy-частью, а второй, называемый корректировочным, предназначен для точного воссоздания исходной композиции. Так как битрейт lossy-части примерно вдвое меньше, чем при обычном loseless-сжатии, а файл коррекции дает возможность точно воссоздать оригинал, wavpack lossy является уникальным форматом, находящимся посередине между loseless- и lossy-форматами сжатия музыки (недавно wavpack утратил свою уникальность: средства создания lossy-файлов появились и в loseless-кодеке optimfrog). Справедливости ради отметим, что битрейт wavpack lossy-файла, как правило, находится в промежутке 300–400 кбит/с, что делает его малопригодным для, скажем, передачи через Интернет. Тесты, проведенные энтузиастами Hydrogenaudio, показали, что в качестве звука wavpack lossy вполне способен потягаться даже с такими «монстрами», как Musepack.

Остается дождаться выхода новой, четвертной версии кодировщика, обещающей быть еще более интересной, чем ее предшественница.

Динозавры

Разумеется, перечень форматов компрессии музыки вовсе не ограничивается вышеназванными. Так, мы обошли стороной устаревший VQF (Vector Quantization Format)/TwinVQ, который хоть и стал частью спецификации MPEG-4, но отошел в мир иной гораздо раньше, чем успел отхватить кусок пирога у MP3. Ведь несмотря на оригинальные решения, использовавшиеся при его разработке, медленное сжатие, проблематичный поиск по файлу и, главное, поддержка битрейтов не более 96 кбит/с предопределили его незавидную участь. Появление в Nero кодека VQF2 с возможностью создания файлов до 192 кбит/с ситуации не исправило: VQF был уже мертв. Не так давно покинул сей мир и многострадальный Liquid Audio/LQT, ставший в свое время одной из лучших инкарнаций формата AAC, но так и не сумевший получить достаточную поддержку. Вообще, многим несовместимым и нестандартным решениям на базе AAC можно лишь посочувствовать: раньше или позже эти разработки прекращали существование.

По причинам невысокой актуальности для пользователей ПК мы также не стали рассматривать систему кодирования ATRAC, разработанную Sony для мини-дисков.

Ну а про Real Audio обычному любителю послушать музыку на компьютере или в дороге не стоит даже говорить, хотя… В конце концов, не так уж он и плох, этот RA, но, разумеется, лишь в очень узкой области. По слухам, некоторые наработки компании Real Networks будут использованы в новых версиях MPEG4, дав жизнь более универсальным решениям.

128, 64, 48… кто меньше?

Байки относительно того, что тот или иной формат обеспечивает качество компакт-диска, оказались настолько действенными, что создатели современных кодеров эксплуатируют их без зазрения совести, заставляя пользователей верить в откровенную ложь. Прежде всего, стоит определиться, что именно является «качеством компакт-диска». Фактически подобное описание можно применить лишь к PCM (Pulse Code Modulation, импульсно-кодовая модуляция, самый распространенный метод кодирования несжатого аудиосигнала) файлам формата 44,1 кГц, 16 бит, стерео. Тем не менее, разработчики используют это понятие для обозначения чего угодно.

История заблуждения уходит корнями в ранние 90-е, когда институт Фраунгофера, представив общественности MP3, использовал термин «CD-качество» для описания возможностей нового формата. Ведь до появления MP3 обладатели персональных компьютеров могли пользоваться лишь убогим ADPCM (Adaptive Differential Pulse Code Modulation, адаптивная дифференциальная импульсно-кодовая модуляция), имеющим степень сжатия примерно 1:2 (1:4), а при увеличении степени компрессии напрочь убивающим даже намек на качество. Возвращаясь к институту Фраунгофера, заметим, что именно там родилось словосочетание «CD quality» по отношению к файлам, кодированным в формат MP3, 128 кбит/с, 44 кГц, 16 бит, стерео, положив тем самым начало одному из наиболее распространенных заблуждений в истории сжатия звука. Разработчиков можно было понять: в то время компьютерные колонки по качеству воспроизведения музыки могли соревноваться разве что с телефонными трубками, поэтому разница между Audio CD и MP3 при прослушивании музыки на компьютере была минимальной. Тем не менее, через некоторое время энтузиасты, пробовавшие записывать еще диковинные музыкальные файлы на дорогущие диски CD-R и прослушивавшие их на качественной аппаратуре, стали осознавать, что их попросту «надули».

К концу девяностых годов качество компьютерных колонок и звуковых карт сильно возросло, к тому же все чаще стали использоваться серьезные колонки, подключенные к ПК через усилитель. Понятно, что в этом случае не замечать огрехи цифровой компрессии становилось трудно.

Разработчики новых форматов, сравнивая звучание своих файлов с MP3, все больше занижали битрейт, при котором достигалось абстрактное CD-качество, чтобы показать таким образом эффективность своих кодеков. А простой пользователь, которому почему-то не приходило в голову проверить спорные утверждения, продолжал слушать… Планка быстро снизилась со 128 кбит/с до 96, 64, а затем и вовсе до 48 кбит/с…

Некоторые эксперты используют термин «прозрачность» (от англ. transparency) для обозначения сигнала, неотличимого на слух от оригинала в слепом тестировании. Так вот, если говорить о прозрачности музыки с использованием современных кодеков, то при проведении тестов становится ясно, что ни на 128, ни тем более на 64 кбит/с она (прозрачность) в подавляющем большинстве случаев не достигается; можно лишь говорить о приемлемом качестве, на котором уровень сторонних шумов и артефактов обычно не слишком велик, чтобы вызывать раздражение.

Битрейт, при котором достигается достаточно высокий уровень прозрачности (то есть вероятность появления артефактов крайне мала, а сигнал в большинстве случаев неотличим от оригинала на слух), обычно составляет 180–220 кбит/с для современных кодировщиков, работающих в режиме VBR. К сожалению, нельзя утверждать, что сейчас есть loseless-кодеки, способные создавать файлы, «прозрачные» для любого человека. Ведь если одни не слышат разницы между оригиналом и WMA с битрейтом 96 кбит/с, другие способны в тесте отличить исходный файл от кодированного при помощи Musepack --braindead. Можно говорить о 50%, 80% или даже 99% людей, но никак не обо «всех». Подобное пока возможно лишь при loseless-сжатии.



There must be only one…


Трудно предсказать будущее современных аудиоформатов, однако кое-какие прогнозы дать можно.

Если долгожданный Musepack SV8 так и не появится в ближайшее время, формат, скорее всего, через год-два будет предан забвению. Уже сейчас многие апологеты MPC ищут альтернативу в виде Vorbis, AAC или же вовсе переходят на loseless-компрессию. Ведь как бы ни был хорош сам формат, без должной поддержки он существовать не может.

WMA вряд ли сдаст позиции. Благодаря неосведомленности пользователей Windows и мощной пропаганде Microsoft у него есть хорошие шансы остаться на плаву. А если WMA9 pro/loseless сумеет получить поддержку производителей аппаратных плейеров, то популярность формата вырастет еще больше. С другой стороны, внезапное исключение (с чем только черт или антимонопольные организации не шутят…) Windows Media Player из стандартной поставки Windows если и не поставит крест на формате, то наверняка негативно скажется на его популярности.

MP4/AAC, несомненно, ждет светлое будущее. Ведь имея за собой поддержку крупнейших компаний и звание международного стандарта (а заодно и титул наследника MP3), он не только не будет забыт, но и станет стремительно набирать популярность. А с включением MP3 и loseless-сжатия в стандарт MPEG-4 привлекательность нового формата еще больше возрастет. Потенциально AAC способен не только вытеснить OGG или MP3pro в области низких битрейтов (используя AAC HE), но и серьезно подорвать позиции любимых ценителями качества Musepack и WavPack lossy. В конечном счете многое зависит от реализации кодеров и желания или нежелания их создателей заниматься оптимизацией качества.

MP3 будет постепенно отмирать, однако надеяться на его быстрый уход не стоит: ведь имея невероятно сильную аппаратную поддержку и огромнейшую фонотеку, накопленную за время его существования, МР3 сможет еще долго оставаться на плаву.

Ни в коем случае не следует сбрасывать со счетов OGG Vorbis, привлекательный как для разработчиков (уже сейчас многие компании, создающие компьютерные игры, используют Vorbis для сжатия музыки), так и для меломанов. К тому же начавшийся недавно выпуск портативных MP3/OGG-плейеров наверняка добавит формату популярности (не говоря об армии «кул-хацкеров», стремящихся хранить в «новам бисплатнам фармати» все, что попадается под руку). И если Xiph.org не «забьет» окончательно на многострадальное дитя, выпуская время от времени обновленные кодировщики, его популярность вряд ли станет меньше. Пошатнуть позиции Vorbis сейчас сможет разве что резкое снижение патентных отчислений за использование MPEG-4 и, как следствие, стремительное увеличение популярности формата AAC, что, впрочем, маловероятно.

Каждый из упомянутых кодеков имеет свою нишу и область использования. Так, Musepack по праву считается лучшим кодеком, когда речь идет прозрачном кодировании аудиоколлекции на средних и высоких битрейтах. Vorbis, прекрасно зарекомендовавший себя на средних и низких потоках данных, идеально подходит для портативных плейеров и обмена файлами через Интернет. AAC, чей потенциал еще полностью не раскрыт, постепенно теснит и Vorbis, и Musepack, отвоевывая себе место под солнцем, а WMA остается отрадой пользователей Windows, не подозревающих о существовании альтернативы.

Какой битрейт выбрать?

Вопрос с подвохом. Ведь если еще лет шесть-семь назад «качество» кодирования в основном определялось размером потока данных из-за преимущественного использования CBR, то для современных кодировщиков подобный подход практически непригоден. Любой современный кодер, предназначенный для создания файлов высокого качества, скорее всего ориентирован и на VBR/ABR-режимы, а потому гораздо корректнее говорить о пресетах — предопределенных параметрах кодирования. Обозначение пресетов может быть самым разным. Так, во многих популярных кодерах есть именованные пресеты вроде radio, tape, stream, audiophile, дающие примерное представление об уровне качества результирующих файлов. Иногда возможно использование числовых (1, 2, 7.56, 3.2) или численно-именованных значений (normal 5.4), дающих больший контроль над параметрами кодирования. В большинстве случаев использование пресета standard или transparent позволит получать файлы хорошего качества.

© ООО "Компьютерра-Онлайн", 1997-2025
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.