Звуковой мост в следующее столетие
АрхивНаблюдая за все более быстрым развитием компьютерных технологий, в том числе в области работы со звуком, музыканты в последнее время все чаще задаются вопросом: куда же приведет развитие звуковых технологий? Как будет звучать компьютерная музыка будущего? Какие новые возможности откроет нам наступающий XXI век?
Наблюдая за все более быстрым развитием компьютерных технологий, в том числе в области работы со звуком, музыканты в последнее время все чаще задаются вопросом: куда же приведет развитие звуковых технологий? Как будет звучать компьютерная музыка будущего? Какие новые возможности откроет нам наступающий XXI век?
Конечно, предсказывать будущее - дело неблагодарное [1]. Однако если вспомнить, что "будущее создается сегодня", то можно, проанализировав развитие музыкальных технологий во второй половине нашего века и окинув взглядом современные исследования в этой области, усмотреть четкую тенденцию. С помощью электронных средств мы приближаемся к созданию моделей виртуальных инструментов, виртуальных исполнителей и виртуальной акустики.
Виртуальные инструменты: новый метод синтеза
Это, вообще говоря, может показаться несколько странным. К примеру, один из наших ведущих деятелей в области электроакустической музыки говорил: зачем воссоздавать звук гобоя электронными средствами, если можно просто взять настоящий гобой? Целесообразно использовать эти средства для создания новых тембров.
С таким утверждением трудно не согласиться, однако недолгая история развития звукового синтеза показывает, что наряду с созданием новых тембров исследователи всегда стремились воссоздать звучание реальных акустических инструментов. Сначала это были тембры, лишь отдаленно похожие на акустический оригинал. После открытия Джоном Чоунингом (John Chowning) технологии FM-синтеза и выпуска в начале 80-х годов первых синтезаторов, основанных на этой технологии, электронные аналоги "живых" инструментов зазвучали более "естественно". А распространение в последующие годы технологии волнотабличного синтеза (Wavetable, WT-синтез), как казалось, вплотную сблизило звучание электронных и "живых" тембров. Действительно, ведь при WT-синтезе за основу берется запись фрагмента звука "живого" инструмента! [2]
Однако придирчивые ценители быстро обратили внимание, что и WT-инструменты зачастую звучат неестественно, "электронно" (в плохом смысле этого слова). И действительно, при исполнении на "живом" инструменте вы, как правило, никогда не услышите двух одинаково звучащих нот. Приведу простой пример. Допустим, вы нажали правую педаль рояля и много раз подряд нажимаете одну и ту же ноту с одной и той же громкостью. При этом на звучание первой ноты ответят все остальные струны рояля, при втором нажатии на клавишу их звучание сложится со звучанием новой ноты и т. д. - каждый следующий звук будет отличаться от предыдущего своим тембром за счет различного соотношения амплитуд его обертонов. Если же то же действие совершить на WT-синтезаторе, каждое новое нажатие клавиши вызовет лишь повторное проигрывание одного и того же записанного фрагмента звука.
Одной из наиболее значительных новинок стала технология звукового синтеза методом физического моделирования инструментов. Как уже известно читателям "Компьютерры" (см. материал "Виртуальная акустика" в новостях #9 [287]. - А.У.), компании Yamaha удалось осуществить этим методом восьмиголосный программный синтез, используя преимущества только что выпущенного процессора Pentium III. В терминологии Yamaha этот метод синтеза был назван VA-синтезом (VA означает Virtual Acoustics).
Синтез методом физического моделирования как технология родился в стенах Центра компьютерных исследований в области музыки и акустики (Center for Computer Research in Music and Acoustics, CCRMA [3]), что расположен в калифорнийском городе Стэнфорде. Вообще говоря, первый алгоритм, который можно отнести к методу физического моделирования звука, был создан еще в 1983 году Кевином Карплусом и Алексом Стронгом - это был алгоритм синтеза звучания струны щипкового инструмента. Однако исследователям из CCRMA потребовалось еще более десяти лет для создания универсальной технологии моделирования физических процессов, происходящих в реальном музыкальном инструменте. Исследователи утверждают, что при использовании технологии физического моделирования вы никогда не получите двух одинаковых звуков подряд, как и при исполнении на "живом" инструменте. Электронный инструмент обретает гибкость и выразительность своего "живого" прототипа.
Формирование спектра звука в реальном инструменте зависит от множества факторов. Для того чтобы учесть их и просчитать поведение спектра в реальном времени, требуются большие вычислительные мощности. Этим объясняется тот факт, что первые устройства для физического моделирования звука были дорогими и интересовали в основном специалистов. Поэтому выход этой технологии на широкую аудиторию через PC и программный синтезатор от Yamaha, скорее всего, можно считать революционным шагом, началом перехода от WT-синтеза к повсеместному распространению новой технологии.
Между прочим, нелишне заметить, что каждый новый метод синтеза, помимо возможности более точного "копирования" инструментов акустических, открывал и новые возможности для создания необычных звучаний. Метод физического моделирования позволяет виртуально построить никогда не существовавшие инструменты, даже такие, построить которые реально было бы трудно или невозможно. Один из создателей технологии Перри Кук (Perry Cook) построил некоторое количество любопытных образцов. С ними можно ознакомиться на Web-страничке CCRMA (http://ccrma-www.stanford.edu).
Виртуальные исполнители и управление ими
Одним из наиболее интересных проектов в области новаторских компьютерно-музыкальных технологий сегодня является проект DIVA (Digital Interactive Virtual Acoustics - цифровая интерактивная виртуальная акустика), осуществляемый в Технологическом университете города Хельсинки под эгидой финской Академии наук.
Этот проект предусматривает реализацию целого виртуального оркестра. Для генерации звуков здесь используется, разумеется, метод физического моделирования инструментов. Однако авторы проекта пошли дальше. Для каждого виртуального музыкального инструмента здесь предполагается создать уникальных виртуальных исполнителей, обладающих индивидуальной манерой игры на инструменте. Для полной иллюзии виртуальные исполнители здесь не являются "безликими алгоритмами". Каждому из них соответствует зрительный образ, так или иначе соответствующий манере игры данного "исполнителя". Более того, при исполнении музыки эти зрительные образы должны быть соответствующим образом анимированы. Нескольких таких виртуальных исполнителей вы можете видеть на рисунке.
Но самое интересное заключается не в виртуальных исполнителях, а в способе управления ими. Авторы проекта сочли естественным, чтобы виртуальный оркестр, как и обычный, управлялся дирижером. Причем в отличие от существующих интерактивных систем дирижирования MIDI-музыкой было решено использовать не специальную систему жестов, а обычные дирижерские движения.
Схемы дирижерских решений
Здесь, однако, скрываются определенные трудности. Несмотря на существующий четкий "шаблон" дирижерских жестов (см. рис.), при реальном дирижировании эти жесты как бы размываются - скажем, так, как показано на следующем рисунке. Существует несколько методов определения темпа музыки по этим размытым жестам.
Например, можно определять темп по музыкальным долям, которым, как правило, соответствуют "вертикальные экстремумы" дирижерских движений. В этом случае достаточно отслеживать моменты смены направления движения дирижерской палочки (или руки). Однако при этом система не сможет оперативно реагировать на смены темпа, поскольку она никак не может заранее "предвидеть" время появления следующей доли.
Поэтому системе поручено отслеживать не только позиции рук (палочки), но также скорость их движения и ее изменения. На практике авторы проекта применили "нейронную сеть", на вход которой подается информация о положении палочки и сведения об изменении скорости ее движения, а на выходе образуется информация о временной позиции внутри музыкальной доли. Такая система позволяет довольно быстро и точно реагировать на изменения темпа.
Заметим, кстати, что в обычном оркестре не все исполнители одинаково корректно и быстро могут реагировать на действия дирижера. Виртуальным же исполнителям вскоре, очевидно, придется стать в этом смысле идеальными оркестрантами.
Для отслеживания действий дирижера было разработано устройство с магнитными датчиками. Сам дирижер должен облачиться в специальный костюм, называемый Data Dress Suite, и перчатки. Специальная программа в реальном масштабе времени анализирует действия дирижера и передает соответствующую информацию о синхронизации темпа музыки программе, управляющей синтезатором, а также программе анимации.
В проекте DIVA предусмотрено также помещение виртуального оркестра в соответствующие акустические условия (к этому мы еще вернемся ниже). Конечно, на сегодняшний день такой виртуальный оркестр неосуществим на обычном ПК - слишком много расчетов требуется проводить в реальном времени (в проекте DIVA используется 23-процессорная система IBM). Однако технологии стремительно развиваются. И кто знает, может быть, лет через пять каждый пользователь ПК сможет позволить себе иметь такой виртуальный оркестр на столе...
Виртуальная акустика: трудности и их преодоление
Стремление поместить звук в некое виртуальное акустическое пространство ощущалось на всем протяжении существования электронных источников звука. Сюда можно отнести, например, переход от моно к стерео, а также многочисленные алгоритмы реверберации (достаточно вспомнить, что традиционные алгоритмы реверберации носят названия реальных акустических помещений - Hall, Room, Cathedral, Stadium и т. д.). Попытки перенести "плоское" стерео в трехмерное пространство вначале не имели большого успеха, несмотря на множество вариантов их осуществления. Большинство из технологий так называемого трехмерного аудио до недавнего времени основывалось на использовании большего, чем два, числа источников звука. Слушателю предлагались системы из четырех, шести и более динамиков. Здесь нельзя не вспомнить экспериментальный зал "Audium" в Сан-Франциско, где многоканальная запись воспроизводилась из 42 динамиков, что должно было, по замыслу, создавать эффект "супертрехмерного" звука [4].
Наиболее перспективными, тем не менее, на этом фронте можно считать бинауральные технологии, использующие для построения трехмерного звука только два звуковых источника [5]. Недаром пресловутая технология A3D обеспечила в прошлом году гигантское увеличение доходов своему владельцу.
Однако доходы доходами, а все же подобные быстрые коммерческие реализации идеи трехмерного аудио не обеспечивают должного результата. В частности, у A3D имеется проблема с перемещением позиции звука по оси z (вверх-вниз). В настоящее время в нескольких институтах исследователи разрабатывают технологии, которые призваны обеспечить подлинную виртуальную акустику.
В частности, можно упомянуть проект виртуальной акустики, которым сейчас занимаются специалисты Института исследования звука и вибрации (Institute of Sound and Vibration Research - ISVR), подразделения Университета Саутгемптона. Основное место в исследованиях занимают бинауральные технологии, хотя многоканальные технологии также не оставлены без внимания.
В бинауральных технологиях сегодня часто используются так называемые головные функции преобразования (Head-Related Transfer Functions - HRTF) для расчета изменения звука при соприкосновении с головой и телом слушателя. Одной из проблем, над которой как раз сейчас работают специалисты из ISVR, является возможная разница в размерах и других физических свойствах голов и тел различных слушателей.
Бинауральные технологии могут дать очень эффективные результаты, если слушатель воспринимает звук через наушники. Если же звук воспроизводится колонками, то, во-первых, сигнал искажается реальной акустикой помещения, а во-вторых, происходит так называемое перекрестное восприятие: звук, "предназначенный" для левого уха, обогнув голову слушателя, попадает также и в правое, и наоборот. Эффективную оригинальную методику устранения этого эффекта также разработали специалисты из ISVR.
Способ локализации звука в бинауральных технологиях зависит от частоты исходного сигнала. Для звуков частотой ниже 1 кГц, длина волны которых больше размеров человеческой головы, в реальности возникает интерауральный фазовый сдвиг. Он имитируется с помощью интерауральной временной разницы: звук "подается" в левое и правое ухо в разное время. Для звуков с частотами приблизительно 1-5 кГц (длина волны меньше размеров головы) реальная акустическая тень имитируется интерауральной разницей уровня сигнала. Для звуков с частотой выше 5 кГц используется тембровая разница.
На сегодняшний день способы помещения звука в виртуальную акустику еще далеки от совершенства. Однако исследования продолжаются, а коммерческий успех уже имеющихся технологий играет роль катализатора, ускоряя процесс поиска. Поэтому, как считают независимые эксперты из Университета Саутгемптона, приблизительно через пять-семь лет виртуальная акустика станет привычным атрибутом любой электронной звуковой системы.
Итак, находясь в виртуальном зале, виртуальные исполнители берут виртуальные инструменты и начинают совершенно реальный концерт, дирижируете которым вы сами. Примерно такая картина представляется вполне реальной лет через десять. Хотя, как я уже говорил, предсказывать будущее - дело неблагодарное...
1 (обратно к тексту) -Сразу вспоминается, как Станислав Лем в 1950 году (в романе "Астронавты") "предсказал" падение последней капиталистической державы в начале 90-х годов нашего века, а "Электронный мозг" 2003 года представил состоящим из множества катодных ламп.
2 (обратно к тексту) -Вообще говоря, идея совсем не новая. Еще в 60-е годы нечто подобное пытались сделать с помощью закольцованных магнитофонных лент, воспроизводившихся с разной скоростью. Этот "инструмент" назывался "Мелотрон", и его успели употребить даже Beatles (в композиции "Flying" из альбома "Magical Mystery Tour").
3 (обратно к тексту) -CCRMA почему-то произносится как "карма" (с ударением на первый слог).
4 (обратно к тексту) -Кстати говоря, "Audium" производит большое впечатление, но, по-моему, число динамиков можно было без особых потерь уменьшить хотя бы вдвое.
7 (обратно к тексту) -А иначе и быть не может, поскольку у человека всего два звуковых приемника.