Не верь глазам своим
АрхивНа июльской конференции "Siggraph", традиционно собирающей элиту компьютерной графики и анимации, группа разработчиков из Массачусетского технологического института собирается представить новую программу обработки видеозаписи, позволяющую имитировать произнесение человеком слов и фраз, которые в действительности тот никогда не говорил.
На июльской конференции «Siggraph», традиционно собирающей элиту компьютерной графики и анимации, группа разработчиков из Массачусетского технологического института (МТИ) собирается представить новую программу обработки видеозаписи, позволяющую имитировать произнесение человеком слов и фраз, которые в действительности тот никогда не говорил.
Нечто подобное, конечно, делалось и раньше, главная особенность новой программы - в небывалой прежде реалистичности морфинга: зрители, принимавшие участие в тестировании, не смогли отличить реальную запись от сгенерированной компьютером. Кроме того, нынешняя техника компьютерной анимации обычно требует ручной доводки при «склеивании» комбинируемых фрагментов изображения говорящего, тогда как новая технология МТИ практически полностью автоматизирована (статью с описанием работы можно найти здесь: cuneus.ai.mit.edu:8000/publications/siggraph02.pdf).
Программа построена на основе самообучающейся системы искусственного интеллекта, которая на после анализа 2-4-минутного видеоролика (необходимый для работы минимум) выделяет кадры, представляющие полный спектр возможных движений рта (и окружающих его областей) человека-модели. На основе этих данных компьютер способен синтезировать любое выражение лица как комбинацию из примерно полусотни «базовых» состояний объекта. Затем программа просматривает всю имеющуюся видеозапись, отмечая, какой мимикой сопровождается произнесение каждого звука и как происходит переход от одного звука к другому. После этого, получая новую последовательность звуков, компьютер может сгенерировать точную картину движений области рта и аккуратно наложить эти движения на лицо объекта.
Разработчики признают, что в настоящее время высокая реалистичность образа достигается лишь на протяжении одной-двух фраз, после чего становится заметно отсутствие эмоций на лице говорящего. Однако уже зреют планы создания более сложной модели, способной выражать основные человеческие эмоции. Так что генерация эмоциональной окраски и все более достоверного звукового сопровождения синтезируемых сцен - дело времени.
Новая программа разработчиков из МТИ уже проходит тестирование на телевидении для достоверного дублирования новостей с английского языка на испанский. Потенциал подобной технологии в кино и компьютерных играх поистине неисчерпаем, поскольку позволяет возродить на экране любого ушедшего из жизни актера или иной знаменитости. И столь же неисчерпаемы возможности для злоупотреблений - фабрикации ложных улик, дезинформации, провоцирования и просто обмана публики. Как говорит один из экспертов по анализу изображений, не исключено, что в ближайшее время судам придется вернуться к средневековой практике и принимать во внимание лишь показания тех свидетелей, кто видел произошедшее собственными глазами.