Архивы: по дате | по разделам | по авторам

Корыстный интерес к человеческим звукам

Архив
автор : Леонид Левкович-Маслюк   30.03.2007

Наука и индустрия распознавания/анализа звука (прежде всего - речи) существуют много десятилетий. Но если деньги, которыми ворочает рынок речевых технологий, уже давно измеряют миллиардами, то приложения технологий поиска/анализа данных в звуковых массивах (аудиомайнинга) только сейчас стали находить ниши, заметные невооруженным глазом. Зато эти ниши (речевая аналитика, индексирование мультимедиа) растут с невероятной скоростью.

Наука и индустрия распознавания/анализа звука (прежде всего - речи) существуют много десятилетий. Но если деньги, которыми ворочает рынок речевых технологий, уже давно измеряют миллиардами, то приложения технологий поиска/анализа данных в звуковых массивах (аудиомайнинга) только сейчас стали находить ниши, заметные невооруженным глазом. Зато эти ниши (речевая аналитика, индексирование мультимедиа) растут с невероятной скоростью.
 

Киллерап (он же killer app, он же killer application) - это (супер)успешный продукт, который делает породившую его технологию (супер)востребованной [Но киллерап это не убийца других продуктов — в том смысле, в котором цифровой фотоаппарат можно назвать (в известной мере и с огромными оговорками, но все же, все же) киллером пленочного фотоаппарата]. Самый яркий пример - персональный компьютер как киллерап для технологии производства микропроцессоров. Другие примеры такого масштаба припомнить не удается, по крайней мере в ИТ. Зато легко вспоминаются технологии, которые все время где-то на слуху, на периферии сознания, но для которых по-настоящему убойный киллерап все не появляется.

Разборчивость

Справка

Оценка качества распознавания слитной речи - особенно нескольких человек одновременно - отдельная задача. Процент ошибок в словах оценивается при помощи той же метрики, что применяется в геномике при сравнении генетических кодов - так называемого "расстояния Левенштейна" (Levenstein distance), предложенного Владимиром Левенштейном из ИПМ им. Келдыша еще в 1960 году.

Одна из этих технологий - распознавание речи. Остановимся на ее успехах подробнее, так как она обеспечивает и львиную долю приложений в аудиомайнинге.

В житейском смысле идеал речевого распознавания всегда казался мне таким: включаю диктофон, а по окончании беседы, лекции или интервью переписываю с него на компьютер текстовый транскрипт. А поскольку ничего подобного пока нет, то и о распознавании речи рано говорить и думать всерьез. Но едва начав работать над этим материалом, я понял, что давно уже впал в грех "псевдознания", не давая себе труда вникнуть в предмет глубже. Ведь хайтечным бизнесом - к счастью! - занимаются люди, презирающие плебейский лозунг "хочу все и сразу". Поэтому уже давно созданы системы на основе речевых технологий, далекие от моего воображаемого идеала, но приносящие прибыль и даже, по-видимому, помогающие в повседневной жизни и работе. Эти системы эффективно работают там, где допустима предварительная настройка на пользователя, где разговоры идут по заданному шаблону и на заданную тему, где лексикон строго ограничен.

Хороший пример: спонтанная (то есть специально не делаемая разборчивой) диктовка цифр по телефону в 2003 году распознавалась с ошибкой всего лишь в 0,3% [См. лекции по распознаванию речи, прочитанные в МИТ Джимом Глассом (Jim Glass, ocw.mit.edu)]. Учитывая, что по "закону Мура" в распознавании речи процент ошибок уполовинивается каждые два года, сейчас этот показатель должен быть в районе 0,01%, то есть вплотную приближаться к человеческим 0,009%. По-настоящему плодородная для речевых технологий область находится между такими узкоспециальными нишами и мечтами о "все и сразу". В ней освоены уже многие участки. Например, только в системе здравоохранения и только в Северной Америке оборот средств, вовлеченных в, казалось бы, скромную "индустрию надиктовывания врачами своих отчетов", составляет примерно 10 млрд. долларов. Не случайно умные люди именно там начали внедрять первые в истории автоматические системы диктовки (причем первым был всем известный сегодня в качестве технопророка Рэй Курцвейль) - еще в 1980-е годы. Там, где нужны жестко структурированные документы с ограниченным лексиконом, а главное, где есть возможность заставить пользователя подлаживаться под систему, технология более или менее срабатывает. Сегодня отчеты уже не диктуются слово за словом, а наговариваются обычной ("слитной") речью, и часто по телефону (а вот конверторы речи затачиваются отдельно на радиологию, отдельно на гематологию и т. д.).

В то же время многие компании, не говоря об исследовательских организациях, уже много лет регулярно сообщают - хоть и не вдаваясь в подробности - о столь высоких процентах успешного распознавания речи, что это напоминает отчеты о выборах в современной Туркмении (или в несовременном СССР). Однако в начале 2000-х мне случилось быть на рабочем совещании в исследовательском подразделении одной из крупнейших ИТ-компаний мира, где эти (условно говоря) 99,9% вызывали довольно кислую усмешку - даже если о них докладывали столь же могучие титаны ИТ.

Не потому, что цифрам не верили, а потому, что без уточнения технологии всегда неясно, как понимать эти проценты, на что и в каких условиях можно рассчитывать. Самый важный как для практики, так и для исследователя случай - это все-таки слитная свободная речь без ограничения на лексикон (а хорошо бы еще и нескольких людей, и одновременно, и на фоне шума).

И вот тут не всегда удается совместить в одной голове строки девяток в пресс-релизах и статистику ошибок в распознавании в открытых программах тестирования. Некоторые данные тестирования систем "речь-втекст" (speech-to-text, STT) приведены во врезке. Десяток-другой процентов ошибочного распознавания - вот, видимо, реальный уровень, достигаемый сегодня в реальных условиях при работе с универсальными, ни подо что не заточенными потоками речевых данных. Для массового пользователя с его примитивными запросами такой точности все еще мало. Но оказывается, что современных технологий распознавания речи хватает на другой, очень любопытный класс приложений.

Пристальность

Где-то с 2004 года стали появляться коммерческие продукты для так называемой речевой аналитики (speech analytics). Выяснилось, что, используя уже разработанные в речевых задачах инструменты, можно сканировать большой массив звуковых данных в поисках ключевых слов или фраз. При этом конвертации звука в текст не происходит! Поиск фактически осуществляется в звуковом файле.

Один из лидеров этого возникающего сектора, Nexidia (www.nexidia.com), в сотрудничестве с инноваторами из университета Georgia Institute of Technology создала технологию речевой аналитики, сравнительно подробное описание которой, со ссылками на научные публикации, есть на сайте компании. На первом этапе препроцессинг преобразует звуковой файл в фонетический трек (phonetic search track) - последовательность распознанных фонем (пример из описания алгоритма: "_B _IY _T _UW _B _IY" - фонетическая строка для термина "B2B"). Это происходит примерно в пятьдесят раз быстрее, чем звучит сам файл в реальном времени. Объем трека - около пяти мегабайт на час звука, что вроде бы многовато для чисто текстового представления, пусть даже в форме фонемных строк (зато это в десять раз меньше mp3-файла, сжатого до128 кбит/с). Может быть, трек содержит и другую информацию, но детали формата в описании не уточняются. Принципиально, что разбиения на слова в фонетическом треке нет.

Поиск запроса происходит уже в фонетическом треке - для фонетической строки-запроса ищутся ее наиболее вероятные положения. Здесь работает ряд инструментов, включая фонетические словари, обработку ситуаций, когда запроса нет в фонетическом словаре, и т. д. Однако скорость такого поиска в тысячи ("вплоть до 100 тысяч" - т.е. вплоть до прочесывания 30 часов звука в секунду) раз быстрее времени звучания (но "вплоть" - понятие растяжимое).

Точность распознавания зависит от длины запроса. Чем больше фонем в запросе, тем лучше качество распознавания. В описании есть много информации по тестированию (внутреннему, естественно) - типичный показатель таков: для запроса из 12–15 фонем система обнаруживает 85% его вхождений в звуковой файл, при одном ложном срабатывании на два часа звучания (в среднем, конечно). Это (интуитивно) согласуется с результатами по точности распознавания речи из врезки - проценты ошибочных слов там такого же порядка, как здесь проценты ненахождения запроса (отметим, что энтузиасты речевой аналитики любят сгущать реализм в оценках возможностей классического распознавания "речь-в-текст"). Тем не менее отсутствие явной ("необратимой") конверсии звука в слова дает, судя по энергичному внедрению таких систем, определенные преимущества по сравнению с простым прикручиванием поиска к преобразователю речи в текст.

Похоже, что этот фонетический подход, еще несколько лет назад вызывавший скепсис "Let’s hear it for audio mining", Neal Leavitt, Computer, October, 2002[], входит в моду.

Рынок продуктов речевой аналитики начиная с 2006 года стал стремительно расти, и этот рост комментаторы связывают с появлением программ, позволяющих делать быстрые запросы к звуковым файлам переговоров с клиентами - и содержательно анализировать результаты. А такой анализ может оказаться крайне полезным для компании, желающей как можно лучше обслужить своих клиентов. Компания DMG (www.dmgconsult.com), занимающаяся стратегиями для клиент-ориентированных бизнесов, в начале прошлого года прогнозировала рост рынка систем речевой аналитики на 120% в 2006 году и на 100% в 2007-м. Период возврата инвестиций в системы речевой аналитики DMG оценивает в 9–12 месяцев. Ну и финальный аккорд: контактные центры всевозможных аутсорсеров, банков, туристических фирм отныне будут превращаться из статьи расхода в источники прибыли - настолько ценна информация, которую дает быстрая аналитика общения с клиентами.

 

Как машина распознает речь

Американский институт стандартов NIST с 1987 года проводит регулярные исследования достигнутого уровня распознавания речи при разных постановках задачи (см. www.nist.gov/speech, обзор Дэвида Пэллета (David Pallett) "A look at NIST’s benchmark ASR tests: past, present, and future"). NIST всегда интересуется самой актуальной на данный момент областью и тестирует системы "речь-в-текст" именно для нее. Например, в 1991 началось тестирование систем для запросов авиапассажиров. Речевая часть системы от 15,7% WER (word error rate, процент ошибочных слов; далее все результаты в этих единицах) дошла до отличного показателя 2,5% к концу 1994 года (тесты проводились на специально разработанном для этой проблемы довольно ограниченном массиве речевых данных).

Еще один вызов - новостные передачи. Динамика: от 31% в 1996 до 13% в 1998 (а в 1999 качество слегка упало (!) - до 15%; это объясняется тем, что для каждого теста выбирались новые передачи). Новости спорта и рекламу из тестов сразу выбросили: их распознавание - отдельный вызов.

В 1993 году началось тестирование на базе данных Switchboard телефонных разговоров, которые вели добровольцы на случайно выбранные темы.

Результат был впечатляющим - "ошибочность" составляла 90%. К 2001 году все на той же базе данных качество довели до 19%, и кривая "вышла на плато" (то есть рост результатов резко замедлился). Аналогичный тест для разговоров по мобильным телефонам дал более скромные 27% в 2002 году.

По данным из лекций Джима Гласса (МИТ, ocw.mit.edu), человек на этих тестах показывает рейтинг 4%.

В 2003 прошли тесты на распознавание с "богатой транскрипцией", т.е.

генерацией не только текста, но и метаданных (указание пауз, семантическая сегментация, информация о говорящем). Лучший результат (без учета качества богатой транскрипции) был получен для новостных передач на английском - 9,9% (отметим замедление прогресса - уже в 1998 было 13%).

Мобильные разговоры по-английски распознавались с качеством 23,8%, для китайского удалось достичь лишь 42,7%.

Сегодня в качестве вызова рассматриваются конференц-зал и лекционный зал. Лучшие результаты тестов 2005 года: конференц-зал от 26% до 38%, лекционный - от 28% до 52%, в зависимости от того, используется ли наголовный микрофон или обычный удаленный. Более поздних данных NIST, по-видимому, пока не обнародовал.

Для сравнения - в марте 2005 года тестирование проводилось по проекту Еврокомиссии TC-STAR (www.lrec-conf.org/lrec2006). Проект нацелен на долгосрочную задачу - перевод речи на одном языке прямо в речь на другом. Тесты проводились как по переводу речи в текст на том же языке, так и по автоматическому переводу речи на другой язык. Мы приведем данные только по распознаванию. Тестовый массив – выступления на английском и испанском языках в Европарламенте. Лучший результат для английского - 10,6%, для испанского - 11,5%. Системы предварительно тренировались на записях заседаний с 3 мая по 14 октября 2004 года, а соревновались на данных заседаний с 15 по 18 ноября 2004. Речь некоторых докладчиков распознавалась лучше среднего - например, Председатель Европарламента Хосеп Боррель (Josep Borrell) набрал всего 7,8%. Зато Роберт Килрой (Robert Silk Kilroy), активный оппозиционер - целых 26,6%, в его исполнении система не поняла даже слово "коммунисты" (впрочем, текст был крайне бессвязным).


Фантастика

С поиском и анализом звука связаны и более фантастические (но менее проясненные технологически) достижения, интригующие задачи, яркие идеи. Начнем с достижений - естественно, не пытаясь дать систематический обзор. Одно из них принадлежит знаменитой компании BBN Technologies. Название происходит от имен основавших BBN в 1948 году профессоров МИТ Ричарда Болта (Richard Bolt) и Лео Беранека (Leo Beranek) и их бывшего студента Роберта Ньюмена (Robert Newman). В этой компании было такое количество пионерских разработок, что в течение прошлого года солиднейший журнал по истории вычислительной техники "IEEE Annals of the history of computing" посвящал BBN по статье почти в каждом номере. Например, в 1969 году там была создана, ни много ни мало, сеть ARPANET, основа будущего Интернета, а совсем недавно - первая в мире сеть квантовой связи. Большая часть разработок BBN связана с искусственным интеллектом, задачами распознавания, причем правительство США - один из главных заказчиков этих проектов.

К нашей теме прямое отношение имеют несколько недавних разработок BBN, но упомянем только об одной - BBN Broadcast Monitoring System. В 2006 году эта система получила престижную премию MITX (Massachusetts Innovation & Technology Exchange). Функциональность ее такова: система получает на вход обычные телевизионные новости - и в реальном времени делает транскрипт, автоматический перевод и отслеживание в транскрипте по ключевым словам. И еще кучу всего - привязку найденных слов к видеопотоку, разные виды текстового поиска и т. п. Желающие могут легко найти деморолик на www.bbn.com. Существенная изюминка в том, что поддерживается три иностранных (по отношению к английскому) языка: арабский, китайский и испанский (на деморолике мы видим выпуск новостей Аль-Джазиры). Казалось бы - невероятно, но с другой стороны - текст читают дикторы, тематика - в первую очередь политическая, то есть лексикон всетаки не совсем уж универсальный, запросы предсказуемые (в деморолике - Ahmadi Nejad и тому подобные ключевые слова). Так почему бы и нет? Чтобы "узнать больше", компания предлагает писать на некий обезличенный адрес. Стиль, в общем, понятен (тем более с учетом безграничной крутизны BBN). Узнаем ли мы когда-нибудь, как оценил эту систему рынок? А буквально на днях начали появляться серьезные стартапы, стремящиеся капитализировать способы поиска музыки и пения не по названиям и тегам, а прямо по фрагментам исполнения. Наблюдаем ли мы "квантовый скачок" в индустрии звукового майнинга, и если да, кто в нем больше виноват - новые технологии или новые приложения?

Вот скромная, но все же сенсация последних месяцев. Не технологический прорыв, а скорее комбинационная, психологическая находка4 - поисковик песен и мелодий midomi (www.midomi.com). Впрочем, о технологии, использованной в этой системе, известно крайне мало - но ясно, что это некоторая комбинация грубого распознавания речи и анализа мелодической структуры. Причем вряд ли тривиальная комбинация (аналогичный поисковик, появившийся в Сети чуть раньше и предлагавший искать музыку по результатам только напевания [humming], довольно быстро сошел со сцены). Выглядит это так: midomi предлагает спеть отрывок из искомой песни, потом немножко думает - и выдает список найденных в своей коллекции альбомов (которые можно тут же купить, по 99 центов штука). Удивительно, но похоже, что такое дело увлекает все более и более коммерчески значимую аудиторию.

Может быть, срабатывает привязка к волшебной идеологии аггрегации контента: вы можете записать в базу звуковых файлов midomi то, что напели; эти файлы тоже включаются в поиск и в случае успеха выдаются рядом с найденной "настоящей" музыкой. Формирование таких кластеров вполне может и постепенно улучшать качество поиска. Во врезке - краткий отчет о моих собственных опытах с музыкальным поиском. Обратите внимание, что проектом занялся матерый венчурист Камран Илахьян (Kamran Elahian), в чьем списке удач хорошо известная в начале-середине 90-х фирма Cirrus Logic (у многих успели пожить компьютеры с ее видеокартами).

Поиск в мультимедиа, да и вообще поиск осмысленных сведений в массивах данных - захватывающая задача, и мы к ней обязательно вернемся на наших страницах. В заключение упомяну только одну идею, которая меня просто умилила. Люди с фантазией, оказывается, пытаются инвертировать задачу аудиомайнинга - а именно озвучивать процесс обычного "майнинга" так, чтобы при прочесывании всяких скучных данных могли возникать мелодии, указывающие на то, что найдено нечто структурированное, а потому любопытное (см. работы Jeffrey Hsu).

Это еще одно подтверждение тезиса, что будущее формируется литературой: вспомним известный роман Дугласа Адамса "Детективное агентство Дирка Джентли", где главный герой озвучивал финансовые временные ряды.

Как я распознавал звук

Cвои напевы (в попытках нащупать, по каким же признакам ищет midomi) я записывать не стал. Просто я знаком с несколькими музыкально одаренными людьми и знаю, как им физически тяжело слушать фальшивое пение. Вдруг кто-нибудь из них получит в ответ на свой запрос мои завывания? Но midomi некоторому испытанию подверг, и результаты таковы. По спетой строчке "We all live in the yellow submarine, yellow submarine, yellow submarine" на пятом месте был выдан альбом неких The Hit Crew c этой песней, и только на шестом и седьмом - два диска The Beatles. Но это со второй попытки. А с первой, без повторения "yellow submarine", - не нашлось ничего и отдаленно похожего. Зато мой сын, у которого музыкальный слух хороший, сразу получил эти же диски на первом и втором месте.

После этого я плотно закрыл дверь в свою комнату и дал midomi целый концерт - отрывки из "Yesterday", "Michelle", а на бис даже из "Jesus Christ Superstar" ("Then I was inspired, now I’m sad and tired…") Ллойда Веббера и Тима Райса. Вскоре я научился получать битловский диск с "Yesterday" на первом месте при помощи одних завываний, вообще без слов.

Причем на втором, третьем и четвертом оказалась та же песня в разных исполнениях. Было очень приятно видеть это, не скрою. Но больше всего растрогало, когда в ответ на мою оригинальную интерпретацию музыки Ллойда Веббера я получил среди первых результатов другой (не JCSS) альбом, но все-таки Ллойда Веббера!

 

© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.