Архивы: по дате | по разделам | по авторам

Помедленнее, я записываю

АрхивReaditorial
автор : Олег Банцекин   13.07.2009

Программы-говоруны представлены в избытке, зато вот нормальную систему распознавания речи найти чрезвычайно сложно.

Наш читатель Олег Банцекин решил попробовать несколько программ-распознавателей речи и навписал нам о результатах своих изысканий. Орфография и пунктуация автора сохранены. - прим. ред.

Диктофон лучше секретарши. Он всегда успевает за полетом вашей мысли и темпом речи. Увы, но это единственное преимущество электронного устройства перед живой симпатичной девушкой. Дело, даже не в кофе и потенциальном ужине после работы, а в способности секретарши перевести ваш голос в шрифты семейства True Type.

Диктофон так не умеет. Приходиться вручную набирать надиктованную речь, а это уже двойной труд. И потребность в таких распознавалках не только у журналистов, американских врачей (судя по американским же фильмам) или нерадивых студентов. На софтово-железячных форумах инициатором поиска речевого анализатора часто выступает человек с проблемами слуха. Один из форумчан помечтал даже о целом устройстве, которое бы умело переводить звук из динамиков телефона (мобильного или стационарного) в текстовое сообщения, так как слуховой аппарат плохо справляется с "голосом из трубы". Ответы не отличаются разнообразием. Или "насколько мне известно — не существует такой программы" или "могу лишь посоветовать купить другой слуховой аппарат". Ау, софтостроители, вы где?! Такая перспективная и нужная обществу сфера приложения информационных технологий, а никто и не чешется!

Это тем более странно, что обратная проблема в принципе решена. Программы-говоруны представлены в избытке. Озвучивать текст компьютеры научились. Да что там компьютеры! Еще старенький Нокиа 7610 отменно понимал голосовые команды. Не могу сказать, сохранилась ли это достоинство в следующих моделях от финского производителя, поскольку позднее перешел на японско-шведские поделки.

Единственная программу, которую советуют (и тут же добавляют, что все равно работать не будет), старый добрый, или скорее недобрый, "Горыныч". Установил 4-ю версию. Попробовал. Мда... О том, чтобы считать программу полноценным решением трансформации речи в текст — и речи быть не может (извиняйте за каламбур). С трудом еще можно научить "змея" самым простым командам при управлении компьютером, но чтобы научить правильно распознавать и преобразовывать речь в текст — об этом даже и думать нечего. Даже в идеальных условиях — отсутствие посторонних шумов, медленное и четкое произношении — ошибок множество. Вместо слово "раз", программа выдает слово "вверх". Да, я не Цицерон, но и не настолько шепеляв и картав! Добавьте сюда постоянную правку полученных данных (вам еще придется постоянно отвлекаться на просмотр выводимого текста). Скорость набора получается раза в два меньше, чем при ручном вводе с клавиатуры. 

Поставил я trial-версию, но кто же будет делать демку, после которой даже мысли не возникает приобрести полную версию? И потом "Горыныч" для полноценного компьютера, а хотелось бы приложения для мобильных устройств. 
Ради справедливости замечу, полноценных систем перевода голоса в текст нет ни на одном языке. Аж в 2002 году компания Olympus вроде как выпускала диктофон с установленным софтом для перегонки записываемые mp3 в текстовый файл (русский язык не поддерживался). Насколько они были успешны судить трудно. В Глобальной сети отыскались лишь несколько отрывочных фраз из пресс-релиза компании. Из современных разработок даже диктофон за 1000 евро не умеет ничего подобного. Правда, у той же Oympus есть модель DS-5000 (стоит около 700 зеленых рублей). Сам он переводить звук в шрифт не умеет, но если к нему купить транскрипционный комплект (вот так я вышел на правильный термин для нужных мне приложений! Потребовалось залезть на сайт Olympus и покопаться в каталоге диктофонов) AS-5000 (еще 300 баксов), то получиться искомая система. По айтишной спецификации AS-5000 называется транскрайбер (а еще это гитарист, хорошо подбирающий на слух. Один из величайших транскрайберов — Стив Вай) — устройство, "позволяющее значительно ускорить документирование звукозаписей, получаемых оперативным путем, а также звукозаписей совещаний, переговоров, лекций, интервью".

Поиск по транскрайберам навел на несколько отечественных разработок. Программа МПИ Транскрайбер, которая представляет собой "текстовый редактор, дополненный полнофункциональным восьмиканальным плейером и возможностью работы с аудиотекстовыми документами. Программа предназначена для служб делопроизводства с большими объёмами работ по документированию фонограмм мероприятий". Правда требуется еще один модуль — МПИ "Фонограмма", фонограммы которой транскрайбер собственно и понимает. Сайт производителя у меня так и не загрузился. Собственно и фонограмм-то у меня нет.

Вторая прога так и называется — "Транскрайбер". Проверить ее не удалось — она использует MS Word, а я сижу на Open Office. Последняя версия программы вышла в 2007 году и получила какой-то приз от Microsoft. Но посещение сайта вышло с пользой. Выяснил, что под фонограммами наши разработчики понимают любой цифровой аудиоконтейнер вроде mp3 или wave.

Третья российская программа — "Цезарь". Он работает с нашими диктофонами "Гном". Стоимость "гномов", кстати, совсем не маленькая! На Яндекс-маркете навороченный "Гном" - самая дорогая модель среди диктофонов — почти 1500 евро! Да, если и глонасс-навигаторы в ту же цену будут, то наши "тазики" золотыми станут! Работает "Цезарь" под Word 2003. Другое дело, что на вопрос где скачать или как купить, разработчики... молчат. Тем не менее кто-то им все-таки пользуется, так как среди вопросов службе поддержки Центра речевых технологий транскрайбер упоминается. И там же специалисты честно признаю: "Семейство этих программ не производит автоматического распознавания;речи и дальнейшего ее перевода в текст. На данном этапе развития такие алгоритмы еще не отработаны из-за сложности распознавания слитной русской речи".

С транскрайберами настораживало одно. Все они позиционировались, как промышленные решения, а отзывы на них давали научные институт (стиль научно-патриотический: "отечественное ноу-хау, мы впереди планеты всей, автору респект"). Отзывы об использовании от заядлых диктоманов отсутствовали. Зато на сайте компании Audio Technology лежит подборка обзорных статей о проблемах создания полноценных звуковых конвертеров. Увы, последняя статья датируется 2004 годом, что не совсем радует. Пресс-служба тоже молчит.

Но вот Сергей Каменев в своем блоге упомянул Express Scribe. Причем сообщил, что он с ее помощью пишет фантастические рассказы. Значит прога по-русски понимает? Дополнительных программ ей не нужно. Программа существует для всех платформ (любители пингвинов танцуйте — не забыли вас!) и совершенно бесплатна. К сожалению, и ее я не смог проверить. Установка обрывалась на самом интересном. Но потенциал программного обеспечения от разработчика NCH Software огромен! Помните про устройства, захватывающего звук с телефона и конвертирующего в текст? Оно (точнее его софтверная часть) есть у них! Называется DialDictate.

По поводу диктофонов осталась неясность. В описании на одних сайтах указана функция цифрового транскрайбера, причем даже в недорогих моделях за 3-4 тысячи рублей, а на других — нет. Но поиски я прекратил, когда наткнулся на объявление с фрилансерского сайта. Компании, занимающейся переводами, требовался... живой транскрайбер! И добрый десяток откликнувшихся "устройств".

Обсуждение темы на форуме неизбежно приходит к мнению: набирать текст гораздо удобнее и быстрее, чем диктовать, поэтому проще научиться быстро печатать. На больших удобных домашних клавиатурах научиться действительно не трудно, было бы желание. А как угнаться за мыслями на клавиатурах мобильников, где по две-три буквы на кнопку? Или мелкие виртуальные буквы на сенсорных дисплеев? Кроме всего прочего, одна рука всегда будет занята удержанием самого устройства. Диктовать можно на ходу, параллельно наблюдая за освещаемым событием (пресс-конференция, например). Диктофон "услышит" и вопросы других журналистов, и ответы менеджеров компаний, и ваши собственные комментарии к происходящему.

Что ж, есть и положительная сторона. С такими темпами развития речевых анализаторов исчезновение секретарш, машинисток и операторов ПК не произойдет никогда. А еще рекомендую творчество гитариста-виртуоза Стива Вая. Это он однажды вышел на сцену с трехгрифовой гитарой и навсегда вошел в историю рок-музыки. На сцене он уже больше не зажигает, зато держит собственную студию и... разводит пчел. Уверен, что с таким увлечением концерт музыканту в Москве организовать будет легко! Правда, интервью со Стивом придется опять ручками набивать.

© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.