Книжка с картинками
АрхивМатематики и компьютерщики из энергетического департамента американской лаборатории Pacific Northwest National Laboratory разработали программное обеспечение для автоматической обработки и анализа текстов. По утверждению авторов, программа, получившая название Topic Islands, способна распознавать различающиеся темы в анализируемых документах и извлекать из них содержательную сторону, представляя результаты в виде графических пометок.
Создатели программы проверили работу технологии на речах, произнесенных кубинским вождем Фиделем Кастро за последние тридцать лет. Со слов разработчиков, испытание позволило обнаружить главную содержательную сторону каждой из речей, описать порядок, в котором оратор переходил от одного предмета к другому. Правда, своими находками разработчики почему-то не поделились.
Технология визуального отображения, лежащая в основе реализованного алгоритма, называется Topic-O-Graphy. Вкратце, программа работает так: сначала на основе анализа встречающихся в тексте слов создается специальный цифровой сигнал, а затем он подвергается обработке с помощью вейвлет-преобразования. Частотный анализ результатов вейвлет-преобразования дает тематическую структуру текста. В соответствии с настройками пользователя допустима дальнейшая, более детальная обработка. В результате графически отображается тематическая структура документа. Кроме того, возможно форматирование документа с автоматическим составлением оглавления и расстановкой акцентов на наиболее существенных моментах проанализированного текста. Подробнее ознакомиться с технологией можно по адресу multimedia.pnl.gov:2080/infoviz/gallery.html. Там же находятся ссылки на использованные при разработке научные публикации.
За последний год лаборатория потратила на создание технологии около 200 тысяч долларов. Работы велись по заказу и на средства Объединения разведывательных организаций США (The US Intelligence Community) - группы из 13 правительственных учреждений, ведущих разведывательную и аналитическую деятельность. The Intelligence Community возглавляет глава ЦРУ Джордж Тенет (George Tenet). На данный момент продолжаются дальнейшие исследования, и технология пока не доступна для лицензирования сторонними организациями. - М.Б.