Архивы: по дате | по разделам | по авторам

Автора! Автора!

АрхивСтатьи
автор : Григорий Рудницкий   09.10.2008

Компания Cognitive Technologies представила свою новую разработку, способную опровергнуть или подтвердить авторство, опираясь на анализ текстов. Презентацию заметно оживила одна небезызвестная история с обвинением в плагиате.

Каждый человек, даже если ему не приходится зарабатывать на жизнь писательским трудом, обладает неповторимым и уникальным литературным стилем (ладно, согласны, он далеко не всегда литературный — но это уже нюансы восприятия). Один автор использует больше глаголов, другой, подобно Льву Толстому, выражает свою мысль в исключительно длинных синтаксических конструкциях. Кто-то пишет лирично. Кого-то выдает рубленый стиль. У кого-то есть свои излюбленные обороты или другие литературные приемы и схемы, характеризующиеся конкретными структурными связями. Литературоведы, к примеру, способны благодаря знанию стиля того или иного писателя, идентифицировать его произведения с большой долей достоверности.

Но если человеческий мозг способен что-то проанализировать, то, теоретически, этому же можно научить и компьютерную программу. Зачем, спросите вы? Способов применения у такой разработки хоть отбавляй. Это может быть анализ школьных и студенческих работ на предмет плагиата, криминалистическая экспертиза, литературоведение...

И подобное ПО существует! Вчера такого рода программу представила компания Cognitive Technologies. Называется продукт простенько и со вкусом - Text Analyzer. Принцип работы "Анализатора" с общих чертах вполне доступен пониманию. Программе, ознакомленной с образцами творчество предполагаемого автора, скармливается исследуемый текст. Text Analyzer проводит синтаксический, семантический и структурный разбор и анализ текста и выявляет порядка сотни характеристик, ему присущих. Очевидно, что чем объёмнее текст и разнообразнее встречающиеся в нем конструкции, тем репрезентативнее будут результаты. При этом опасений, что программа захлебнется, если попытаться заставить ее обработать полное собрание сочинений средних размеров, возникнуть не должно - скорость разбора текста на современном офисном компьютере составляет 450-500 страниц в минуту.

По словам представителей компании, данная разработка выгодно отличается от некоторых уже присутствующих на российском рынке систем анализа текста. Если последние учитывают, в основном те признаки, которые можно легко рассчитать вручную (количество слов в предложении, среднее количество тех или иных частей речи, частотный словарь и т.д.), то Text Analyzer основное внимание уделяет структурным связям и подчиненности одних конструкций другим в рамках предложения. Выделенные связи не зависят от перестановки предложений внутри текста, а не нарушаются при контекстной замене слов. Как уверяют разработчики, эти характеристики демонстрируют высокую статистическую устойчивость в применении к произведениям конкретного автора. Иллюстрацией данному утверждению послужил эксперимент с опознанием авторства басни про ворону и лисицу, где "ворона" была заменена на "корову", "лисица" на "синицу", а "сыр" - на "сервелат". Надо сказать, что и в этом случае программа безошибочно приписала авторство великому русскому баснописцу. Другой, более интересный акт марлезонского балета имел несколько скандальный характер. С помощью Text Analyzer была исследована та глава из романа Дарьи Донцовой "Жаба в кошельке", которая стала причиной обвинения писательницы в плагиате. Известный журналист и блоггер Игорь Черский заявил, в данном романе использован текст одного из его рассказов. И в самом деле - анализ текста показал, что этот спорный фрагмент гораздо больше похож на произведения Игоря Черского, чем на остальные романы Донцовой. Кстати, и эти романы тоже существенно отличаются один от другого по стилю, что наводит на подозрения, что их писали разные люди.

В настоящий момент продукт Cognitive Text Analyzer доступен в виде модуля, который бесплатно можно скачать с сайта компании-разработчика. Данная технология уже сегодня привлекает большое внимание исследователей в сфере лингвистики, как из России, так и из стран СНГ и ряда зарубежных стран (США, Франция, Великобритания и др.). Можете попробовать себя в роли криминалиста и вы...

© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.