Архивы: по дате | по разделам | по авторам

Как определить писателя?

Архив

автор : ДМИТРИЙ ХМЕЛЕВ 14.03.2000

Уже не первый год мечтаю я о действительно интеллектуальной пишущей машинке. На днях даже сон видел (не для красного словца пишу, именно видел): открываю WinWord, а там в меню Сервис новая строчка - "авторский стиль". Щелкаю по ней - и - классики россыпью: "Н. В. Гоголь", "А. С. Пушкин", "М. Е. Салтыков-Щедрин", "Ф. М. Достоевский" и прочая, и прочая...

Похоже, явь опять отразила сон с точностью до наоборот. Несколько дней спустя узнал я о программе "Лингвоанализатор", которая по тексту устанавливает авторство. Поскольку в базе определяемых писателей нашел я и свою фамилию, то решил испытать программу на себе, в лучших традициях героической медицины. Всего скормил я ей двенадцать отрывков из собственных неопубликованных (а большей частью и незавершенных) текстов. И детективы предлагал, и фэнтези, и даже дамский роман (есть у меня желание - написать настоящий дамский роман). Программа определила Василия Щепетнева в девяти случаях, что составляет 75 процентов.

Я поспешил связаться с автором программы и предложил поведать о ней читателям "Компьютерры". Тест перед вами. Правда, я не удержался и решил прибавить от себя комментарии писателя-пользователя.

Василий Щепетнев

Так вот, чтобы убедиться в том, что Достоевский - писатель, неужели же нужно спрашивать у него удостоверение? Да возьмите вы любых пять страниц из любого его романа, и без всякого удостоверения вы убедитесь, что имеете дело с писателем.

М. А. Булгаков. "Мастер и Маргарита"

В конце января на сервере Русской Фантастики появился новый раздел под громким названием "Лингвоанализатор". Так называется первая в Интернете (включая заграничный сектор) онлайновая программа, которая с большой долей самоуверенности устанавливает автора литературного текста. [1]

Литературоведение является одной из самых неформальных областей знания, в которой удивительно сложно установить какие-либо количественные закономерности. Даже в нише самого формального объекта литературоведения - ритмике стиха - царит ужасная сумятица. Взять, например, ямб, который Е. Онегин плохо отличал от хорея. Не зря, оказывается, герой А. С. Пушкина испытывал трудности: не так-то просто дать строгое недвусмысленное определение, которое четко укажет, какое стихотворение написано ямбом. Любопытно, что такое определение смогли сформулировать совсем недавно, причем одним из первых его придумал в 1960-е гг. академик А. Н. Колмогоров - величайший математик уходящего века [1]. Будьте уверены: это определение отличается в лучшую сторону от школьного, по которому ямб - это когда на четных слогах стоят ударения, а на нечетных отсутствуют, однако (делается оговорка) на четных слогах ударения иной раз пропускаются, а на нечетных - появляются.

О точном определении того, что такое жанр произведения, говорить и не приходится. Литературоведы понимают, что это такое, но на глубоко интуитивном уровне. А посему и не могут договориться друг с другом что есть что - в силу разной глубины интуиции, очевидно. Единственная общепринятая классификация существует по объему произведения. Оказывается, есть малая, средняя и крупная формы. Очень познавательно. Но даже здесь иногда возникают споры - в какой форме написано произведение.

Ладно, оставим в покое проблемы литературоведения с дефинициями. Но даже по поводу авторства произведений у литераторов зачастую нет единого мнения! Люди спорят о том, сколько народу написало Библию, кто был автором того или иного исторического документа. Например, до сих пор активно обсуждается, кто и что писал в знаменитом в США документе под названием "Federalist Papers", который распространялся среди жителей Нью-Йорка в 1787-88 гг. и агитировал их принять новорожденную конституцию США [2]. Существует немало подобных анонимных произведений и в русской истории [3].

А вспомним, какие бури бушуют над небезызвестным романом "Тихий Дон". Не может не удивлять, что М. А. Шолохов в возрасте 20 лет или 21 года, не имея ни среднего (окончил 4 класса), ни специального образования, ни жизненного и литературного опыта, ни доступа к военным архивам, за год-полтора написал фундаментальное произведение, насыщенное фактическими материалами, которое сделало его Нобелевским лауреатом. Гений? Может быть. С другой стороны, возникает вопрос, не использовал ли Шолохов куски текста какого-либо другого автора или даже нескольких неизвестных "соавторов"? Дискуссия по этому поводу продолжается с пятидесятых-шестидесятых годов, и спор, по-видимому, далек от завершения. Хотя каждая из сторон многократно заявляла, что ее версия окончательно подтверждена и сомнению не подлежит. Спорят известные люди: одним из зачинщиков был А. И. Солженицын, одним из спорщиков - академик А. Т. Фоменко. [2]

Ну и что? - возразит читатель, - какая нам, в конце концов, разница, кто что написал? Главное чтобы человек был хороший [3]. И мы с прискорбием констатируем отсутствие у оного читателя чувства вселенской справедливости и общечеловеческого любопытства.

Программа "Лингвоанализатор" замечательна тем, что демонстрирует формальный подход к определению авторства, чего так не хватает современному литературоведению. Ее не интересует содержание, идеи, фабула и значение текста для общемировой литературы. Пожалуй, единственное, к чему она относится более или менее трепетно, - это объем текста. Чем крупнее форма, тем более самоуверенные утверждения она выдает.

"Лингвоанализатор" разбирает текст на элементарные кирпичики, используя математическую модель, в которой учтены такие характеристики текста, как:

а) число служебных слов (предлогов, союзов и частиц),

б) морфемы (приставочные, корневые, суффиксальные, флективные) и их последовательности,

в) сложность грамматических конструкций,

г) собственно словарь, используемый автором.

Программа однажды бездушно измерила все эти параметры. Теперь они сведены в таблицы, содержащие сотни переменных, характеризующих писателя. У каждого автора из базы данных есть своя таблица, которая является авторским эталоном. [4] Исходные тексты "Лингвоанализатор" у себя не хранит.

Читателю может быть интересно, что происходит, когда он засовывает свой текст на анализ в окошко приема рукописей. А происходит построение еще одной таблицы по входному тексту. После этого входная таблица сопоставляется с остальными 128, и выводится 128 интегральных величин для оценки близости данного текста к каждому из 128 писателей. Каждая из этих 128 интегральных величин называется относительной энтропией. Программа сообщит вам имена трех авторов, для которых относительная энтропия по данному тексту минимальна. "Относительная энтропия" - это не эффектное словосочетание, а строго определенное математическое понятие, которое, впрочем, не ново в лингвистике (см. [1]).

Любопытно, что при анализе текста принципиально не используются собственные имена. "Лингвоанализатор" их просто игнорирует.

В большинстве случаев программа правильно называет автора, даже если предлагать ей произведения, не содержащиеся в базе данных. [5] Это возможно лишь, поскольку алгоритм работы программы не сводится к полнотекстовому поиску по всей базе данных. Используются только интегральные характеристики текстов, что, кстати, значительно ускоряет работу (обработка запроса занимает секунды!). [6]

Подбор авторов в базу данных "Лингвоанализатора" может вызвать нарекания, однако сразу скажу, что брались только авторы, чьи произведения физически [7] находились на сервере Русской Фантастики и являлись достаточно объемными для хорошей характеризации авторского стиля. Насколько объемными - весьма тонкий вопрос, поскольку необходимый объем зависит от всех авторов, находящихся в базе. Отмечу лишь, что "Лингвоанализатор" балансирует на тонкой нити над хаосом, при котором он все тексты приписывал бы одному писателю.

Хочу обратить ваше внимание на неизбежный недостаток программы. Она никогда не выдаст сообщения о том, что "данный текст, вероятнее всего, не написан ни одним из известных программе авторов". Дело в том, что работа "Лингвоанализатора" построена на вычислении относительной энтропии. А как вычислить относительную энтропию относительно того, чего нет?

Написать такую программу оказалось не так-то просто. Всякий опытный читатель легко узнает прозу любимого писателя, неосознанно пользуясь десятками неформальных характеристик текста. Но если поспрашивать у людей, чем стиль одного писателя отличается от стиля другого, вряд ли удастся получить внятный ответ. Мало того - ответы окажутся весьма противоречивыми. Программа, использующая таким образом выявленные критерии, вряд ли сможет эффективно отличить друг от друга хотя бы двух авторов.

Так называемая стилеметрия занималась поиском каких-то формальных количественных характеристик текста, которые позволяли проводить строгие различия между двумя, максимум тремя авторами: большего, насколько мне известно, добиться не удавалось.

Требовалось найти принципиально другие критерии различения авторов. Несмотря на многочисленные трудности, группа сотрудников МГУ добилась-таки неожиданного и несомненного успеха. Методика "Лингвоанализатора" различает десятки и даже сотни (!) авторов.

Этот успех и был отмечен открытием на сервере Русской Фантастики (www.rusf.ru) демонстрационной странички. Автор настоящей статьи создал собственно демонстрационную программу, а страничка была оформлена стараниями коллектива разработчиков Русской Фантастики, среди которых следует отметить Д. Ватолина, Е. Славинского и П. Петриенко. Разработку методики "Лингвоанализатора" автор начинал в сотрудничестве с доцентом кафедры дискретной математики мехмата МГУ М. И. Гринчуком, который, возможно, известен читателю своими шуточными лингвистическими программами "Стихоплюй" и "Трепло".

Подход, используемый в "Анализаторе", уже используется для объективного разрешения многочисленных споров об истинном авторстве. К сожалению, для анализа необходимы электронные тексты. Поэтому, кстати, "Тихий Дон" еще не попал на зуб "Лингвоанализатора" (может, читатели помогут найти этот текст?).

Зато были перемолоты тексты девяти редакций Библии, исследован вопрос о взаимоотношениях между произведениями Татищева и Миллера, проанализированы тексты Шекспира, а также была проведена экспертиза авторства текста по запросу одной адвокатской конторы (результаты экспертизы будут использованы в суде). [8] В перспективе - обнаружение интегральных количественных характеристик, различающих жанр и время создания произведения, исследование сохранения авторского стиля при переводе и автоматическое определение эстетических достоинств текстов.

- "Шутка!" - возмутится критически настроенный читатель.

Кое в чем - шутка, а кое в чем - намек.

А перед заинтересованными читателями возникают новые возможности для творческой работы. Например, можно попытаться определить, какой из соавторов написал ту или иную главу. Или протестировать собственные образцы словесности на близость к любимым писателям. Или...

...Здесь остается место для вашей фантазии. [9] Разумеется, интересно предлагать тексты, неизвестные анализатору.

Пресловутых пяти страниц хватит, чтобы получить любопытный ответ, но хорошие результаты достигаются на больших текстах (больше 50-100 Кбайт). [10] Удачные эксперименты - по адресу rusf.ru/cgi-bin/fr.cgi!

Что же дальше? Дальше планируется создать аналогичную демонстрационную страничку на основе русской прозы до 50-х годов XX века, а также еще одну страничку на основе русской поэзии. Причем читатели могут ускорить появление странички, если помогут составить всеохватную электронную библиотеку прозы и поэзии.

ДОПОЛНИТЕЛЬНЫЕ Источники

[1] В. А. Успенский. Предварение для читателей нового литературного обозрения к семиотическим посланиям Андрея Николаевича Колмогорова. // "НЛО" Э 24, 1997. Этот текст есть в Интернете по адресу agama.ru/alt/r_club/journals/nlo/24/uspensky.html.[2] Holmes, D. I. The Evolution of Stylometry in Humanities Scholarship. Literary and Linguistic Computing, 13: 111-17, 1998.[3] От Нестора до Фонвизина. Новые методы определения авторства. - М.: "Прогресс", 1994.

1 (обратно к тексту) - Слышал я еще про "Штампомер Делицина". - Здесь и далее прим. В. Щепетнева.

2 (обратно к тексту) - Я бы тут многое, многое мог сказать. Но случай из тех, где молчание предпочтительнее.

3 (обратно к тексту) - Скорее - текст.

4 (обратно к тексту) - Давно подозревал, что авторский стиль столь же уникален, как отпечатки пальцев. Но кажется мне, что многие нынче работают в перчатках...

5 (обратно к тексту) - Процент попаданий - разный, мой случай - 75 - похоже, рекорд. По этому поводу Святослав Логинов даже предостерег меня: "Василий, это чрезвычайно плохо! Это может означать только одно - однообразие литературных приемов, однотипность стиля. Узнаваемость автора должна быть (имхо) на уровне мышления, а не структуры текста".
Возможно, возможно... Хотя, как мне представляется, "Лингвоанализатор" скорее определяет звук инструмента, а не то, что и как на нем играют. Рояль - он всегда рояль, хоть школьник на нем "Чижика-пыжика" изображает, хоть Флиер сонаты Бетховена...
В худшем случае, у меня есть 25 процентов надежды на исправление...

6 (обратно к тексту) - Если, конечно, в работе сервера не происходит сбоя. Такое, впрочем, случается везде: недавно сетевой шахматный супертурнир оказался смазанным именно из-за неполадок в "паутине" - мощнейшей израильской программе присудили поражение в выигрышной позиции.

7 (обратно к тексту) - И, главное, легально, с разрешения авторов.

8 (обратно к тексту) - Мне почему-то пришел на память роман "В круге первом" Александра Солженицына...

9 (обратно к тексту) - Сейчас многие предлагают программе авторов, которых в базе заведомо нет, определяя таким образом, кто из фантастов роднее Толстому, Достоевскому, Гоголю...

10 (обратно к тексту) - Авторы "прелестных писем" пока могут спать спокойно - если пишут кратко. Она, краткость, теперь не только сестра таланта, но и залог анонимности.

Дмитрий Хмел§в - аспирант Кафедры теории вероятностей, мехмат МГУ