Мальчик или девочка?
АрхивДостиженияВ Иллинойском технологическом институте, Чикаго, разработана программа, которая на основе анализа стиля написания и частоты употребления отдельных слов с 80%-ой вероятностью определяет пол автора текста
Шломо Аргамон (Shlomo Argamon), специалист в сфере компьютерных технологий из Иллинойского технологического института, Чикаго, предложил программу, которая на основе анализа стиля написания и частоты употребления отдельных слов способна с 80%-ой вероятностью определить, к какому полу принадлежит автор рассматриваемого текста (программа создавалась на основе и предназначена для анализа текстов на английском языке, хотя аналогичное, вероятно, можно сделать и для русского).
На первом этапе Аргамон вместе с коллегами проанализировали тексты 566 книг и статей различной тематики как научного, так и ненаучного характера, написанных авторами обоих полов. Исходные материалы были взяты из компьютерной базы, именуемой British National Corpus. Статьи и книги, тексты которых в суме содержали более 20 млн. слов, были проанализированы с помощью компьютерной программы WINNOW. Подсчитывалась частота употребления различных слов и словосочетаний, форм глаголов, имён прилагательных, предлогов и т.д. и даже количество знаков препинания (запятых, восклицательных знаков и т.п.).
В ходе анализа программой была выделена 1 081 характерная "особенность", отличающая произведения авторов-мужчин и женщин. После серии повторных анализов из полученной массы отличий были выбраны наиболее показательные черты, число которых составило 128 (список исходной литературы и "особенностей" можно увидеть по следующему адресу) .
В дальнейшем набор выбранных особенностей использовался для анализа новых анонимных текстов. Результаты показали, что в 4 случаях из 5 пол автора определялся правильно.
Как показал анализ, тексты, написанные мужчинами и женщинами, отличаются по стилю изложения и частоте употребления отдельных слов.
В частности, женщины склонны чаще, чем мужчины, использовать грамматические формы и предлоги, связанные с личными взаимоотношениями. Как отмечает Аргамон, "Женщинам свойственен более "интерактивный" стиль изложения. У них наблюдается стремление установить контакт между автором и читателем". В общем, у представительниц прекрасного пола наблюдается более сильная "апелляция к чувствам" читателя, чем у авторов-мужчин.
С другой стороны, у сильной части человечества отмечается более частое употребление цифр, имён прилагательных и определяющих слов.
Мужчины, в отличие от женщин, чаще употребляют слова, связанные с "конкретизацией" информации – "этот", "такой, как", "тот", "такой", неопределённый артикль и "один". Писательницы уделяют больше внимания слову "она", а также грамматическим формам, используемым для обозначения логической взаимосвязи, например, "для того, чтобы", "вместе с", "в", чаще используют союз "и" и наречие "нет". Местоимение "он" используется обоими полами с приблизительно одинаковой частотой.
Аргамон отмечает, что пока не имеет каких-либо очевидных версий относительно того, какие особенности психики или социального поведения мужчин и женщин могут лежать в основе обнаруженных отличий в структуре написанных ними произведений. По его словам, "это предмет для будущих исследований".
Как было отмечено выше, при испытаниях программы последняя не всегда выдавала верный результат (правильность составляла около 80 %). Так, в частности, книга научного фантаста Майкла Фрейна (Michael Frayn) "Высадка на Солнце" (A Landing on the Sun) была идентифицирована как написанная женщиной. Встречались и обратные варианты.
Программа Шломо Аргамона по определению пола является частным вариантом более общей методики под названием "stylometry" (от англ. style – стиль, манера, и греч. "мерить"), которая предназначена для анализа не только письменных произведений, но также музыки, живописи, архитектуры и других форм искусства.
Практическое применение предложенной программы, не смотря на кажущийся, на первый взгляд, чисто теоретический интерес, довольно широкое. Фактически, анализ стилистических и иных особенностей текста уже давно используется для определения авторства текстов в криминалистике, литературе, истории и т.д.
Так, например, личность американского террориста, известного как Unabomber, на протяжении 17 лет занимавшегося диверсиями и пойманного в 1995, была, наконец, установлена (Theodore Kaczynski) лишь после того, как его брат Дэвид провёл сравнение заявление террориста, объёмом 35 тыс. слов, с его более ранними записками.
Работа, проведённая Аргамоном и коллегами, является первой, официально подтверждающей отличия в стиле изложения материала на письме между мужчинами и женщинами. По словам Дебора Таннена (Deborah Tannen), профессора лингвистики Джорджтаунского университета, Вашингтон, это весьма любопытно, поскольку написание статьи или книги не требует непосредственного межличностного взаимодействия (в котором, как считается, и проявляются основные различия в стилях поведения и общения между представителями противоположных полов).