Архивы: по дате | по разделам | по авторам

Истребитель спама

АрхивОфисные приложения (архив)
автор : Илья Щуров Voyager   17.12.2002

"Спам – это текстовые вирусы"

Именно на эту роль претендует новый программный продукт, представленный «Лабораторией Касперского». Общая идея — автоматическая фильтрация корреспонденции по определенным признакам. Ее не назовешь новой; не новы и проблемы, которые связаны с этим подходом: неоднозначность определения самого термина «спам», большое разнообразие и изменчивость спаммерских сообщений, отсутствие возможности их идентификации только по формальным признакам, опасность «ложных срабатываний», когда за спам принимается совершенно обычное письмо. Разработчики попытались преодолеть все эти сложности. Получилось это или нет — судите сами.

Концепция

Разработка системы Kaspersky Anti-Spam велась совместно с компанией «Ашманов и партнеры». Если от «Лаборатории» она получила базовые методы работы с почтой и общий «антивирусный» подход, то «Ашманов и партнеры», на счету которых уже несколько проектов по работе с естественными языками, создали мощный лингвистический «движок», предназначенный для интеллектуальной идентификации спама по тексту сообщения. В результате должна была получиться система, которая будет фильтровать непрошенные массовые рассылки практически по всем известным и неизвестным признакам.

На данный момент «АнтиСпам» предназначен прежде всего для защиты малых и средних фирм. Технически он представляет собой программный модуль, устанавливаемый на почтовом сервере, и может заменить собой всю почтовую систему или же осуществлять только свои прямые антиспаммерские обязанности.

Для того, чтобы пользователь не оказался жертвой неадекватного определения слова «спам», была введена очень подробная классификация писем. Помимо основной одноименной рубрики верхнего уровня («Спам»), включающей в себя множество подрубрик (например, «Спам/Финансовые пирамиды»), существует еще несколько «ответвлений», вроде «Коммерческих предложений» (скажем, приглашения на семинары, которые могут содержать действительно интересную для компании информацию) или «Нецензурной корреспонденции», которая, очевидно, спамом не является, но которую тоже можно (и иногда нужно) фильтровать. Система присваивает письмам тот или иной класс, а далее вступает в силу бизнес-логика — набор правил, которые задаются администратором по согласованию с руководством компании-пользователя. Эти правила и определяют, что следует делать с письмами, попадающими в те или иные рубрики — удалять, пересылать на другие адреса или просто игнорировать [1]. Таким образом, «АнтиСпам» — это не просто фильтр, а, скорее, специализированная система маршрутизации сообщений (рис. 1).


Рисунок 1. Схема работы «АнтиСпама»
(по щелчку мыши на картинке увеличенное изображение откроется в новом окне)

С изменчивостью и разнообразием современной почтовой флоры и фауны разработчики поступили так же, как «Лаборатория» уже несколько лет поступает с вирусами [2]. Они создали постоянно обновляемую базу данных, в которую вносятся как сигнатуры — образцы новых спаммерских сообщений, так и эвристики — алгоритмы, позволяющие идентифицировать даже неизвестные до сих пор письма. Таким образом фильтрация спама превращается в технологический процесс, где работает цепочка «человек — машина». Одним из компонентов этой цепочки является лингвистическая лаборатория, которая ежедневно анализирует полученные из разных источников спаммерские сообщения и обновляет вышеупомянутую базу на основе этих данных. В первую очередь в нее вносятся письма, ошибочно пропущенные системой за день — чтобы не допустить их повторную рассылку. Затем лингвисты ищут новые характерные для спама словосочетания и также заносят их в базу, сопровождая дополнительной информацией (вес фразы, необходимость наличия других определенных слов и иные условия). Эта информация и составляет основу эвристических алгоритмов.

Таким образом, анализ сообщений происходит не только по формальным признакам писем, таким как отсутствие явно указанного получателя или использование для отправки IP-адреса, принадлежащего открытому почтовому релею (давно известны так называемые RBL — Real-time Blackhole List), но и по их содержимому, причем способы этого анализа обновляются ежедневно и по идее всегда должны соответствовать текущему положению дел в мире спама.

Теме «ложных срабатываний» тоже было уделено много внимания, поскольку цена потери важного делового письма, принятого за спам, может оказаться для компании очень высокой. Сказывается и специфика лексики бизнес-сообщений, которая зачастую пересекается с рекламным словарем спаммеров. Однако разработчики утверждают, что при каждом изменении антиспам-базы по ней прогоняется список из нескольких тысяч обычных деловых писем, и изменение принимается только если ни на одно из них система не среагировала. Кроме того, создатели «АнтиСпама» подчеркивают, что никогда не будут гарантировать 100% фильтрации всех спаммерских сообщений, поскольку в этом случае количество неверно отсеянной корреспонденции возрастет во много раз. Система тестировалась на адресе info@kaspersky.com в практически реальных условиях и показала эффективность фильтрации в 80-90% при количестве ложных срабатываний около 0.01-0.05% (хотя эти цифры, как замечали сами разработчики, очень условны).

Можно использовать стратегию доставки без фильтрации всех писем, пришедших с адресов сотрудников фирмы и партнеров (белые списки), а также архивировать спам, а не мгновенно его уничтожать — именно таковы рекомендации разработчиков (рис. 2). Впрочем, целесообразность последнего, на мой взгляд, неочевидна: если этот спам-архив кто-то должен будет периодически просматривать в поисках полезных сообщений, то теряется вообще весь смысл фильтрации. Остается только ситуация, когда некое ожидаемое письмо не пройдет, и его можно будет найти в архиве, например, по известному отправителю, что довольно маловероятно. Так что вероятность потери письма из-за антиспаммерской фильтрации, хоть и невелика, но все-таки существует.


Рисунок 2. Создание спам-архива

Проблемы

Следует признать, что «Лаборатория Касперского» взялась за дело очень основательно. Ее представители приводили много цифр, свидетельствующих о том, что спам — такая же реальная угроза функционированию Сети, как и вирусы, и бороться с ним нужно профессионально и с размахом: круглосуточной поддержкой, ежедневным обновлением базы и прочими проявлениями непрерывной заботы о клиенте.

Продукт получился действительно поражающий своими масштабами, универсальностью, гибкостью и способностью адаптироваться под постоянно изменяющиеся правила игры, которые, к сожалению, диктуются спаммерами. Чувствуется, что в него было вложено много сил, денег и времени. Это типичный суперсовременный самолет-истребитель, напичканный умной электроникой и последним вооружением, в комлекте со своей собственной службой наземного управления и разведки неприятельских сил.

Остается, однако, проблема: не получится ли так, что несмотря на все свои достоинства и умения, «АнтиСпам» окажется не приспособленным к выполнению своей задачи — как если бы кто-то попытался бороться с тараканами с помощью ковровых бомбардировок?

Такие опасения имеют под собой некоторые основания. Во-первых, нельзя не заметить, что те результаты, которые были получены во время тестирования (отсеяно 80-90% спама), являются далеко не окончательными по одной простой причине — спаммеры с этой системой сейчас не борются в силу ее нераспространенности.

Во-вторых, сама необходимость создания лингвистической лаборатории и ежедневных обновлений антиспам-базы подразумевает, что часть ненужных сообщений все-таки будет проходить через фильтры. Как уже говорилось, этого разработчики и не отрицают — однако это значит, что спаммеры могут перейти к стратегии «кочевых набегов», когда подбирается сообщение, проходящее через систему (а проверить, пройдет или нет, несложно — для этого спаммерам достаточно поставить «АнтиСпам» на свой сервер), после чего в тот же день (до обновления базы) оно рассылается максимальным возможным тиражом. Эвристики не спасут, поскольку даже одно и то же сообщение может быть одновременно и спамом и обычным письмом — в зависимости от контекста. Формальные методы тоже могут не сработать — иначе никакого контент-анализа не потребовалось бы вообще. Сейчас процент спама, неотличимого по содержанию от деловой корреспонденции, невелик, поскольку у рассылающих нет необходимости так маскироваться, однако с распространением «АнтиСпама» ситуация вполне может измениться. Каков максимальный коэффициент отсеивания, безопасный с точки зрения ложных срабатываний, будет в том случае, когда противоположная сторона начнет свою борьбу?

Конечно, это не значит, что система неэффективна. Скорее всего, поток непрошеной массовой почты уменьшится в несколько раз — просто потому, что на обход защиты требуются некоторые силы, знания и фантазия, так что совсем «зеленые» или просто глупые и ленивые рассыльщики не смогут с ней бороться. В начале установка «АнтиСпама» может дать и лучшие результаты — опять же, спаммеры не обратят на него внимания, пока этот продукт не получит широкого распространения. Если же все-таки наступит день, когда практически в каждой фирме будет стоять по «АнтиСпаму», может произойти снижение конкуренции на соответствующем рынке, поднятие цен на рассылки и, как следствие, уменьшение объемов ненужной почты. Такое вполне реально, и точно предсказать результаты сейчас нельзя — все зависит от того, насколько сложно (т.е. дорого) будет обойти «АнтиСпам». Хотя, с другой стороны, по предположениям «Лаборатории Касперского» к 2005 году 50% всего сетевого трафика будет относиться именно к спаму. Сможет ли появление в принципе преодолимой преграды серьезно сократить этот показатель?

Стоит вспомнить и про такой ключевой параметр, как стоимость сервиса для пользователей. Очевидно, что чем система мощнее и сложне, тем дороже она обойдется, а данный продукт претендует на звание очень мощного средства по борьбе со спамом. Сейчас планируемая цена годовой подписки на защиту более 100 адресов (а лицензироваться «АнтиСпам» будет именно так — поадресно) составляет от 8.1 у.е. за адрес. Согласятся ли компании платить такие деньги? Ведь помимо самой системы потребуются еще и дополнительные вычислительные мощности для ее работы, а они тоже не бесплатны. Или проще и дешевле переплатить за траффик и потерять некоторое время на периодические нажатия кнопки «Удалить»?

На эти вопросы ответит только будущее.

***

Впрочем, разработчики смотрят в это самое будущее довольно оптимистично. По крайней мере, они анонсируют новые продукты на базе «АнтиСпама», в том числе выпуск к апрелю следующего года версии для домашних пользователей — в виде плагинов к основным почтовых клиентам (MS Outlook, в том числе Express, и The Bat) [3].

И еще одна интересная деталь. В феврале 2003 года планируется проведение конференции по проблемам спама, где соберутся спаммеры, представители противодействующих им организаций, люди, которые считают, что они занимаются не спамом, а честным директ-маркетингом, провайдеры... Очень любопытно, возможно ли такое мероприятие в принципе и обойдется ли на нем без рукоприкладства.


[1] — Изменение бизнес-логики — основной и практически единственный инструмент управления системой с точки зрения компании-пользователя. Создавать собственные правила фильтрации также можно, однако разработчики этого делать не рекомендуют, настаивая на принципе «защита от спама под ключ» из серии «установил-и-забыл».
[обратно к тексту]

[2] — Презентация системы проходила именно под таким девизом: «Спам — это текстовые вирусы».
[обратно к тексту]

[3] — По цене около 40 у.е. в год.
[обратно к тексту]

© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.