Архивы: по дате | по разделам | по авторам

Истребитель спама

Архив
автор : Илья Щуров Voyager   19.12.2002

Именно на эту роль претендует новый программный продукт "Лаборатории Касперского" Kaspersky Anti-Spam. Общая идея - автоматическая фильтрация корреспонденции по определенным признакам. Ее не назовешь новой.

Именно на эту роль претендует новый программный продукт «Лаборатории Касперского» Kaspersky Anti-Spam. Общая идея - автоматическая фильтрация корреспонденции по определенным признакам. Ее не назовешь новой. Не новы и проблемы, которые связаны с этим подходом: неоднозначность самого термина «спам», большое разнообразие и изменчивость спаммерских сообщений, невозможность их идентификации только по формальным признакам, опасность «ложных срабатываний», когда за спам принимается обычное письмо. Разработчики попытались преодолеть все эти сложности. Получилось у них или нет - судите сами.

Концепция

Система Kaspersky Anti-Spam разрабатывалась совместно с компанией «Ашманов и партнеры». Если от «Лаборатории» система получила базовые методы работы с почтой и общий «антивирусный» подход, то «Ашманов и партнеры», на счету которых уже несколько проектов по работе с естественными языками, создали мощный лингвистический «движок», предназначенный для интеллектуальной идентификации спама по тексту сообщения. В результате должна была получиться система, которая будет фильтровать непрошенные массовые рассылки практически по всем известным и неизвестным признакам.

На данный момент «АнтиСпам» предназначен прежде всего для защиты малых и средних фирм. Технически он представляет собой программный модуль, устанавливаемый на почтовом сервере, и может заменить всю почтовую систему или же осуществлять только свои прямые антиспаммерские обязанности.

Чтобы пользователь не оказался жертвой неадекватного определения слова «спам», была введена подробнейшая классификация писем. Помимо основной одноименной рубрики верхнего уровня («Спам»), включающей в себя множество подрубрик (например, «Спам/Финансовые пирамиды»), существует еще несколько «ответвлений», вроде «Коммерческих предложений» (скажем, приглашения на семинары, которые могут содержать действительно интересную для компании информацию) или «Нецензурной корреспонденции», которая, очевидно, спамом не является, но которую тоже можно (и порой нужно) фильтровать. Система присваивает письмам тот или иной класс, а далее вступает в силу бизнес-логика - набор правил, которые задаются администратором по согласованию с руководством компании-пользователя. Эти правила и определяют, что следует делать с письмами, попадающими в те или иные рубрики, - удалять, пересылать на другие адреса или игнорировать 1. Таким образом, «АнтиСпам» - это не просто фильтр, а, скорее, специализированная система маршрутизации сообщений (рис. 1).

С изменчивостью и разнообразием современной почтовой флоры и фауны разработчики поступили так же, как «Лаборатория» уже несколько лет поступает с вирусами 2. Они создали постоянно обновляемую базу данных, в которую вносятся как сигнатуры - образцы новых спаммерских сообщений, так и эвристики - алгоритмы, позволяющие идентифицировать даже не известные до сих пор письма. Таким образом, фильтрация спама превращается в технологический процесс, где работает цепочка «человек - машина». Одним из компонентов этой цепочки является лингвистическая лаборатория, которая ежедневно анализирует полученные из разных источников спаммерские сообщения и обновляет вышеупомянутую базу на основе этих данных. В первую очередь в нее вносятся письма, ошибочно пропущенные системой за день, - чтобы не допустить их повторную рассылку. Затем лингвисты ищут новые характерные для спама словосочетания и тоже заносят их в базу, сопровождая дополнительной информацией (вес фразы, необходимость наличия других определенных слов и иные условия). Эта информация и составляет основу эвристических алгоритмов.

Анализ сообщений происходит не только по формальным признакам писем, таким как отсутствие явно указанного получателя или использование для отправки IP-адреса, принадлежащего открытому почтовому релею (давно известны так называемые RBL - Real-time Blackhole List), но и по их содержимому, причем способы анализа регулярно обновляются и по идее всегда должны соответствовать текущему положению дел в мире спама.

Теме «ложных срабатываний» тоже было уделено много внимания, поскольку цена потери важного делового письма, принятого за спам, может оказаться для компании очень высокой. Сказывается и лексика бизнес-сообщений, зачастую пересекающаяся с рекламным словарем спаммеров. Однако разработчики утверждают, что при каждом изменении антиспам-базы по ней прогоняется список из нескольких тысяч деловых писем, и изменение принимается, только если ни на одно из них система не среагировала. Кроме того, создатели «АнтиСпама» подчеркивают, что никогда не будут гарантировать стопроцентной фильтрации всех спаммерских сообщений, поскольку в этом случае количество неверно отсеянной корреспонденции возрастет во много раз. Система тестировалась на адресе info@kaspersky.com практически в реальных условиях и показала эффективность фильтрации в 80-90% при количестве ложных срабатываний около 0,01-0,05% (хотя эти цифры, как замечали сами разработчики, весьма условны).

Можно использовать стратегию доставки без фильтрации всех писем, пришедших с адресов сотрудников фирмы и партнеров (белые списки), а также архивировать спам, а не мгновенно его уничтожать, - именно таковы рекомендации разработчиков (рис. 2). Впрочем, целесообразность последнего, на мой взгляд, неочевидна: если спам-архив кто-то должен периодически просматривать, дабы отыскать полезные сообщения, то теряется вообще весь смысл фильтрации. Остается лишь ситуация, когда некое ожидаемое письмо не пройдет и его можно будет найти в архиве, например, по известному отправителю, что маловероятно. Так что вероятность потери письма из-за антиспаммерской фильтрации хоть и невелика, но все-таки существует.

Проблемы

Следует признать, что «Лаборатория Касперского» взялась за дело основательно. Ее представители приводили много цифр, свидетельствующих о том, что спам - такая же реальная угроза функционированию Сети, как и вирусы, и бороться с ним нужно профессионально и с размахом: круглосуточной поддержкой, ежедневным обновлением базы и прочими проявлениями непрерывной заботы о клиенте.

Получившийся продукт действительно поражает масштабами, универсальностью, гибкостью и способностью адаптироваться под постоянно изменяющиеся правила игры, которые, к сожалению, диктуются спаммерами. Чувствуется, что в него было вложено много сил, денег и времени. Это типичный суперсовременный самолет-истребитель, напичканный умной электроникой и последним вооружением, в комплекте со своей собственной службой наземного управления и разведки неприятельских сил.

Остается, однако, проблема: не получится ли так, что несмотря на все достоинства «АнтиСпам» окажется неприспособленным к выполнению своей задачи - как если бы кто-то попытался бороться с тараканами с помощью ковровых бомбардировок?

Такие опасения имеют под собой некоторые основания. Во-первых, нельзя не заметить, что те результаты, которые были получены во время тестирования (отсеяно 80-90% спама), являются далеко не окончательными по одной простой причине - спаммеры с этой системой сейчас не борются в силу ее нераспространенности.

Во-вторых, сама необходимость создания лингвистической лаборатории и ежедневных обновлений антиспам-базы подразумевает, что часть ненужных сообщений все-таки будет проходить через фильтры. Как уже говорилось, разработчики этого и не отрицают - однако это значит, что спаммеры могут перейти к стратегии «кочевых набегов», когда подбирается сообщение, проходящее через систему (а проверить, пройдет или нет, несложно - для этого спаммерам достаточно поставить «АнтиСпам» на свой сервер), после чего в тот же день (до обновления базы) оно рассылается максимально возможным тиражом. Эвристики не спасут, поскольку даже одно и то же сообщение может быть одновременно и спамом, и обычным письмом - в зависимости от контекста. Формальные методы тоже могут не сработать, иначе никакого контент-анализа не потребовалось бы вообще. Сейчас процент спама, неотличимого по содержанию от деловой корреспонденции, невелик, поскольку у рассылающих нет необходимости так маскироваться, однако с распространением «АнтиСпама» ситуация может измениться. Каким будет максимальный коэффициент отсеивания, безопасный с точки зрения ложных срабатываний, когда противоположная сторона ввяжется в борьбу?

Конечно, это не значит, что система неэффективна. Скорее всего, поток непрошенной массовой почты уменьшится в несколько раз - просто потому, что на обход защиты требуются силы, знания и фантазия, так что совсем «зеленые» или просто глупые и ленивые рассыльщики не смогут с ней бороться. Вначале установка «АнтиСпама» может дать и лучшие результаты - опять же, спаммеры не обратят на него внимания, пока этот продукт не получит широкого распространения. Если же все-таки наступит день, когда практически в каждой фирме будет стоять по «АнтиСпаму», может произойти снижение конкуренции на соответствующем рынке, поднятие цен на рассылки и, как следствие, уменьшение объемов ненужной почты. Такое вполне реально, и точно предсказать результаты сейчас нельзя - все зависит от того, насколько трудно (то есть дорого) будет обойти «АнтиСпам». Хотя, с другой стороны, по предположениям «Лаборатории Касперского» к 2005 году 50% всего сетевого трафика будет составлять именно спам. Сможет ли появление в принципе преодолимой преграды заметно сократить этот показатель?

Стоит вспомнить и про такой ключевой параметр, как стоимость сервиса для пользователей. Очевидно, что чем система мощнее и сложнее, тем дороже она обойдется, а данный продукт претендует на звание очень мощного средства борьбы со спамом. Планируемая цена годовой подписки на защиту более ста адресов (а лицензироваться «АнтиСпам» будет именно так - поадресно) составляет от 8,1 у.е. за адрес. Согласятся ли компании платить такие деньги? Ведь помимо самой системы потребуются еще и дополнительные вычислительные мощности для ее работы, а они тоже не дармовые. Или проще и дешевле переплатить за трафик и потерять некоторое время на периодические нажатия кнопки «Удалить»?

На эти вопросы ответит только будущее.

Впрочем, разработчики смотрят в это самое будущее довольно оптимистично. По крайней мере, они анонсируют новые продукты на базе «АнтиСпама», в том числе выпуск к апрелю следующего года версии для домашних пользователей - в виде плагинов к основным почтовым клиентам (MS Outlook, в том числе Express, и The Bat!) 3.

И еще одна интересная деталь. На февраль 2003 года запланирована конференция по проблемам спама. Там соберутся спаммеры, представители противодействующих им организаций, люди, которые считают, что они занимаются не спамом, а честным директ-маркетингом, провайдеры… Очень любопытно, возможно ли такое мероприятие в принципе и обойдется ли на нем без рукоприкладства.


1 (обратно к тексту) - Изменение бизнес-логики - основной и практически единственный инструмент управления системой с точки зрения компании-пользователя. Создавать собственные правила фильтрации тоже можно, однако разработчики этого делать не рекомендуют, настаивая на принципе «защита от спама под ключ» из серии «установил и забыл».
2 (обратно к тексту) - Презентация системы проходила именно под таким девизом: «Спам - это текстовые вирусы».
3 (обратно к тексту) - По цене около 40 у.е. в год.
© ООО "Компьютерра-Онлайн", 1997-2018
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.