Архивы: по дате | по разделам | по авторам

Скоринг, спам и немножко заботы о пользователях

Архив
автор : Александр Амзин   19.01.2004

В сфере подсчета кредитных рисков существует такой термин — скоринг. Его используют для автоматического определения степени доверия клиенту.

В сфере подсчета кредитных рисков существует такой термин — скоринг. Его используют для автоматического определения степени доверия клиенту.

Представьте, что вы заполняете банковскую анкету, чтобы получить кредитную карту. Процедура выдачи карты обычно занимает не меньше двух-трех дней. Что же происходит в течение этого времени?

Когда банк только планировал начать работу с кредитными картами, была выделена некоторая сумма на компенсацию невозвращенных кредитов. Было проведено обслуживание сотен пользователей, менее половины которых вернули кредит. Параметры некредитоспособных граждан внесли в базу данных, которую оценщики кредитных рисков называют «кредитным кладбищем»1. Потом пришли математики и, исследуя «кладбище», вывели закономерности, позволяющие всесторонне проанализировать поступающие анкеты на предмет кредитоспособности.2

Скоринг — это очень просто. Допустим, вам 25 лет, у вас высшее образование, у вас уже были кредитные карты, ваша кредитная история безупречна — в российских условиях все это означает, что ваши шансы на получение кредита чрезвычайно высоки. Процесс вынесения кредитного решения упрощенно можно представить следующим образом.

- За высшее образование вы получаете 5 условных очков (или 0, если у вас его нет; или 7,5, если имеете второе высшее).

- Вам 25 лет — время карьерного роста сотрудников в РФ. Еще 3 очка. Или 2, если вы мало работали; или 0, если у вас нет опыта работы по специальности.

- Кредитная история — один из основных параметров для принятия решения о выдаче кредитов. Получайте 5 очков.

Итого: в нашем условном банке кредиты выдают, начиная с 10 условных очков. Вы получаете кредит в стандартном размере, так как набрали 13 очков. Чтобы претендовать на большую сумму, нужно набрать еще больше очков — к примеру, получить второе высшее3.

Здесь важно понять, что фактически скоринг-системы работают автоматически; так как все зависимости параметров многофакторны, внесение любых изменений в решение о кредитовании чревато неприятностями; обычно, если требуется уточнение скоринговых параметров в связи, к примеру, с изменением аудитории, — проводится очередной набор «кредитного кладбища».

Скоринг-система — это «черный ящик». Банковские работники не знают, какой параметр и как влияет на вынесение кредитного решения; представление клиента банка4 о своем кредитном статусе обычно не выходит за рамки собственного «достойного положения» в обществе. А система работает, деля, сортируя клиентов на группы, сравнивая группы, выделяя клиентов, которым можно доверять. Ежедневно приходят новые клиенты — и все повторяется вновь. Вам это ничего не напоминает?

Итак.

Каждый день я получаю 50–60 электронных писем. До десяти из них — тематические рассылки. До пяти — личные письма. Остальные — спам. Если для банка спамом является клиент, не возвративший деньги, то для пользователя электронной почты спамом является сообщение, на которое зря тратится время. Риск потери времени я, по аналогии с кредитным риском, предлагаю называть временны,м. Для борьбы с этими рисками придумано множество программ. Придуманы фильтры электронной почты, которые могут сортировать, удалять, модифицировать письма на основании созданных пользователем правил.

К сожалению, правила — не панацея. Их использование для борьбы со спамом похоже на заглядывание в глаза каждому заемщику (честные? нет?). А ведь в среднем письме содержится около пятнадцати параметров, каждый из которых может помочь выявить спам.

Представьте ситуацию: в результате войны провайдеров5 ваш домен оказался в черном списке провайдера вашего адресата. Приходите вы в банк, там смотрят в паспорт и говорят: знаете, вы кредит не получите, потому что родились в Калининграде. У нас по Калининграду плохая статистика.

Сортировка по ключевым словам тоже не спасает — представьте, как в банке вам не дают кредит потому, что вы «окаете». Здесь даже не обида возникает, а сомнение в адекватности сервиса6.

Стандартные программистские решения «в лоб» не годятся. Нельзя судить только по одному параметру. Требуется вынести суждение по совокупности.

Вторым (после примитивных фильтров) шагом к счастью был Bayes-алгоритм7. Проще говоря, он анализирует текст письма и по наличию в нем ключевых слов вычисляет вероятность, с которой письмо можно считать спамом. Одно из достоинств Bayes-алгоритма — устойчивость к различному написанию слов. Все помнят, что «Центр Американского Английского» убегал от фильтров, меняя русские буквы на латинские, заменяя «о» на нули, добавляя пробелы меж словами и меж буквами; Bayes ловит такие изыски на лету — ему что «корова», что «к о р о в а», что «к_о_р_о_в_а» — все едино. Эвристический алгоритм настолько хорош, что антиспам-плагин на основе Bayes-алгоритма был включен в состав известного почтовика The Bat! версий 2.00 и выше. Другим важным качеством является составление пользовательской базы данных — для успешного применения фильтра требуется накопить индивидуальную базу данных и взвесить коэффициенты уже по ней. Здесь плохо следующее: мне, к примеру, пачками приходят предложения отобедать в ресторанах, и все они отправляются в папку Junk. Боюсь, после запуска Bayesian мои знакомые, которые захотят предложить встретиться в ресторане (редко, но бывает), меня не поймут и не увидят. Другой мой любимый пример: поставьте фильтры на корпоративный адрес фармакологической организации и запросите сравнительный отчет о возбуждающих и стимулирующих средствах.

На самом деле Bayesian, если он широко распространится, станет скорее бичом пользователей, нежели лекарством.

- Для обновления его «спам-кладбища» требуется постоянно копить собственный спам. Это означает, что нельзя удалять письма с сервера — по крайней мере до того, как кто-нибудь не придумает такой сервер, который бы делал отчеты по Bayesian и отправлял пользователю. Пока же серверы борются со спамом радикально — одинаково для всех пользователей, без индивидуальной настройки базы.

- Алгоритм провоцирует спамеров на уменьшение числа ключевых предлагающих слов8 на единицу текста; известно, например, что обратная ситуация в свое время сложилась с поисковыми машинами, которые стали считать за doorway любую страницу с большой плотностью ключевых слов. Но нельзя игнорировать размытые тексты, которые ходят по e-mail. Коммерческие предложения станут длиннее, замаскируются под личные письма — это путь к смешению жанров, к преобразованию рекламного текста в доверительный эпистолярный монолог — и только.

- Еще одним недостатком является то, что Bayes не дает рекомендаций, он только вычисляет вероятности; правила отсева задаются пользователем — кто-то ставит «Mark As Spam» только при девяностопроцентной уверенности Bayes, а кто-то — при восьмидесятипроцентной. Как результат — пропускание спама в случае высокого порога и паранойя — в случае низкого.

Поэтому делаем еще один шаг: появилась программа SpamPal (www.spampal.org), которая ставится в качестве почтового сервера и в основном занимается анализом SMTP footprints. Она обращается к серверам, содержащим «черные списки» спамеров, причем эти списки можно подключать и отключать — так я, к примеру, избавился от китайского спама. Это называется — таргетинг. При правильной настройке программа убирает с глаз долой до 90% спама, хотя принцип ее заключается в элементарном фейс-контроле. Будучи сопряжена с любым Bayes-фильтром, она показывает чудеса ловкости.

Совершенно очевидно, что такая связка не идеальна. На момент написания статьи «Центр Американского Английского» рассылает письма одно другого краше: тут вам и вложение картинки вместо текста, и стихи, и нарочитая неграмотность. В среднем при помощи подобных уловок из полусотни писем сквозь мои фильтры проходит до пяти нежеланных. К счастью, письма гораздо легче сортировать, чем людей-заемщиков. И поэтому на рынке, похоже, появился лидер, старающийся сочетать в себе достоинства вышеперечисленных программ, — SpamAssassin9. Это front-end для Unix-систем. Один из продуктов для Windows, основанный на SpamAssassin, называется SAProxy10. Он поддерживает все правила SpamAssasin11, проверяет списки открытых ретрансляторов, осуществляет проверку по Bayes. Кроме того, он подключается к Vipul Razor12 — центру, содержащему спам-сигнатуры. По аналогии с кредитным скорингом этот центр является фактической копией кредитного бюро, в которое обращается банк для проверки кредитной истории клиента.

Недавно Пол Грэм, один из известных борцов со спамом, обнародовал свои соображения о Bayes13 вместе с прототипом системы, база которой содержит больше 150 тысяч «токенов», или признаков спама. Великолепное «спамерское кладбище». Только вот используется оно пока однобоко — веса коэффициентов не зависят от других, сравнение идет только с «белым списком» писем. А ведь при этом нужно понимать: если письмо со всеми атрибутами в высшей степени нормальное, то и вес «рекламных слов» должен уменьшаться — мало ли о чем люди болтают; по Интернету часто смешной спам пересылают — резать ли его на корню?

Реальность такова, что идеальная система борьбы со спамом одновременно является идеальной системой подписки на спам. При нынешних объемах электронной почты и нынешней степени социальной интеркоммуникации система для борьбы со спамом должна узнать мои предпочтения и пропускать то, что может мне пригодиться; покамест анализаторы просто уничтожают жанр рекламного письма, изымают из речи продавцов избитые слоганы; а ведь спам становится все более профессиональным: ваш адрес узнают там, где вы его оставили. Если же вы оставили его на сайте, значит, тот сайт вас заинтересовал. Представьте, что вы ходите только по металлургическим сайтам. Правильный спамер и вообще умный рекламщик пошлет вам только предложение листового проката, но никак не предложение купить красную икру по 850 рублей за килограмм (бывает и такое!). Спам, как и выдача кредита, — всего лишь способ интенсификации экономических отношений, превращения их из односторонних в двусторонние и обоюдовыгодные.

День, когда программа спросит вас, какое у вас образование, сколько вам лет, где вы любите отдыхать и какой у вас цвет волос, станет вашим первым днем информационного скоринга.

А через неделю ваша анкета попадет к составителям информационных бюллетеней нового поколения, которые рассылают только то, что не отнимет вашего времени.

— Спам? — спросит обычный гражданин. — Это то, что я читаю с удовольствием.


1 Существуют системы скоринга, не использующие «кредитного кладбища», но здесь мы их рассматривать не будем.
2 Подробнее о скоринге говорится здесь: www.franklin-grant. ru/ru/news/03.shtml и здесь: www.cfin.ru/finanalysis/banks/ scoring.shtml.
3 Кроме того, не все скоринговые параметры зависят напрямую от клиента банка. Некоторые ограничения накладываются самим банком.
4 Физического лица — в данном случае выдачи кредитных карт.
5 Ох, было, было, и не раз! И никакого перемирия.
6 Яркий пример — office.microsoft.com/assistance/preview. aspx?AssetID=HA010450051033&CTT=6&Origin=EC010553071033 — описывает «стоп-слова» для встроенного фильтра Outlook 2000. Среди различных правил там есть такое: Body contains ”more info” AND Body contains ”visit” AND Body contains ”$”. Думаю, бизнесмены, ежедневно получающие коммерческие предложения, а особенно господа, которые их составляют и рассылают заказчикам, оценили вклад Microsoft в развитие электронных коммуникаций.
7 Добавлен в Mozilla 1.4 и Thunderbird. 30 августа вышла версия MDaemon 6.8 со встроенным эвристическим анализом и Bayes-фильтром (www.altn.com/Download/Default.asp).
8 Ситуация такова, что среди предлагающих (а значит — блокируемых) слов встречаются, к примеру, «dear friend» и «dear (something)». Формулы приветствия как признак нежелательной информации — пожалуй, это тема для отдельной статьи.
9 www.spamassassin.org.
10 www.statalabs.com.
11 spamassassin.rediris.es/tests.html.
12 razor.sf.net.
13 www.paulgraham.com/spam.html.

© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.