KLIRIK.NAROD.RU > ГЛАВНАЯ ДОБАВИТЬ В ИЗБРАННОЕ | ПОМОЩЬ
 [ Главная ] [ Лютеранство ] [ Полезности ] [ Гуделки ] [ Ссылки ] [ Форум ] [ Гостевая ] [ Автора! ]  
 

Антиспам BayesIt!

Последнее обновление:

Zakladki.ru

Добавить сайт:

Ваш архив:

Ваш персональный архив на Закладках.ru

Другие места

Карта сайта >

Оставить отзыв >

Обсудить >

Письмо автору >

 

BayesIt! 0.3a

Автором данной статьи написан антиспамерский фильтр-плагин для The Bat! 1.63 beta 7 (и старше).

Скачать фильтр можно здесь. (120кб). (ВНИМАНИЕ! Устаревшая версия. Последнюю ищите здесь)

Фильтр работает на вышеописанном статистическом принципе и реализует методы Пауля Грэхема и Гари Робинсона.

Основными отличиями от других фильтров и методов фильтрации являются следующие черты:

  1. Фильтр не требует никаких онлайн-баз и внешних обновлений. Вся работа может эффективно вестись на основании собственных писем пользовтеля.
  2. Обучение фильтра не подразумевает и не требует чтения спама пользователем.
  3. Возможно полностью автоматическое обучение.
  4. Распознаются русскоязычные "фокусы" с подменой некоторых букв латинскими.
  5. Распознаются мусорные HTML-заголовки, которые спамеры используют для разбиения слов на части, так чтобы визуально это было незаметно (например, ка<!--32345-->рова). Более того, сами эти мусорные заголовки воспринимаются как отдельные токены, и, поскольку встречаются они, как правило, только в спаме, их наличие в письме сразу увеличивает его "спамность". По сути, для спамеров срабатывает обратный эффект — вместо маскировки получается лишнее доказательство в пользу их нечистых намерений :)
  6. Разспознаются закодированные HTML-строки, где некоторые символы подменяются "процентными" кодами.
  7. Различаются токены, встретившиеся в заголовках писем от тех, что встречаются в "теле" письма.
  8. Фильтр безразличен к смешению регистра внутри слов.

Единственным недостатком фильтра является необходимость в достаточно большом количестве спама для его тренировки (желательно не менее 500 писем). Однако этот недостаток достаточно быстро исправляется при большом потоке спама. Также вы можете воспользоваться уже готовым частотным словарём спама (создан 21 мая 2003, содержит токены от 2046 писем) (Скачать — 634кб).

Существенным преимуществом фильтра является то, что его второй оценочной "половиной" являются ваши обычные, не-спамерские письма, которые у разных пользователей совершенно разные. Это означает, что у каждого из пользователей возникает своя оценочная база, существенно отличающаяся от баз других пользователей. А значит, спамер уже не сможет смоделировать у себя "прохождение" фильтра, поскольку каждый пользователь, по сути, имеет свой собственный фильтр.

Установка фильтра

Распакуйте архив с фильтром в папку, откуда вы будете с ним работать, и откройте файл settings.ini в текстовом редакторе. В самом низу файла вы найдёте параметр "path to resource file". Этот параметр нужно отредактировать так, чтобы он указывал на точное местоположения файла resbayes.ru.dll (для русского интерфейса) или resbayes.en.dll (для английского). Сохраните изменения в файле и запустите файл learnengine.exe. Если изменения были внесены корректно, вы увидите окно менеджера фильтра.

Если вы раньше никогда не работали с данным фильтром, то для начала вам нужно создать статистическую оценочную базу. Сначала создаются частотные словари, для чего вам нужно просто указать, в какой из словарей (спам или не-спам) предназначены письма, и выбрать соответствующий корпус писем, нажав кнопку "Обработка...". Фильтр воспринимает почтовые папки The Bat! (файлы *.tbb). Естественно, письма спама и не-спама должны лежать в разных папках, и должны быть корректно адресованы в соответствующие частотные словари. При обработке очередной почтовой папки вам необязательно ждать её окончания: вы можете запускать одновременную обработку множества папок (по умолчанию — до 50 одновременно). Также можно открыть ранее сохранённый частотный словарь (файлы *.bye). Обратите внимание, что наилучшую эффективность фильтр обеспечивает, когда у вас примерно равное количество писем спама и не-спама.

Затем, когда оба частотных словаря созданы, перейдите на вторую вкладку менеджера и нажмите кнопку "создать". На основании существующих частотных словарей будет создана статистическая оценочная база. Эту базу нужно сохранить (кнопка "сохранить...").

Затем нужно зайти в "опции..." и в разделе "оценочная база и обработка" указать путь к созданной оценочной базе. Там же вы можете указать пути к другим служебным файлам, которые используются фильтром.

По умолчанию все параметры фильтра настроены на оптимальную эффективность. На этом начальная настройка фильтра завершена.

Дальнейшую информацию по работе с фильтром можно найти на страничке ЧаВО.

Для установки фильтра, запустите The Bat!, и в "настройках" - "protection" - "anti-spam" укажите путь к файлу плагина (bayes.tbp).

В случае возникновения ошибок — например, при "зависании" менеджера в процессе обработки корпуса писем (что очень редко, но всё же иногда бывает), запустите обработку этого корпуса одним потоком (т.е. чтобы вместе с ним одновременно не обрабатывался больше ни один другой корпус), и когда возникнет "зависание" запомните число писем, на котором это случилось. Затем запустите утилиту BayesXTract.exe, укажите в качестве первого параметра путь к "проблемному" корпусу, в качестве второго - число писем, на котором случилось зависание, и нажмите кнопку "Extract...". Проблемное письмо будет извлечено по указанному вами пути. Это письмо необходимо отправить вложением на адрес автора (a_n_vinogradov@mail.ru). Все подобные проблемы я буду исследовать и устранять.

 


Copyright © 2002 by Alexey N. Vinogradov (the owner of klirik.narod.ru)
Используются технологии uCoz