KLIRIK.NAROD.RU > ГЛАВНАЯ | ДОБАВИТЬ В ИЗБРАННОЕ | ПОМОЩЬ |
|
|||||||||||||||||||||||||||
Антиспам BayesIt!Последнее обновление: Zakladki.ruДобавить сайт: Ваш архив: Другие места
|
BayesIt! 0.3aАвтором данной статьи написан антиспамерский фильтр-плагин для The Bat! 1.63 beta 7 (и старше). Скачать фильтр можно здесь. (120кб). (ВНИМАНИЕ! Устаревшая версия. Последнюю ищите здесь) Фильтр работает на вышеописанном статистическом принципе и реализует методы Пауля Грэхема и Гари Робинсона. Основными отличиями от других фильтров и методов фильтрации являются следующие черты:
Единственным недостатком фильтра является необходимость в достаточно большом количестве спама для его тренировки (желательно не менее 500 писем). Однако этот недостаток достаточно быстро исправляется при большом потоке спама. Также вы можете воспользоваться уже готовым частотным словарём спама (создан 21 мая 2003, содержит токены от 2046 писем) (Скачать — 634кб). Существенным преимуществом фильтра является то, что его второй оценочной "половиной" являются ваши обычные, не-спамерские письма, которые у разных пользователей совершенно разные. Это означает, что у каждого из пользователей возникает своя оценочная база, существенно отличающаяся от баз других пользователей. А значит, спамер уже не сможет смоделировать у себя "прохождение" фильтра, поскольку каждый пользователь, по сути, имеет свой собственный фильтр. Установка фильтраРаспакуйте архив с фильтром в папку, откуда вы будете с ним работать, и откройте файл settings.ini в текстовом редакторе. В самом низу файла вы найдёте параметр "path to resource file". Этот параметр нужно отредактировать так, чтобы он указывал на точное местоположения файла resbayes.ru.dll (для русского интерфейса) или resbayes.en.dll (для английского). Сохраните изменения в файле и запустите файл learnengine.exe. Если изменения были внесены корректно, вы увидите окно менеджера фильтра. Если вы раньше никогда не работали с данным фильтром, то для начала вам нужно создать статистическую оценочную базу. Сначала создаются частотные словари, для чего вам нужно просто указать, в какой из словарей (спам или не-спам) предназначены письма, и выбрать соответствующий корпус писем, нажав кнопку "Обработка...". Фильтр воспринимает почтовые папки The Bat! (файлы *.tbb). Естественно, письма спама и не-спама должны лежать в разных папках, и должны быть корректно адресованы в соответствующие частотные словари. При обработке очередной почтовой папки вам необязательно ждать её окончания: вы можете запускать одновременную обработку множества папок (по умолчанию — до 50 одновременно). Также можно открыть ранее сохранённый частотный словарь (файлы *.bye). Обратите внимание, что наилучшую эффективность фильтр обеспечивает, когда у вас примерно равное количество писем спама и не-спама. Затем, когда оба частотных словаря созданы, перейдите на вторую вкладку менеджера и нажмите кнопку "создать". На основании существующих частотных словарей будет создана статистическая оценочная база. Эту базу нужно сохранить (кнопка "сохранить..."). Затем нужно зайти в "опции..." и в разделе "оценочная база и обработка" указать путь к созданной оценочной базе. Там же вы можете указать пути к другим служебным файлам, которые используются фильтром. По умолчанию все параметры фильтра настроены на оптимальную эффективность. На этом начальная настройка фильтра завершена. Дальнейшую информацию по работе с фильтром можно найти на страничке ЧаВО. Для установки фильтра, запустите The Bat!, и в "настройках" - "protection" - "anti-spam" укажите путь к файлу плагина (bayes.tbp). В случае возникновения ошибок — например, при "зависании" менеджера в процессе обработки корпуса писем (что очень редко, но всё же иногда бывает), запустите обработку этого корпуса одним потоком (т.е. чтобы вместе с ним одновременно не обрабатывался больше ни один другой корпус), и когда возникнет "зависание" запомните число писем, на котором это случилось. Затем запустите утилиту BayesXTract.exe, укажите в качестве первого параметра путь к "проблемному" корпусу, в качестве второго - число писем, на котором случилось зависание, и нажмите кнопку "Extract...". Проблемное письмо будет извлечено по указанному вами пути. Это письмо необходимо отправить вложением на адрес автора (a_n_vinogradov@mail.ru). Все подобные проблемы я буду исследовать и устранять.
|
||||||||||||||||||||||||||
Copyright © 2002 by Alexey N. Vinogradov (the owner of klirik.narod.ru) |