Конгбантабам Сусила Деви
Электронная почта является быстрым средством связи и экономически эффективным для пользователей. С другой стороны, количество пользователей электронной почты привело к интенсивному росту спам-писем за последние несколько эпох. Эта проблема спам-писем является одним из существенных рисков в Интернете. Растущее количество спам-писем повышает важность надежных антиспам-фильтров. Обычно спамеры отправляют нежелательные и незапрошенные письма разным получателям, и эти спам-писемы в основном идентичны по своим характеристикам. Следовательно, важно создать систему защиты, которая эффективно находит спам-писем и предоставляет альтернативный процесс для автономного фильтра. Таким образом, в этой статье предлагается новая структура для классификации электронной почты на спам и не спам-писем с использованием классификации случайных лесов на основе атрибутов. Процесс начинается с расчета вероятности спама по Байесу для каждого токена, схема взвешивания TF-IDF вычисляет вес для каждого токена и письма, расчет баллов выполняется на основе генетической приспособленности, и, наконец, процесс классификации выполняется с использованием классификатора случайных лесов для классификации писем на спам и не спам. Результаты сравниваются с существующими методами классификации спама с точки зрения точности классификации, взвешенной точности и меры F1. Результаты показывают, что предлагаемая система показывает многообещающие результаты по сравнению с другими существующими алгоритмами.