Кибербезопасность

Предвидение новых спам-доменов с помощью машинного обучения

Published May 5, 2022

Updated April 28, 2026

Martin Anderson

Исследователи из Франции разработали метод выявления недавно зарегистрированных доменов, которые, скорее всего, будут использоваться в режиме “удар и бег” высокообъемными спамерами – иногда даже до того, как спамеры отправили хотя бы одно нежелательное письмо.

Техника основана на анализе того, как Sender Policy Framework (SPF), метод проверки происхождения электронной почты, настроен на недавно зарегистрированных доменах.

Благодаря использованию пассивных DNS-сенсоров (системы доменных имен), исследователи смогли получить gần реальное время DNS-данных от компании Farsight, что дало SPF-активность для TXT-записей для диапазона доменов.

Используя алгоритм классических весов, первоначально разработанный для обработки несбалансированных медицинских данных и реализованный в библиотеке машинного обучения Python scikit-learn, исследователи смогли обнаружить три четверти ожидаемых спам-доменов в течение нескольких мгновений или даже до начала их работы.

В статье говорится:

‘С помощью одного запроса к TXT-записи мы обнаруживаем 75% спам-доменов, возможно, даже до начала спам-кампании. Таким образом, наша схема обеспечивает важную скорость реакции: мы можем обнаружить спамеров с хорошей производительностью даже до того, как будет отправлено любое письмо и до скачка DNS-трафика.’

Исследователи утверждают, что функции, используемые в их технике, могут быть добавлены к существующим системам обнаружения спама, чтобы повысить производительность, и без значительного вычислительного ओवरхеда, поскольку система полагается на SPF-данные, пассивно выводимые из gần реального времени DNS-лент, которые уже используются для различных подходов к этой проблеме.

Статья озаглавлена Раннее обнаружение спам-доменов с помощью пассивного DNS и SPF и исходит от трех исследователей Университета Гренобля.

Активность SPF

SPF предназначен для предотвращения подделки адресов электронной почты, проверяя, что зарегистрированный и авторизованный IP-адрес был использован для отправки электронного письма.

В этом примере SPF ‘Алиса’ отправляет доброкачественное электронное письмо ‘Бобу’, в то время как атакующий ‘Маллори’ пытается выдать себя за Алису. Оба отправляют почту со своих собственных доменов, но только сервер Алисы зарегистрирован для отправки почты Алисы, поэтому подделка Маллори пресекается, когда его фальшивое письмо не проходит проверку SPF. Источник: https://arxiv.org/pdf/2205.01932.pdf

Другие методы проверки электронной почты включают DomainKeys Identified Mail (DKIM)-подписи и Domain-based Message Authentication, Reporting, and Conformance (DMARC).

Все три метода должны быть зарегистрированы в качестве TXT-записей (конфигурационных настроек) в доменном регистраторе для аутентичного отправляющего домена.

Спам и сжигание

Спамеры демонстрируют ‘сигнатурное поведение’ в этом отношении. Их намерение (или, по крайней мере, побочный эффект их действий) заключается в том, чтобы ‘сжечь’ репутацию домена и его IP-адресов, разослав массовую почту, пока не будут приняты меры сетевыми провайдерами, продающими эти услуги, или пока связанные с ними IP-адреса не будут зарегистрированы в популярных списках фильтров спама, что делает их бесполезными для текущего отправителя (и проблематичными для будущих владельцев IP-адресов).

Узкое окно возможностей: время, в часах, до того, как новый спам-домен будет заблокирован и станет бесполезным для SpamHaus и других мониторинговых служб.

Когда домен больше не пригоден для использования, спамеры переходят к другим доменам и сервисам по мере необходимости, повторяя процедуру с новыми IP-адресами и конфигурациями.

Данные и методы

Домены, изученные в исследовании, охватывают период между майом и августом 2021 года, предоставленный Farsight. Были рассмотрены только свежезарегистрированные домены, поскольку это соответствует модус операнди настойчивого спамера.

Список доменов был построен на основе данных ICANN Central Zone Data Service (CZDS). Информация из черных списков проектов SURBL и SpamHaus использовалась для почти реального времени выявления потенциально проблемных новых регистраций доменов – хотя авторы признают, что несовершенная природа списков спама может привести к тому, что доброкачественные домены случайно будут классифицированы как потенциальные источники массовой почты.

После захвата DNS-запросов TXT к зарегистрированным доменам, найденным в пассивном DNS-потоке, были сохранены только запросы с действительными SPF-данными, что обеспечило основу для алгоритмов.

SPF имеет ряд полезных функций; новая статья обнаружила, что в то время как владельцы ‘доброкачественных’ доменов чаще всего используют механизм +include, спамеры имеют наибольшее использование (ныне устаревшей) функции +ptr.

Использование правил SPF спамерами по сравнению со стандартным использованием.

Функция +ptr сравнивает IP-адрес отправляющего почту с существующими записями об ассоциации между этим IP и хостнеймом (т.е. GoDaddy). Если хостнейм обнаружен, его домен сравнивается с доменом, который был первоначально использован для ссылки на SPF-запись.

Спамеры могут использовать +ptr, чтобы представить себя в более достоверном свете, когда на самом деле ресурсы, необходимые для проведения масштабных +ptr-поисков, заставляют многих провайдеров пропустить проверку.

Вкратце, способ, которым спамеры используют SPF, чтобы обеспечить окно возможностей до начала операции ‘удар и бег’, представляет собой характерную сигнатуру, которая может быть выведена с помощью машинного анализа.

Характерные SPF-отношения для спам-доменов.

Поскольку спамеры часто переходят к ближайшим диапазонам IP-адресов и ресурсам, исследователи разработали граф отношений, чтобы изучить корреляцию между диапазонами IP и доменами. Граф может быть обновлен почти в реальном времени в ответ на новые данные из SpamHaus и других источников, становясь более полезным и полным со временем.

Исследователи утверждают:

‘Изучение этих структур может выявить потенциальные спам-домены. В нашем наборе данных мы обнаружили [структуры], в которых десятки доменов использовали одно и то же [SPF]-правило, и большинство из них появилось в черных списках спама. Таким образом, вполне разумно предположить, что оставшиеся домены, скорее всего, еще не были обнаружены или еще не являются активными спам-доменами.’

Результаты

Исследователи сравнили задержку обнаружения спам-доменов их подхода с SpamHaus и SURBL за 50-часовой период. Они сообщают, что для 70% спам-доменов, выявленных их системой, она была быстрее, хотя и признают, что 26% выявленных спам-доменов появились в коммерческих черных списках в течение следующего часа. 30% доменов уже были в черном списке, когда они появились в пассивном DNS-потоке.

Авторы утверждают, что их схема может быть применена на ранних этапах жизненного цикла домена: используя пассивный (или активный) DNS, можно получить SPF-правила для недавно зарегистрированных доменов и классифицировать их сразу или дождаться обнаружения TXT-запросов к этому домену и уточнить классификацию, используя труднообходные временные функции.

Они наблюдают:

‘Наша схема может быть применена на ранних этапах жизненного цикла домена: используя пассивный (или активный) DNS, мы можем получить SPF-правила для недавно зарегистрированных доменов и классифицировать их сразу или дождаться обнаружения TXT-запросов к этому домену и уточнить классификацию, используя труднообходные временные функции.’

И продолжают:

‘Наш лучший классификатор обнаруживает 85% спам-доменов, сохраняя уровень ложных положительных результатов ниже 1%. Результаты обнаружения замечательны, учитывая, что классификация использует только содержание SPF-правил домена и их отношения, а также труднообходные функции, основанные на DNS-трафике.

‘Производительность классификаторов остается высокой, даже если им предоставляются только статические функции, которые можно собрать из одного TXT-запроса (наблюдаемого пассивно или активно запрошенного).’

Чтобы посмотреть презентацию о новом методе, посмотрите встроенное видео ниже: