Ciberseguridad
Anticipando nuevos dominios de spam a través del aprendizaje automático

Los investigadores de Francia han ideado un método para identificar dominios recién registrados que probablemente se utilicen de manera “golpe y huida” por spammers de correo electrónico de alto volumen, a veces incluso antes de que los spammers hayan enviado un solo correo electrónico no deseado.
La técnica se basa en el análisis de la forma en que se ha configurado el Marco de política de remitente (SPF), un método de verificación de la procedencia del correo electrónico, en los dominios recién registrados.
Gracias al uso de sensores de DNS pasivos, los investigadores pudieron obtener datos de DNS en tiempo casi real de la empresa con sede en Seattle, Farsight, lo que les proporcionó la actividad de SPF para registros TXT de una serie de dominios.
Utilizando un algoritmo de peso de clase originalmente diseñado para procesar datos médicos desequilibrados y implementado en la biblioteca de aprendizaje automático de Python, scikit-learn, los investigadores pudieron detectar tres cuartas partes de los dominios de spam pendientes en cuestión de momentos, o incluso con anticipación a su operación.
El documento establece:
‘Con una sola solicitud al registro TXT, detectamos el 75% de los dominios de spam, posiblemente antes del inicio de la campaña de spam. Por lo tanto, nuestro esquema aporta una importante velocidad de reacción: podemos detectar a los spammers con un buen rendimiento incluso antes de que se envíe cualquier correo electrónico y antes de un pico en el tráfico de DNS.’
Los investigadores afirman que las características utilizadas en su técnica podrían agregarse a los sistemas de detección de spam existentes para aumentar el rendimiento, y sin agregar una sobrecarga de cálculo significativa, ya que el sistema se basa en datos de SPF inferidos pasivamente de fuentes de DNS en tiempo casi real que ya se utilizan para diferentes enfoques del problema.
El documento se titula Detección temprana de dominios de spam con DNS pasivo y SPF, y proviene de tres investigadores de la Universidad de Grenoble.
Actividad de SPF
El SPF está diseñado para evitar el spoofing de direcciones de correo electrónico, verificando que se ha utilizado una dirección IP registrada y autorizada para enviar un correo electrónico.

En este ejemplo de SPF, ‘Alice’ envía un correo electrónico benigno a ‘Bob’, mientras que el atacante ‘Mallory’ intenta impersonar a Alice. Ambos envían correo desde sus propios dominios, pero solo el servidor de Alice está registrado para enviar el correo de Alice, por lo que el spoof de Mallory es frustrado cuando su correo falso falla la verificación de SPF. Source: https://arxiv.org/pdf/2205.01932.pdf
Otros métodos de verificación de correo electrónico incluyen Firmas de correo electrónico identificado por DomainKeys (DKIM) y Autenticación, informes y conformidad basados en dominio (DMARC).
Todos los tres métodos deben registrarse como registros TXT (configuraciones) en el registrador de dominios para el dominio de envío auténtico.
Spam y quema
Los spammers exhiben un ‘comportamiento de firma’ en este sentido. Su intención (o, al menos, el efecto colateral de sus actividades) es ‘quemar’ la reputación del dominio y sus direcciones IP al enviar correo electrónico masivo hasta que se tome alguna medida por parte de los proveedores de redes que venden estos servicios; o las direcciones IP asociadas se registren en listas de spam populares, lo que las hace inútiles para el remitente actual (y problemáticas para los futuros propietarios de las direcciones IP).

Una ventana de oportunidad estrecha: el tiempo, en horas, antes de que un nuevo dominio de spam sea prohibido y se vuelva inútil por SpamHaus y otros servicios de monitoreo.
Cuando la ubicación del dominio ya no es práctica, los spammers se mudan a otros dominios y servicios según sea necesario, repitiendo el procedimiento con nuevas direcciones IP y configuraciones.
Datos y métodos
Los dominios estudiados para la investigación cubren el período de tiempo entre mayo y agosto de 2021, según lo proporcionado por Farsight. Solo se consideraron dominios recién registrados, ya que esto se ajusta al modus operandi del spammer persistente.
La lista de dominios se construyó a partir de datos del Servicio de datos de zona central de ICANN (CZDS). Se utilizó información de lista negra de los proyectos SURBL y SpamHaus para efectuar la identificación en tiempo casi real de registros de dominios nuevos potencialmente problemáticos – aunque los autores admiten que la naturaleza imperfecta de las listas de spam puede llevar a que dominios benignos sean categorizados accidentalmente como fuentes potenciales de correo electrónico masivo.
Después de capturar consultas de DNS TXT a los dominios recién registrados encontrados en la fuente de DNS pasiva, solo se retuvieron las consultas con datos de SPF válidos, lo que proporcionó la verdad fundamentada para los algoritmos.

El SPF tiene una serie de características utilizables; el nuevo documento ha encontrado que, mientras que los propietarios de dominios ‘benignos’ utilizan más comúnmente el mecanismo +include, los spammers tienen el uso más alto de la característica (ahora en desuso) +ptr.

Uso de reglas de SPF de spammers, en comparación con el uso estándar.
Una búsqueda de +ptr compara la dirección IP del correo electrónico que se envía con los registros que existen para una asociación entre esa IP y el nombre de host (es decir, GoDaddy). Si se descubre el nombre de host, su dominio se compara con el que se utilizó inicialmente para hacer referencia al registro de SPF.
Los spammers pueden explotar la aparente rigidez de +ptr para presentarse de manera más creíble, cuando en realidad los recursos necesarios para realizar búsquedas de +ptr a gran escala hacen que muchos proveedores omitan la verificación por completo.
En resumen, la forma en que los spammers utilizan el SPF para asegurarse una ventana de oportunidad antes de que comience la operación de ‘disparo y quema’, representa una firma característica que puede inferirse mediante análisis de máquina.

Relaciones SPF características para dominios de spam.
Dado que los spammers a menudo se mudan a rangos de IP y recursos muy cercanos, los investigadores desarrollaron un gráfico de relación para explorar la correlación entre rangos de IP y dominios. El gráfico se puede actualizar casi en tiempo real en respuesta a nuevos datos de SpamHaus y otras fuentes, lo que lo hace más útil y completo con el tiempo.
Los investigadores afirman:
‘El estudio de estas estructuras puede destacar posibles dominios de spam. En nuestro conjunto de datos, encontramos [estructuras] en las que decenas de dominios utilizaban la misma [regla de SPF] y la mayoría de ellos aparecieron en listas negras de spam. Como tal, es razonable asumir que los dominios restantes probablemente no hayan sido detectados o no sean dominios de spam activos todavía.’
Resultados
Los investigadores compararon la latencia de detección de dominios de spam de su enfoque con la de SpamHaus y SURBL durante un período de 50 horas. Informan que para el 70% de los dominios de spam identificados, su propio sistema fue más rápido, aunque admiten que el 26% de los dominios de spam identificados aparecieron en las listas negras comerciales en la siguiente hora. El 30% de los dominios ya estaban en una lista negra cuando aparecieron en la fuente de DNS pasiva.
Los autores reclaman una puntuación F1 del 79% con respecto a la verdad fundamentada basada en una sola consulta de DNS, mientras que los métodos competitivos como Exposure pueden requerir una semana de análisis preliminar.
Observan:
‘Nuestro esquema se puede aplicar en las etapas iniciales del ciclo de vida de un dominio: utilizando DNS pasivo (o activo), podemos obtener reglas de SPF para dominios recién registrados y clasificarlos de inmediato, o esperar hasta que detectemos consultas de TXT a ese dominio y refinar la clasificación utilizando características temporales difíciles de evadir.’
Y continúan:
‘[Nuestro] mejor clasificador detecta el 85% de los dominios de spam mientras mantiene una tasa de falsos positivos por debajo del 1%. Los resultados de la detección son notables considerando que la clasificación solo utiliza el contenido de las reglas de SPF del dominio y sus relaciones, y características difíciles de evadir basadas en el tráfico de DNS.
‘El rendimiento de los clasificadores se mantiene alto, incluso si solo se les proporcionan las características estáticas que se pueden recopilar de una sola consulta de TXT (observada pasivamente o consultada activamente).’
Para ver una presentación sobre el nuevo método, consulte el video incrustado a continuación:
Publicado por primera vez el 5 de mayo de 2022.












