Entre em contato

Antecipação de novos domínios de spam por meio do aprendizado de máquina

Cíber segurança

Antecipação de novos domínios de spam por meio do aprendizado de máquina

mm

Pesquisadores da França criaram um método para identificar domínios recém-registrados que provavelmente serão usados ​​de forma 'bater e fugir' por spammers de alto volume de e-mail - às vezes, mesmo antes de os spammers enviarem um e-mail indesejado.

A técnica é baseada na análise da forma como o Sender Policy Framework (SPF), um método de verificação de proveniência de e-mail, foi configurado em domínios recém-registrados.

Graças ao uso de passiva DNS (Domain Name System), os pesquisadores conseguiram obter dados de DNS quase em tempo real da empresa Farsight, com sede em Seattle, produzindo atividade SPF para Registros TXT para uma gama de domínios.

Usando um algoritmo de peso de classe originalmente projetado para processamento de dados médicos desequilibrados, e implementado no scikit-learn Biblioteca Python de aprendizado de máquina, os pesquisadores conseguiram detectar três quartos dos domínios de spam pendentes em poucos instantes, ou mesmo antes de sua operação.

O artigo afirma:

'Com uma única solicitação ao registro TXT, detectamos 75% dos domínios de spam, possivelmente antes do início da campanha de spam. Assim, nosso esquema traz uma velocidade de reação importante: podemos detectar spammers com bom desempenho antes mesmo de qualquer e-mail ser enviado e antes de um pico no tráfego DNS.'

Os pesquisadores afirmam que os recursos usados ​​em sua técnica podem ser adicionados aos sistemas de detecção de spam existentes para aumentar o desempenho e sem adicionar sobrecarga de computação significativa, uma vez que o sistema depende de dados SPF inferidos passivamente a partir de feeds de DNS quase em tempo real que já estão em uso. para diferentes abordagens do problema.

O MVP da papel é intitulado Detecção antecipada de domínios de spam com DNS passivo e SPF, e vem de três pesquisadores da Universidade de Grenoble.

Atividade SPF

O SPF foi projetado para evitar a falsificação de endereços de e-mail, verificando se um endereço IP registrado e autorizado foi usado para enviar um e-mail.

Neste exemplo de SPF, 'Alice' envia um e-mail benigno para 'Bob', enquanto o invasor 'Mallory' tenta se passar por Alice. Ambos estão enviando e-mails de seus próprios domínios, mas apenas o servidor de Alice está registrado para enviar e-mails de Alice, então a falsificação de Mallory é frustrada quando seu e-mail falso falha na verificação do SPF.

Neste exemplo de SPF, 'Alice' envia um e-mail benigno para 'Bob', enquanto o invasor 'Mallory' tenta se passar por Alice. Ambos estão enviando e-mails de seus próprios domínios, mas apenas o servidor de Alice está registrado para enviar e-mails de Alice, então a falsificação de Mallory é frustrada quando seu e-mail falso falha na verificação do SPF. Fonte: https://arxiv.org/pdf/2205.01932.pdf

Outros métodos de verificação de e-mail incluem DomainKeys Identified Mail (DKIM) Assinaturas e autenticação, relatórios e conformidade de mensagens baseadas em domínio (DMARC).

Todos os três métodos devem ser registrados como registros TXT (definições de configuração) no registrador de domínio para o domínio de envio autêntico.

Spam e Burn

Os spammers exibem 'comportamento de assinatura' a esse respeito. Sua intenção (ou, pelo menos, o efeito colateral de suas atividades) é 'queimar' a reputação do domínio e seus endereços IP enviando mensagens em massa até que qualquer ação seja tomada pelos provedores de rede que vendem esses serviços; ou os endereços IP associados são registrados em listas populares de filtros de spam, tornando-os inúteis para o remetente atual (e problemáticos para os futuros proprietários dos endereços IP).

Uma estreita janela de oportunidade: o tempo, em horas, antes que um novo domínio de spam seja banido e inutilizado pela SpamHaus e vários outros serviços de monitoramento.

Uma estreita janela de oportunidade: o tempo, em horas, antes que um novo domínio de spam seja banido e inutilizado pela SpamHaus e vários outros serviços de monitoramento.

Quando a localização do domínio não é mais viável, os spammers passam para outros domínios e serviços conforme necessário, repetindo o procedimento com novos endereços IP e configurações.

Dados e métodos

Os domínios estudados para a pesquisa abrangem o período de maio a agosto de 2021, conforme fornecido pelo Farsight. Apenas domínios recém-registrados foram considerados, pois isso está de acordo com o modus operandi do spammer persistente.

A lista de domínios foi criada com base em dados do Serviço de Dados da Zona Central da ICANN (CZDS). Informações da lista negra do SURBL e SpamHaus projects foi usado para efetuar a identificação quase em tempo real de novos registros de domínio potencialmente problemáticos – embora os autores admitam que a natureza imperfeita das listas de spam pode levar a domínios benignos sendo acidentalmente categorizados como fontes potenciais de email em massa.

Depois de capturar as consultas DNS TXT para os domínios recém-registrados encontrados no feed DNS passivo, apenas as consultas com dados SPF válidos foram retidas, fornecendo a verdade básica para os algoritmos.

O SPF possui vários recursos utilizáveis; o novo artigo descobriu que, embora os proprietários de domínios "benignos" usem com mais frequência o +incluir mecanismo, os spammers têm o maior uso do (agora obsoleto) +ptr integrado.

Uso da regra SPF de spammers, em comparação com o uso padrão.

Uso da regra SPF de spammers, em comparação com o uso padrão.

Uma pesquisa +ptr compara o endereço IP do e-mail de envio com quaisquer registros existentes para uma associação entre esse IP e o nome do host (ou seja, GoDaddy). Se o nome do host for descoberto, seu domínio será comparado ao primeiro usado para fazer referência ao registro SPF.

Os spammers podem explorar o aparente rigor do +ptr para se apresentarem de uma maneira mais confiável, quando, na verdade, os recursos necessários para realizar pesquisas +ptr em escala fazem com que muitos provedores pulem totalmente a verificação.

Em suma, a maneira como os spammers usam o SPF para garantir uma janela de oportunidade antes do início da operação 'explodir e queimar' representa uma assinatura característica que pode ser inferida pela análise da máquina.

Relacionamentos SPF característicos para domínios de spam.

Relacionamentos SPF característicos para domínios de spam.

Como os spammers geralmente se movem para intervalos e recursos de IP muito próximos, os pesquisadores desenvolveram um gráfico de relacionamento para explorar a correlação entre intervalos de IP e domínios. O gráfico pode ser atualizado quase em tempo real em resposta a novos dados do SpamHaus e outras fontes, tornando-se mais útil e completo com o passar do tempo.

Os pesquisadores afirmam:

'O estudo dessas estruturas pode destacar potenciais domínios de spam. Em nosso conjunto de dados, encontramos [estruturas] nas quais dezenas de domínios usavam a mesma regra [SPF] e a maioria deles aparecia em listas negras de spam. Como tal, é razoável supor que os domínios restantes provavelmente ainda não foram detectados ou ainda não são domínios de spam ativos.'

Mensuráveis

Os pesquisadores compararam a latência de detecção de domínio de spam de sua abordagem com SpamHaus e SURBL em um período de 50 horas. Eles relatam que para 70% dos domínios de spam identificados, seu próprio sistema foi mais rápido, embora admitam que 26% dos domínios de spam identificados apareceram nas listas negras comerciais na hora seguinte. 30% dos domínios já estavam em uma lista negra quando apareceram no feed de DNS passivo.

Os autores reivindicam uma pontuação F1 de 79% contra a verdade baseada em uma única consulta de DNS, enquanto métodos concorrentes, como Exposição pode exigir uma semana de análise preliminar.

Eles observam:

'Nosso esquema pode ser aplicado nos estágios iniciais do ciclo de vida de um domínio: usando DNS passivo (ou ativo), podemos obter regras SPF para domínios recém-registrados e classificá-los imediatamente, ou esperar até detectarmos consultas TXT para esse domínio e refinar o classificação usando recursos temporais difíceis de evitar.'

E continue:

'[Nosso] melhor classificador detecta 85% dos domínios de spam enquanto mantém uma taxa de falsos positivos abaixo de 1%. Os resultados da detecção são notáveis, uma vez que a classificação usa apenas o conteúdo das regras SPF do domínio e seus relacionamentos, e recursos difíceis de evadir com base no tráfego DNS.

'O desempenho dos classificadores permanece alto, mesmo se eles receberem apenas os recursos estáticos que podem ser obtidos a partir de uma única consulta TXT (observada passivamente ou consultada ativamente).'

Para ver uma apresentação sobre o novo método, confira o vídeo incorporado abaixo:

Documento: Detecção antecipada de domínios de spam com DNS passivo e SPF

 

Publicado pela primeira vez em 5 de maio de 2022.

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protegido]
Twitter: @manders_ai