CÃber segurança
Antecipação de novos domÃnios de spam por meio do aprendizado de máquina

Pesquisadores da França criaram um método para identificar domÃnios recém-registrados que provavelmente serão usados ​​de forma 'bater e fugir' por spammers de alto volume de e-mail - à s vezes, mesmo antes de os spammers enviarem um e-mail indesejado.
A técnica é baseada na análise da forma como o Sender Policy Framework (SPF), um método de verificação de proveniência de e-mail, foi configurado em domÃnios recém-registrados.
Graças ao uso de passiva DNS (Domain Name System), os pesquisadores conseguiram obter dados de DNS quase em tempo real da empresa Farsight, com sede em Seattle, produzindo atividade SPF para Registros TXT para uma gama de domÃnios.
Usando um algoritmo de peso de classe originalmente projetado para processamento de dados médicos desequilibrados, e implementado no scikit-learn Biblioteca Python de aprendizado de máquina, os pesquisadores conseguiram detectar três quartos dos domÃnios de spam pendentes em poucos instantes, ou mesmo antes de sua operação.
O artigo afirma:
'Com uma única solicitação ao registro TXT, detectamos 75% dos domÃnios de spam, possivelmente antes do inÃcio da campanha de spam. Assim, nosso esquema traz uma velocidade de reação importante: podemos detectar spammers com bom desempenho antes mesmo de qualquer e-mail ser enviado e antes de um pico no tráfego DNS.'
Os pesquisadores afirmam que os recursos usados ​​em sua técnica podem ser adicionados aos sistemas de detecção de spam existentes para aumentar o desempenho e sem adicionar sobrecarga de computação significativa, uma vez que o sistema depende de dados SPF inferidos passivamente a partir de feeds de DNS quase em tempo real que já estão em uso. para diferentes abordagens do problema.
O MVP da papel é intitulado Detecção antecipada de domÃnios de spam com DNS passivo e SPF, e vem de três pesquisadores da Universidade de Grenoble.
Atividade SPF
O SPF foi projetado para evitar a falsificação de endereços de e-mail, verificando se um endereço IP registrado e autorizado foi usado para enviar um e-mail.

Neste exemplo de SPF, 'Alice' envia um e-mail benigno para 'Bob', enquanto o invasor 'Mallory' tenta se passar por Alice. Ambos estão enviando e-mails de seus próprios domÃnios, mas apenas o servidor de Alice está registrado para enviar e-mails de Alice, então a falsificação de Mallory é frustrada quando seu e-mail falso falha na verificação do SPF. Fonte: https://arxiv.org/pdf/2205.01932.pdf
Outros métodos de verificação de e-mail incluem DomainKeys Identified Mail (DKIM) Assinaturas e autenticação, relatórios e conformidade de mensagens baseadas em domÃnio (DMARC).
Todos os três métodos devem ser registrados como registros TXT (definições de configuração) no registrador de domÃnio para o domÃnio de envio autêntico.
Spam e Burn
Os spammers exibem 'comportamento de assinatura' a esse respeito. Sua intenção (ou, pelo menos, o efeito colateral de suas atividades) é 'queimar' a reputação do domÃnio e seus endereços IP enviando mensagens em massa até que qualquer ação seja tomada pelos provedores de rede que vendem esses serviços; ou os endereços IP associados são registrados em listas populares de filtros de spam, tornando-os inúteis para o remetente atual (e problemáticos para os futuros proprietários dos endereços IP).

Uma estreita janela de oportunidade: o tempo, em horas, antes que um novo domÃnio de spam seja banido e inutilizado pela SpamHaus e vários outros serviços de monitoramento.
Quando a localização do domÃnio não é mais viável, os spammers passam para outros domÃnios e serviços conforme necessário, repetindo o procedimento com novos endereços IP e configurações.
Dados e métodos
Os domÃnios estudados para a pesquisa abrangem o perÃodo de maio a agosto de 2021, conforme fornecido pelo Farsight. Apenas domÃnios recém-registrados foram considerados, pois isso está de acordo com o modus operandi do spammer persistente.
A lista de domÃnios foi criada com base em dados do Serviço de Dados da Zona Central da ICANN (CZDS). Informações da lista negra do SURBL e SpamHaus projects foi usado para efetuar a identificação quase em tempo real de novos registros de domÃnio potencialmente problemáticos – embora os autores admitam que a natureza imperfeita das listas de spam pode levar a domÃnios benignos sendo acidentalmente categorizados como fontes potenciais de email em massa.
Depois de capturar as consultas DNS TXT para os domÃnios recém-registrados encontrados no feed DNS passivo, apenas as consultas com dados SPF válidos foram retidas, fornecendo a verdade básica para os algoritmos.
O SPF possui vários recursos utilizáveis; o novo artigo descobriu que, embora os proprietários de domÃnios "benignos" usem com mais frequência o +incluir mecanismo, os spammers têm o maior uso do (agora obsoleto) +ptr integrado.

Uso da regra SPF de spammers, em comparação com o uso padrão.
Uma pesquisa +ptr compara o endereço IP do e-mail de envio com quaisquer registros existentes para uma associação entre esse IP e o nome do host (ou seja, GoDaddy). Se o nome do host for descoberto, seu domÃnio será comparado ao primeiro usado para fazer referência ao registro SPF.
Os spammers podem explorar o aparente rigor do +ptr para se apresentarem de uma maneira mais confiável, quando, na verdade, os recursos necessários para realizar pesquisas +ptr em escala fazem com que muitos provedores pulem totalmente a verificação.
Em suma, a maneira como os spammers usam o SPF para garantir uma janela de oportunidade antes do inÃcio da operação 'explodir e queimar' representa uma assinatura caracterÃstica que pode ser inferida pela análise da máquina.

Relacionamentos SPF caracterÃsticos para domÃnios de spam.
Como os spammers geralmente se movem para intervalos e recursos de IP muito próximos, os pesquisadores desenvolveram um gráfico de relacionamento para explorar a correlação entre intervalos de IP e domÃnios. O gráfico pode ser atualizado quase em tempo real em resposta a novos dados do SpamHaus e outras fontes, tornando-se mais útil e completo com o passar do tempo.
Os pesquisadores afirmam:
'O estudo dessas estruturas pode destacar potenciais domÃnios de spam. Em nosso conjunto de dados, encontramos [estruturas] nas quais dezenas de domÃnios usavam a mesma regra [SPF] e a maioria deles aparecia em listas negras de spam. Como tal, é razoável supor que os domÃnios restantes provavelmente ainda não foram detectados ou ainda não são domÃnios de spam ativos.'
Mensuráveis
Os pesquisadores compararam a latência de detecção de domÃnio de spam de sua abordagem com SpamHaus e SURBL em um perÃodo de 50 horas. Eles relatam que para 70% dos domÃnios de spam identificados, seu próprio sistema foi mais rápido, embora admitam que 26% dos domÃnios de spam identificados apareceram nas listas negras comerciais na hora seguinte. 30% dos domÃnios já estavam em uma lista negra quando apareceram no feed de DNS passivo.
Os autores reivindicam uma pontuação F1 de 79% contra a verdade baseada em uma única consulta de DNS, enquanto métodos concorrentes, como Exposição pode exigir uma semana de análise preliminar.
Eles observam:
'Nosso esquema pode ser aplicado nos estágios iniciais do ciclo de vida de um domÃnio: usando DNS passivo (ou ativo), podemos obter regras SPF para domÃnios recém-registrados e classificá-los imediatamente, ou esperar até detectarmos consultas TXT para esse domÃnio e refinar o classificação usando recursos temporais difÃceis de evitar.'
E continue:
'[Nosso] melhor classificador detecta 85% dos domÃnios de spam enquanto mantém uma taxa de falsos positivos abaixo de 1%. Os resultados da detecção são notáveis, uma vez que a classificação usa apenas o conteúdo das regras SPF do domÃnio e seus relacionamentos, e recursos difÃceis de evadir com base no tráfego DNS.
'O desempenho dos classificadores permanece alto, mesmo se eles receberem apenas os recursos estáticos que podem ser obtidos a partir de uma única consulta TXT (observada passivamente ou consultada ativamente).'
Para ver uma apresentação sobre o novo método, confira o vÃdeo incorporado abaixo:
Publicado pela primeira vez em 5 de maio de 2022.