Cibersegurança

Um Método de Aprendizado de Máquina para Bloquear Anúncios com Base no Comportamento do Navegador Local

Published July 26, 2021

Updated April 28, 2026

Martin Anderson

Pesquisadores na Suíça e nos EUA desenvolveram uma nova abordagem de aprendizado de máquina para a detecção de material de publicidade de sites com base na forma como tal material interage com o navegador, em vez de analisar seu conteúdo ou comportamento de rede – duas abordagens que se provaram ineficazes a longo prazo diante do mascaramento CNAME (veja abaixo).

Batizado de WebGraph, o framework utiliza uma abordagem de grafo-baseada em IA para detectar conteúdo promocional, concentrando-se em atividades essenciais da publicidade em rede – incluindo tentativas de telemetria e armazenamento local do navegador – de tal forma que a única técnica de evasão eficaz seria não realizar essas atividades.

Embora abordagens anteriores tenham alcançado taxas de detecção ligeiramente mais altas do que o WebGraph, todas elas são propensas a técnicas de evasão, enquanto o WebGraph consegue alcançar cerca de 100% de integridade diante de respostas adversárias, incluindo respostas hipotéticas mais sofisticadas que podem surgir diante desse novo método de bloqueio de anúncios.

O artigo é liderado por dois pesquisadores do Instituto Federal Suíço de Tecnologia, em conjunto com pesquisadores da Universidade da Califórnia, Davis, e da Universidade de Iowa.

Além do AdGraph

O trabalho é um desenvolvimento de uma iniciativa de pesquisa de 2020 com o navegador Brave chamada AdGraph, que contou com a participação de dois dos pesquisadores do novo artigo.

Comparação do AdGraph vs. WebGraph, com linhas pontilhadas representando inovações arquiteturais na abordagem anterior. Fonte: https://arxiv.org/pdf/2107.11309.pdf

O AdGraph depende de (conteúdo de anúncio) recursos, derivados da análise de URLs, como uma chave para a detecção de material comercial. No entanto, esses recursos representam um único ponto de falha potencial para adversários que buscam detectar a presença de sistemas de detecção de anúncios e formular métodos para obviá-los. Essa dependência de propriedades de conteúdo torna o AdGraph essencialmente uma versão mecanizada de abordagens baseadas em listas de filtros curadas manualmente, compartilhando suas fraquezas.

Mascaramento CNAME

Material originário do próprio domínio do site cai em uma categoria ‘confiável’, na medida em que o domínio em si é confiável. Para um site de alta autoridade, há um prêmio valioso em executar campanhas publicitárias que apresentam material que aparece ser hospedado pelo próprio site, pois tal publicidade é imune a listas de bloqueio de anúncios baseadas em filtros e até mesmo à abordagem AdGraph de 2020.

No entanto, campanhas personalizadas são difíceis de negociar, caras para implementar e contrárias aos princípios fundamentais do modelo de publicidade em rede desenvolvido nos últimos 25 anos, onde uma plataforma de terceiros insere código diretamente no site hospedeiro, geralmente ‘leiloeando’ o slot de publicidade em microsegundos com base na desejabilidade de palavras-chave e vários outros fatores.

Desde que quase todos os sistemas de bloqueio de anúncios se baseiam em material de terceiros em páginas da web (ou seja, elementos que são hospedados em domínios ‘alienígenas’), os anunciantes vêm combatendo com técnicas de mascaramento CNAME nos últimos cinco anos. O mascaramento CNAME engana os rastreadores, fazendo-os acreditar que um subdomínio do site hospedeiro (ou seja, informações.example.com em vez de example.com) é um adjunto legítimo do site, quando, na verdade, é um mecanismo de proxy de publicidade acordado com provedores de publicidade de terceiros.

Em março de 2021, um estudo revelou que os incidentes de mascaramento CNAME aumentaram 22% entre 2018 e 2020, com quase 10% dos 10.000 principais sites do Tranco empregando pelo menos um rastreador baseado em CNAME até outubro de 2020.

Desconsiderando a Confiança em URLs

Técnicas de engano CNAME envolvem a manipulação de URLs envolvidas no processo de publicidade. Qualquer sistema de bloqueio de anúncios que confie na cadeia de URLs estará sujeito a manipulação e evasão. Portanto, o WebGraph altera aleatoriamente as URLs fornecidas em um processo (incluindo strings de consulta, número de parâmetros e nomes de parâmetros), procurando por padrões de uso em vez de URLs específicas proibidas ou aceitas.

O sistema deve considerar duas configurações comuns em uma arquitetura de publicidade: uma, onde o hospedeiro colabora diretamente com o anunciante; e uma segunda (mais comum) cenário onde o anunciante fornece cooperação limitada devido à necessidade de proteger-se contra manipulação por seus clientes.

Em abordagens baseadas em listas, incluindo o AdGraph, a manipulação bem-sucedida de URLs pelo sistema de publicidade é quase uma vitória completa, atribuindo ‘proveniência local’ ao anúncio e, portanto, evitando quase todas as tentativas de bloquear sistematicamente o conteúdo publicitário.

O que resta, por meio de assinatura? O WebGraph se concentra, em vez disso, na necessidade dos sistemas publicitários de compartilhar informações por meios semi-obscurecidos, como rastreadores da web, comunicações entre iframes e ‘ouvintes’ da web, que estão constantemente sondando o estado ao vivo da página hospedeira para atividade que é significativa em termos de métricas da web para o anúncio. Tal atividade inclui o armazenamento de variáveis em cookies ou armazenamento local baseado em HTML5.

O WebGraph usa o framework de Medição de Privacidade da Web da Mozilla (OpenWPM framework) para rastrear tal atividade no Firefox. Ele captura toda atividade na camada JavaScript e todas as solicitações de rede de saída e suas respostas, na camada de rede.

Essa análise adicional introduz novas ‘bordas de fluxo de informações’ para a rede de grafos anteriormente proposta pelo AdGraph, permitindo que o WebGraph registre e quantifique explicitamente padrões de compartilhamento de informações com base em atividade local, e independentemente de URLs de origem e destino para telemetria ou outros tipos de comunicações internas nos sistemas de publicidade.

Resultados

Os pesquisadores usaram uma versão estendida do OpenWPM para rastrear sistematicamente 10.000 sites tirados dos 100.000 principais sites do Alexa, e uma amostra aleatória de 9.000 sites classificados entre 1.000 e 100.000, armazenando suas representações gráficas antes de passar os resultados para um classificador de árvore de decisão modelado no design original do AdGraph, e usando listas de filtros de anúncios populares como verdade fundamental. Dessa forma, um conjunto de dados foi construído para o treinamento do modelo central.

O sistema alcançou resultados comparáveis ao AdGraph, com 92,33% de precisão. No entanto, a capacidade de resistência do novo sistema a respostas adversárias aumenta de uma taxa de falha quase completa para o AdGraph para apenas 8% de suscetibilidade sob o WebGraph.

Direções Futuras

O artigo afirma que as redes publicitárias precisariam reorganizar significativamente seus sistemas para evitar a detecção diante da abordagem do WebGraph e sugere que tais mudanças exigiriam uma revisão da atual relação de confiança entre anunciantes de terceiros e os sites hospedeiros nos quais seus anúncios aparecem.

O artigo também observa que o WebGraph não leva em conta técnicas de rastreamento sem estado, como impressão digital do navegador (via elemento Canvas), que utilizam APIs que o sistema não monitora atualmente. Os pesquisadores sugerem que o WebGraph pode ser estendido no futuro para considerar também esses tipos de interações e signos de armazenamento local.