Cíber segurança

Combatendo o bloqueio de adblock com aprendizado de máquina

Publicado 4 de outubro de 2021

Martin Anderson

Uma nova iniciativa de pesquisa dos EUA e do Paquistão desenvolveu um método baseado em aprendizado de máquina para identificar sites resistentes ao bloqueio de anúncios e outras tecnologias de preservação de privacidade, além de desconstruir as técnicas que esses sites usam para "misturar" as origens dos anúncios e o conteúdo real, de modo que o conteúdo não seja visualizável se os anúncios forem bloqueados.

Novas tecnologias de adblocking desenvolvidas a partir das descobertas podem acabar com os incidentes em que o conteúdo central de um artigo não é visível quando os anúncios são bloqueados, fornecendo um método automatizado para separar recursos de anúncios e scripts, em vez da abordagem manual atualmente usada por estruturas populares de adblocking .

Os autores realizaram um estudo em larga escala de "recursos mistos" em 100,000 sites, descobrindo que 17% dos domínios, 48% dos nomes de host, 6% dos scripts e 9% dos métodos de entrega de conteúdo combinam deliberadamente a funcionalidade de rastreamento (ou seja, publicidade) com processos que entregam conteúdo real. Nesses casos, o conteúdo do artigo desaparecerá para usuários que utilizam softwares de bloqueio de anúncios ou antirrastreamento, forçando-os a desativar essas medidas para visualizar o conteúdo.

Na maioria dos casos, isso não significa apenas que os anúncios ficarão visíveis novamente, mas também que os usuários serão forçados a voltar aos sistemas de rastreamento entre domínios que têm defensores da privacidade inflamados nos últimos anos.

A nova pesquisa oferece um sistema capaz de separar os componentes desses recursos da web "mistos" com 98% de precisão, permitindo que soluções de bloqueio de anúncios e antirrastreamento tenham a chance de desembaraçar os fluxos em iterações posteriores de seu software e, mais uma vez, permitir o acesso ao conteúdo em páginas bloqueadas por anúncios.

O processo de novo papel é intitulado TrackerSift: desvendando o rastreamento misto e os recursos funcionais da Web, e vem de pesquisadores da Virginia Tech e UoC Davis nos EUA, e FAST NUCES e Lahore University of Management Sciences (LUMS) no Paquistão.

As guerras do Adblock

Os sistemas de bloqueio de anúncios dependem, em geral, da necessidade de o conteúdo publicitário em uma página da web se originar de domínios específicos e dedicados — geralmente plataformas de adtech com nomes de domínio e/ou endereços IP que podem ser classificados como "publicidade de terceiros", permitindo o desenvolvimento de listas de bloqueio que não renderizarão conteúdo dessas origens dentro de uma página da web.

Além disso, os nomes de recursos específicos de anúncios, como scripts, podem ser adicionados a listas de bloqueio para que não sejam executados mesmo nos casos em que suas origens foram deliberadamente obscurecidas. Os esquemas de nomenclatura desses scripts gerados sistematicamente geralmente são consistentes, permitindo o reconhecimento e a lista de bloqueio.

Como um anúncio apresentado em uma página da Web é frequentemente escolhido nos últimos milissegundos do carregamento da página por meio de processos de leilão dinâmico (com base em palavras-chave encontradas na página, métricas de segmentação da campanha e muitos outros fatores), não é prático armazenar anúncios no domínio do host, o que, em teoria, impediria que bloqueadores de anúncios ocultassem conteúdo comercial.

Cada vez mais, os sites estão lutando contra o bloqueio de anúncios por meio de Camuflagem de CNAME – o uso de subdomínios do domínio 'autêntico' como proxies para servidores de anúncios (ou seja, content.example.com exibirá anúncios para example.com, mesmo que o subdomínio não tenha outra finalidade além de exibir anúncios e não seja mantido pelo site host, mas sim por seus anunciantes).

No entanto, esse método pode ser quantificado e bloqueado distinguindo o conteúdo do subdomínio como publicidade ou usando técnicas de análise de rede para identificar o relacionamento anômalo e irregular do subdomínio com o domínio principal.

TrackerSift

O artigo dos autores propõe o TrackerSift, uma plataforma para analisar recursos de rede buscados por sites e, em seguida, recategorizar recursos mistos em "conteúdo" e "publicidade". No nível de análise mais geral, o TrackerSift registra solicitações básicas de rede para recursos, como conteúdo publicitário buscado de uma Rede de Distribuição de Conteúdo (CDN) ou de uma plataforma de publicidade; mas, em seguida, aprofunda-se no conteúdo dos recursos buscados, realizando análises em nível de código e distinguindo as funções de vários tipos de chamadas e procedimentos de código.

Hierarquia de análise do TrackerSift, desde recursos de rastreamento (vermelho) até recursos funcionais necessários (verde). Recursos mistos, que provavelmente levarão à ofuscação de conteúdo (amarelo), são submetidos a uma análise mais aprofundada. Fonte: https://arxiv.org/pdf/2108.13923.pdf

Dados

Para obter o conjunto de dados que alimenta o TrackerSift, os autores vasculharam 100,000 sites escolhidos aleatoriamente do 2018 Lista dos milhões de trancos. Selênio A automação do navegador foi usada em conjunto com o Google Chrome para executar a tarefa.

A rede de rastreamento da web foi baseada em sites universitários na América do Norte, compreendendo um cluster de 13 nós com 112 núcleos, 52 terabytes de armazenamento e 823 gigabytes de RAM operativa entre todo o sistema.

Cada nó foi baseado em um contêiner Docker e dedicado a rastrear um subconjunto das 100,000 páginas selecionadas, com pausas programáticas para sustentabilidade e apagamento completo de todos os cookies e identificadores ao carregar um novo domínio, para garantir que sessões e estados anteriores não influenciassem o legibilidade do próximo domínio.

Scripts mistos

Os resultados mostram o uso extensivo de empacotamento de script, onde plataformas de anúncios e hosts de conteúdo concatenam deliberadamente scripts baseados em conteúdo e anúncios em "uberscripts", o que impedirá a exibição do conteúdo se bloqueado. Por exemplo, os autores observam que o pressl.co oferece um script da web agrupado por meio do Webpack Plataforma de concatenação JavaScript, que contém um pixel de rastreamento do Facebook e também código que permite a renderização do conteúdo real.

Além disso, o documento observa que vários domínios estão dispostos a incorporar scripts diretamente no código das páginas da Web, tornando necessário que as estruturas de bloqueio de anúncios abordem a funcionalidade dos scripts, em vez de simplesmente impedir que o script seja carregado com base em seu terceiro URL de origem da festa.

Ao localizar esses métodos, fica claro o caminho para a divisão sistemática desse código em categorias de conteúdo e anúncio e a possível restauração da exibição de conteúdo em ambientes bloqueados por anúncios.

Embora as soluções de bloqueio de anúncios existentes, como NoScript, AdGuard, uBlock Origin e Firefox Smartblock usem scripts substitutos que desmontam esses scripts mesclados em scripts de componentes bloqueáveis, eles dependem reescrita manual de scripts, levando a uma guerra fria contínua entre os bloqueadores e as técnicas em constante mudança que os quebram. Por outro lado, o TrackerSift oferece um potencial método programático para decomposição de conteúdo misto.

Tópicos relacionados:publicidade imprensa pesquisa

Martin Anderson

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protected]
Twitter: @manders_ai

Unir-se.AI

Combatendo o bloqueio de adblock com aprendizado de máquina

As guerras do Adblock

TrackerSift

Dados

Scripts mistos

Você pode gostar