Ciberseguridad

Un método de aprendizaje automático para bloquear anuncios según el comportamiento del navegador local

Publicado 26 Julio 2021

Martin anderson

Investigadores en Suiza y Estados Unidos han ideado un nuevo enfoque de aprendizaje automático para la detección de material publicitario en sitios web que se basa en la forma en que dicho material interactúa con el navegador, en lugar de analizar su contenido o comportamiento en la red; dos enfoques que han demostrado ser ineficaces a largo plazo frente al encubrimiento de CNAME (ver a continuación).

Apodado gráfico web, el marco utiliza un gráficaUn enfoque de bloqueo de anuncios basado en IA para detectar contenido promocional concentrándose en actividades tan esenciales de publicidad en la red, incluidos los intentos de telemetría y el almacenamiento local del navegador, que la única técnica de evasión efectiva sería no realizar estas actividades.

Aunque los enfoques anteriores han logrado tasas de detección ligeramente más altas que WebGraph, todos ellos son propensos a técnicas evasivas, mientras que WebGraph puede acercarse al 100 % de integridad frente a las respuestas adversarias, incluidas las respuestas hipotéticas más sofisticadas que pueden surgir frente a este novedoso método de bloqueo de anuncios.

El artículo está dirigido por dos investigadores del Instituto Federal Suizo de Tecnología, en conjunto con investigadores de la Universidad de California, Davis y la Universidad de Iowa.

Más allá de AdGraph

El trabajo es un desarrollo de una iniciativa de investigación de 2020 con el navegador Brave llamado gráfico de anuncios, que contó con dos de los investigadores del nuevo artículo.

Comparación de AdGraph frente a WebGraph, con líneas de puntos que representan innovaciones arquitectónicas en el enfoque anterior. Fuente: https://arxiv.org/pdf/2107.11309.pdf

AdGraph se basa en el contenido (anuncio) Características, derivada del análisis de URLs, como clave para la detección de material comercial. Sin embargo, estas características representan un único punto potencial de falla para los adversarios que buscan detectar la presencia de sistemas de detección de anuncios y formular métodos para obviarlos. Esta confianza en el contenido propiedades hace que AdGraph sea esencialmente una versión mecanizada de enfoques basados en listas de filtros seleccionadas manualmente, que comparten sus debilidades.

Encubrimiento CNAME

El material procedente del dominio propio de un sitio web se considera de confianza, siempre que el dominio en sí sea confiable. Para un sitio web de alta autoridad, existe una valiosa ventaja al realizar campañas publicitarias que incluyan material que... parece ser alojado por el propio sitio de la autoridad, ya que dicha publicidad es inmune a las listas de bloqueo de anuncios basadas en filtros, e incluso al enfoque AdGraph 2020.

Sin embargo, las campañas personalizadas son difíciles de negociar, costosas de implementar y contradicen los principios básicos del modelo de publicidad en red desarrollado durante los últimos 25 años, donde una plataforma de terceros inserta código directamente en el sitio anfitrión, generalmente "subastando" el espacio publicitario en microsegundos en función de la conveniencia de las palabras clave y varios otros factores.

Dado que casi todos los sistemas de bloqueo de anuncios se centran en material de terceros en páginas web (es decir, elementos alojados en dominios "ajenos"), los anunciantes han estado contraatacando con Técnicas de encubrimiento CNAME durante los últimos cinco años. El encubrimiento de CNAME engaña a los rastreadores haciéndoles creer que un subdominio del sitio host (es decir, información.ejemplo.com en lugar de ejemplo.com) es un complemento genuino del sitio, cuando en realidad es un mecanismo de servicio de anuncios proxy organizado con publicidad de terceros. proveedores

En marzo de 2021 un estudio revelado que los incidentes de encubrimiento de CNAME aumentaron un 22% entre 2018 y 2020, y casi el 10% de los 10,000 2020 sitios web principales de Tranco empleaban al menos un rastreador basado en CNAME en octubre de XNUMX.

Rebaja de la confianza en las URL

Las técnicas de engaño de CNAME implican la manipulación de las URL involucradas en el proceso de publicación de anuncios. Cualquier sistema de bloqueo de anuncios que confíe en la cadena de URL estará sujeto a manipulación y evasión. Por lo tanto, WebGraph cambia aleatoriamente las URL proporcionadas en un proceso (incluidas las cadenas de consulta, la cantidad de parámetros y los nombres de los parámetros), buscando patrones de uso en lugar de URL específicas prohibidas o aceptadas.

El sistema tiene que considerar dos configuraciones comunes en una arquitectura de publicación de anuncios: una, donde el host está coludido directamente con el anunciante; y un segundo escenario (más común) donde el anunciante brinda una cooperación limitada debido a la necesidad de protegerse contra la manipulación por parte de sus clientes.

En los métodos basados en listas, incluido AdGraph, la manipulación exitosa de URL por parte del sistema de distribución de anuncios es casi una victoria completa, ya que atribuye procedencia "local" al anuncio y, por lo tanto, evade casi todos los intentos de bloquear sistemáticamente el contenido publicitario.

¿Qué queda, a modo de firma? WebGraph se centra, en cambio, en la necesidad de los sistemas publicitarios de compartir información mediante diversos medios semiofuscados, como rastreadores web, comunicaciones entre iframes y "escuchas" web, que sondean constantemente el estado en tiempo real de la página principal en busca de actividad significativa para las métricas web del anuncio. Dicha actividad incluye el almacenamiento de variables en cookies o almacenamiento local basado en HTML5.

WebGraph utiliza la Medición de Privacidad Web de Mozilla (AbrirWPM framework) para rastrear dicha actividad en Firefox. Captura toda la actividad en la capa de JavaScript y todas las solicitudes de red salientes y sus respuestas en la capa de red.

Este escrutinio adicional introduce nuevos límites de "flujo de información" a la red gráfica propuesta previamente por AdGraph, lo que permite a WebGraph registrar y cuantificar explícitamente patrones de intercambio de información basados en la actividad local, e independientemente de las URL de origen y destino para telemetría u otros tipos de comunicaciones internas en sistemas de distribución de anuncios.

Resultados

Los investigadores utilizaron una versión extendida de OpenWPM para rastrear sistemáticamente 10,000 100,000 sitios web seleccionados entre los 9,000 1 sitios más populares de Alexa y una muestra aleatoria de 100 sitios clasificados entre XNUMX XNUMX y XNUMX XNUMX. Almacenaron sus representaciones gráficas antes de pasar los resultados a un clasificador de árbol de decisión basado en el diseño original de AdGraph y utilizando listas de filtros de anuncios populares como referencia. De esta forma, se construyó un conjunto de datos para el entrenamiento del modelo principal.

El sistema obtuvo resultados comparables a los de AdGraph, con una precisión del 92.33 %. Sin embargo, la resistencia del nuevo sistema a la resistencia adversaria aumenta de una tasa de fallo casi total con AdGraph a tan solo un 8 % con WebGraph.

Directrices para el futuro

El documento sostiene que las redes publicitarias necesitarían reestructurar notablemente sus sistemas para evadir la detección frente al enfoque de WebGraph, y sugiere que dichos cambios requerirían una revisión de la relación de confianza actualmente circunspecta entre los anunciantes de terceros y el alojan sitios en los que aparecen sus anuncios.

El documento también señala que WebGraph no tiene en cuenta las técnicas de seguimiento sin estado, como las huellas dactilares del navegador (a través del elemento Canvas), que utilizan API que el sistema no supervisa actualmente. Los investigadores sugieren que WebGraph puede ampliarse en el futuro para dar cuenta también de ese tipo de interacciones y significantes de almacenamiento local.

Temas relacionados:publicidad investigacion

Martin anderson

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai