Ángulo de Anderson

Un método de aprendizaje automático para bloquear anuncios basado en el comportamiento del navegador local

mm

Investigadores en Suiza y EE. UU. han desarrollado un nuevo enfoque de aprendizaje automático para la detección de material publicitario de sitios web que se basa en la forma en que dicho material interactúa con el navegador, en lugar de analizar su contenido o comportamiento de red – dos enfoques que han demostrado ser ineficaces a largo plazo frente a la técnica de ocultación CNAME (ver más abajo).

Denominado WebGraph, el marco utiliza un enfoque de detección de anuncios basado en gráficos y aprendizaje automático para detectar contenido promocional centrándose en actividades esenciales de la publicidad en red – incluyendo intentos de telemetría y almacenamiento local del navegador – que la única técnica de evasión efectiva sería no realizar estas actividades.

Aunque los enfoques anteriores han logrado tasas de detección ligeramente más altas que WebGraph, todos ellos son propensos a técnicas de evasión, mientras que WebGraph puede alcanzar el 100% de integridad frente a respuestas adversas, incluyendo respuestas hipotéticas más sofisticadas que pueden surgir frente a este nuevo método de bloqueo de anuncios.

El artículo está liderado por dos investigadores del Instituto Federal Suizo de Tecnología, en colaboración con investigadores de la Universidad de California, Davis y la Universidad de Iowa.

Más allá de AdGraph

El trabajo es una continuación de una iniciativa de investigación de 2020 con el navegador Brave llamada AdGraph, que contó con la participación de dos de los investigadores del nuevo artículo.

Comparación de AdGraph vs. WebGraph, con líneas discontinuas que representan innovaciones arquitectónicas en el enfoque anterior. Fuente: https://arxiv.org/pdf/2107.11309.pdf

Comparación de AdGraph vs. WebGraph, con líneas discontinuas que representan innovaciones arquitectónicas en el enfoque anterior. Fuente: https://arxiv.org/pdf/2107.11309.pdf

AdGraph se basa en características de contenido (anuncios), derivadas del análisis de URLs, como clave para la detección de material comercial. Sin embargo, estas características representan un solo punto potencial de fallo para los adversarios que buscan detectar la presencia de sistemas de detección de anuncios, y formular métodos para obviarlos. Esta dependencia de características de contenido hace que AdGraph sea esencialmente una versión mecanizada de enfoques basados en listas de filtros curados manualmente, compartiendo sus debilidades.

Ocultación CNAME

El material que proviene del dominio propio de un sitio web cae en una categoría de “confianza”, en la medida en que el dominio en sí es de confianza. Para un sitio web de alta autoridad, hay un valor premium en ejecutar campañas publicitarias que presentan material que parece estar alojado por el sitio de autoridad en sí, ya que dicha publicidad es inmune a listas de bloqueo de anuncios basadas en filtros y incluso al enfoque AdGraph de 2020.

Sin embargo, las campañas personalizadas son difíciles de negociar, costosas de implementar y van en contra de los principios básicos del modelo de publicidad en red desarrollado en los últimos 25 años, donde una plataforma de terceros inserta código directamente en el sitio de alojamiento, generalmente “subastando” el espacio publicitario en microsegundos según la deseabilidad de las palabras clave y otros factores.

Desde que casi todos los sistemas de bloqueo de anuncios se basan en material de terceros en las páginas web (es decir, elementos que están alojados en dominios “ajenos”), los anunciantes han estado luchando con técnicas de ocultación CNAME en los últimos cinco años. La ocultación CNAME engaña a los rastreadores para que crean que un subdominio del sitio de alojamiento (es decir, información.example.com en lugar de example.com) es un adjunto legítimo del sitio, cuando en realidad es un mecanismo de servidor de anuncios proxy acordado con proveedores de publicidad de terceros.

En marzo de 2021, un estudio reveló que los incidentes de ocultación CNAME aumentaron un 22% entre 2018 y 2020, con casi el 10% de los sitios web de los 10.000 principales de Tranco que empleaban al menos un rastreador basado en CNAME para octubre de 2020.

Descartar la confianza en las URLs

Las técnicas de engaño CNAME implican la manipulación de las URLs involucradas en el proceso de servir anuncios. Cualquier sistema de bloqueo de anuncios que confíe en la cadena de URLs estará sujeto a manipulación y evasión. Por lo tanto, WebGraph cambia aleatoriamente las URLs proporcionadas en un proceso (incluyendo cadenas de consulta, número de parámetros y nombres de parámetros), buscando patrones de uso en lugar de URLs específicas prohibidas o aceptadas.

El sistema debe considerar dos configuraciones comunes en una arquitectura de servir anuncios: una, donde el anfitrión colabora directamente con el anunciantes; y una segunda (más común) escenario donde el anunciantes proporciona una cooperación limitada debido a la necesidad de protegerse contra la manipulación por parte de sus clientes.

En enfoques basados en listas, incluyendo AdGraph, la manipulación exitosa de URLs por parte del sistema de servir anuncios es casi una victoria completa, asignando “procedencia local” al anuncio y evitando así casi todos los intentos de bloquear sistemáticamente el contenido publicitario.

¿Qué queda, en términos de firma? WebGraph se centra en lugar de eso en la necesidad de los sistemas publicitarios de compartir información por medios semiocultos, como rastreadores web, comunicaciones entre iframes y “oyentes” web, que están constantemente sondeando el estado en vivo de la página de host para actividad que es significativa en términos de métricas web para el anuncio. Dicha actividad incluye el almacenamiento de variables en cookies o almacenamiento local basado en HTML5.

WebGraph utiliza el marco de Medición de Privacidad Web de Mozilla (OpenWPM framework) para rastrear dicha actividad en Firefox. Captura toda la actividad en la capa de JavaScript y todas las solicitudes de red salientes y sus respuestas, en la capa de red.

Esta mayor escrutinio introduce nuevos bordes de “flujo de información” a la red de gráficos previamente propuesta por AdGraph, lo que permite a WebGraph grabar y cuantificar explícitamente patrones de intercambio de información basados en la actividad local, y sin considerar las URLs de origen y destino para telemetría u otras formas de comunicación interna en los sistemas de servir anuncios.

Resultados

Los investigadores utilizaron una versión extendida de OpenWPM para rastrear sistemáticamente 10.000 sitios web tomados de los 100.000 sitios principales de Alexa, y una muestra aleatoria de 9.000 sitios clasificados entre 1k-100k, almacenando sus representaciones de gráficos antes de pasar los resultados a un clasificador de árbol de decisión modelado según el diseño original de AdGraph, y utilizando listas de filtros de anuncios populares como verdad de referencia. De esta manera, se construyó un conjunto de datos para el entrenamiento del modelo central.

El sistema logró resultados comparables a AdGraph, con una precisión del 92,33%. Sin embargo, la resistencia del nuevo sistema a la resistencia adversa aumenta desde una tasa de fallo casi completa para AdGraph hasta solo un 8% de susceptibilidad bajo WebGraph.

Direcciones futuras

El artículo sostiene que las redes publicitarias necesitarían reorganizar notablemente sus sistemas para evitar la detección frente al enfoque de WebGraph, y sugiere que tales cambios requerirían una revisión de la relación de confianza actualmente circunspecta entre anunciantes de terceros y los sitios de alojamiento en los que aparecen sus anuncios.

El artículo también señala que WebGraph no tiene en cuenta técnicas de seguimiento sin estado, como la huella dactilar del navegador (a través del elemento Canvas), que utilizan API que el sistema no monitorea actualmente. Los investigadores sugieren que WebGraph se puede ampliar en el futuro para tener en cuenta también esas interacciones y signos de almacenamiento local.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.