Connect with us

Un método de aprendizaje automático para bloquear anuncios basado en el comportamiento del navegador local

Ciberseguridad

Un método de aprendizaje automático para bloquear anuncios basado en el comportamiento del navegador local

mm

Los investigadores en Suiza y EE. UU. han ideado un nuevo enfoque de aprendizaje automático para la detección de material publicitario de sitios web que se basa en la forma en que dicho material interactúa con el navegador, en lugar de analizar su contenido o comportamiento de red – dos enfoques que han demostrado ser ineficaces a largo plazo frente al encubrimiento CNAME (ver a continuación).

Denominado WebGraph, el marco utiliza un enfoque de bloqueo de anuncios basado en grafos para detectar contenido promocional centrándose en actividades esenciales de la publicidad en red – incluidos intentos de telemetría y almacenamiento local del navegador – de modo que la única técnica de evasión efectiva sería no realizar estas actividades.

Aunque los enfoques anteriores han logrado tasas de detección ligeramente más altas que WebGraph, todos ellos son propensos a técnicas de evasión, mientras que WebGraph puede alcanzar el 100% de integridad frente a respuestas adversas, incluidas respuestas hipotéticas más sofisticadas que pueden surgir frente a este nuevo método de bloqueo de anuncios.

El documento está liderado por dos investigadores del Instituto Federal Suizo de Tecnología, en colaboración con investigadores de la Universidad de California, Davis y la Universidad de Iowa.

Más allá de AdGraph

El trabajo es una continuación de una iniciativa de investigación de 2020 con el navegador Brave llamada AdGraph, que contó con la participación de dos de los investigadores del nuevo documento.

Comparación de AdGraph vs. WebGraph, con líneas punteadas que representan innovaciones arquitectónicas en el enfoque anterior. Fuente: https://arxiv.org/pdf/2107.11309.pdf

Comparación de AdGraph vs. WebGraph, con líneas punteadas que representan innovaciones arquitectónicas en el enfoque anterior. Fuente: https://arxiv.org/pdf/2107.11309.pdf

AdGraph se basa en características de (anuncios) contenido, derivadas del análisis de URLs, como clave para la detección de material comercial. Sin embargo, estas características representan un solo punto de fallo potencial para los adversarios que buscan detectar la presencia de sistemas de detección de anuncios, y formular métodos para obviarlos. Esta dependencia de propiedades de contenido hace que AdGraph sea esencialmente una versión mecanizada de enfoques basados en listas de filtros creados manualmente, compartiendo sus debilidades.

Encubrimiento CNAME

El material que proviene del dominio propio de un sitio web cae en una categoría de ‘confianza’, en la medida en que el dominio en sí es de confianza. Para un sitio web de alta autoridad, hay un valor premium en ejecutar campañas publicitarias que presentan material que parece estar alojado por el sitio de autoridad en sí, ya que dicha publicidad es inmune a listas de bloqueo de anuncios basadas en filtros, e incluso al enfoque AdGraph de 2020.

Sin embargo, las campañas personalizadas son difíciles de negociar, caras de implementar y van en contra de los principios básicos del modelo de publicidad en red desarrollado en los últimos 25 años, donde una plataforma de terceros inserta código directamente en el sitio de alojamiento, generalmente ‘subastando’ el espacio publicitario en microsegundos según la deseabilidad de las palabras clave y otros factores.

Dado que casi todos los sistemas de bloqueo de anuncios se basan en material de terceros en las páginas web (es decir, elementos que se alojan en dominios ‘ajenos’), los anunciantes han estado luchando con técnicas de encubrimiento CNAME en los últimos cinco años. El encubrimiento CNAME engaña a los rastreadores para que crean que un subdominio del sitio de alojamiento (es decir, información.example.com en lugar de example.com) es un adjunto genuino del sitio, cuando en realidad es un mecanismo de proxy de servidores de anuncios acordado con proveedores de publicidad de terceros.

En marzo de 2021, un estudio reveló que los incidentes de encubrimiento CNAME aumentaron un 22% entre 2018 y 2020, con casi el 10% de los sitios web de los 10.000 principales de Tranco que empleaban al menos un rastreador basado en CNAME para octubre de 2020.

Descartar la confianza en las URLs

Las técnicas de engaño CNAME implican la manipulación de las URLs involucradas en el proceso de servir anuncios. Cualquier sistema de bloqueo de anuncios que confíe en la cadena de URLs estará sujeto a manipulación y evasión. Por lo tanto, WebGraph cambia aleatoriamente las URLs suministradas en un proceso (incluidas cadenas de consulta, número de parámetros y nombres de parámetros), buscando patrones de uso en lugar de URLs específicas prohibidas o aceptadas.

El sistema debe considerar dos configuraciones comunes en una arquitectura de servir anuncios: una, donde el host colabora directamente con el anuncio; y una segunda (más común) escenario donde el anuncio proporciona una cooperación limitada debido a la necesidad de protegerse contra la manipulación por parte de sus clientes.

En los enfoques basados en listas, incluido AdGraph, la manipulación exitosa de la URL por el sistema de servir anuncios es casi una victoria completa, asignando ‘procedencia local’ al anuncio y, por lo tanto, evitando casi todos los intentos de bloquear sistemáticamente el contenido publicitario.

¿Qué queda, en cuanto a firma? WebGraph se centra en lugar de eso en la necesidad de los sistemas publicitarios de compartir información por medios semiocultos, como rastreadores web, comunicaciones entre iframes y ‘oyentes’ web, que están sondeando constantemente el estado en vivo de la página de host para actividad que es significativa en términos de métricas web para el anuncio. Dicha actividad incluye el almacenamiento de variables en cookies o almacenamiento local basado en HTML5.

WebGraph utiliza el marco de Medición de Privacidad Web de Mozilla (OpenWPM framework) para rastrear dicha actividad en Firefox. Captura toda la actividad en la capa de JavaScript y todas las solicitudes de red salientes y sus respuestas, en la capa de red.

Esta mayor escrutinio introduce nuevos ‘flujos de información’ bordes a la red de grafos anteriormente propuesta por AdGraph, lo que permite a WebGraph registrar y cuantificar explícitamente patrones de intercambio de información basados en la actividad local, y sin considerar la origen y destino de las URLs para telemetría u otros tipos de comunicaciones internas en los sistemas de servir anuncios.

Resultados

Los investigadores utilizaron una versión extendida de OpenWPM para rastrear sistemáticamente 10.000 sitios web tomados de los 100.000 sitios principales de Alexa, y una muestra aleatoria de 9.000 sitios clasificados entre 1k-100k, almacenando sus representaciones de grafos antes de pasar los resultados a un clasificador de árbol de decisión modelado en el diseño original de AdGraph, y utilizando listas de filtros de anuncios populares como verdad de referencia. De esta manera, se construyó un conjunto de datos para el entrenamiento del modelo central.

El sistema logró resultados comparables a AdGraph, con una precisión del 92,33%. Sin embargo, la resistencia del nuevo sistema a la resistencia adversa aumenta desde una tasa de fallo casi completa para AdGraph hasta solo un 8% de susceptibilidad bajo WebGraph.

Direcciones futuras

El documento sostiene que las redes publicitarias necesitarían reorganizar notablemente sus sistemas para evitar la detección frente al enfoque de WebGraph, y sugiere que dichos cambios requerirían una revisión de la relación de confianza actualmente circunspecta entre anunciantes de terceros y los sitios de host en los que aparecen sus anuncios.

El documento también señala que WebGraph no tiene en cuenta técnicas de seguimiento sin estado, como la huella digital del navegador (a través del elemento Canvas), que utilizan API que el sistema no monitoriza actualmente. Los investigadores sugieren que WebGraph se puede ampliar en el futuro para tener en cuenta también esas interacciones y signos de almacenamiento local.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.