Ciberseguridad
Lucha contra el bloqueo de Adblock con aprendizaje automático

Una nueva iniciativa de investigación de Estados Unidos y Pakistán ha desarrollado un método basado en el aprendizaje automático para identificar sitios web resistentes al bloqueo de anuncios y otras tecnologías que preservan la privacidad, así como para deconstruir las técnicas que dichos sitios utilizan para "combinar" los orígenes de los anuncios y el contenido real, de modo que el contenido no sea visible si los anuncios están bloqueados.
Las nuevas tecnologías de bloqueo de anuncios desarrolladas a partir de los hallazgos podrían poner fin a los incidentes en los que el contenido central de un artículo no se puede ver cuando los anuncios están bloqueados, proporcionando un método automatizado para separar los recursos de anuncios y secuencias de comandos, en lugar del enfoque manual que actualmente utilizan los marcos de bloqueo de anuncios populares. .
Los autores realizaron un estudio a gran escala de recursos mixtos en 100,000 sitios web y descubrieron que el 17 % de los dominios, el 48 % de los nombres de host, el 6 % de los scripts y el 9 % de los métodos de entrega de contenido combinan deliberadamente funciones de seguimiento (es decir, publicidad) con procesos que entregan contenido real. En estos casos, el contenido del artículo desaparece para los usuarios que utilizan software de bloqueo de anuncios o antiseguimiento, lo que obliga al usuario a desactivar estas medidas para poder ver el contenido.
En la mayoría de los casos, esto no solo significa que los anuncios volverán a estar visibles, sino que los usuarios se verán obligados a volver a los sistemas de seguimiento entre dominios que han activistas de privacidad inflamados en los últimos años.
La nueva investigación ofrece un sistema que puede separar los componentes de estos recursos web "mixtos" con una precisión del 98%, lo que permite que las soluciones de bloqueo de publicidad y antiseguimiento tengan la oportunidad de desenredar los flujos en iteraciones posteriores de su software y volver a habilitar el acceso al contenido en páginas bloqueadas con publicidad.
El nuevo documento se titula TrackerSift: desenredar el seguimiento mixto y los recursos web funcionales, y proviene de investigadores de Virginia Tech y UoC Davis en los EE. UU., y FAST NUCES y la Universidad de Ciencias de la Administración de Lahore (LUMS) en Pakistán.
Las guerras de Adblock
Los sistemas de bloqueo de publicidad se basan, en general, en la necesidad de que el contenido publicitario de una página web provenga de dominios específicos y dedicados: generalmente plataformas de tecnología publicitaria con nombres de dominio y/o direcciones IP que pueden clasificarse como "publicidad de terceros", lo que permite el desarrollo de listas de bloqueo que no mostrarán contenido de esos orígenes dentro de una página web.
Además, los nombres de recursos específicos de anuncios, como secuencias de comandos, se pueden agregar a las listas de bloqueo para que no se ejecuten incluso en los casos en que sus orígenes se hayan ocultado deliberadamente. Los esquemas de nomenclatura de dichos scripts generados sistemáticamente suelen ser coherentes, lo que permite el reconocimiento y la inclusión en listas de bloqueo.
Dado que un anuncio que aparece en una página web se elige con frecuencia en los últimos milisegundos de una carga de página a través de procesos de subasta dinámica (en función de las palabras clave encontradas en la página, las métricas de destino de la campaña y muchos otros factores), no es posible almacenar anuncios en el dominio host, lo que en teoría impediría que los bloqueadores de anuncios oculten contenido comercial.
Cada vez más, los sitios web luchan contra el bloqueo de anuncios a través de Encubrimiento CNAME – el uso de subdominios del dominio 'auténtico' como servidores proxy para servidores de anuncios (es decir, content.example.com mostrará anuncios a example.com, aunque el subdominio no tiene otro propósito que mostrar anuncios y no es mantenido por el sitio web anfitrión, sino por sus anunciantes).
Sin embargo, este método se puede cuantificar y bloquear distinguiendo el contenido del subdominio como publicidad o utilizando técnicas de análisis de red para identificar la relación anómala e irregular del subdominio con el dominio principal.
RastreadorSift
El artículo de los autores propone TrackerSift, una plataforma para analizar los recursos de red obtenidos por sitios web y recategorizar los recursos mixtos en "contenido" y "publicidad". En el nivel de análisis más general, TrackerSift registra las solicitudes básicas de recursos de red, como el contenido publicitario obtenido de una Red de Entrega de Contenido (CDN) o una plataforma publicitaria; pero luego profundiza en el contenido de los recursos obtenidos, realiza un análisis a nivel de código y distingue las funciones de los distintos tipos de llamadas y procedimientos de código.

La jerarquía de análisis de TrackerSift abarca desde los recursos de seguimiento (rojo) hasta los recursos funcionales necesarios (verde). Los recursos mixtos, que pueden provocar ofuscación de contenido (amarillo), se someten a un análisis más profundo. Fuente: https://arxiv.org/pdf/2108.13923.pdf
Dato
Para obtener el conjunto de datos que alimenta a TrackerSift, los autores rastrearon 100,000 2018 sitios web elegidos al azar del XNUMX Lista top-million de Tranco. Selenio La automatización del navegador se utilizó junto con Google Chrome para realizar la tarea.
La red de rastreo web se basó en sitios universitarios de América del Norte y comprendía un clúster de 13 nodos con 112 núcleos, 52 terabytes de almacenamiento y 823 gigabytes de RAM operativa en todo el sistema.
Cada nodo se basó en un contenedor Docker y se dedicó a rastrear un subconjunto de las 100,000 XNUMX páginas web seleccionadas, con pausas programáticas para la sostenibilidad y el borrado completo de todas las cookies e identificadores al cargar un nuevo dominio, para garantizar que las sesiones y los estados anteriores no influyeran en el legibilidad del siguiente dominio.
Guiones mixtos
Los resultados muestran un uso extensivo de agrupación de secuencias de comandos, donde las plataformas publicitarias y los proveedores de contenido concatenan deliberadamente scripts basados en contenido y anuncios en "uberscripts", lo que impide la visualización del contenido si se bloquea. Por ejemplo, los autores señalan que pressl.co sirve un script web empaquetado a través de Webpack Plataforma concatenadora de JavaScript, que contiene un píxel de seguimiento de Facebook y también un código que permite la representación del contenido real.
Además, el documento señala que varios dominios están dispuestos a incrustar secuencias de comandos directamente en el código de las páginas web, lo que hace necesario que los marcos de bloqueo de anuncios aborden la funcionalidad dentro de las secuencias de comandos, en lugar de simplemente evitar que la secuencia de comandos se cargue en función de su tercera. URL de origen del partido.
Al localizar estos métodos, el camino está despejado para la división sistemática de dicho código en contenido y categorías de anuncios, y la posible restauración de la visualización de contenido en entornos con bloqueo de anuncios.
Aunque las soluciones de bloqueo de anuncios existentes, como NoScript, AdGuard, uBlock Origin y Firefox Smartblock utilizan secuencias de comandos sustitutas que desensamblan dichas secuencias de comandos fusionadas en secuencias de comandos bloqueables, estas dependen de reescritura manual de guiones, lo que lleva a una guerra fría en curso entre los bloqueadores y las técnicas siempre cambiantes que los rompen. Por el contrario, TrackerSift ofrece un método programático potencial para la descomposición de contenido mixto.












