Contáctenos

Aprendizaje automático frente a sistemas de consentimiento de cookies

Inteligencia Artificial

Aprendizaje automático frente a sistemas de consentimiento de cookies

mm
Uno de los cubos crípticos de la franquicia Hellraiser.

Una nueva colaboración de investigación entre la Universidad de Wisconsin y Google compara el aprendizaje automático con una de las molestias más notorias de la última década para los usuarios de la web: la opacidad y el cínico mal uso de los anuncios de consentimiento de cookies que cumplen con el RGPD.

Bajo el título Cookie Enforcer, el nuevo marco utiliza Comprensión de texto semántico para analizar la importancia y la utilidad del código subyacente detrás de la ventana emergente o banner de consentimiento de cookies, con el fin de proporcionar al usuario la solución de "un clic" que falta para deshabilitar todas las cookies verdaderamente "no necesarias", incluidas las que los propietarios de dominios pueden presentar como "esenciales", incluso si no lo son.

CookieEnforcer examina el código de consentimiento de cookies del sitio web www.askubuntu.com. Fuente: https://arxiv.org/pdf/2204.04221.pdf

CookieEnforcer examina el código de consentimiento de cookies del sitio web www.askubuntu.com. Fuente: https://arxiv.org/pdf/2204.04221.pdf

El sistema se implementa mediante un complemento del navegador web que el usuario instala y que permite aplicar reglas definidas por el usuario con un solo clic. Una vez que el marco de consentimiento de cookies aparece en el sitio web, el usuario puede activar el complemento, que analizará el código de consentimiento de cookies en busca de posibles acciones antes de generar el código JavaScript adecuado para ejecutar las opciones en su nombre.

El complemento se puede configurar para hacer cumplir automáticamente las preferencias del usuario, o bien tomar los casos individualmente, lo que permite al usuario ajustar la configuración antes del envío final.

Ejecutor de cookies en acción. Si lo prefiere, el complemento de Chrome puede automatizar completamente este proceso, sin la contribución adicional del usuario. Vea el video incrustado más adelante para obtener más detalles. Fuente: https://www.youtube.com/watch?v=5NI6Q981quc

Ejecutor de cookies en acción. Si lo prefiere, el complemento de Chrome puede automatizar completamente este proceso, sin la contribución adicional del usuario. Vea el video incrustado más adelante para obtener más detalles. Fuente: https://www.youtube.com/watch?v=5NI6Q981quc

El desafío de analizar las posibles opciones de "no consentimiento", que suelen estar ocultas en grupos de configuraciones arcanas y laboriosas (en lugar de las fáciles de usar) aceptar todo típico de los marcos de consentimiento) se modela como un secuencia a secuencia tarea.

En una evaluación de precisión integral, CookieEnforcer logró generar todos los pasos necesarios para evitar procedimientos crípticos de consentimiento de cookies en el 91 % de los casos estudiados, en dominios que no se habían detectado durante el entrenamiento del modelo de aprendizaje automático del sistema. Un estudio de usuarios demostró además que el sistema reduce significativamente el esfuerzo del usuario al navegar por los módulos de consentimiento.

El sitio presentar el método se titula CookieEnforcer: análisis y aplicación automatizados de notificaciones de cookies, y proviene de tres investigadores de la Universidad de Wisconsin en Madison y uno de Google Inc.

Caminos arcanos hacia el consentimiento de cookies

Desde la promulgación del Reglamento General de Protección de Datos (GDPR) en 2016 y la Ley de Privacidad del Consumidor de California (CCPA) en 2018, los sitios web que desean atraer usuarios de las áreas cubiertas por dicha legislación deben proporcionar mecanismos de preferencia de cookies (generalmente basados ​​en la detección de la dirección IP del usuario como proxy de su país de origen).

Sin embargo, dado que los propietarios de dominios se habían acostumbrado durante mucho tiempo a recopilar datos de usuario valiosos y procesables a partir de la implementación opaca y generalmente invisible de cookies, se mostraron reacios a proporcionar opciones de exclusión fáciles para sus usuarios recién habilitados.

La interfaz de usuario predeterminada para las interfaces de consentimiento de cookies (que aparecen la primera vez que un usuario visita un dominio, o si el usuario eliminó las cookies para ese dominio) se instaló rápidamente en patrones oscuros diseñado para cansar al espectador con opciones granulares, que consumen mucho tiempo y extensas en caso de que quisieran ejercer sus derechos de consentimiento; o bien un botón sencillo y de fácil acceso que daba de alta al usuario todas las cookies que el titular del dominio deseaba que se ejecutaran. Esta cultura de opciones de interfaz de usuario laberínticas se describió en un estudio de 2020 como 'una búsqueda del tesoro'.

El nuevo artículo comenta:

A los usuarios les puede resultar difícil controlar las cookies de forma informada en sitios web con avisos complejos. Es mucho más probable que confíen en las configuraciones predeterminadas que en ajustar la configuración de cookies para cada sitio web. En muchos casos, estas configuraciones predeterminadas vulneran la privacidad y favorecen a los proveedores de servicios, lo que genera riesgos para la privacidad.

un comentario sobre uno publicación popular en el foro En cuanto a estas prácticas, se las caracterizó como "cumplimiento malicioso". La molestia de los usuarios con los marcos de consentimiento de cookies es un tema que genera conflicto entre los principales editores, quienes normalmente podrían dedicarle más atención si no estuvieran tan expuestos personalmente por sus propias prácticas al respecto.

Un típico laberinto de opciones presentado, en este caso, por el sitio web de TechCrunch, irónicamente como prefacio a un artículo sobre la actitud cambiante de la UE con respecto a lo que constituye el consentimiento de cookies. Los identificadores de URL adjuntos y los ganchos diseñados para permitir aún más el seguimiento tenían 262 caracteres (eliminados aquí). Un botón de 'rechazar todo', si bien está disponible para ciertas categorías de cookies, no está disponible para el conjunto completo de cookies posibles; en esos casos exceptuados, el usuario deberá operar cada 'toggle'.

Un típico laberinto de opciones que presenta, en este caso, la web de TechCrunch, irónicamente como prólogo a un artículo Sobre el cambio de postura de la UE respecto a lo que constituye el consentimiento para el uso de cookies. Los identificadores de URL y enlaces añadidos, diseñados para facilitar el seguimiento, ocupaban 262 caracteres (eliminados aquí). El botón "Rechazar todo", si bien está disponible para ciertas categorías de cookies, no lo está para todo el conjunto de cookies posibles; en esos casos excepcionales, el usuario debe activar cada opción.

A papel 2019 Un estudio alemán descubrió que la mayoría de los visitantes de los sitios en los dominios estudiados fueron "incitados" a dar un amplio consentimiento y que solo un tercio de los sitios web realmente explicaban los propósitos de las prácticas de recopilación de datos.

En los últimos años, han surgido una serie de complementos, complementos y extensiones de navegador web para abordar el problema, como el Administrador rápido de cookies extensión de Firefox y una amplia gama de alternativas de Chrome, mientras que la Unión Europea es buscando cerrar las lagunas de cumplimiento en torno a las arquitecturas de consentimiento de cookies.

Método y datos

Los investigadores del nuevo artículo estaban decididos a crear un marco de gestión de consentimiento de cookies más sólido al evitar la dependencia de palabras clave o reglas hechas a mano, el enfoque central de varios estudios similares recientes. asistido por ML proyecta.

CookieEnforcer tiene tres objetivos: traducir los avisos de cookies y las interfaces a un formato legible por máquina; para identificar la configuración de configuración de cookies de una manera que deshabilita las cookies no esenciales; y para aplicar automáticamente restricciones adicionales sin más entrada del usuario, si así lo desea el usuario.

El sistema consta de un componente de backend que detecta y analiza los avisos de cookies, y un componente de frontend, en forma de extensión del navegador, que genera y ejecuta la desactivación de cookies no esenciales (es decir, cookies que no obstruyen la navegación o el acceso a el dominio si está bloqueado).

El marco está incorporado en una extensión instalada localmente específica de Chrome que utiliza el Selenio biblioteca de pruebas web bajo el ChromeDriver marco de referencia.

La sección de back-end presenta módulos para detección, análisis y un modelo de decisión. El módulo de análisis tiene en cuenta los cambios en el código introducidos por la interacción del usuario, de modo que el volcado de código inicial no se invalide por la exploración simulada del usuario.

Comprensión del lenguaje natural

Con el código revelado, es importante que CookieEnforcer comprenda el estado actual de las posibles acciones que podría tomar, ya que el lenguaje detrás de los botones de alternancia puede ser ambiguo en términos de beneficio para el usuario final.

Para ello, los investigadores entrenaron a un Transformador de transferencia de texto a texto (T5) modelo para su componente de decisión. El modelo T5-Large, que contiene 770 millones de parámetros, se ajustó en una base de datos personalizada de código de entrada/salida (es decir, código que describe y habilita la funcionalidad de alternar opciones).

Formato de muestra (arriba) y datos de entrenamiento (abajo) para el modelo T5. El ejemplo de datos es de www.askubuntu.com.

Formato de muestra (arriba) y datos de entrenamiento (abajo) para el modelo T5. El ejemplo de datos es de www.askubuntu.com.

El conjunto de datos se creó mediante un muestreo de 300 sitios web con avisos de cookies seleccionados de Tranco los 50 mil sitios web más populares lista. Los módulos detector y analizador extrajeron las opciones de consentimiento de cookies de su código fuente de tiempo de ejecución y evaluaron sus estados predeterminados.

Luego, uno de los investigadores etiquetó manualmente la serie interpretada de clics necesarios para deshabilitar las cookies no esenciales para todos los sitios web estudiados, lo que resultó en 300 dominios completamente etiquetados.

Variedad en la disposición del código fuente a través de ejemplos del conjunto de datos personalizado.

Variedad en la disposición del código fuente a través de ejemplos del conjunto de datos personalizado.

Se reservaron 60 sitios web como conjunto de prueba, y el modelo T5-Large se entrenó con una tasa de aprendizaje de 0.003 en un tamaño de lote de 16 durante 20 épocas, con una longitud máxima de secuencia de entrada de 256 tokens y una longitud máxima de secuencia de destino de 64. Los tokens se formaron a partir de subpalabras establecidas por Google. OraciónPieza tokenizador.

Finalmente, la información procesada se almacena en una base de datos local y se pone a disposición del front-end del sistema. Los autores favorecieron la querySelector () Función HTML sobre el lenguaje de ruta XML (XPath) adoptado por algunos proyectos similares anteriores, ya que los XPath para los avisos de cookies son vulnerables a las actualizaciones de DOM (es decir, el código puede cambiar después de la carga inicial en respuesta a las interacciones del usuario). De esta forma, las rutas de los elementos pueden conservarse incluso cuando son dinámicas y responden a factores externos.

Pruebas y rendimiento

En la práctica, CookieEnforcer demostró ser capaz de navegar por algunos de los patrones oscuros más oscuros del conjunto de datos, como una opción oculta en el marco de consentimiento de cookies de El nuevo científico que está oculto por JavaScript hasta que el usuario solicita explícitamente verlo.

Los autores comentan:

Los usuarios pueden pasar por alto esta opción fácilmente, ya que deben expandir un marco adicional para verla. CookieEnforcer no solo la encuentra, sino que también comprende la semántica y decide oponerse. Estos ejemplos demuestran que el modelo aprende el contexto y generaliza a nuevos ejemplos.

Los investigadores realizaron tres pruebas, incluida una evaluación de extremo a extremo del rendimiento del marco en 500 dominios invisibles (es decir, sitios web para los que CookieEnforcer no fue entrenado específicamente), donde los autores informan que pudo deshabilitar con éxito las cookies no esenciales para el 91% de los sitios.

La segunda prueba comprendió un estudio de usuarios en línea que abarcó 14 sitios web y utilizó la Escala de usabilidad del sistema (puntaje) contra una línea de base manual. Para esta prueba, los autores informan que CookieEnforcer obtuvo una puntuación un 15 % más alta que la línea de base.

CookieEnforcer permite una puntuación un 15 % más alta que el uso de referencia (sin ayuda), al mismo tiempo que automatiza un proceso complicado.

CookieEnforcer permite una puntuación un 15 % más alta que el uso de referencia (sin ayuda), al mismo tiempo que automatiza un proceso complicado.

Finalmente, los parámetros entrenados de CookieEnforcer se probaron con los 5000 sitios web más importantes de EE. UU. y Europa para determinar su capacidad para navegar por los avisos de cookies. Los autores afirman:

Si bien ya se han realizado mediciones a esta escala, CookieEnforcer permite comprender mejor las opciones disponibles más allá de la heurística basada en palabras clave. En concreto, observamos que el 16.7 % de los sitios web del Reino Unido que muestran avisos de cookies han habilitado al menos una cookie no esencial. La misma cifra para los sitios web de EE. UU. es del 22 %.

Los autores han publicado un breve vídeo de YouTube que muestra a CookieEnforcer en acción:

 

Publicado por primera vez el 12 de abril de 2022.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai