Intelligence Artificielle
Apprentissage automatique vs systèmes de consentement aux cookies

Une nouvelle collaboration de recherche entre l'Université du Wisconsin et Google confronte l'apprentissage automatique à l'un des désagréments les plus notoires des internautes de la dernière décennie : l'opacité et l'utilisation abusive cynique des bannières de consentement aux cookies conformes au RGPD.
Titré CookieEnforcer, le nouveau cadre utilise Compréhension sémantique du texte pour analyser la signification et l'utilité du code sous-jacent derrière la fenêtre contextuelle ou la bannière de consentement aux cookies, afin de fournir à l'utilisateur la solution manquante en un clic pour désactiver tous les cookies véritablement « non nécessaires » - y compris ceux que les propriétaires de domaine peuvent présenter comme étant « essentiels », même s'ils ne le sont pas.

CookieEnforcer examine le code de consentement des cookies du site Web www.askubuntu.com. Source : https://arxiv.org/pdf/2204.04221.pdf
Le système est implémenté via un plugin de navigateur web installé par l'utilisateur, capable d'appliquer des règles définies par l'utilisateur en un seul clic. Une fois le cadre de consentement aux cookies affiché sur le site web, l'utilisateur peut activer le plugin, qui analysera ensuite le code de consentement aux cookies pour identifier les actions possibles avant de générer le code JavaScript approprié pour exécuter les choix de l'utilisateur.
Le plugin peut être configuré pour appliquer automatiquement les préférences de l'utilisateur, ou bien prendre les cas individuellement, permettant à l'utilisateur d'ajuster les paramètres avant la soumission finale.

Application des cookies en action. Si vous préférez, le plugin Chrome peut automatiser complètement ce processus, sans autre contribution de l'utilisateur. Voir la vidéo intégrée plus tard pour plus de détails. Source : https://www.youtube.com/watch?v=5NI6Q981quc
Le défi d'analyser les options possibles de « non-consentement », qui sont généralement cachées dans des groupes de paramètres obscurs et laborieux (plutôt que dans les paramètres conviviaux) accepter tout typique des cadres de consentement) est modélisé comme un séquence à séquence entrée.
Lors d'une évaluation de précision de bout en bout, CookieEnforcer a pu générer toutes les étapes nécessaires pour contourner les procédures complexes de consentement aux cookies dans 91 % des cas étudiés, sur des domaines qui n'avaient pas été détectés lors de l'apprentissage du modèle d'apprentissage automatique du système. Une étude utilisateur a également démontré que le système réduit considérablement les efforts des utilisateurs pour naviguer dans les modules de consentement.
Le papier la présentation de la méthode est intitulée CookieEnforcer : Analyse et application automatisées des notifications de cookies, et vient de trois chercheurs de l'Université du Wisconsin à Madison, et un de Google Inc.
Les arcanes du consentement aux cookies
Depuis la promulgation du Règlement général sur la protection des données (GDPR) en 2016 et le California Consumer Privacy Act (CCPA) en 2018, les sites Web souhaitant engager des utilisateurs des zones couvertes par cette législation ont été tenus de fournir des mécanismes de préférence en matière de cookies (généralement basés sur la détection de l'adresse IP de l'utilisateur comme proxy pour son pays d'origine).
Cependant, étant donné que les propriétaires de domaine étaient depuis longtemps habitués à glaner des données utilisateur précieuses et exploitables à partir de la mise en œuvre opaque et généralement invisible des cookies, ils se sont montrés réticents à fournir des désactivations faciles pour leurs utilisateurs nouvellement habilités.
L'interface utilisateur par défaut pour les interfaces de consentement aux cookies (qui apparaissent la première fois qu'un utilisateur visite un domaine, ou si l'utilisateur a supprimé les cookies pour ce domaine) s'est rapidement installée dans motifs sombres conçu pour fatiguer le spectateur avec des choix granulaires, chronophages et étendus au cas où il voudrait exercer son droit au consentement ; ou bien un bouton simple et facilement accessible qui active l'utilisateur dans tous les cookies que le propriétaire du domaine souhaite exécuter. Cette culture des choix d'interface utilisateur labyrinthiques a été décrite dans une étude de 2020 comme « une chasse au trésor ».
Le nouveau journal commente :
« [Les utilisateurs] peuvent avoir du mal à contrôler les cookies de manière éclairée sur les sites web aux notifications complexes. Ils sont bien plus susceptibles de se fier aux configurations par défaut que d'affiner leurs paramètres de cookies pour chaque site web. Dans de nombreux cas, ces paramètres par défaut portent atteinte à la vie privée et favorisent les fournisseurs de services, ce qui entraîne des risques pour la confidentialité. »
Un commentaire sur un message de forum populaire Concernant ces pratiques, elles ont été qualifiées de « conformité malveillante ». L'agacement des utilisateurs face aux cadres de consentement aux cookies est un sujet qui inquiète les grands éditeurs, qui pourraient normalement se permettre une couverture plus large s'ils n'étaient pas personnellement exposés à ce problème par leurs propres pratiques.

Un labyrinthe d'options typique présenté, dans ce cas, par le site Web TechCrunch, ironiquement en préface d'un article Concernant l'évolution de l'attitude de l'UE quant à la définition du consentement aux cookies. Les identifiants d'URL et les crochets ajoutés, conçus pour permettre un suivi plus poussé, comptaient 262 caractères (supprimés ici). Le bouton « Refuser tout », bien que disponible pour certaines catégories de cookies, ne l'est pas pour l'ensemble des cookies possibles ; dans ces cas exceptionnels, l'utilisateur doit actionner chaque « interrupteur ».
A papier 2019 Une étude allemande a révélé qu'une majorité des visiteurs des sites dans les domaines étudiés étaient « poussés » vers un consentement large, et que seulement un tiers des sites Web expliquaient réellement les objectifs des pratiques de collecte de données.
Un certain nombre de plug-ins, de modules complémentaires et d'extensions de navigateur Web ont vu le jour ces dernières années pour résoudre le problème, tels que le Gestionnaire rapide de cookies Extension Firefox et une large gamme d'alternatives à Chrome, tandis que l'Union européenne est cherche à fermer les failles de conformité autour des architectures de consentement aux cookies.
Méthode et données
Les chercheurs du nouvel article étaient déterminés à créer un cadre de gestion du consentement aux cookies plus robuste en évitant de s'appuyer sur des mots-clés ou des règles artisanales, l'approche centrale d'un certain nombre d'études similaires récentes. assisté par le ML projets.
CookieEnforcer a trois objectifs : traduire les avis et interfaces de cookies dans un format lisible par machine ; pour identifier la configuration des paramètres des cookies de manière à désactiver les cookies non essentiels ; et pour appliquer automatiquement des restrictions supplémentaires sans autre intervention de l'utilisateur, si l'utilisateur le souhaite.
Le système se compose d'un composant backend qui détecte et analyse les avis de cookies, et d'un composant frontal, sous la forme d'une extension de navigateur, qui génère et exécute la désactivation des cookies non essentiels (c'est-à -dire des cookies qui n'entravent pas la navigation ou l'accès à le domaine s'il est bloqué).
Le cadre est incorporé dans une extension installée localement spécifique à Chrome qui utilise le Sélénium bibliothèque de test Web sous le ChromeDriver cadre.
La section backend comprend des modules de détection, d'analyse et un modèle de décision. Le module d'analyse tient compte des changements de code introduits par l'interaction de l'utilisateur, de sorte que le vidage de code initial n'est pas rendu invalide par l'exploration utilisateur simulée.
Compréhension du langage naturel
Une fois le code révélé, il est important que CookieEnforcer comprenne l'état actuel des actions possibles qu'il pourrait entreprendre, car le langage derrière les boutons à bascule peut être ambigu en termes d'avantages pour l'utilisateur final.
Pour cela, les chercheurs ont formé un Transformateur de transfert de texte à texte (T5) pour sa composante de décision. Le modèle T5-Large, qui contient 770 millions de paramètres, a été affiné sur une base de données personnalisée de code d'entrée/sortie (c'est-à -dire, code qui décrit et active la fonctionnalité des options de basculement).

Exemple de mise en forme (ci-dessus) et de données d'apprentissage (ci-dessous) pour le modèle T5. L'exemple de données provient de www.askubuntu.com.
L'ensemble de données a été créé en échantillonnant 300 sites Web avec des avis de cookies sélectionnés parmi ceux de Tranco. les 50 XNUMX sites Web les plus populaires liste. Les modules détecteur et analyseur ont extrait les options de consentement aux cookies de leur code source d'exécution et évalué leurs états par défaut.
L'un des chercheurs a ensuite étiqueté manuellement la série interprétée de clics nécessaires pour désactiver les cookies non essentiels pour tous les sites Web étudiés, ce qui a donné 300 domaines entièrement étiquetés.

Variété dans la disposition du code source dans les exemples de l'ensemble de données personnalisé.
60 sites Web ont été mis de côté comme ensemble de test, et le modèle T5-Large a été formé avec un taux d'apprentissage de 0.003 à une taille de lot de 16 pour 20 époques, avec une longueur de séquence d'entrée maximale de 256 jetons et une longueur de séquence cible maximale de 64. Les jetons étaient formés de sous-mots établis par Google PhraseMorceau tokeniseur.
Enfin, les informations traitées sont stockées dans une base de données locale et mises à disposition du frontal du système. Les auteurs ont privilégié la querySelector () Fonction HTML sur XML Path Language (XPath) approche adoptée par certains projets similaires précédents, puisque les XPaths pour les avis de cookies sont vulnérables aux mises à jour DOM (c'est-à -dire que le code peut changer après le chargement initial en réponse aux interactions de l'utilisateur). De cette manière, les chemins d'éléments peuvent être conservés même lorsqu'ils sont dynamiques et sensibles à des facteurs externes.
Test et performances
En pratique, CookieEnforcer s'est avéré capable de naviguer dans certains des modèles sombres les plus sombres de l'ensemble de données, comme une option cachée dans le cadre de consentement des cookies de Le nouveau scientifique qui est masqué par JavaScript jusqu'à ce que l'utilisateur demande explicitement à le voir.
Les auteurs commentent :
Cette option peut facilement être manquée par les utilisateurs, car ils doivent développer un cadre supplémentaire pour la voir. CookieEnforcer non seulement détecte cette option, mais comprend également la sémantique et décide de s'y opposer. Ces exemples montrent que le modèle apprend le contexte et généralise à de nouveaux exemples.
Les chercheurs ont effectué trois tests, dont une évaluation de bout en bout des performances du framework sur 500 domaines invisibles (c'est-à -dire des sites Web pour lesquels CookieEnforcer n'a pas été spécifiquement formé), où les auteurs rapportent qu'il pouvait désactiver avec succès les cookies non essentiels pour 91 % des sites.
Le deuxième test comprenait une étude d'utilisateurs en ligne couvrant 14 sites Web et utilisant l'échelle d'utilisabilité du système (score) par rapport à une ligne de base manuelle. Pour ce test, les auteurs rapportent que CookieEnforcer a obtenu un score supérieur de 15 % à la ligne de base.

CookieEnforcer permet d'obtenir un score supérieur de 15 % à l'utilisation de base (non assistée), tout en automatisant un processus frustrant.
Enfin, les paramètres entraînés de CookieEnforcer ont été testés sur les 5000 XNUMX principaux sites web aux États-Unis et en Europe, afin de déterminer sa capacité à gérer les notifications de cookies. Les auteurs déclarent :
Bien que des mesures à une telle échelle aient déjà été réalisées, CookieEnforcer permet une compréhension plus approfondie des options au-delà des heuristiques basées sur les mots-clés. En particulier, nous constatons que 16.7 % des sites web au Royaume-Uni affichant des avis sur les cookies ont activé au moins un cookie non essentiel. Ce chiffre est de 22 % pour les sites web aux États-Unis.
Les auteurs ont publié une courte vidéo YouTube montrant CookieEnforcer en action :
Première publication le 12 avril 2022.












