Cybersécurité

Une méthode d’apprentissage automatique pour bloquer les publicités en fonction du comportement local du navigateur

Published July 26, 2021

Updated April 28, 2026

Martin Anderson

Les chercheurs en Suisse et aux États-Unis ont élaboré une nouvelle approche d’apprentissage automatique pour la détection du matériel publicitaire des sites Web en fonction de la façon dont ce matériel interagit avec le navigateur, plutôt que par l’analyse de son contenu ou de son comportement réseau – deux approches qui se sont avérées inefficaces à long terme face au masquage CNAME (voir ci-dessous).

Intitulé WebGraph, le cadre utilise une approche d’apprentissage automatique basée sur un graphique pour détecter le contenu promotionnel en se concentrant sur des activités essentielles du réseau publicitaire – y compris les tentatives de télémétrie et le stockage local du navigateur – de telle sorte que la seule technique d’évasion efficace serait de ne pas effectuer ces activités.

Bien que les approches précédentes aient obtenu des taux de détection légèrement plus élevés que WebGraph, toutes sont sensibles aux techniques d’évasion, tandis que WebGraph est capable d’approcher 100 % d’intégrité face à des réponses adverses, y compris des réponses hypothétiques plus sophistiquées qui pourraient émerger face à cette nouvelle méthode de blocage des publicités.

L’article est dirigé par deux chercheurs de l’Institut fédéral suisse de technologie, en collaboration avec des chercheurs de l’Université de Californie, Davis et de l’Université de l’Iowa.

Au-delà d’AdGraph

Le travail est une évolution d’une initiative de recherche de 2020 avec le navigateur Brave appelée AdGraph, qui comptait parmi ses chercheurs deux des chercheurs de l’article récent.

Comparaison d’AdGraph et de WebGraph, avec des lignes pointillées représentant les innovations architecturales de l’approche précédente. Source : https://arxiv.org/pdf/2107.11309.pdf

AdGraph repose sur des (contenu publicitaire) fonctions, dérivées de l’analyse des URL, comme clé de détection du matériel commercial. Cependant, ces fonctions représentent un seul point de défaillance potentiel pour les adversaires cherchant à détecter la présence de systèmes de détection de publicités, et à formuler des méthodes pour les contourner. Cette dépendance à l’égard des propriétés de contenu rend AdGraph essentiellement une version mécanisée des approches basées sur des listes de filtres créées manuellement, partageant leurs faiblesses.

Masquage CNAME

Le matériel provenant du domaine d’un site Web lui-même tombe dans une catégorie « de confiance », dans la mesure où le domaine lui-même est de confiance. Pour un site Web d’autorité élevée, il existe une prime importante pour exécuter des campagnes publicitaires qui présentent du matériel qui semble être hébergé par le site d’autorité lui-même, car une telle publicité est insensible aux listes de blocage des publicités basées sur des filtres, et même à l’approche AdGraph de 2020.

Cependant, les campagnes personnalisées sont difficiles à négocier, coûteuses à mettre en œuvre et vont à l’encontre des principes fondamentaux du modèle de publicité en réseau développé au cours des 25 dernières années, où une plate-forme tierce insère du code directement dans le site hôte, généralement « mettant aux enchères » l’espace publicitaire en microsecondes en fonction de la désirabilité des mots clés et de divers autres facteurs.

Puisque presque tous les systèmes de blocage des publicités s’appuient sur le matériel tiers dans les pages Web (c’est-à-dire les éléments hébergés sur des domaines « étrangers »), les annonceurs se défendent avec des techniques de masquage CNAME au cours des cinq dernières années. Le masquage CNAME trompe les traceurs en leur faisant croire qu’un sous-domaine du site hôte (c’est-à-dire information.example.com au lieu d’exemple.com) est un véritable ajout au site, alors qu’en fait il s’agit d’un mécanisme de serveur publicitaire proxy arrangé avec des fournisseurs de publicité tiers.

En mars 2021, une étude a révélé que les incidents de masquage CNAME ont augmenté de 22 % entre 2018 et 2020, avec près de 10 % des 10 000 premiers sites Web de Tranco utilisant au moins un traceur basé sur CNAME en octobre 2020.

Rejet de la confiance dans les URL

Les techniques de tromperie CNAME impliquent la manipulation des URL impliquées dans le processus de serveur publicitaire. Tout système de blocage des publicités qui fait confiance à la chaîne d’URL sera sujet à la manipulation et à l’évasion. Par conséquent, WebGraph modifie aléatoirement les URL fournies dans un processus (y compris les chaînes de requête, le nombre de paramètres et les noms de paramètres), en recherchant des modèles d’utilisation plutôt que des URL spécifiques interdites ou acceptées.

Le système doit prendre en compte deux configurations courantes dans une architecture de serveur publicitaire : l’une, où l’hôte collabore directement avec l’annonceur ; et une deuxième (plus courante) où l’annonceur fournit une coopération limitée en raison de la nécessité de se protéger contre la manipulation par ses clients.

Dans les approches basées sur des listes, y compris AdGraph, la manipulation réussie de l’URL par le système de serveur publicitaire est presque une victoire totale, attribuant une « provenance locale » à la publicité, et échappant ainsi à presque toutes les tentatives de bloquer systématiquement le contenu publicitaire.

Qu’il reste, en termes de signature ? WebGraph se concentre plutôt sur le besoin des systèmes publicitaires de partager des informations par divers moyens semi-obscurcis, tels que les traceurs Web, les communications entre les iframes et les « auditeurs » Web, qui sondent constamment l’état en direct de la page hôte pour des activités significatives en termes de métriques Web pour la publicité. Une telle activité inclut le stockage de variables dans les cookies ou le stockage local basé sur HTML5.

WebGraph utilise le cadre de mesure de la confidentialité Web de Mozilla (OpenWPM framework) pour suivre une telle activité dans Firefox. Il capture toute l’activité au niveau de la couche JavaScript, et toutes les requêtes réseau sortantes, ainsi que leurs réponses, au niveau de la couche réseau.

Cette surveillance supplémentaire introduit de nouveaux « flux d’informations » dans le réseau de graphiques précédemment proposé par AdGraph, permettant à WebGraph d’enregistrer et de quantifier explicitement les modèles de partage d’informations en fonction de l’activité locale, et indépendamment de l’origine et de la destination des URL pour la télémétrie ou d’autres types de communications internes dans les systèmes de serveur publicitaire.

Résultats

Les chercheurs ont utilisé une version étendue d’OpenWPM pour parcourir systématiquement 10 000 sites Web issus des 100 000 premiers sites d’Alexa, et un échantillon aléatoire de 9 000 sites classés entre 1 000 et 100 000, en stockant leurs représentations graphiques avant de transmettre les résultats à un classificateur d’arbre de décision modelé sur la conception originale d’AdGraph, et en utilisant des listes de filtres publicitaires populaires comme vérité de base. De cette façon, un ensemble de données a été construit pour l’entraînement du modèle principal.

Le système a obtenu des résultats comparables à ceux d’AdGraph, avec une précision de 92,33 %. Cependant, la résilience du nouveau système à la résistance adverse passe d’un taux de défaillance presque total pour AdGraph à seulement 8 % de sensibilité sous WebGraph.

Directions futures

L’article soutient que les réseaux publicitaires devraient réarchitecturer considérablement leurs systèmes pour échapper à la détection face à l’approche WebGraph, et suggère que de tels changements nécessiteraient un examen de la relation de confiance actuellement circonspecte entre les annonceurs tiers et les sites hôtes sur lesquels leurs publicités apparaissent.

L’article note également que WebGraph ne tient pas compte des techniques de suivi sans état, telles que l’empreinte digitale du navigateur (via l’élément Canvas), qui utilisent des API que le système ne surveille pas actuellement. Les chercheurs suggèrent que WebGraph peut être étendu à l’avenir pour tenir compte également de ces types d’interactions et de signaux de stockage local.