Connect with us

Le Canari Qui Révèle Le Trafic IA

Angle d’Anderson

Le Canari Qui Révèle Le Trafic IA

mm
AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

Dans une nouvelle étude, des chercheurs ont caché des phrases uniques sur des sites Web et ont attrapé des chatbots IA en train de les répéter, exposant des pipelines de scraping cachés et, apparemment, des pratiques trompeuses de certaines des plus grandes entreprises IA.

 

Les entreprises IA luttent pour obtenir un avantage dans une course qui est prévue pour être brutale et réductrice ; par conséquent, elles veulent vraiment, vraiment scraper vos sites Web pour les données d’entraînement pour nourrir leurs modèles IA. Parfois constamment ; souvent en violation de vos souhaits exprimés ; et fréquemment sous l’apparence de lecteurs humains occasionnels, ou bien sous forme de bots plus « amicaux » tels que GoogleBot, plutôt que de révéler leur véritable identité en tant que scrapeurs de données IA.

Il est actuellement estimé que les scrapeurs de données IA automatisés conçus pour aspirer de nouvelles données d’entraînement et pour répondre à la demande immédiate des utilisateurs pour les dernières nouvelles via RAG, dépasseront le nombre d’humains dans un an.

Cette frénésie de données est en partie due au besoin pour chaque entité IA d’avoir sa propre copie actuelle d’Internet, plutôt que des référentiels de plus en plus obsolètes tels que Common Crawl ; et, peut-être, parce que les entreprises craignent l’arrivée de restrictions légales, et doivent procéder à l’IP-washing le plus tôt possible.

En outre, en interrogeant constamment autant de sites que possible, les entreprises IA peuvent espérer améliorer leur capacité actuelle à répondre de manière informative et précise aux situations émergentes.

Quoi qu’il en soit, il semble y avoir une certaine valeur dans l’affirmation que ces pratiques ont été hors de contrôle et ingouvernables depuis un certain temps.

Le problème, c’est qu’il n’est pas si facile de prouver jusqu’où les entreprises IA vont actuellement pour étancher leur soif de données.

Suivre les Données

Une suggestion, proposée dans un nouveau document de recherche aux États-Unis, propose une variation d’une méthode ancienne de découverte d’espions, d’informateurs et d’autres prétendus malveillants : les exposer à des informations personnalisées que personne d’autre ne connaît, et voir si et où ces informations apparaissent. Si personne d’autre ne connaissait ces informations, alors la source de la fuite est prouvée :

L'idée de base des chercheurs, présentée dans le nouveau document, est de donner à chaque bot visitant une version légèrement différente de la même page, puis de demander aux chatbots des informations sur cette page et de voir quelle version revient, ce qui permet de retracer quelles recherches Web cachées ont fourni la réponse.. Source - https://arxiv.org/pdf/2605.13706

L’idée de base des chercheurs, présentée dans le nouveau document, est de donner à chaque bot visitant une version légèrement différente de la même page, puis de demander aux chatbots des informations sur cette page et de voir quelle version revient, ce qui permet de retracer quelles recherches Web cachées ont fourni la réponse. Source

Cette approche populaire est peut-être la mieux connue grâce aux mesures anti-piratage adoptées par le comité des Oscars dans les années 2000, dans lesquelles les DVD de prévisualisation distribués aux membres votants ont commencé à être marqués numériquement avec des ID uniques qui pourraient être réattribués au destinataire original si le film en question était jamais divulgué sur Internet. Dans l’espionnage, la technique est connue sous le nom de repas de baryum, après la pratique d’utilisation d’un liquide radioactif pour éclairer les vaisseaux sanguins dans un scan médical et identifier les obstructions.

(Ironiquement, la métaphore du « canari » n’est pas très appropriée pour le scénario abordé dans le document, bien qu’elle soit plus reconnaissable que les autres tropes)

Dans le cas de la nouvelle recherche, les auteurs ont créé vingt domaines Web « pièges à miel » et ont servi des jetons uniques à chaque visiteur unique, de sorte que chacun recevait des faits différents (voir deuxième colonne à partir de la gauche dans l’image ci-dessus).

L’objectif était de révéler la véritable identité et le comportement des scrapeurs de données IA (LLM). Sur 22 systèmes LLM de production, la technique a pu identifier de manière fiable quels scrapeurs alimentaient quels LLM, puisque – avec un peu de patience après avoir « planté » les données uniques – il suffisait de poser les bonnes questions à l’IA un mois ou deux plus tard pour obtenir les jetons uniques.

Jeux Malveillants

Bien sûr, rien de tout cela ne serait nécessaire si nous n’étions pas encore dans la phase « Far West » de l’IA V3, et si les entreprises respectaient vraiment les petits fichiers texte que les domaines peuvent utiliser pour dire aux entreprises IA de ne pas scraper leurs données.

Comme il s’est avéré dans les tests des chercheurs, seule une entreprise IA semblait respecter son propre comportement et ses principes déclarés : le DuckDuckbot de DuckDuckGo était le seul agent à se présenter avec précision et à cesser de signaler les « données secrètes » dès que le domaine cible était désactivé (les autres entreprises IA ont recours à des versions mises en cache et à d’autres astuces) ou que le fichier robots.txt du domaine était modifié pour refuser le scraping IA.

De nombreuses entreprises les plus importantes ont plutôt usurpé des identités de navigateurs génériques (les mêmes que ce que verrait un site Web si vous ou moi le visitions), et – conformément à la pratique de Perplexity en 2025 – ont usurpé l’identité de GoogleBot, qui a longtemps bénéficié d’un « passeport d’or » pour accéder aux données du site Web parce qu’il retournait (notez le temps passé, car cela change) du trafic en échange de données.

Le plus grand contrevenant, selon le document, était le scrapeur qui alimentait l’écosystème Kimi AI :

‘Kimi semble être le cas le plus extrême de ce comportement : de nombreux agents utilisateur apparaissent être corrélés avec les données produites par Kimi. Nous déduisons que Kimi fait pivoter une grande liste de chaînes d’agent utilisateur pendant le scraping, possiblement pour éviter la détection des bots.’

Ce qui rend ce problème un défi majeur, c’est que lorsque ChatGPT ou des outils similaires « cherchent quelque chose », ce processus est largement invisible, avec des entreprises qui ne fournissent que des comptes rendus partiels ou auto-déclarés de la manière dont leurs systèmes rassemblent des informations en temps réel. Cela laisse les propriétaires de sites avec aucune façon claire de savoir quels bots visitent réellement leurs pages, si ces visites sont directes ou routées via des moteurs de recherche, ou comment ces données se retrouvent dans une réponse finale.

Les résultats de la nouvelle étude indiquent que les LLM peuvent utiliser leurs propres entrées mises en cache à partir d’un domaine, leurs propres listes de style SEO internes, et qu’ils utilisent fréquemment des informations provenant des résultats de moteurs de recherche de sociétés avec lesquelles, dans de nombreux cas, ils n’ont aucune association publique et aucun accord d’utilisation apparent.

Les auteurs croient que cette sortie est la première fois qu’un travail a abordé l’intrusion non désirée par des systèmes RAG (appels en temps réel à partir de LLM qui peuvent ou non avoir un utilisateur humain qui les fait fonctionner), plutôt que des bots de scraping de données à la recherche de matériel frais pour les ensembles de données d’entraînement.

Le nouveau document s’intitule Identification des scrapeurs Web IA à l’aide de jetons de canari, et provient de six chercheurs de l’Université Duke, de l’Université de Pittsburgh et de Carnegie Mellon.

Méthode

Les chercheurs ont configuré vingt domaines .com avec des sites Web globalement similaires sous des modèles courants, tels qu’un portfolio artistique ou un site Web d’entreprise. Chaque modèle contenait 10 espaces réservés qui seraient éventuellement remplis avec des jetons uniques pour le profil perçu de chaque visiteur (en fonction de facteurs tels que l’adresse IP, l’empreinte de canvas et diverses autres méthodes de « sniffing ») :

Un exemple du modèle et des espaces réservés utilisés dans l'expérience. Chaque visiteur unique perçu recevait des variables personnalisées.

Un exemple du modèle et des espaces réservés utilisés dans l’expérience. Chaque visiteur unique perçu recevait des variables personnalisées et individualisées.

Chaque visiteur unique perçu recevait des variables personnalisées. Dans le cas où le système détectait le retour d’un visiteur précédent, les mêmes variables que précédemment étaient réaffichées. Les variables étaient générées à l’aide de la bibliothèque Python Faker, ainsi que (non spécifiés) des générateurs de nombres aléatoires.

Les domaines « pièges à miel » ont ensuite été soumis à divers index tels que Google et Bing, et ont également été liés à partir d’autres domaines préexistants que les auteurs contrôlaient.

Deux mois ont été autorisés à passer, comme un intervalle requis pour permettre une fréquence de balayage à partir d’une large gamme de bots de moteurs de recherche et similaires, ainsi que (possiblement) des visites organiques. À ce stade, les chercheurs étaient maintenant en mesure d’interroger les chatbots IA ciblés (listés ci-dessous) :

Chatbot IA Éditeur
ChatGPT OpenAI
Claude Anthropic
Copilot Microsoft
Deepseek Deepseek
Duck.ai DuckDuckGo
ERNIE Baidu
Gemini Google
GLM Z.AI
Granite IBM
Grok xAI
Hunyuan Tencent
Chatbot IA Éditeur
Kimi MoonshotAI
Liquid Liquid
Llama Meta
Mistral Mistral
Nova Amazon
Perplexity Perplexity
Qwen Alibaba
Reka Reka
Solar Upstage
Step-3 StepFun
Venice Venice

Des scripts ont été créés pour interroger chaque système, via API, lorsque cela était possible. Lorsque cela n’était pas possible, et lorsque des solutions automatisées telles que Selenium étaient bloquées par les routines de détection du portail IA, des interactions manuelles via les GUI officielles des LLM ont été effectuées.

Après l’échange initial avec modèle (voir image ci-dessus), les auteurs ont suivi avec une invite secondaire conçue pour éliciter le nom d’une entreprise ou d’une personne dans un jeton associé.

Les expériences ont été menées dans l’une des trois conditions : un site Web entièrement accessible ; le site Web hors ligne ; et le site Web avec une restriction robots.txt repoussant le scraping. Ces expériences ont été menées dans cet ordre exact, les unes après les autres, puisque les dernières étapes dépendaient des précédentes.

Enfin, avec tous les sites remis en ligne, la dernière étape a rétesté la sortie LLM à intervalles d’une semaine.

Résultats

Quatre des LLM ciblés se sont avérés être totalement résistants aux méthodes des chercheurs, et aucun résultat n’a pu être obtenu pour DeepSeek, Hunyuan, GLM, et Liquid.

En ce qui concerne la tendance de nombreux bots IA à imiter le trafic non IA, les auteurs déclarent :

‘En plus des agents déclarés de première partie, plusieurs systèmes IA ont renvoyé du contenu associé à des chaînes d’agent utilisateur génériques. Nous avons observé ce comportement pour six des 18 systèmes IA pour lesquels nous avons obtenu des informations sur l’agent utilisateur.

‘Ce résultat suggère que certains systèmes IA peuvent obtenir du contenu de site Web grâce à des requêtes qui ressemblent à du trafic de navigateur ordinaire, ce qui rend difficile le blocage basé sur l’agent utilisateur.’

ERNIE a renvoyé à la fois Baiduspider et une identité Chrome ; Grok a combiné Googlebot avec deux agents de navigateur ; Solar a utilisé uniquement des identités de navigateur ; Qwen a mélangé Googlebot avec Chrome ; et Kimi a été lié à plusieurs agents de style de navigateur.

De nombreux systèmes ont semblé s’appuyer sur des scrapeurs de moteurs de recherche tiers, dans des relations pas toujours divulguées. Le contenu lié à Googlebot, Bingbot et Bravebot a été renvoyé par dix des 18 systèmes analysés, souvent dans des cas où aucune association publique n’existe entre le fournisseur IA et le moteur de recherche – bien que certaines liens, tels que l’utilisation de Brave par Claude, soient documentés.

Les auteurs soutiennent que cela reflète l’ingestion de résultats de recherche plutôt que le scraping direct, puisque les vérifications ASN ont indiqué que le trafic provenait des réseaux de moteurs de recherche attendus, plutôt que d’identités usurpées.

Cela suggère, affirme le document, une couche supplémentaire d’opacité dans le pipeline Web-IA, où le blocage des scrapeurs IA connus peut ne pas empêcher l’utilisation des données, et où éviter l’inclusion peut nécessiter de se désinscrire complètement de l’indexation de recherche – un choix indésirable alors que la tension entre le référencement traditionnel et la recherche basée sur les LLM est encore loin d’être résolue.

Cache Seulement

Les auteurs ont ensuite testé si la suppression d’une source affecterait la sortie des chatbots, en prenant les sites de test hors ligne et en interrogeant à nouveau les systèmes après un intervalle d’une semaine. Selon le document, de nombreux chatbots ont continué à reproduire le contenu « planté » même après une semaine de temps d’arrêt, indiquant que les réponses étaient tirées de données mises en cache, plutôt que d’une récupération en temps réel.

Cette persistance a été la plus évidente dans les systèmes liés à des scrapeurs de moteurs de recherche, où le contenu précédemment indexé est resté disponible, malgré les pages sources qui n’étaient plus accessibles – bien que des comportements similaires aient également été observés dans les systèmes associés à des agents de style de navigateur, indiquant que la mise en cache peut s’étendre au-delà des pipelines alimentés par les moteurs de recherche.

Le document suggère qu’une fois que le contenu entre dans une mise en cache, qu’il soit maintenu par le chatbot ou accessible via des index de recherche, la suppression de la page d’origine ne retire pas nécessairement ce contenu des sorties ultérieures.

Conclusion

Les auteurs reconnaissent qu’une certaine « fuite » se produira à partir de cette approche classique « cloisonnée », puisque les jetons uniques destinés à un LLM peuvent parfois se retrouver dans les résultats de recherche (générés par les jetons « réels »), qui sont ensuite ingérés par un deuxième LLM. Cependant, dans de tels schémas, la diffusion de ce type est inévitable, et la vigilance pour la première occurrence est le moment critique et décisif.

Ce qui reste à voir est dans quelle mesure un tel schéma pourrait être mis en œuvre à grande échelle, notamment depuis que, comme l’observent les auteurs, on manquerait rapidement de jetons contextuellement corrects.

Cependant, cela manque plutôt le point, puisqu’il peut y avoir une limite même à la hardiesse de la capacité des entreprises IA à faire face à des preuves claires de leurs propres mensonges sur leurs politiques de scraping. De plus, à moins que ces entreprises ne s’engagent dans la voie potentiellement coûteuse de faire pivoter les adresses IP nationales pour masquer leur identité, il suffira qu’une seule organisation identifie et publie une liste noire de type SpamHaus d’adresses IP ou d’ASNs de bots IA malveillants ; le processus n’a pas besoin d’être industrialisé pour être efficace.

 

Publié pour la première fois le jeudi 14 mai 2026

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.