Connect with us

Andersons hoek

De Kanarie Die AI-Verkeer Onthult

mm
AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

In een nieuwe studie verborgen onderzoekers unieke zinnen op websites en vingen ze AI-chatbots die deze zinnen herhaalden, waardoor verborgen scrapingspijpen en, ogenschijnlijk, misleidende praktijken van sommige van de grootste AI-bedrijven aan het licht kwamen.

 

AI-bedrijven strijden voor een voorsprong in een race die voorspeld wordt als genadeloos reductief te zijn; daarom willen ze echt, echt graag uw website(s) schrapen voor trainingsgegevens om hun AI-modellen te voeden. Soms constant; vaak in strijd met uw uitdrukkelijke wensen; en vaak in de vermomming van een gewone menselijke bezoeker, of anders als ‘vriendelijkere’ bots zoals GoogleBot, in plaats van hun ware identiteit als AI-gegevensschrapers te onthullen.

Het wordt momenteel geschat dat geautomatiseerde AI-schrapers die zijn ontworpen om nieuwe trainingsgegevens op te zuigen en om te reageren op de directe vraag van gebruikers naar de laatste nieuwsberichten via RAG, binnen een jaar zullen overtreffen.

Deze razende, meedogenloze en herhaalde datagreep gebeurt gedeeltelijk vanwege de behoefte van elk AI-bedrijf om zijn eigen actuele kopie van het internet te hebben, in plaats van steeds verouderde repositories zoals Common Crawl; en, misschien, omdat de bedrijven vrezen voor de komende juridische beperkingen en zo snel mogelijk willen beginnen met IP-wassen.

Bovendien kunnen AI-bedrijven, door constant te polsen van zoveel mogelijk (mogelijk vruchtbare) sites, hun momenteel niet-grote vermogen om informatief en nauwkeurig te reageren op plotselinge en opkomende situaties, mogelijk verbeteren.

In elk geval lijkt er enige waarheid te zijn in de bewering dat deze praktijken al een tijdje buiten de controle en onbeheersbaar zijn.

Het probleem is dat het niet zo eenvoudig is om te bewijzen hoe ver AI-bedrijven gaan om hun dorst naar de laatste gegevens te lessen.

Volg de Gegevens

Een suggestie, voorgesteld in een nieuw artikel uit de VS, biedt een variatie op een oude methode om spionnen, informanten en andere vermeende boosdoeners te ontdekken: hen blootstellen aan op maat gemaakte informatie die niemand anders weet, en zien of en waar die informatie opduikt. Als niemand anders van die informatie op de hoogte was, dan is de bron van de lek bewezen:

Het centrale idee van de onderzoekers, zoals beschreven in het nieuwe artikel, is om elke bezoeker een iets andere versie van dezelfde pagina te geven, en dan de chatbots naar die pagina te vragen en te zien welke versie terugkomt, waardoor het mogelijk wordt om te traceren welke verborgen webopvragingen het antwoord leverden.. Bron - https://arxiv.org/pdf/2605.13706

Het centrale idee van de onderzoekers, zoals beschreven in het nieuwe artikel, is om elke bezoeker een iets andere versie van dezelfde pagina te geven, en dan de chatbots naar die pagina te vragen en te zien welke versie terugkomt, waardoor het mogelijk wordt om te traceren welke verborgen webopvragingen het antwoord leverden. Bron

Deze populaire aanpak is misschien het best bekend door de anti-piraterijsmaatregelen die door het Academy Awards-comité in de jaren 2000 zijn aangenomen, waarbij de screener-DVD’s die aan stemmende leden werden uitgedeeld, digitaal werden gestempeld met unieke ID’s die naar de oorspronkelijke ontvanger konden worden herleid als de film in kwestie ooit naar het internet zou worden gelekt. In de spionage wordt deze techniek barium meal genoemd, naar de praktijk van het gebruik van een radioactief isotoopvloeistof om bloedvaten in een medische scan te verlichten en blokkades te identificeren.

(Ironisch genoeg is de gekozen ‘kanarie’ metafoor niet zo toepasselijk voor het scenario dat het artikel aanspreekt, hoewel het herkenbaarder is dan enige van de genoemde tropen)

In het geval van het nieuwe onderzoek creëerden de auteurs twintig ‘honeypot’-webdomeinen en serveerden unieke tokens aan elke unieke bezoeker, zodat elke bezoeker andere feiten zou krijgen (zie tweede kolom van links in de bovenstaande afbeelding).

Het doel was om de ware identiteit en het gedrag van LLM (AI)-schrapers te onthullen. Over 22 productie-LLM-systemen was de techniek in staat om betrouwbaar te identificeren welke schrapers welke LLM voedden, aangezien – met een beetje geduld na het ‘planten’ van de unieke gegevenssignalen – het stellen van de juiste vragen aan de AI een maand of twee later de unieke tokens zou opleveren.

Oneerlijke Practijken

Natuurlijk zou dit allemaal niet nodig zijn als we niet nog steeds in de ‘wilde west’-fase van AI V3 zitten, en als bedrijven daadwerkelijk de kleine tekstbestanden zouden respecteren die domeinen kunnen gebruiken om AI-bedrijven te vertellen hun gegevens niet te schrapen.

Zoals bleek uit de tests van de onderzoekers, leek slechts één AI-bedrijf zijn eigen gedrag en principes te respecteren: DuckDuckGo’s DuckDuckbot was de enige agent die zichzelf nauwkeurig vertegenwoordigde en die ophield met het rapporteren van de ‘geheime gegevens’ zodra het doeldomein werd uitgeschakeld (andere AI-bedrijven gebruikten cached versies en andere trucs) of het robots.txt-bestand van het domein werd gewijzigd om AI-schrapen te weigeren.

Veel van de grootste spelers impersoneren generieke browser-IDs (hetzelfde als een website zou zien als u of ik ze zou bezoeken), en – in overeenstemming met Perplexity’s leidende rol in deze praktijk – namen ze de identiteit van GoogleBot aan, die lange tijd een ‘gouden pas’ naar websitegegevens had omdat het verkeer terugkeerde (let op de verleden tijd, omdat dit verandert) in ruil voor gegevens.

De ergste overtreding, volgens het artikel, was de schraper die de Kimi AI-ecosysteem voedde:

‘Kimi lijkt de meest extreme casus van dit gedrag te zijn: veel gebruikersagenten leken gerelateerd te zijn aan gegevens die door Kimi werden gegenereerd. We concluderen dat Kimi door een grote lijst van User-Agent-strings roteert bij het schrapen, mogelijk om botdetectie te vermijden.’

Wat dit probleem tot een grote uitdaging maakt, is dat wanneer ChatGPT of soortgelijke tools ‘iets opzoeken’, dat proces grotendeels onzichtbaar is, met bedrijven die alleen partiële of zelfgerapporteerde rekeningen van hoe hun systemen live-informatie verzamelen. Dit laat site-eigenaren met geen duidelijke manier om te weten welke bots daadwerkelijk hun pagina’s bezoeken, of die bezoeken rechtstreeks zijn of via zoekmachines worden gerouteerd, of hoe die gegevens in een definitief antwoord terechtkomen.

De bevindingen uit de nieuwe studie geven aan dat LLM’s mogelijk hun eigen cached entries van een domein gebruiken, hun eigen interne SEO-lijsten, en dat ze vaak informatie uit de zoekresultaten van bedrijven gebruiken met wie ze in veel gevallen geen openbare associatie hebben, en geen zichtbare gebruiksafspraken.

De auteurs geloven dat deze onthulling de eerste keer is dat een werk ongewenste indringing door RAG-systemen (live oproepen op inferentietijd van LLM’s die al dan niet een menselijke gebruiker hebben) heeft aangepakt, in plaats van gegevensschrapende bots die verse materialen voor trainingsdatasets zoeken.

Het nieuwe artikel heet Identificatie van AI-Web Scrapers met behulp van Kanarie-Tokens en komt van zes onderzoekers van Duke University, de Universiteit van Pittsburgh en Carnegie Mellon.

Methode

De onderzoekers hebben twintig .com-domeinen opgezet met breed vergelijkbare websites onder gemeenschappelijke sjablonen, zoals een artistiek portfolio of een bedrijfswebsite. Elk sjabloon bevatte 10 placeholders die uiteindelijk zouden worden ingevuld met tokens die uniek waren voor het profiel van elke bezoeker (op basis van factoren zoals IP-adres, canvas-fingerprinting en diverse andere ‘snuffelmethoden):

Een voorbeeld van het sjabloon en de variabele placeholders die in het experiment werden gebruikt. Elke unieke bezoeker kreeg persistente, individuele, aangepaste variabelen.

Een voorbeeld van het sjabloon en de variabele placeholders die in het experiment werden gebruikt. Elke unieke bezoeker kreeg persistente, individuele, aangepaste variabelen.

Elke unieke bezoeker kreeg aangepaste variabelen. In het geval waarin het systeem de terugkeer van een eerdere bezoeker detecteerde, werden dezelfde variabelen als eerder opnieuw gepresenteerd. Variabelen werden gegenereerd met behulp van de Python Faker-bibliotheek, evenals (niet gespecificeerde) willekeurige nummergeneratoren.

De honeypot-domeinen werden vervolgens ingediend bij diverse indexes zoals Google en Bing, en werden ook gelinkt vanuit andere bestaande domeinen die de auteurs controleerden.

Twee maanden werden toegelaten om voorbij te gaan, als een vereiste interval om te laten zien voor scanningsfrequentie van een breed scala aan zoekmachines en soortgelijke bots, evenals (mogelijk) organische bezoeken. Op dat moment waren de onderzoekers nu in staat om de doel-AI-chatbots (hieronder vermeld) te ondervragen:

AI-chatbot Uitgever
ChatGPT OpenAI
Claude Anthropic
Copilot Microsoft
Deepseek Deepseek
Duck.ai DuckDuckGo
ERNIE Baidu
Gemini Google
GLM Z.AI
Granite IBM
Grok xAI
Hunyuan Tencent
AI-chatbot Uitgever
Kimi MoonshotAI
Liquid Liquid
Llama Meta
Mistral Mistral
Nova Amazon
Perplexity Perplexity
Qwen Alibaba
Reka Reka
Solar Upstage
Step-3 StepFun
Venice Venice

Scripts werden gebouwd om elk systeem te ondervragen via API, waar mogelijk. Wanneer dit niet mogelijk was, en waar geautomatiseerde oplossingen zoals Selenium werden geblokkeerd door de detectieroutines van de AI-poort, werden handmatige interacties via de officiële GUI’s van de LLM’s ondernomen.

Na de initiële gesjabildeerde uitwisseling (zie bovenstaande afbeelding), volgden de auteurs op met een tweede prompt die was ontworpen om de naam van een bedrijf of een persoon in een geassocieerde token te ontlokken.

De experimenten werden uitgevoerd in een van drie condities: een volledig toegankelijke website; de website die offline werd gehaald; en de website met een robots.txt-beperking die schrapen tegenhield. Deze experimenten werden uitgevoerd in die exacte volgorde, een voor een, omdat de latere fasen afhankelijk waren van de eerdere.

Ten slotte, met alle sites weer online, zou de laatste fase de LLM-uitvoer opnieuw testen met tussenpozen van een week.

Resultaten

Vier van de doel-LLM’s bleken volledig resistent te zijn tegen de methoden van de onderzoekers, en er konden geen resultaten worden verkregen voor DeepSeek, Hunyuan, GLM en Liquid.

Wat betreft de neiging van veel AI-bots om zich voor te doen als niet-AI-verkeer, stellen de auteurs:

‘Naast eerst verklaarde agenten, keerden verschillende AI-systemen inhoud terug die geassocieerd was met generieke browser-User-Agent-strings. We observeerden dit gedrag bij zes van de 18 AI-systemen waarvoor we User-Agent-informatie verkregen.

‘Dit resultaat suggereert dat sommige AI-systemen website-inhoud kunnen verkrijgen via verzoeken die lijken op gewone browser-verkeer, wat User-Agent-gebaseerde blokkering moeilijk maakt.’

ERNIE retourneerde zowel Baiduspider als een Chrome-identiteit; Grok combineerde Googlebot met twee browseragenten; Solar gebruikte alleen browser-identiteiten; Qwen mengde Googlebot met Chrome; en Kimi was gelinkt aan meerdere browser-achtige agenten.

Veel systemen leken te vertrouwen op derde partijen voor zoekmachineschrapers, in relaties die niet altijd werden onthuld. Inhoud gelinkt aan Googlebot, Bingbot en Bravebot werd geretourneerd door tien van de 18 geanalyseerde systemen, vaak in gevallen waarin geen openbare associatie bestond tussen de AI-aanbieder en de zoekmachine – hoewel sommige links, zoals Claude’s gebruik van Brave, zijn gedocumenteerd.

De auteurs beweren dat dit een extra laag van ondoorzichtigheid in de web-naar-AI-pijplijn aangeeft, waarbij het blokkeren van bekende AI-crawlers de gegevensgebruik niet noodzakelijk kan voorkomen, en waarbij het vermijden van opname mogelijk het volledig uitsluiten van zoekindexering vereist – een onwenselijke keuze terwijl de spanning tussen traditionele SEO en LLM-gebaseerde zoekopdrachten nog ver van opgelost is.

Alleen Cache

De auteurs testten vervolgens of het verwijderen van een bron de output van chatbots zou beïnvloeden, door de test sites offline te halen en de systemen opnieuw te ondervragen na een interval van een week. Volgens het artikel bleven veel chatbots de ‘geplante’ inhoud reproduceren, zelfs na een week van downtime, wat aangaf dat antwoorden werden gegenereerd uit cached gegevens, in plaats van live-opvraging.

Dit bleek het meest duidelijk in systemen die waren gekoppeld aan zoekmachineschrapers, waar eerder geïndexeerde inhoud bleef beschikbaar, ondanks dat de bronpagina’s niet langer toegankelijk waren – hoewel soortgelijk gedrag ook werd waargenomen in systemen die waren geassocieerd met browser-achtige agenten, wat aangaf dat caching zich mogelijk uitstrekte voorbij zoekmachine-gebaseerde pijplijnen.

Het artikel stelt dat zodra inhoud een cache binnenkomt, of het nu wordt onderhouden door de chatbot of toegankelijk is via zoekindexen, het verwijderen van de oorspronkelijke pagina de inhoud niet noodzakelijkerwijs uit latere antwoorden verwijdert.

Conclusie

De auteurs geven toe dat enige ‘lekkage’ zal optreden van deze klassieke ‘gesloten’ aanpak, omdat de unieke tokens die op één LLM zijn gericht, soms in zoekresultaten terechtkunnen komen (gegenereerd door de tokens’ echte eigenaar), die vervolgens door een tweede LLM worden opgenomen. Echter, in dergelijke schema’s is dergelijke diffusie onvermijdelijk, en waakzaamheid voor de eerste verschijning is het kritieke en beslissende moment.

Wat nog moet worden gezien, is de mate waarin een dergelijk schema op grote schaal kan worden geïmplementeerd, vooral omdat, zoals de auteurs opmerken, men snel door contextueel correcte tokens heen zou raken.

Maar dit mist eigenlijk het punt, omdat er misschien een limiet is aan de mate waarin AI-bedrijven door kunnen gaan met het negeren van duidelijk bewijs van hun eigen leugens over hun schrapingsbeleid. Bovendien, tenzij dergelijke bedrijven zich committeren aan de mogelijk kostbare route van het rollen door nationale IP-adressen om hun identiteit te maskeren, zal het alleen maar één organisatie nodig hebben om een SpamHaus-achtige blacklist van oneerlijke AI-bot-IP’s of ASN’s te identificeren en te publiceren; het proces hoeft niet te worden geïndustrialiseerd om effectief te zijn.

 

Eerste publicatie donderdag 14 mei 2026

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.