Connect with us

Andersons vinkel

Den kanariefågel som avslöjar AI-trafik

mm
AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

I en ny studie har forskare gömt unika fraser på webbplatser och fångat AI-chattbotar som upprepar dem, vilket avslöjar dolda skrapningspipeliner och, tydligen, bedrägliga metoder från några av de största AI-företagen.

 

AI-företag kämpar för att få en fördel i en tävling som förväntas vara brutalt reducerande; därför vill de verkligen, verkligen skrapa din webbplats/webbplatser för att mata sina AI-modeller med träningdata. Ibland ständigt; ofta i strid med dina uttryckta önskemål; och ofta i förklädnad som vanliga människoläsare, eller som “vänligare” botar såsom GoogleBot, snarare än att avslöja sin sanna identitet som AI-data-skrapare.

Det uppskattas för närvarande att automatiserade AI-skrapare som är utformade för att suga upp ny träningdata och svara på användarnas omedelbara krav på den senaste nyheten via RAG, kommer att överträffa antalet människor inom ett år.

Denna rabida, outtröttliga och upprepade datainsamling sker delvis på grund av behovet av att varje AI-enhet ska ha sin egen aktuella kopia av internet, snarare än alltmer föråldrade lagringsutrymmen såsom Common Crawl; och kanske för att företagen fruktar kommande rättsliga begränsningar och behöver påbörja IP-rengöring så tidigt som möjligt.

Dessutom kan AI-företag, genom att ständigt avsöka så många (potentiellt fruktbara) webbplatser som möjligt, förbättra sin för närvarande inte särskilt bra förmåga att svara informativt och korrekt på nyheter och uppkomna situationer.

I vilket fall som helst, verkar det finnas någon giltighet i påståendet att dessa metoder har varit utan kontroll och ostyriga under en längre tid.

Problemet är att det inte är så lätt att bevisa vilka metoder AI-företag använder för att stilla sin törst efter den senaste datan.

Följ datan

Ett förslag, som föreslås i en ny rapport från USA, är en variation av en gammal metod för att upptäcka spioner, informatörer och andra påstådda malfeasants: att avslöja dem med anpassad information som ingen annan känner till, och se om och var den informationen dyker upp. Om ingen annan kände till den informationen, då är källan till läckan bevisad:

Forskarnas grundidé, som beskrivs i den nya rapporten, är att ge varje besökande bot en något annorlunda version av samma sida, sedan fråga chattbotarna om den sidan och se vilken version som kommer tillbaka, vilket gör det möjligt att spåra vilka dolda webbsökningar som tillhandahöll svaret.

Forskarnas grundidé, som beskrivs i den nya rapporten, är att ge varje besökande bot en något annorlunda version av samma sida, sedan fråga chattbotarna om den sidan och se vilken version som kommer tillbaka, vilket gör det möjligt att spåra vilka dolda webbsökningar som tillhandahöll svaret. Källa

Denna populära metod är kanske mest känd genom anti-piratåtgärder som antagits av Academy Awards-kommittén på 2000-talet, där de skärmbilder som delades ut till röstande medlemmar började digitalt märkas med unika ID som kunde återkopplas till den ursprungliga mottagaren om filmen i fråga någonsin läckte ut på internet. I spionage är tekniken känd som bariummål, efter metoden att använda en radioaktiv isotopvätska för att belysa blodkärl i en medicinsk skanning och identifiera blockeringar.

(Ironiskt nog är den valda “kanariefågel”-metaforen inte särskilt lämplig för den scenario som rapporten behandlar, även om den är mer igenkännlig än någon av de ovannämnda troperna)

I fallet med den nya forskningen skapade författarna tjugo “honeypot”-webbdomäner och serverade unika token till varje unik besökare, så att var och en skulle serveras olika fakta (se andra kolumnen från vänster i bilden ovan).

Målet var att avslöja den sanna identiteten och beteendet hos LLM (AI)-skrapare. Över 22 produktions-LLM-system kunde tekniken tillförlitligt identifiera vilka skrapare som matade vilket LLM, eftersom – med lite tålamod efter “plantering” av unika data-signal – att bara ställa rätt frågor till AI ett par månader senare skulle ge unika token.

Foul Play

Naturligtvis skulle ingen av detta vara nödvändigt om vi inte fortfarande var i “vilda västern”-fasen av AI V3, och om företag faktiskt följde små textfiler som domäner kan använda för att tala om för AI-företag att inte skrapa deras data.

Som det visade sig i forskarnas tester, var endast ett AI-företag tydligt respektfullt mot sina egna uttryckta beteenden och principer: DuckDuckGo’s DuckDuckbot var den enda agenten som representerade sig korrekt och slutade rapportera “hemlig data” så snart måldomänen stängdes av (andra AI-företag använde cached versioner och andra tricks) eller domänens robots.txt-fil ändrades för att vägra AI-skrapning.

Många av de största spelarna utgav sig istället för generiska webbläsar-ID (samma som en webbplats skulle se om du eller jag besökte dem), och – i enlighet med Perplexitys ledning från 2025 på denna praxis – utgav sig för att vara GoogleBot, som länge har haft en “guldpass” till webbplatsdata eftersom den returnerade (notera det förflutna tempus, eftersom detta förändras) trafik i utbyte mot data.

Den värsta förbrytaren, enligt rapporten, var skraparen som matade Kimi AI-ekosystemet:

‘Kimi verkar vara det mest extrema fallet av detta beteende: många användar-agenter tycks vara korrelerade med data som utmatas av Kimi. Vi drar slutsatsen att Kimi roterar genom en stor lista med User-Agent-strängar medan den skrapar, möjligen för att undvika bot-detektion.’

Vad som gör detta problem till en stor utmaning är att när ChatGPT eller liknande verktyg “söker efter något”, är den processen till stor del osynlig, med företag som endast erbjuder partiella eller självrapporterade redogörelser för hur deras system samlar in liveinformation. Detta lämnar webbplatsägare utan något tydligt sätt att veta vilka botar som faktiskt besöker deras sidor, om dessa besök är direkt eller dirigerade via sökmotorer, eller hur den datan hamnar i ett slutgiltigt svar.

Rapportens slutsatser tyder på att LLM kan använda sina egna cached poster från en domän, sina egna interna SEO-liknande listor och att de ofta använder information från sökmotorernas resultat från företag med vilka de i många fall inte har någon offentlig association och ingen uppenbar användningsavtal.

Författarna tror att denna avslöjande är den första gången som ett arbete har behandlat oönskad intrång av RAG-system (live-samtal vid inferenstid från LLM som kan eller inte kan ha en mänsklig användare som arbetar med dem), snarare än data-skrapningsbotar som söker färskt material för träningssamlingar.

Den nya rapporten heter Identifying AI Web Scrapers Using Canary Tokens och kommer från sex forskare vid Duke University, University of Pittsburgh och Carnegie Mellon.

Metod

Forskarna satte upp tjugo .com-domäner med breda liknande webbplatser under vanliga mallar, såsom en konstnärlig portfölj eller en företagswebbplats. Varje mall innehöll 10 platshållare som skulle fyllas med token unika för varje besökare (baserat på faktorer som IP-adress, canvas-fingeravtryck och olika andra “sniffningsmetoder):

Ett exempel på mallen och variabelplatshållarna som användes i experimentet. Varje uppfattad unik besökare skulle få anpassade, individuella variabler.

Ett exempel på mallen och variabelplatshållarna som användes i experimentet. Varje uppfattad unik besökare skulle få anpassade, individuella variabler.

Varje uppfattad unik besökare skulle få anpassade variabler. I fallet där systemet upptäckte återkomsten av en tidigare besökare, skulle samma variabler som tidigare användas återges. Variabler genererades med hjälp av Python Faker-biblioteket, samt (ospecificerade) slumpmässiga talgeneratorer.

Honeypot-domänerna skickades sedan till olika index, såsom Google och Bing, och länkades också från andra befintliga domäner som författarna kontrollerade.

Två månader tilläts passera, som ett krävt intervall för att tillåta skanning av en mängd olika sökmotorer och liknande botar, samt (möjligen) organiska besök. Vid denna punkt var forskarna nu i en position att fråga de målade AI-chattbotarna (listade nedan):

AI-chattbot Utgivare
ChatGPT OpenAI
Claude Anthropic
Copilot Microsoft
Deepseek Deepseek
Duck.ai DuckDuckGo
ERNIE Baidu
Gemini Google
GLM Z.AI
Granite IBM
Grok xAI
Hunyuan Tencent
AI-chattbot Utgivare
Kimi MoonshotAI
Liquid Liquid
Llama Meta
Mistral Mistral
Nova Amazon
Perplexity Perplexity
Qwen Alibaba
Reka Reka
Solar Upstage
Step-3 StepFun
Venice Venice

Skript skapades för att fråga varje system via API, där det var möjligt. När detta inte var möjligt och när automatiserade lösningar såsom Selenium blockeras av AI-portens detekteringsrutiner, genomfördes manuella interaktioner via LLM:ernas officiella gränssnitt.

Efter den initiala mallbaserade utbytet (se bild ovan), följde forskarna upp med en sekundär prompt som var avsedd att framkalla namnet på ett företag eller en person i en associerad token.

Experimenten genomfördes under en av tre förhållanden: en fullt tillgänglig webbplats; webbplatsen tagen offline; och webbplatsen med en robots.txt-begränsning som avvisade skrapning. Dessa experiment genomfördes i exakt den ordningen, en efter en, eftersom de senare stadierna berodde på de tidigare.

Till slut, med alla webbplatser åter online, skulle den sista fasen återtesta LLM-utmatningen med intervall om en vecka.

Resultat

Fyra av de målade LLM-systemen visade sig vara helt resistenta mot forskarnas metoder, och inga resultat kunde därför erhållas för DeepSeek, Hunyuan, GLM och Liquid.

I fråga om benägenheten hos många AI-botar att utge sig för icke-AI-trafik, förklarar författarna:

‘Förutom första parts deklarerade agenter returnerade flera AI-system innehåll associerat med generiska webbläsar-User-Agent-strängar. Vi observerade detta beteende för sex av de 18 AI-system som vi fick User-Agent-information om.

‘Detta resultat tyder på att vissa AI-system kan erhålla webbplatsinnehåll genom förfrågningar som liknar vanlig webbläsartrafik, vilket gör User-Agent-baserad blockering svår.’

ERNIE returnerade både Baiduspider och en Chrome-identitet; Grok kombinerade Googlebot med två webbläsaragenter; Solar använde endast webbläsaridentiteter; Qwen blandade Googlebot med Chrome; och Kimi var länkad till flera webbläsar-liknande agenter.

Många system tycktes bero på tredjeparts-sökmotor-skrapare, i relationer som inte alltid avslöjades. Innehåll länkat till Googlebot, Bingbot och Bravebot returnerades av tio av de 18 system som analyserades, ofta i fall där ingen offentlig association existerade mellan AI-leverantören och sökmotorn – även om vissa länkar, såsom Claudes användning av Brave, är dokumenterade.

Författarna hävdar att detta reflekterar inkorporering av sökresultat snarare än direkt skrapning, eftersom ASN-kontroller indikerade att trafiken kom från de förväntade sökmotornäten, snarare än spoofade identiteter.

Detta tyder, enligt rapporten, på en ytterligare lager av ogenomskinlighet i webb-till-AI-pipelinen, där blockering av kända AI-crawlers inte nödvändigtvis förhindrar dataanvändning, och undvikande av inkludering kan kräva att välja bort sökmotorindexering helt – ett önskat val medan spänningen mellan traditionell SEO och LLM-baserad sökning fortfarande långt ifrån löst.

Cache Only

Författarna testade sedan om borttagning av en källa skulle påverka chattbotarnas utmatning, genom att ta bort testwebbplatserna och fråga systemen igen efter en veckas intervall. Enligt rapporten fortsatte många chattbotar att reproducera den “planterade” innehållet, även efter en veckas nedtid, vilket indikerar att svaren togs från cached data, snarare än live-återställning.

Denna uthållighet var mest tydlig i system som var knutna till sökmotor-crawlers, där tidigare indexerat innehåll förblev tillgängligt, trots att källsidorna inte längre var tillgängliga – även om liknande beteende också observerades i system som var associerade med webbläsar-liknande agenter, vilket indikerar att cachen kan sträcka sig bortom sökmotor-baserade pipeliner.

Rapporten föreslår att när innehåll kommer in i en cache, oavsett om den underhålls av chattboten eller åtkommes via sökmotorindex, så tar bort den ursprungliga sidan inte tillförlitligt bort innehållet från efterföljande utmatningar.

Slutsats

Författarna medger att viss “läckage” kommer att ske från denna klassiska “silo-baserade” metod, eftersom de unika token som riktas mot en LLM ibland kan hamna i sökresultat (genererade av tokenens verkliga ägare), som sedan inkorporeras av en annan LLM. I sådana scheman är dock denna typ av diffusión oundviklig, och vaksamhet för första förekomsten är den kritiska och avgörande ögonblicket.

Vad som återstår att se är i vilken utsträckning ett sådant system kan implementeras i stor skala, särskilt eftersom författarna observerar att man skulle ta slut på kontextuellt korrekta token mycket snabbt.

Detta missar dock poängen, eftersom det kan finnas en gräns, även för AI-företags förmåga att gå igenom tydliga bevis för sina egna lögner om sina skrapningspolicys. Dessutom, så länge som dessa företag inte åtar sig den potentiellt dyra vägen att rulla genom inhemska IP-adresser för att maskera sin identitet, så kommer det bara att ta en organisation att identifiera och publicera en SpamHaus-liknande svartlista över bedrägliga AI-bot-IP-adresser eller ASN; processen behöver inte industrialiseras för att vara effektiv. Publicerad första gången torsdag, 14 maj 2026

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.