Andersons vinkel
Kanarifuglen som avslører AI-trafikk

I en ny studie har forskerne gjemt unike fraser på nettsteder og fanget AI-chatbåter som gjentar dem, og avdekket skjulte skraping-pipelines og, åpenbart, bedrageriske praksiser fra noen av de største AI-selskapene.
AI-selskaper kjemper for å få en fordel i en kappløp som forutsies å være brutalt redusert; derfor ønsker de virkelig, virkelig å skrape dine nettsider for treningdata til å mate deres AI-modeller. Noen ganger konstant; ofte i strid med dine uttrykte ønsker; og ofte i forkledning som vanlige menneskelige lesere, eller som “vennlige” båter slik som GoogleBot, i stedet for å avsløre deres sanne identitet som AI-data-skrapere.
Det er for tiden estimert at automatiske AI-skrapere designet for å sugge opp nye treningdata, og å svare på brukernes umiddelbare behov for de siste nyhetene via RAG, vil overstige antallet mennesker innen ett år.
Dette rasende, uavbrudte og gjentakende data-grab skjer delvis på grunn av behovet for hver AI-enhet å ha sin egen aktuelle kopi av internettet, i stedet for stadig mer utdaterte lagre som Common Crawl; og kanskje fordi selskapene frykter kommande rettslige begrensninger, og må påbegynne IP-vasking så tidlig som mulig.
I tillegg kan AI-selskaper, ved å kontinuerlig avhøre så mange (potensielt fruktbare) nettsteder som mulig, håpe å forbedre sin for tiden ikke-så-gode evne til å svare informativt og nøyaktig på nye og oppkomende situasjoner.
Uansett, synes det å være noen merit til påstandene om at disse praksisene har vært uten kontroll og uregulerbare i en stund.
Problemet er at det ikke er så enkelt å bevise hva slags lengder AI-selskaper går for å slukke sin tørst etter de siste data.
Følg dataene
En forslag, foreslått i en ny artikkel fra USA, foreslår en variasjon av en gammel metode for å oppdage spioner, informanter og andre påståtte malfeasants: å avsløre dem for tilpassede informasjon som ingen andre kjenner til, og se om og hvor denne informasjonen dukker opp. Hvis ingen andre visste om denne informasjonen, er kilden til lekkasjen bevist:

Forskerne sine grunnideer, fremstilt i den nye artikkelen, er å gi hver besøkende bot en litt forskjellig versjon av samme side, så spør chatbåtene om den siden og se hvilken versjon som kommer tilbake, og gjøre det mulig å spore hvilke skjulte nettbesøk som leverte svaret. Kilde
Dette populære tilnærming er kanskje best kjent gjennom anti-pirat-tiltak adoptert av Academy Awards-komiteen på 2000-tallet, hvor screener-DVD-ene gitt til stemmeberettigede medlemmer begynte å bli digitalt merket med unike ID-er som kunne tilbakeføres til den opprinnelige mottakeren hvis filmen i Frage ble lekket til internettet. I spionasje er teknikken kjent som barium måltid, etter praksisen med å bruke en radioaktiv isotop-væske til å belyse blodkar i en medisinsk skanning og identifisere blokkeringer.
(Ironisk nok er den valgte “kanarifugl”-metaforen ikke så passende for scenariet som artikkelen behandler, selv om den er mer gjenkjennelig enn noen av de ovennevnte tropene)
I tilfelle den nye forskningen, skapte forfatterne tyve “honningfelle”-nettsider og serverte unike token til hver unik besøkende, så hver ville motta forskjellige fakta (se andre kolonne fra venstre i bildet ovenfor).
Målet var å avsløre den sanne identiteten og atferden til LLM (AI)-skrapere. Over 22 produksjons-LLM-systemer, var teknikken i stand til å pålitelig identifisere hvilke skrapere som mata hvilke LLM, siden – med litt tålmodighet etter “planting” av unike datasignaler – bare å spørre rett spørsmål til AI-en ett eller to måneder senere ville gi unike token.
Ulovlig spill
Selvfølgelig ville ingen av dette vært nødvendig hvis vi ikke fortsatt var i “vill vest”-fasen av AI V3, og hvis selskaper faktisk adløste små tekstfiler som domener kan bruke til å fortelle AI-selskaper å ikke skrape deres data.
Som det skjedde i forskernes tester, syntes bare ett AI-selskap å respektere sine egne uttalede prinsipper og praksiser: DuckDuckGo’s DuckDuckbot var den eneste agenten som representerte seg nøyaktig, og stoppet å rapportere “hemmelig data” så snart mål-domene ble slått av (andre AI-selskaper gikk tilbake til cachede versjoner og andre triks) eller domenets robots.txt-fil ble endret til å nekte AI-skraping.
Mange av de største aktørene i stedet imiterte generiske nettleser-ID-er (samme som en nettside ville se hvis du eller jeg besøkte dem), og – i henhold til Perplexitys 2025-ledelse på praksisen – imiterte GoogleBot, som lenge har hatt en “gylden pass” til nettsidedata fordi den returnerte (merk den fortidige tiden, fordi dette endrer seg) trafikk i bytte mot data.
Den verste forsynderen, ifølge artikkelen, var skraperen som mata Kimi AI-økosystemet:
‘Kimi synes å være det mest ekstreme tilfelle av denne atferden: mange bruker-agenter syntes å være korrelert med data utgang fra Kimi. Vi antar at Kimi roterer gjennom en stor liste av User-Agent-strenger mens den skraper, kanskje for å unngå bot-avdekning.’
Hva gjør dette problemet til en stor utfordring er at når ChatGPT eller lignende verktøy “ser noe opp”, er denne prosessen i stor grad usynlig, med selskaper som bare tilbyr delvis eller selvrapporterte redegjørelser for hvordan deres systemer samler live-informasjon. Dette etterlater nettside-eiere uten en klar måte å vite hvilke båter som faktisk besøker deres sider, om disse besøkene er direkte eller rutenettet gjennom søkemotorer, eller hvordan denne dataen havner i en endelig svart.
Metode
Forskerne satte opp tyve .com-domener med bredt like nettsider under felles maler, som et kunstnerisk portefølje eller et selskapsnettsted. Hver mal inneholdt 10 placeholders som ville bli fylt med token unike for den oppfattede profilen til hver besøkende (basert på faktorer som IP-adresse, canvas-fingeravtrykk og andre “sniffing”-metoder):

Et eksempel på malen og variabel-plassholdere brukt i eksperimentet. Hver oppfattet unik besøkende ville motta persistente, individuelle variabler.
Hver oppfattet unik besøkende ville motta custom-variabler. I tilfelle hvor systemet detekterte returneringen av en tidligere besøkende, ville samme variabler som før bli presentert på nytt. Variabler ble generert med bruk av Python Faker-biblioteket, samt (uspesifiserte) tilfeldige tall-generatore.
De “honningfelle”-domenene ble deretter sendt til ulike indekser som Google og Bing, og ble også lenket til fra andre eksisterende domener som forfatterne kontrollerte.
To måneder ble tillatt å gå, som et påkrevd interval for å tillate skanning-frekvens fra en rekke søkemotorer og lignende båter, samt (muligens) organiske besøk. På dette tidspunktet var forskerne nå i en posisjon til å spørre de målrettede AI-chatbåtene (listet nedenfor):
|
|
Skriptene ble bygget for å spørre hver system, via API, hvor mulig. Når dette ikke var mulig, og hvor automatiserte løsninger slik som Selenium ble blokkert av AI-portalens detekteringsrutiner, ble manuelle interaksjoner via LLM-ene offisielle GUI-er utført.
Etter den initielle mal-utvekslingen (se bildet ovenfor), fulgte forfatterne opp med en sekundær prompt designet for å fremkalle navnet på et selskap eller en person i en tilknyttet token.
Eksperimentene ble utført i en av tre betingelser: en fullt tilgjengelig nettside; nettsiden tatt offline; og nettsiden med en robots.txt-begrensning som avviste skraping. Disse eksperimentene ble utført i denne eksakte rekkefølgen, en etter en, siden de siste stadiene avhengig av de tidligere.
Til slutt, med alle nettsteder igjen online, ville den siste fasen re-teste LLM-utgangen med intervaller på en uke.
Resultater
Fire av de målrettede LLM-ene viste seg å være fullstendig resistente mot forskernes metoder, og ingen resultater kunne derfor bli oppnådd for DeepSeek, Hunyuan, GLM, og Liquid.
I forhold til tendensen hos mange AI-båter til å imitere ikke-AI-trafikk, sier forfatterne:
‘I tillegg til første-parts erklærte agenter, returnerte flere AI-systemer innhold assosiert med generiske nettleser-User-Agent-strenger. Vi observerte denne atferden for seks av de 18 AI-systemene for hvilke vi fikk User-Agent-informasjon.
‘Dette resultatet antyder at noen AI-systemer kan få nettside-innhold gjennom forespørsler som ligner vanlig nettleser-trafikk, noe som gjør User-Agent-basert blokkering vanskelig.’
ERNIE returnerte både Baiduspider og en Chrome-identitet; Grok kombinerte Googlebot med to nettleser-agenter; Solar brukte bare nettleser-identiteter; Qwen blandet Googlebot med Chrome; og Kimi var koblet til flere nettleser-lignende agenter.
Mange systemer syntes å avhenge av tredjeparts-søkemotor-skrapere, i forhold som ikke alltid er offentliggjort. Innhold koblet til Googlebot, Bingbot og Bravebot ble returnert av ti av de 18 systemene analysert, ofte i tilfeller hvor ingen offentlig tilknytning eksisterer mellom AI-leverandøren og søkemotoren – selv om noen koblinger, som Claudes bruk av Brave, er dokumentert.
Forfatterne hevder at dette reflekterer inntak av søkemotor-resultater i stedet for direkte skraping, ettersom ASN-sjekker indikerte at trafikken kom fra de forventede søkemotornettverkene, i stedet for å være spoofede identiteter.
Dette antyder, hevder artikkelen, en ekstra lag med uklarhet i nett-til-AI-pipeline, hvor blokkering av kjente AI-krypere kanskje ikke kan forhindre data-bruk, og hvor unngåelse av inkludering kan kreve å velge bort søkemotor-indeksering helt – et uønsket valg mens spenningen mellom tradisjonell SEO og LLM-basert søk fortsatt er langt fra løst.
Kun cache
Forfatterne testet deretter om fjerning av en kilde ville påvirke chatbåtenes utgang, ved å ta test-nettsidene offline og spørre systemene igjen etter en ukes intervall. Ifølge artikkelen, fortsatte mange chatbåter å gjengi det “plantede” innholdet selv etter en ukes nedtid, noe som indikerer at svarene ble trukket fra cachede data, i stedet for live-innhenting.
Dette var mest tydelig i systemer koblet til søkemotor-krypere, hvor tidligere indekserert innhold fortsatt var tilgjengelig, til tross for at kilde-nettsidene ikke lenger var tilgjengelige – selv om lignende atferd også ble observert i systemer koblet til nettleser-lignende agenter, noe som indikerer at caching kan strekke seg utover søkemotor-basert pipeline.
Artikkelen foreslår at når innhold kommer inn i en cache, enten vedlikeholdt av chatbåten eller tilgjengelig via søkemotor-indeksering, fjerner man ikke pålitelig innholdet fra påfølgende utgang.
Konklusjon
Forfatterne innrømmer at noen “lekkasje” vil skje fra denne klassiske “siloede” tilnærmingen, ettersom de unike tokenene rettet mot en LLM kan noen ganger havne i søkemotor-resultater (generert av tokenenes ekte eier), som deretter blir inntatt av en annen LLM. Men i slike skjemaer er slik diffusjon uunngåelig, og varsomhet for første forekomst er det kritiske og avgjørende øyeblikket.
Hva som fortsatt må sees, er omfanget av hvilken grad en slik skjema kunne implementeres i stor skala, særlig siden, som forfatterne observerer, en ville løpe tom for kontekstuell korrekte tokener ganske raskt.
Men dette går litt utenfor poenget, ettersom det kan være en grense selv for AI-selskapenes evne til å gå gjennom åpenbare bevis for deres egne løgner om skraping-politikken. I tillegg, med mindre slike selskaper begynner å bruke den potensielt dyre ruten av å rulle gjennom nasjonale IP-adresser for å skjule sin identitet, vil det bare ta ett organisasjon å identifisere og publisere en SpamHaus-lignende svartliste over bedrageriske AI-bot-IP-er eller AS-er; prosessen trenger ikke å være industrialisert for å være effektiv.
Først publisert torsdag, 14. mai 2026












