Connect with us

Andersons vinkel

Den Kanariefugl, der afslører AI-Trafik

mm
AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

I en ny undersøgelse har forskere gemt unikke fraser på hjemmesider og fanget AI-chatbots, der gentager dem, og dermed afslører skjulte dataindsamlingssystemer og åbenbart også bedrageriske praksisser fra nogle af de største AI-virksomheder.

 

AI-virksomheder kæmper for at få en fordel i en kapløb, der forventes at blive brutalt reducerende; derfor ønsker de virkelig, virkelig at scrape jeres hjemmeside(r) for træningsdata til at føde deres AI-modeller. Nogle gange konstant; ofte i strid med jeres erklærede ønsker; og hyppigt under forklædning som almindelige menneskelige læsere eller som ‘venligere’ bots såsom GoogleBot, snarere end at afsløre deres sande identitet som AI-dataindsamling.

Det estimeres for nuværende at automatiserede AI-scrapere, der er designet til at suge op nye træningsdata og svare på brugernes øjeblikkelige krav om de seneste nyheder via RAG, vil overstige antallet af mennesker inden for et år.

Dette hektiske, uafbrudte og gentagne dataindsamling sker delvist på grund af behovet for, at hver AI-enhed har sin egen aktuelle kopi af internettet, snarere end stadig mere forældede lagre som Common Crawl; og måske fordi virksomhederne frygter kommande lovgivningsbegrænsninger og har brug for at gå i gang med IP-vask så tidligt som muligt.

Dertil kommer, at AI-virksomheder ved konstant at afhøre så mange (muligvis frugtbare) sites som muligt, måske kan forbedre deres nuværende ikke-så-gode evne til at svare informativt og præcist på opståede situationer.

Under alle omstændigheder synes der at være en vis grund til påstanden om, at disse praksisser har været uden kontrol og uregerlige i lang tid.

Problemet er, at det ikke er så let at bevise, hvilke længder AI-virksomheder går til for at slukke deres tørst efter de seneste data.

Følg Data

En forslag, der er foreslået i en ny artikel fra USA, tilbyder en variation af en gammel metode til at opdage spioner, informanter og andre formodede ugerningsmænd: at afsløre dem for tilpasset information, som ingen andre kender til, og se, om og hvor den information dukker op. Hvis ingen andre kendte til den information, så er kilden til lækagen bevist:

Forskerne har beskrevet deres grundlæggende idé i den nye artikel, hvor de giver hver besøgende bot en lidt anderledes version af samme side, og derefter spørger chatbots om den side og ser, hvilken version der kommer tilbage, hvilket gør det muligt at spore, hvilke skjulte web-opkald forsynede svaret.. Kilde - https://arxiv.org/pdf/2605.13706

Forskerne har beskrevet deres grundlæggende idé i den nye artikel, hvor de giver hver besøgende bot en lidt anderledes version af samme side, og derefter spørger chatbots om den side og ser, hvilken version der kommer tilbage, hvilket gør det muligt at spore, hvilke skjulte web-opkald forsynede svaret. Kilde

Dette populære tilgang er måske bedst kendt gennem anti-piratforanstaltninger, der blev indført af Academy Awards-komiteen i 2000’erne, hvor screener-DVD’er, der blev uddelt til stemmeberettigede medlemmer, begyndte at blive digitalt forsynet med unikke ID’er, der kunne tilskrives den oprindelige modtager, hvis filmen i spørgsmål nogensinde blev lækket til internettet. I spionage er denne teknik kendt som barium måltid, efter praksissen med at bruge en radioaktiv isotop-væske til at belyse blodkar i en medicinsk scanning og identificere blokkeringer.

(Ironisk nok er den valgte ‘kanariefugl’-metafor ikke særlig passende for den scenario, som artiklen omhandler, selvom den er mere genkendelig end nogen af de ovennævnte tropier)

I tilfældet af den nye forskning oprettede forfatterne tyve ‘honningkrukke’-webdomæner og serverede unikke tokens til hver unik besøgende, så hver ville blive serveret forskellige fakta (se anden kolonne fra venstre i billedet ovenfor).

Formålet var at afsløre den sande identitet og adfærd af LLM (AI)-scrapere. Over 22 produktions-LLM-systemer var teknikken i stand til pålideligt at identificere, hvilke scrapere der forsynede hvilke LLM, da – med lidt tålmodighed efter ‘plantning’ af de unikke datasignalerer – blot at stille de rette spørgsmål til AI’en en måned eller to senere ville give de unikke tokens.

Ulovlig Spil

Selvfølgelig ville ingen af dette være nødvendigt, hvis vi ikke stadig var i ‘wild west’-fasen af AI V3, og hvis virksomheder faktisk overholdt de små tekstfiler, som domæner kan bruge til at fortælle AI-virksomhederne ikke at scrape deres data.

Som det skete i forsøgene, var det kun en AI-virksomhed, der syntes at respektere sin egen erklærede adfærd og principper: DuckDuckGo’s DuckDuckbot var den eneste agent, der repræsenterede sig selv korrekt, og standsede med at rapportere ‘hemmelig data’, så snart mål-domænet blev lukket (andre AI-virksomheder brugte cachede versioner og andre tricks) eller domænets robots.txt-fil blev ændret til at afvise AI-scraping.

Mange af de største spillere i stedet forfalskede generiske browser-IDs (det samme, som en hjemmeside ville se, hvis du eller jeg besøgte dem), og – i overensstemmelse med Perplexity’s ledelse fra 2025 på denne praksis – forfalskede GoogleBot, der har haft en ‘gylden pas’ til hjemmeside-data, fordi den returnerede (bemærk den fortidige tid, fordi dette ændrer sig) trafik i bytte for data.

Den værste forsynder, ifølge artiklen, var scraperen, der forsynede Kimi AI-økosystemet:

‘Kimi synes at være det mest ekstreme tilfælde af denne adfærd: mange bruger-agenter syntes at være korrelerede med data, der blev udgivet af Kimi. Vi sluttede, at Kimi roterer gennem en stor liste af bruger-agent-streng, mens den scraper, muligvis for at undgå bot-detection.’

Hvad der gør dette problem til en stor udfordring, er, at når ChatGPT eller lignende værktøjer ‘finder noget’, er dette proces stort set usynligt, med virksomheder, der kun tilbyder delvise eller selvrapporterende konti af, hvordan deres systemer indsamler live-information. Dette efterlader webstedsejere med ingen klar måde at vide, hvilke bots der faktisk besøger deres sider, om disse besøg er direkte eller routeres gennem søgemaskiner, eller hvordan denne data ender i en endelig besvarelse.

Forskningsresultaterne fra den nye undersøgelse viser, at LLM’er muligvis bruger deres egne cachede poster fra et domæne, deres egne interne SEO-lignende lister, og at de ofte bruger information fra søgemaskinernes resultater fra virksomheder, med hvilke de i mange tilfælde ikke har nogen offentlig tilknytning eller åbenbar brugsaftale.

Forfatterne mener, at denne afsløring er den første gang, at et arbejde har behandlet uønsket indtrængen fra RAG-systemer (live-opkald på inference-tidspunkt fra LLM’er, der måske eller måske ikke har en menneskelig bruger, der arbejder med dem), snarere end data-scraping-bots, der søger efter friskt materiale til træningsdata.

Den nye artikel er titlen Identificering af AI-web-scrapere ved hjælp af kanariefugl-tokens, og kommer fra seks forskere på Duke University, University of Pittsburgh og Carnegie Mellon.

Metode

Forskerne oprettede tyve .com-domæner med bredt lignende websteder under fælles skabeloner, såsom et kunstnerisk portfolio eller et virksomhedswebsted. Hver skabelon indeholdt 10 pladsholdere, der ville blive befolket med tokens, der var unikke for hver besøgendes profil (baseret på faktorer såsom IP-adresse, canvas-fingeravtryk og andre ‘sniffing-metoder):

Et eksempel på skabelonen og variabel-pladsholderne, der blev brugt i eksperimentet. Hver opfattet unik besøgende ville modtage persistente, individualiserede brugervariabler.

Et eksempel på skabelonen og variabel-pladsholderne, der blev brugt i eksperimentet. Hver opfattet unik besøgende ville modtage persistente, individualiserede brugervariabler.

Hver opfattet unik besøgende ville modtage brugervariabler. I tilfældet, hvor systemet opdagede returneringen af en tidligere besøgende, ville de samme variabler som før blive præsenteret. Variabler blev genereret med brug af Python Faker-biblioteket, samt (uspecificerede) tilfældige nummergenereringsalgoritmer.

Honningkrukke-domænerne blev derefter indsendt til forskellige indeks som Google og Bing, og var også linket til fra andre eksisterende domæner, som forfatterne kontrollerede.

To måneder blev tilladt at passere, som en påkrævet interval til at tillade scanning af en bred vifte af søgemaskin- og lignende bots, samt (muligvis) organisk besøg. På dette tidspunkt var forskerne nu i stand til at spørge de målrettede AI-chatbots (nævnt nedenfor):

AI-chatbot Udgiver
ChatGPT OpenAI
Claude Anthropic
Copilot Microsoft
Deepseek Deepseek
Duck.ai DuckDuckGo
ERNIE Baidu
Gemini Google
GLM Z.AI
Granite IBM
Grok xAI
Hunyuan Tencent
AI-chatbot Udgiver
Kimi MoonshotAI
Liquid Liquid
Llama Meta
Mistral Mistral
Nova Amazon
Perplexity Perplexity
Qwen Alibaba
Reka Reka
Solar Upstage
Step-3 StepFun
Venice Venice

Manuskripter blev bygget til at spørge hver system, via API, hvor det var muligt. Når dette ikke var muligt, og hvor automatiserede løsninger såsom Selenium blev blokeret af AI-portallens detections-rutiner, blev manuelle interaktioner via LLM’ernes officielle GUI’er foretaget.

Efter den første skabelon-udveksling (se billedet ovenfor) fulgte forfatterne op med en sekundær prompt, der var designet til at fremkalde navnet på et selskab eller en person i en tilhørende token.

Eksperimenterne blev gennemført under en af tre betingelser: et fuldt tilgængeligt websted; webstedet taget offline; og webstedet med en robots.txt-begrænsning, der afviste scraping. Disse eksperimenter blev gennemført i denne præcise rækkefølge, en efter en, da de sidste faser afhængigt af de tidligere.

Til sidst, med alle websteder tilbage online, ville den sidste fase gen teste LLM-udgangen på interval af en uge.

Resultater

Fire af de målrettede LLM’er viste sig at være fuldstændigt resistente over for forskernes metoder, og ingen resultater kunne derfor opnås for DeepSeek, Hunyuan, GLM og Liquid.

I forhold til tendensen hos mange AI-bots til at forfalske ikke-AI-trafik, skriver forfatterne:

‘Derudover returnerede flere AI-systemer indhold, der var tilknyttet generiske browser-User-Agent-streng.

‘Vi observerede denne adfærd for seks af de 18 AI-systemer, for hvilke vi fik User-Agent-information.

‘Dette resultat antyder, at nogle AI-systemer kan få adgang til webstedets indhold gennem anmodninger, der ligner almindelig browser-trafik, hvilket gør det svært at blokere med User-Agent.

ERNIE returnerede både Baiduspider og en Chrome-identitet; Grok kombinerede Googlebot med to browser-agenter; Solar brugte kun browser-identiteter; Qwen kombinerede Googlebot med Chrome; og Kimi var tilknyttet multiple browser-lignende agenter.

Mange systemer syntes at afhænge af tredjeparts-søgemaskin-scrapere i forhold, der ikke altid var offentligt kendt. Indhold tilknyttet Googlebot, Bingbot og Bravebot blev returneret af ti af de 18 systemer, der blev analyseret, ofte i tilfælde, hvor der ikke var nogen offentlig tilknytning mellem AI-udbyderen og søgemaskinen – selvom nogle links, såsom Claudes brug af Brave, er dokumenteret.

Forfatterne hævder, at dette afspejler indtagelse af søgemaskinsresultater snarere end direkte scraping, da ASN-tjek indikerer, at trafikken stammer fra de forventede søgemaskin-netværk, snarere end forfalskede identiteter.

Dette antyder, som artiklen fastslår, en yderligere lag af uigennemsigtighed i web-til-AI-pipeline, hvor blokering af kendte AI-crawlers måske ikke kan forhindre dataanvendelse, og undgåelse af inklusion kan kræve at vælge fra at blive indekseret i søgemaskiner helt – et uønsket valg, mens spændingen mellem traditionel SEO og LLM-baseret søgning stadig er langt fra løst.

Kun Cache

Forfatterne testede derefter, om fjernelse af en kilde ville påvirke chatbots’ udgang, ved at tage test-webstederne offline og spørge systemerne igen efter en uges interval. Ifølge artiklen fortsatte mange chatbots med at reproducere det ‘plantede’ indhold, selv efter en uges downtime, hvilket indikerer, at svarene blev trukket fra cachede data, snarere end live-hentning.

Dette var mest tydeligt i systemer tilknyttet søgemaskin-crawlers, hvor tidligere indekseret indhold forblev tilgængeligt, på trods af at kilde-siderne ikke længere var tilgængelige – selvom lignende adfærd også blev observeret i systemer tilknyttet browser-lignende agenter, hvilket antyder, at caching kan strække sig ud over søgemaskin-baserede pipelines.

Artiklen foreslår, at når indhold kommer ind i en cache, enten vedligeholdt af chatbot eller adgang via søgemaskin-indekser, fjerner man ikke pålideligt dette indhold fra efterfølgende udgang, når man fjerner den oprindelige side.

Konklusion

Forfatterne indrømmer, at nogen ‘lækage’ vil ske fra denne klassiske ‘siloede’ tilgang, da de unikke tokens, der er rettet mod en LLM, kan nogen gange ende i søgemaskinsresultater (genereret af tokens’ ægte ejer), der derefter indtages af en anden LLM. I sådanne skemaer er diffusion af denne type uundgåelig, og vagtsomhed for første forekomst er det kritiske og afgørende øjeblik.

Hvad der endnu skal ses, er, i hvilken udstrækning sådant et skema kunne implementeres i stor skala, især da forfatterne bemærker, at man ville løbe tør for kontekstligt korrekte tokens meget hurtigt.

Det er dog ikke det vigtigste, da der måske er en grænse, selv for AI-virksomheders frygtløse evne til at gå igennem klare beviser for deres egne løgne om deres scraping-politikker. Desuden, medmindre disse virksomheder er villige til at gå den potentielt dyre vej af at rulle gennem nationale IP-adresser for at maskere deres identitet, vil det kun kræve, at en organisation identificerer og offentliggør en SpamHaus-lignende sortliste over bedrageriske AI-bot-IP’er eller ASN’er; processen behøver ikke at være industrialiseret for at være effektiv.

 

Offentliggjort torsdag, 14. maj 2026

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.