Connect with us

Kanár, který odhaluje AI provoz

Andersonův úhel

Kanár, který odhaluje AI provoz

mm
AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

V nové studii výzkumníci skryli jedinečné fráze na webových stránkách a chytili AI chatboty, které je opakovaly, čímž odhalili skryté pipeline pro sběr dat a zdánlivě i klamavé praktiky některých z největších AI firem.

 

AI firmy bojují o výhodu v závodě, který je předpovídán jako brutálně reduktivní; proto opravdu, opravdu chtějí prohledávat vaše webové stránky za účelem získání trénovacích dat pro své AI modely. Někdy trvale; často v rozporu s vašimi vyjádřenými přáními; a často pod záminkou běžných lidských uživatelů, nebo jako “přátelštější” boti jako GoogleBot, místo aby odhalili svou skutečnou identitu jako AI sběrači dat.

Odhaduje se, že automatizovaní AI sběrači navržené pro sběr nových trénovacích dat a pro odpověď na okamžité požadavky uživatelů na nejnovější zprávy prostřednictvím RAG brzy převýší počet lidí.

Tento divoký a opakovaný sběr dat probíhá částečně kvůli potřebě mít pro každou AI entitu svou vlastní aktuální kopii internetu, místo stále zastaralých repozitářů, jako je Common Crawl; a možná i proto, že firmy se obávají příchodu právních omezení a potřebují co nejdříve provést čištění IP.

Dále, neustálým dotazováním mnoha (potenciálně plodných) stránek, AI firmy mohou doufat, že zlepšují svou současnou nevelkou schopnost poskytovat informační a přesné odpovědi na aktuální a vznikající situace.

V každém případě se zdá, že existuje nějaká oprávněnost tvrzení, že tyto praktiky jsou již delší dobu nekontrolovatelné a neříditelné.

Problém je v tom, že není jednoduché prokázat, jak daleko AI firmy jdou, aby uhasily svou žízeň po nejnovějších datech.

Sledujte data

Jedním z návrhů, který byl navržen v nové studii, je variace staré metody odhalování špionů, informátorů a dalších údajných zločinců: vystavení jim přizpůsobených informací, o kterých nikdo jiný neví, a zjištění, zda a kde se tyto informace objeví. Pokud nikdo jiný tyto informace neznal, pak je zdroj úniku prokázán:

Jádrový nápad výzkumníků, popsáný v nové studii, spočívá v tom, že každému navštívícímu botu je poskytnuta mírně odlišná verze stejné stránky, a poté jsou chatboti dotázáni na tuto stránku a zjišťováno, která verze se vrátí, což umožňuje stopovat, které skryté webové vyhledávání poskytlo odpověď.. Zdroj - https://arxiv.org/pdf/2605.13706

Jádrový nápad výzkumníků, popsáný v nové studii, spočívá v tom, že každému navštívícímu botu je poskytnuta mírně odlišná verze stejné stránky, a poté jsou chatboti dotázáni na tuto stránku a zjišťováno, která verze se vrátí, což umožňuje stopovat, které skryté webové vyhledávání poskytlo odpověď. Zdroj

Tato oblíbený přístup je snad nejlépe známý díky protipirátským opatřením, která Akademie filmových umění a věd zavedla v roce 2000, kdy screener DVD pro hlasující členy byly digitálně označeny jedinečnými ID, která mohla být připsána původnímu příjemci, pokud by film byl někdy únikem na internetu. V špionáži je tato technika známa jako barium meal, podle použití radioaktivního izotopu tekutiny pro osvětlení krevních cév v lékařském snímku a identifikaci bloků.

(Ironicky, zvolená metafora “kanár” není příliš vhodná pro scénář, který studie popisuje, i když je více rozpoznatelná než výše zmíněné tropické výrazy)

V případě nové studie autoři vytvořili dvacet “honeypot” webových domén a poskytli jedinečné tokeny každému jedinečnému návštěvníkovi, aby každý obdržel odlišné skutečnosti (viz druhá sloupec zleva na obrázku výše).

Cílem bylo odhalit skutečnou identitu a chování LLM (AI) sběračů. Mezi 22 produkčními LLM systémy se technika ukázala jako spolehlivě identifikující, které sběrače napájely které LLM, protože – s trochou trpělivosti po “zasetí” jedinečných datových signálů – stačilo položit správné otázky AI o měsíc nebo dva později, aby se získaly jedinečné tokeny.

Špatná hra

Samozřejmě, nic z toho by nebylo nutné, kdybychom nebyli stále ve “fázi divokého západu” AI V3, a kdyby firmy skutečně dodržovaly malé textové soubory, které domény mohou použít k označení AI firem, aby nesbíraly jejich data.

Jako se ukázalo ve výzkumných testech, pouze jedna AI firma se zdála respektovat své vlastní chování a zásady: DuckDuckGo’s DuckDuckbot byl jediným agentem, který se představil přesně a přestal hlásit “tajné údaje” hned, jakmile byla cílová doména vypnuta (jiné AI firmy se uchýlily k cached verzím a jiným trikům) nebo byla změněna robots.txt soubor domény, aby odmítla AI sběr.

Mnohé z největších hráčů se místo toho přestavovaly jako generické prohlížečové ID (stejné, jako by webová stránka viděla, kdyby vás nebo mě navštívila), a – v souladu s Perplexity’s vedením z roku 2025 – přestavovaly se jako GoogleBot, který po dlouhou dobu měl “zlatou kartu” k webovým datům, protože vracel (pozor, minulý čas, protože se to mění) provoz výměnou za data.

Nejhorším provinilcem, podle studie, byl sběrač, který napájel Kimi AI ekosystém:

‘Kimi se zdá být nejextrémnějším případem tohoto chování: mnoho uživatelských agentů se zdálo být spojeno s daty vyprodukovanými Kimi. Odhadujeme, že Kimi rotuje prostřednictvím velkého seznamu řetězců User-Agent, zatímco sbírá data, možná aby se vyhnul detekci botů.’

Co dělá tento problém velkou výzvou, je to, že když ChatGPT nebo podobné nástroje “vyhledávají něco”, tento proces je většinou neviditelný, s firmami, které nabízejí pouze částečné nebo sebehlášené účty o tom, jak jejich systémy shromažďují živé informace. To zanechává majitele stránek bez jasného způsobu, jak určit, které boty skutečně navštěvují jejich stránky, zda tyto návštěvy jsou přímé nebo směrované prostřednictvím vyhledávačů, nebo jak tato data nakonec skončí v konečné odpovědi.

Zjištění z nové studie ukazují, že LLMs mohou používat své vlastní cached položky z domény, své vlastní interní SEO-style seznamy, a že často používají informace z vyhledávacích výsledků firem, se kterými, ve mnoha případech, nemají žádnou veřejnou asociaci, a žádnou zjevnou smluvní dohodu.

Autoři se domnívají, že toto odhalení je prvním případem, kdy práce se zabývala nežádoucím pronikáním RAG systémy (živé volání v době inference z LLM, které může nebo nemusí mít lidského uživatele, který je obsluhuje), spíše než datovými sběrači, kteří hledají čerstvé materiály pro trénovací datové sady.

Nová studie se jmenuje Identifikace AI webových sběračů pomocí canary tokenů a pochází od šesti výzkumníků z Duke University, University of Pittsburgh a Carnegie Mellon.

Metoda

Výzkumníci nastavili dvacet .com domén s široce podobnými webovými stránkami pod běžnými šablonami, jako je umělecký portfólio nebo firemní webová stránka. Každá šablona obsahovala 10 placeholderů, které by nakonec byly naplněny tokeny jedinečnými pro vnímaný profil každého návštěvníka (na základě faktorů, jako je IP adresa, canvas fingerprinting a různé další “sniffing metody):

Příklad šablony a proměnných placeholderů použitých v experimentu. Každý vnímaný jedinečný návštěvník by obdržel persistující, individualizované proměnné.

Příklad šablony a proměnných placeholderů použitých v experimentu. Každý vnímaný jedinečný návštěvník by obdržel persistující, individualizované proměnné.

Každý vnímaný jedinečný návštěvník by obdržel přizpůsobené proměnné. V případě, kdy systém detekoval návrat předchozího návštěvníka, byly mu opětovně předloženy stejné proměnné jako předtím. Proměnné byly generovány pomocí Python Faker knihovny, jakož i (nespecifikovaných) generátorů náhodných čísel.

Honeypot domény byly poté předloženy různým indexům, jako jsou Google a Bing, a byly také propojeny z jiných existujících domén, které autoři ovládali.

Byly povoleny dva měsíce, jakožto požadovaný interval pro umožnění skenovací frekvence z široké škály vyhledávačů a podobných botů, jakož i (možná) organických návštěv. V tomto okamžiku byli výzkumníci již v pozici, aby dotázali cílené AI chatboty (uvedené níže):

AI chatbot Vydavatel
ChatGPT OpenAI
Claude Anthropic
Copilot Microsoft
Deepseek Deepseek
Duck.ai DuckDuckGo
ERNIE Baidu
Gemini Google
GLM Z.AI
Granite IBM
Grok xAI
Hunyuan Tencent
AI chatbot Vydavatel
Kimi MoonshotAI
Liquid Liquid
Llama Meta
Mistral Mistral
Nova Amazon
Perplexity Perplexity
Qwen Alibaba
Reka Reka
Solar Upstage
Step-3 StepFun
Venice Venice

Byly vytvořeny skripty pro dotázání každého systému, prostřednictvím API, pokud to bylo možné. Pokud to nebylo možné, a pokud automatizované řešení jako Selenium bylo zablokováno detekčními rutinami AI portálu, byly provedeny manuální interakce prostřednictvím oficiálních GUI LLM.

Po počáteční šabloně (viz obrázek výše) autoři následovali sekundární prompt, navržen pro vyvolání názvu společnosti nebo osoby v asociovaném tokenu.

Experimenty byly provedeny ve třech podmínkách: plně přístupná webová stránka; webová stránka vypnuta; a webová stránka s omezením robots.txt, které odpuzovalo sběr. Tyto experimenty byly provedeny v přesně tomto pořadí, jeden po druhém, protože pozdější fáze závisely na předchozích.

Nakonec, se všemi stránkami opětovně online, byla poslední fáze testována znovu po týdenním intervalu.

Výsledky

Čtyři z cílených LLM se ukázaly být zcela odolné vůči metodám výzkumníků, a proto nebylo možné získat žádné výsledky pro DeepSeek, Hunyuan, GLM a Liquid.

Pokud jde o tendenci mnoha AI botů napodobovat ne-AI provoz, autoři uvádějí:

‘Kromě prvního deklarovaného agenta několik AI systémů vrátilo obsah spojený s generickými prohlížečovými řetězci User-Agent. Tento behavior jsme pozorovali u šesti z 18 AI systémů, pro které jsme získali informace o User-Agent.

‘Tento výsledek naznačuje, že některé AI systémy mohou získat webový obsah prostřednictvím požadavků, které se podobají běžnému prohlížečovému provozu, což činí blokování založené na User-Agent obtížným.’

ERNIE vrátil Baiduspider a Chrome identitu; Grok kombinoval Googlebot s dvěma prohlížečovými agenty; Solar používal pouze prohlížečové identity; Qwen kombinoval Googlebot s Chrome; a Kimi byl spojen s několika prohlížečovými agenty.

Mnohé systémy se zdály spoléhat na třetí strany pro sběr dat, ve vztazích, které nejsou vždy zveřejňovány. Obsah spojený s Googlebot, Bingbot a Bravebot byl vrácen deseti z 18 analyzovaných systémů, často v případech, kdy neexistuje žádná veřejná asociace mezi AI poskytovatelem a vyhledávačem – i když některé odkazy, jako použití Brave Claude, jsou zdokumentovány.

Autoři tvrdí, že to naznačuje další vrstvu neprůhlednosti ve webové.pipeline AI, kde blokování známých AI crawlerů nemusí zabránit použití dat, a aby se zabránilo zařazení, může být nutné vypnout vyhledávací indexaci úplně – nežádoucí volba, zatímco napětí mezi tradičním SEO a LLM-založeným vyhledáváním je stále daleko od řešení.

Pouze cache

Autoři poté otestovali, zda odstranění zdroje ovlivní výstup chatbotů, tak že vzali testovací stránky offline a dotázali systémy znovu po týdenním intervalu. Podle studie mnohé chatboty pokračovaly v reprodukci “zasetých” obsahu i po týdnu odstávky, což naznačuje, že odpovědi byly čerpány z cached dat, spíše než z živého načtení.

Tato persistence byla nejvíce patrná u systémů spojených s vyhledávači, kde dříve indexované obsahy zůstaly dostupné, přestože původní stránky již nebyly přístupné – i když podobné chování bylo pozorováno i u systémů spojených s prohlížečovými agenty, což naznačuje, že caching může přesahovat i za vyhledávač-založené pipeline.

Studie naznačuje, že jednou, co obsah vstoupí do cache, ať už je udržován chatbotem nebo přístupný prostřednictvím vyhledávačů, odstranění původní stránky nemusí spolehlivě odstranit obsah z následujících výstupů.

Závěr

Autoři připouštějí, že some “únik” bude následovat z tohoto klasického “siloovaného” přístupu, protože jedinečné tokeny zaměřené na jeden LLM mohou někdy skončit ve vyhledávacích výsledcích (vygenerovaných tokeny skutečného vlastníka), které jsou poté ingestadovaly druhým LLM. Nicméně, v takových schémat, difuze tohoto typu je nevyhnutelná, a bdělost pro první výskyt je kritickým a rozhodujícím okamžikem.

Co zbývá vidět, je rozsah, v jakém by takový schéma mohlo být implementováno ve velkém měřítku, zejména s ohledem na to, že, jak autoři poznamenávají, jeden by brzy vyčerpal kontextově správné tokeny.

Jedná se však spíše o vedlejší otázku, protože může existovat limit i pro drzost AI firem, aby se procházely jasnými důkazy o svých vlastních lžích o svých sběrných politikách. Kromě toho, pokud tyto firmy nespoléhají na potenciálně drahý postup procházení domácích IP adres, aby maskovaly svou identitu, stačí, aby jedna organizace identifikovala a zveřejnila blacklist AI-bot IP nebo ASN; proces nemusí být industrializován, aby byl efektivní.

 

Poprvé publikováno ve čtvrtek, 14. května 2026

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai