Connect with us

Canaryul care dezvăluie traficul de inteligență artificială

Unghiul lui Anderson

Canaryul care dezvăluie traficul de inteligență artificială

mm
AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

Într-un nou studiu, cercetătorii au ascuns fraze unice pe site-uri web și au prins chatbot-urile de inteligență artificială repetându-le, expunând conducte de extragere ascunse și, aparent, practici înșelătoare din partea unora dintre cele mai mari companii de inteligență artificială.

 

Companiile de inteligență artificială se luptă pentru a obține un avantaj într-o cursă care se preconizează a fi brutal redusă; prin urmare, ele vor cu adevărat, cu adevărat să extragă date de pe site-urile dvs. pentru a alimenta modelele lor de inteligență artificială. Uneori în mod constant; adesea în încălcarea dorințelor dvs. exprimate; și de multe ori sub masca unor cititori umani obișnuiți, sau ca bot-uri “mai prietenoase” cum ar fi GoogleBot, mai degrabă decât să-și dezvăluie adevărata identitate ca extragători de date de inteligență artificială.

Se estimează în prezent extragătoarele automate de date de inteligență artificială, proiectate pentru a absorbi noi date de antrenament și pentru a răspunde cererilor imediate ale utilizatorilor pentru cele mai recente știri prin RAG, vor depăși numărul oamenilor într-un an.

Acest apetit de date, care este atât de rapid și de repetitiv, are loc parțial din cauza nevoii fiecărei entități de inteligență artificială de a avea propria sa copie actuală a internetului, mai degrabă decât a se baza pe depozite din ce în ce mai vechi, cum ar fi Common Crawl; și, poate, pentru că companiile se tem de apariția unor restricții legale și au nevoie să înceapă spălarea de adrese IP cât mai curând posibil.

În plus, prin sondarea constantă a cât mai multor site-uri (posibil roditoare), companiile de inteligență artificială ar putea spera să-și îmbunătățească abilitatea curentă, nu prea bună, de a răspunde în mod informativ și precis la situații care apar și se dezvoltă.

În orice caz, pare a fi o anumită valoare în afirmația că aceste practici au fost de mult timp în afara controlului și fără guvernare.

Problema este că nu este atât de ușor să dovedești până la ce punct companiile de inteligență artificială merg pentru a-și potoli setea de date.

Urmați datele

O sugestie, propusă într-un nou document din Statele Unite, oferă o variantă a unei metode vechi de descoperire a spionilor, informatorilor și altor presupuși vinovați: expunerea la informații personalizate, pe care nimeni altcineva nu le cunoaște, și așteptarea să se vadă dacă și unde aceste informații vor apărea. Dacă nimeni altcineva nu cunoaște aceste informații, atunci sursa scurgerii este dovedită:

Ideea principală a cercetătorilor, prezentată în noul document, este de a oferi fiecărui bot care vizitează o versiune ușor diferită a aceleiași pagini, apoi de a întreba chatbot-urile despre acea pagină și de a vedea care versiune se întoarce, făcând posibilă urmărirea căror căutări ascunse pe web au furnizat răspunsul.. Sursă - https://arxiv.org/pdf/2605.13706

Ideea principală a cercetătorilor, prezentată în noul document, este de a oferi fiecărui bot care vizitează o versiune ușor diferită a aceleiași pagini, apoi de a întreba chatbot-urile despre acea pagină și de a vedea care versiune se întoarce, făcând posibilă urmărirea căror căutări ascunse pe web au furnizat răspunsul. Sursă

Acest aproximare populară este, probabil, cel mai bine cunoscută prin măsurile anti-piraterie adoptate de comitetul Academiei de Film în anii 2000, în care discurile de screening distribuite membrilor care votează au început să fie imprimate digital cu ID-uri unice care ar fi putut fi reatribuite destinatarului original, în cazul în care filmul respectiv ar fi fost scurs pe internet. În spionaj, această tehnică se numește masă de bariu, după practica de a utiliza un lichid cu izotop radioactiv pentru a ilumina vasele de sânge într-o scanare medicală și pentru a identifica blocajele.

(Ironia face că metafora “canar” aleasă nu este foarte potrivită pentru scenariul abordat în document, deși este mai recunoscută decât oricare dintre tropurile menționate anterior)

În cazul noului studiu, autorii au creat douăzeci de domenii web “capcane” și au servit token-uri unice pentru fiecare vizitator unic, astfel încât fiecare să primească fapte diferite (vezi a doua coloană din stânga în imaginea de mai sus).

Obiectivul a fost de a dezvăluia adevărata identitate și comportament a extragătoarelor de date de inteligență artificială. Pe parcursul a 22 de sisteme LLM de producție, tehnica a fost capabilă să identifice în mod fiabil care extragătoare de date alimentează care LLM, deoarece – cu o mică răbdare după “plantarea” datelor unice – pur și simplu întrebând chatbot-urile corecte, la un moment dat, după o lună sau două, a fost suficient pentru a obține token-urile unice.

Înșelăciune

Desigur, niciuna dintre acestea nu ar fi fost necesară dacă nu am fi încă în faza “vestului sălbatic” a inteligenței artificiale V3 și dacă companiile ar respecta cu adevărat fișierele mici de text pe care domeniile le pot utiliza pentru a spune companiilor de inteligență artificială să nu extragă datele lor.

În timpul testelor cercetătorilor, doar o companie de inteligență artificială a părut să respecte propriul comportament declarat și principiile: DuckDuckbot de la DuckDuckGo a fost singurul agent care s-a prezentat în mod corect și a încetat să raporteze “datele secrete” de îndată ce site-ul țintă a fost oprit (alte companii de inteligență artificială s-au folosit de versiuni în cache și alte trucuri) sau fișierul robots.txt al site-ului a fost modificat pentru a refuza extragerea de date de inteligență artificială.

Majoritatea jucătorilor importanți au impersonat ID-uri generice de browser (la fel ca un site web pe care l-ați vizita și dumneavoastră), și – în conformitate cu inițiativa Perplexity din 2025 de a practica această metodă – au impersonat GoogleBot, care a avut mult timp un “permis de aur” pentru a accesa datele site-urilor, deoarece a returnat (notă: timpul trecut, deoarece acest lucru se schimbă) trafic în schimbul datelor.

Cel mai mare vinovat, conform documentului, a fost extragătorul de date care alimentează ecosistemul Kimi AI:

‘Kimi pare a fi cel mai extrem caz de comportament de acest fel: mulți agenți de utilizator au apărut a fi corelați cu datele ieșite de la Kimi. Infirmăm că Kimi se rotește printr-o listă mare de șiruri de caractere User-Agent în timp ce extrage date, posibil pentru a evita detectarea bot-urilor.’

Ce face această problemă o provocare majoră este faptul că, atunci când ChatGPT sau unelte similare “caută ceva”, acest proces este în mare măsură invizibil, cu companiile oferind doar conturi parțiale sau autodeclarate despre modul în care sistemele lor colectează informații în timp real. Acest lucru lasă proprietarii de site-uri fără o cale clară de a determina care bot-uri sunt într-adevăr vizitând paginile lor, dacă aceste vizite sunt directe sau dirijate prin motoare de căutare, sau cum aceste date ajung într-un răspuns final.

Conform descoperirilor din noul studiu, LLM-urile pot utiliza intrări în cache proprii dintr-un domeniu, liste interne de tip SEO și, adesea, informații din rezultatele motoarelor de căutare ale companiilor cu care, în multe cazuri, nu au nicio asociere publică și nicio înțelegere aparentă.

Autorii consideră că această expunere este pentru prima dată când o lucrare a abordat intruziunea nedorită din partea sistemelor RAG (apeluri live la momentul inferenței din LLM, care pot sau nu să aibă un utilizator uman care le lucrează), și nu bot-urile de extragere de date care caută material proaspăt pentru seturile de antrenament.

Documentul nou se intitulează Identificarea extragătoarelor de date de inteligență artificială utilizând token-uri canar și provine de la șase cercetători de la Universitatea Duke, Universitatea din Pittsburgh și Carnegie Mellon.

Metodă

Cercetătorii au configurat douăzeci de domenii .com cu site-uri web cu șablonuri larg similare, cum ar fi un portofoliu artistic sau un site web al unei companii. Fiecare șablon conținea 10 locuri rezervate care urmau să fie populate cu token-uri unice pentru profilul perceput al fiecărui vizitator (pe baza factorilor cum ar fi adresa IP, amprenta canvas și diverse alte metode de “sniffing”):

Un exemplu de șablon și locuri rezervate pentru variabile utilizate în experiment. Fiecare vizitator unic perceput a primit variabile personalizate și persistente.

Un exemplu de șablon și locuri rezervate pentru variabile utilizate în experiment. Fiecare vizitator unic perceput a primit variabile personalizate și persistente.

Fiecare vizitator unic perceput a primit variabile personalizate. În cazul în care sistemul a detectat revenirea unui vizitator anterior, aceleași variabile ca și înainte au fost reprezentate. Variabilele au fost generate cu ajutorul bibliotecii Python Faker, precum și (necitate) generatoare de numere aleatoare.

Domeniile “capcane” au fost apoi trimise spre indexare la diverse motoare de căutare, cum ar fi Google și Bing, și au fost legate de la alte domenii preexistente pe care autorii le controlau.

Au fost lăsate să treacă două luni, ca interval necesar pentru a permite frecvența de scanare din partea unei game largi de bot-uri de căutare și a altor bot-uri, precum și (posibil) vizite organice. La acest punct, cercetătorii erau în măsură să întrebe chatbot-urile țintă (listate mai jos):

Chatbot de inteligență artificială Editor
ChatGPT OpenAI
Claude Anthropic
Copilot Microsoft
DeepSeek DeepSeek
Duck.ai DuckDuckGo
ERNIE Baidu
Gemini Google
GLM Z.AI
Granite IBM
Grok xAI
Hunyuan Tencent
Chatbot de inteligență artificială Editor
Kimi MoonshotAI
Liquid Liquid
Llama Meta
Mistral Mistral
Nova Amazon
Perplexity Perplexity
Qwen Alibaba
Reka Reka
Solar Upstage
Step-3 StepFun
Venice Venice

Script-urile au fost create pentru a interoga fiecare sistem, prin API, acolo unde a fost posibil. Atunci când acest lucru nu a fost posibil, și atunci când soluțiile automate, cum ar fi Selenium, au fost blocate de rutinele de detectare ale portalului de inteligență artificială, s-au efectuat interacțiuni manuale prin interfețele grafice oficiale ale LLM-urilor.

După schimbul inițial de șablon (vezi imaginea de mai sus), autorii au urmat cu o a doua întrebare proiectată pentru a obține numele unei companii sau al unei persoane dintr-un token asociat.

Experimentele au fost efectuate în una dintre trei condiții: un site web complet accesibil; site-ul luat offline; și site-ul cu o restricție robots.txt care respinge extragerea de date. Aceste experimente au fost efectuate în această secvență exactă, una după alta, deoarece etapele ulterioare depindeau de cele anterioare.

În cele din urmă, cu toate site-urile repuse online, ultima etapă a retestat ieșirile LLM la intervale de o săptămână.

Rezultate

Patru dintre LLM-urile țintă s-au dovedit a fi complet rezistente la metodele cercetătorilor, și, prin urmare, nu s-au putut obține rezultate pentru DeepSeek, Hunyuan, GLM și Liquid.

În ceea ce privește tendința multor bot-uri de inteligență artificială de a se prezenta ca trafic non-inteligență artificială, autorii afirmă:

‘Pe lângă agenții declarați de prima parte, mai multe sisteme de inteligență artificială au returnat conținut asociat cu șiruri de caractere User-Agent generice. Am observat acest comportament la șase dintre cele 18 sisteme de inteligență artificială pentru care am obținut informații despre User-Agent.

‘Acest rezultat sugerează că unele sisteme de inteligență artificială pot obține conținut de pe site-uri prin solicitări care par similare cu traficul obișnuit de browser, ceea ce face dificilă blocarea bazată pe User-Agent.’

ERNIE a returnat atât Baiduspider, cât și o identitate Chrome; Grok a combinat Googlebot cu doi agenți de browser; Solar a utilizat doar identități de browser; Qwen a amestecat Googlebot cu Chrome; și Kimi a fost legat de mai mulți agenți de browser.

Multe sisteme au părut să se bazeze pe extragătoare de date de la terți, în relații nu întotdeauna dezvăluite. Conținut legat de Googlebot, Bingbot și Bravebot a fost returnat de zece dintre cele 18 sisteme analizate, adesea în cazuri în care nu există nicio asociere publică între furnizorul de inteligență artificială și motorul de căutare – deși unele legături, cum ar fi utilizarea Brave de către Claude, sunt documentate.

Autorii susțin că acest lucru reflectă ingestia de rezultate de căutare mai degrabă decât extragerea directă, deoarece verificările ASN au indicat că traficul provenea de la rețelele de motoare de căutare așteptate, mai degrabă decât identități false.

Acest lucru sugerează, afirmă documentul, un strat suplimentar de opacitate în conducta web-inteligență artificială, unde blocarea cunoscută a extragătoarelor de date de inteligență artificială nu poate preveni utilizarea datelor, și evitarea incluziunii poate necesita renunțarea completă la indexarea de căutare – o alegere nedorită, în timp ce tensiunea dintre SEO tradițional și căutarea bazată pe LLM este încă departe de a fi rezolvată.

Doar cache

Autorii au testat apoi dacă înlăturarea unei surse ar afecta ieșirile chatbot-urilor, luând site-urile offline și interogând sistemele din nou după o perioadă de o săptămână. Conform documentului, multe chatbot-uri au continuat să reproducă conținutul “plantat” chiar și după o săptămână de închidere, indicând faptul că răspunsurile erau extrase din date în cache, mai degrabă decât prin recuperare live.

Acest comportament a fost cel mai evident în sistemele legate de extragătoarele de date de la motoarele de căutare, unde conținutul indexat anterior a rămas disponibil, în ciuda faptului că paginile sursă nu mai erau accesibile – deși un comportament similar a fost observat și în sisteme asociate cu agenți de browser, indicând faptul că stocarea în cache poate depăși conductele bazate pe motoare de căutare.

Documentul sugerează că, odată ce conținutul intră într-un cache, fie că este menținut de chatbot sau accesat prin intermediul indexurilor de căutare, înlăturarea paginii originale nu elimină în mod fiabil conținutul din ieșirile ulterioare.

Concluzie

Autorii recunosc că o anumită “scurgere” va avea loc din această abordare clasică “în siloz”, deoarece token-urile unice destinate unui LLM pot ajunge uneori în rezultatele de căutare (generate de token-urile “reale” ale acestora), care sunt apoi ingerate de un al doilea LLM. Cu toate acestea, în astfel de scheme, difuzia de acest tip este inevitabilă, iar vigiliența pentru prima apariție este momentul critic și determinant.

Ce rămâne de văzut este măsura în care un astfel de sistem ar putea fi implementat la scară, în special având în vedere că, așa cum observă autorii, s-ar epuiza rapid token-urile contextual corecte.

Cu toate acestea, acest lucru ratează esența, deoarece poate exista o limită chiar și pentru îndrăzneala companiilor de inteligență artificială de a ignora în mod evident dovezi ale propriilor minciuni despre politicile lor de extragere de date. În plus, cu excepția cazului în care aceste companii se angajează pe calea potențial scumpă de a trece prin adrese IP domestice pentru a-și masca identitatea, va fi suficient ca o singură organizație să identifice și să publice o listă neagră de tip SpamHaus a adreselor IP sau ASN-urilor bot-urilor de inteligență artificială mincinoase; procesul nu trebuie să fie industrializat pentru a fi eficient.

 

Publicat pentru prima dată joi, 14 mai 2026

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.