Angolo di Anderson
Il Canarino Che Rivela Il Traffico Di Intelligenza Artificiale

In uno studio recente, i ricercatori hanno nascosto frasi uniche sui siti web e hanno catturato i chatbot di intelligenza artificiale che le ripetevano, esponendo pipeline di scraping nascoste e, apparentemente, pratiche ingannevoli da parte di alcune delle più grandi aziende di intelligenza artificiale.
Le aziende di intelligenza artificiale stanno lottando per ottenere un vantaggio in una gara che è prevista essere brutalmente riduttiva; quindi, vogliono realmente, realmente raschiare il tuo sito web per i dati di formazione per alimentare i loro modelli di intelligenza artificiale. A volte costantemente; spesso in violazione dei tuoi desideri espressi; e frequentemente sotto le sembianze di lettori umani casuali, o come bot “più amichevoli” come GoogleBot, piuttosto che rivelare la loro vera identità come raschiatore di dati di intelligenza artificiale.
È attualmente stimato che i raschiatore di dati automatizzati di intelligenza artificiale progettati per aspirare nuovi dati di formazione e per rispondere alle richieste immediate degli utenti via RAG, supereranno il numero degli esseri umani entro un anno.
Questa rapida, implacabile e ripetitiva raccolta di dati sta avvenendo in parte a causa della necessità di ogni entità di intelligenza artificiale di avere la sua copia attuale di Internet, piuttosto che repository sempre più obsoleti come Common Crawl; e, forse, perché le aziende temono l’arrivo di restrizioni legali e devono procedere con IP-washing il prima possibile.
Inoltre, pollando costantemente il maggior numero possibile di siti (potenzialmente fruttuosi), le aziende di intelligenza artificiale possono sperare di migliorare la loro attuale capacità non eccellente di rispondere in modo informativo e accurato a situazioni emergenti.
In ogni caso, sembra esserci un certo merito alla tesi che queste pratiche siano state fuori controllo e ingovernabili per molto tempo.
Il problema è che non è facile dimostrare fino a che punto le aziende di intelligenza artificiale stanno andando per placare la loro sete di dati.
Segui I Dati
Una proposta, avanzata in un nuovo documento degli Stati Uniti, suggerisce una variante di un metodo vecchio come il mondo per scoprire spie, informatori e altri presunti malversatori: esporli a informazioni personalizzate che nessun altro conosce e vedere se e dove quelle informazioni si presentano. Se nessun altro conosceva quelle informazioni, allora la fonte della fuga è provata:

L’idea fondamentale dei ricercatori, delineata nel nuovo documento, è quella di dare a ogni bot visitatore una versione leggermente diversa della stessa pagina, quindi chiedere ai chatbot informazioni su quella pagina e vedere quale versione torna, rendendo possibile tracciare quale ricerca web nascosta ha fornito la risposta. Fonte
Questo approccio popolare è forse meglio conosciuto attraverso le misure anti-pirateria adottate dal comitato dell’Academy Awards negli anni 2000, in cui i DVD di anteprima dati ai membri votanti iniziarono a essere impressi digitalmente con ID unici che potevano essere ri-attribuiti al destinatario originale se il film in questione fosse stato mai diffuso su Internet. Nell’ambito dello spionaggio, la tecnica è conosciuta come barium meal, dopo la pratica di utilizzare un liquido di isotopo radioattivo per illuminare i vasi sanguigni in una scansione medica e identificare gli ostacoli.
(Ironia della sorte, la metafora del “canarino” non è molto adatta allo scenario che il documento affronta, anche se è più riconoscibile di qualsiasi altro tropo)
Nel caso della nuova ricerca, gli autori hanno creato venti domini web “honeypot” e hanno servito token unici a ogni visitatore unico, in modo che ognuno ricevesse fatti diversi (vedi seconda colonna da sinistra nell’immagine sopra).
L’obiettivo era quello di rivelare la vera identità e il comportamento dei raschiatore di dati di intelligenza artificiale (LLM). Tra 22 sistemi LLM di produzione, la tecnica è stata in grado di identificare in modo affidabile quali raschiatore di dati stavano alimentando quali LLM, poiché – con un po’ di pazienza dopo aver “piantato” i dati unici – chiedere le domande giuste all’intelligenza artificiale un mese o due dopo avrebbe prodotto i token unici.
Gioco Sporco
Naturalmente, nulla di tutto ciò sarebbe necessario se non fossimo ancora nella fase “wild west” dell’intelligenza artificiale V3, e se le aziende rispettassero effettivamente i piccoli file di testo che i domini possono utilizzare per dire alle aziende di intelligenza artificiale di non raschiare i loro dati.
Come è emerso nei test dei ricercatori, solo un’azienda di intelligenza artificiale sembra rispettare il suo comportamento dichiarato e i suoi principi: il DuckDuckbot di DuckDuckGo è stato l’unico agente a rappresentarsi in modo accurato e a smettere di segnalare i “dati segreti” non appena il dominio di destinazione veniva disattivato (altre aziende di intelligenza artificiale ricorrevano a versioni in cache e ad altri trucchi) o il file robots.txt del dominio veniva modificato per rifiutare il raschiamento di intelligenza artificiale.
Molti dei principali attori hanno invece impersonato ID di browser generici (lo stesso che un sito web vedrebbe se tu o io lo visitassimo), e – in conformità con la guida del 2025 di Perplexity su questa pratica – hanno impersonato GoogleBot, che ha a lungo goduto di un “pass d’oro” per i dati del sito web perché restituiva (nota il tempo passato, perché questo sta cambiando) traffico in cambio di dati.
Il peggiore trasgressore, secondo il documento, è stato il raschiatore di dati che alimentava l’ecosistema Kimi AI:
‘Kimi sembra essere il caso più estremo di questo comportamento: molti agenti utente sembrano essere correlati con i dati di output di Kimi. Inferiamo che Kimi ruoti attraverso una lunga lista di stringhe di agente utente mentre raschia, forse per evitare la rilevazione dei bot.’
Ciò che rende questo problema una grande sfida è che quando ChatGPT o strumenti simili “cerchano qualcosa”, quel processo è in gran parte invisibile, con le aziende che offrono solo resoconti parziali o auto-dichiarati di come i loro sistemi raccolgono informazioni in tempo reale. Ciò lascia i proprietari del sito senza un chiaro modo per capire quali bot stanno effettivamente visitando le loro pagine, se quelle visite sono dirette o instradate attraverso i motori di ricerca, o come quei dati finiscono in una risposta finale.
I risultati dello studio indicano che gli LLM possono utilizzare le loro voci in cache da un dominio, le loro liste interne di stile SEO e che spesso utilizzano informazioni dai risultati dei motori di ricerca di aziende con cui, in molti casi, non hanno alcuna associazione pubblica e alcun accordo di utilizzo apparente.
Gli autori ritengono che questo smascheramento sia la prima volta che un lavoro ha affrontato l’intrusione indesiderata da parte di sistemi RAG (chiamate live al momento dell’inferenza da LLM che possono o non possono avere un utente umano che li gestisce), piuttosto che bot di raschiamento di dati che cercano materiale fresco per i set di dati di formazione.
Il nuovo documento si intitola Identificazione dei raschiatore di dati di intelligenza artificiale utilizzando token di canarino e proviene da sei ricercatori di Duke University, University of Pittsburgh e Carnegie Mellon.
Metodo
I ricercatori hanno allestito venti domini .com con siti web ampiamente simili sotto template comuni, come un portfolio artistico o un sito web aziendale. Ogni template conteneva 10 placeholder che sarebbero stati popolati con token unici per il profilo percepito di ogni visitatore (in base a fattori come l’indirizzo IP, la fingerprinting del canvas e vari altri “metodi di sniffing”):

Un esempio del template e dei placeholder di variabili utilizzati nell’esperimento. Ogni visitatore unico percepito avrebbe ricevuto variabili personalizzate e individualizzate.
Ogni visitatore unico percepito avrebbe ricevuto variabili personalizzate. Nel caso in cui il sistema rilevava il ritorno di un visitatore precedente, le stesse variabili di prima sarebbero state ripresentate. Le variabili sono state generate con l’utilizzo della libreria Python Faker, nonché (non specificati) generatori di numeri casuali.
I domini “honeypot” sono stati quindi sottoposti a vari indici come Google e Bing e sono stati collegati da altri domini preesistenti che gli autori controllavano.
Sono stati consentiti due mesi per passare, come intervallo richiesto per consentire la frequenza di scansione da parte di una vasta gamma di bot di ricerca e simili, nonché (possibilmente) visite organiche. A questo punto, i ricercatori erano ora in grado di interrogare i chatbot di intelligenza artificiale target (elencati di seguito):
|
|
Script sono stati costruiti per interrogare ogni sistema, tramite API, quando possibile. Quando ciò non era possibile, e quando soluzioni automatizzate come Selenium sono state bloccate dalle routine di rilevamento del portale di intelligenza artificiale, sono state eseguite interazioni manuali tramite le interfacce utente ufficiali degli LLM.
Dopo lo scambio iniziale con template (vedi immagine sopra), gli autori hanno seguito con un prompt secondario progettato per estrarre il nome di un’azienda o di una persona in un token associato.
Gli esperimenti sono stati condotti in una delle tre condizioni: un sito web completamente accessibile; il sito web offline; e il sito web con una restrizione robots.txt che respingeva il raschiamento. Questi esperimenti sono stati condotti in quella sequenza esatta, uno dopo l’altro, poiché le fasi successive dipendevano dalle precedenti.
Infine, con tutti i siti tornati online, l’ultima fase avrebbe riesaminato l’output LLM ad intervalli di una settimana.
Risultati
Quattro degli LLM di destinazione si sono rivelati completamente resistenti ai metodi dei ricercatori e non sono stati ottenuti risultati per DeepSeek, Hunyuan, GLM e Liquid.
Per quanto riguarda la tendenza di molti bot di intelligenza artificiale a impersonare il traffico non di intelligenza artificiale, gli autori affermano:
‘In aggiunta agli agenti dichiarati di prima parte, diversi sistemi di intelligenza artificiale hanno restituito contenuti associati a stringhe di agente utente del browser generico. Abbiamo osservato questo comportamento per sei dei 18 sistemi di intelligenza artificiale per i quali abbiamo ottenuto informazioni sull’agente utente.
‘Questo risultato suggerisce che alcuni sistemi di intelligenza artificiale possano ottenere contenuti del sito web attraverso richieste che appaiono simili al traffico del browser ordinario, il che rende difficile il blocco basato sull’agente utente.’
ERNIE ha restituito sia Baiduspider che un’identità Chrome; Grok ha combinato Googlebot con due agenti del browser; Solar ha utilizzato solo identità del browser; Qwen ha miscelato Googlebot con Chrome; e Kimi è stato collegato a più agenti del browser.
Molti sistemi sembrano affidarsi a raschiatore di dati di motori di ricerca di terze parti, in relazioni non sempre dichiarate. Contenuti collegati a Googlebot, Bingbot e Bravebot sono stati restituiti da dieci dei 18 sistemi analizzati, spesso in casi in cui non esiste un’associazione pubblica tra il fornitore di intelligenza artificiale e il motore di ricerca – anche se alcune collegamenti, come l’uso di Brave da parte di Claude, sono documentati.
Gli autori sostengono che ciò riflette l’ingestione dei risultati di ricerca piuttosto che il raschiamento diretto, poiché controlli ASN hanno indicato che il traffico proveniva dalle reti dei motori di ricerca attesi, piuttosto che da identità contraffatte.
Ciò suggerisce, afferma il documento, un ulteriore livello di opacità nella pipeline web-intelligenza artificiale, dove il blocco dei raschiatore di dati di intelligenza artificiale noti potrebbe non prevenire l’utilizzo dei dati e l’evitamento dell’inclusione potrebbe richiedere l’esclusione completa dall’indicizzazione dei motori di ricerca – una scelta indesiderabile mentre la tensione tra SEO tradizionale e ricerca basata su LLM è ancora lontana dall’essere risolta.
Solo Cache
Gli autori hanno quindi testato se la rimozione di una fonte avrebbe influenzato l’output dei chatbot, prendendo i siti di test offline e interrogando nuovamente i sistemi dopo un intervallo di una settimana. Secondo il documento, molti chatbot hanno continuato a riprodurre il “contenuto piantato” anche dopo una settimana di downtime, indicando che le risposte venivano tratte da dati in cache, piuttosto che da recupero live.
Questa persistenza è stata più evidente nei sistemi legati ai raschiatore di dati dei motori di ricerca, dove il contenuto precedentemente indicizzato è rimasto disponibile, nonostante le pagine di origine non fossero più accessibili – anche se un comportamento simile è stato osservato anche in sistemi associati ad agenti del browser, indicando che la memorizzazione nella cache potrebbe estendersi oltre le pipeline supportate dai motori di ricerca.
Il documento suggerisce che una volta che il contenuto entra nella cache, sia essa mantenuta dal chatbot o accessibile tramite indici di ricerca, la rimozione della pagina originale non rimuove in modo affidabile quel contenuto dagli output successivi.
Conclusione
Gli autori ammettono che alcune “perdite” si verificheranno da questo approccio classico “a silos”, poiché i token unici destinati a un LLM possono talvolta finire nei risultati di ricerca (generati dai token “veri” del proprietario), che vengono quindi ingeriti da un secondo LLM. Tuttavia, in tali schemi, la diffusione di questo tipo è inevitabile e la vigilanza per la prima occorrenza è il momento critico e rivelatore.
Ciò che rimane da vedere è la misura in cui un tale schema potrebbe essere implementato su larga scala, in particolare poiché, come osservano gli autori, si esaurirebbero rapidamente i token correttamente contestualizzati.
Tuttavia, questo punto è in realtà irrilevante, poiché potrebbe esserci un limite anche alla sfacciataggine delle aziende di intelligenza artificiale nel loro tentativo di ignorare le prove schiaccianti delle loro stesse bugie sulle politiche di raschiamento. Inoltre, a meno che tali aziende non si impegnino nel percorso potenzialmente costoso di rotazione degli indirizzi IP domestici per mascherare la loro identità, sarà sufficiente che un’organizzazione identifichi e pubblichi un elenco nero di IP o ASN di bot di intelligenza artificiale mendaci nello stile di SpamHaus; il processo non deve essere industrializzato per essere efficace.
Pubblicato per la prima volta giovedì, 14 maggio 2026












