Andersons Blickwinkel
Der Kanarienvogel, der den AI-Verkehr aufdeckt

In einer neuen Studie versteckten Forscher einzigartige Phrasen auf Webseiten und fingen AI-Chatbots ab, die diese Phrasen wiederholten, und deckten so versteckte Scraping-Pipelines und offensichtlich betrügerische Praktiken einiger der größten AI-Unternehmen auf.
AI-Unternehmen kämpfen um Vorteile in einem Wettlauf, der als brutal reduktiv vorhergesagt wird; daher wollen sie wirklich, wirklich Ihre Website/n für Trainingsdaten scrape, um ihre AI-Modelle zu füttern. Manchmal ständig; oft in Verletzung Ihrer ausdrücklichen Wünsche; und häufig in der Verkleidung von casualen menschlichen Lesern oder als “freundlichere” Bots wie GoogleBot, anstatt ihre wahre Identität als AI-Daten-Scrapers preiszugeben.
Es wird derzeit geschätzt, dass automatisierte AI-Scrapers, die darauf ausgelegt sind, neue Trainingsdaten zu sammeln und auf die sofortigen Anfragen der Benutzer nach den neuesten Nachrichten via RAG zu reagieren, innerhalb eines Jahres die Anzahl der Menschen übersteigen werden.
Dieses hektische, unerbittliche und wiederholte Daten-Sammeln geschieht teilweise wegen des Bedarfs jedes AI-Unternehmens, seine eigene aktuelle Kopie des Internets zu haben, anstatt auf zunehmend veraltete Repositorien wie Common Crawl zurückzugreifen; und vielleicht, weil die Unternehmen die kommenden rechtlichen Einschränkungen fürchten und so schnell wie möglich mit IP-Washing beginnen müssen.
Zusätzlich können AI-Unternehmen durch ständiges Abfragen so vieler (potenziell fruchtbarer) Seiten wie möglich ihre derzeit nicht-große Fähigkeit verbessern, informativ und genau auf auftretende Situationen zu reagieren.
Wie dem auch sei, scheint es, dass es einige Berechtigung für die Behauptung gibt, dass diese Praktiken seit geraumer Zeit außer Kontrolle und unregierbar sind.
Das Problem ist, es ist nicht so einfach, zu beweisen, wie weit AI-Unternehmen gehen, um ihre Gier nach den neuesten Daten zu stillen.
Dem Daten folgen
Ein Vorschlag, der in einem neuen Papier aus den USA vorgeschlagen wird, bietet eine Variation einer altbewährten Methode, um Spione, Informanten und andere vermeintliche Übeltäter aufzudecken: indem man ihnen maßgeschneiderte Informationen präsentiert, die niemand anders kennt, und sieht, ob und wo diese Informationen auftauchen. Wenn niemand anders diese Informationen kannte, dann ist die Quelle des Lecks bewiesen:

Die Forscher haben die Kernidee in dem neuen Papier erläutert, indem sie jedem besuchenden Bot eine leicht unterschiedliche Version der gleichen Seite präsentierten, dann die Chatbots nach dieser Seite fragten und sahen, welche Version zurückkam, um so die versteckten Web-Abfragen zu verfolgen, die die Antwort geliefert haben. Quelle
Dieser beliebte Ansatz ist vielleicht am besten durch die Anti-Piraterie-Maßnahmen bekannt, die von der Academy Awards-Komitee in den 2000er Jahren ergriffen wurden, bei denen die an die Voting-Mitglieder verteilten Screener-DVDs mit einzigartigen IDs digital versehen wurden, die angeblich dem ursprünglichen Empfänger zugeordnet werden konnten, wenn der Film auf das Internet ausgeliefert wurde. Im Spionagebereich ist diese Technik als Barium-Mahl bekannt, nach der Praxis, eine radioaktive Isotopen-Lösung zu verwenden, um Blutgefäße in einem medizinischen Scan zu beleuchten und Blockierungen zu identifizieren.
(Ironischerweise ist die gewählte “Kanarienvogel”-Metapher nicht besonders passend für das Szenario, das das Papier anspricht, obwohl sie erkennbarer ist als die oben genannten Tropen)
Im Fall der neuen Forschung erstellten die Autoren zwanzig “Honeypot”-Web-Domains und servierten einzigartige Token jedem einzigartigen Besucher, so dass jeder unterschiedliche Fakten erhielt (siehe zweite Spalte von links in der obigen Abbildung).
Das Ziel war es, die wahre Identität und das Verhalten von LLM (AI)-Scrapern aufzudecken. Über 22 Produktions-LLM-Systeme hinweg konnte die Technik zuverlässig identifizieren, welche Scrapers welche LLM fütterten, da – mit ein wenig Geduld nach dem “Pflanzen” der einzigartigen Daten-Signatoren – das Stellen der richtigen Fragen an die AI ein oder zwei Monate später die einzigartigen Token lieferte.
Foul Play
Natürlich wäre all dies nicht notwendig, wenn wir nicht noch in der “Wild-West”-Phase von AI V3 wären und wenn Unternehmen tatsächlich den kleinen Textdateien gehorchen würden, die Domains verwenden können, um AI-Unternehmen zu sagen, dass sie ihre Daten nicht scrape sollen.
Wie es sich in den Tests der Forscher herausstellte, erschien nur ein AI-Unternehmen, das seine eigenen ausgesprochenen Verhaltensweisen und Grundsätze respektierte: DuckDuckGo’s DuckDuckbot war der einzige Agent, der sich genau darstellte und aufhörte, die “geheimen Daten” zu melden, sobald entweder die Ziel-Domain deaktiviert wurde (andere AI-Unternehmen griffen auf zwischengespeicherte Versionen und andere Tricks zurück) oder die Domain’s robots.txt-Datei geändert wurde, um AI-Scraping zu verwehren.
Viele der größten Spieler täuschten hingegen generische Browser-IDs vor (die gleiche Art von IDs, die eine Website sehen würde, wenn Sie oder ich sie besuchen), und – in Übereinstimmung mit Perplexity’s Führung in dieser Praxis – täuschten sie GoogleBot vor, der lange einen “goldenen Pass” zu Website-Daten hatte, weil er im Gegenzug für Daten Verkehr zurückgab (beachten Sie die Vergangenheitsform, da dies sich ändert).
Der schlimmste Übeltäter, laut Papier, war der Scraper, der das Kimi-AI-Ökosystem fütterte:
‘Kimi scheint der extremste Fall dieses Verhaltens zu sein: viele Benutzer-Agenten schienen mit den von Kimi ausgegebenen Daten korreliert zu sein. Wir schließen daraus, dass Kimi durch eine lange Liste von Benutzer-Agent-Zeichenfolgen scrollt, während es scrapet, möglicherweise, um Bot-Erkennung zu vermeiden.’
Was dieses Problem zu einer großen Herausforderung macht, ist, dass, wenn ChatGPT oder ähnliche Tools “etwas nachschlagen”, dieser Prozess größtenteils unsichtbar ist, mit Unternehmen, die nur teilweise oder selbst gemeldete Berichte über die Art und Weise liefern, wie ihre Systeme Live-Informationen sammeln. Dies lässt die Besitzer von Websites mit keiner klaren Möglichkeit zurück, zu bestimmen, welche Bots tatsächlich ihre Seiten besuchen, ob diese Besuche direkt oder über Suchmaschinen geroutet sind oder wie diese Daten in einer endgültigen Antwort landen.
Die Ergebnisse der neuen Studie deuten darauf hin, dass LLMs ihre eigenen zwischengespeicherten Einträge aus einer Domain, ihre eigenen internen SEO-Listen und häufig Informationen aus den Suchmaschinenergebnissen von Unternehmen verwenden, mit denen sie in vielen Fällen keine öffentliche Verbindung haben und keine offensichtlichen Nutzungsvereinbarungen.
Die Autoren glauben, dass diese Entlarvung das erste Mal ist, dass eine Arbeit unerwünschtes Eindringen von RAG-Systemen (Live-Anrufe zur Inferenzzeit von LLMs, die möglicherweise oder nicht von einem menschlichen Benutzer bedient werden) und nicht von Daten-Scraping-Bots, die frisches Material für Trainingsdatensätze suchen, angesprochen hat.
Das neue Papier trägt den Titel Identifizierung von AI-Web-Scrapern mit Kanarien-Tokens und stammt von sechs Forschern aus der Duke University, der University of Pittsburgh und der Carnegie Mellon.
Methode
Die Forscher richteten zwanzig .com-Domains mit weitgehend ähnlichen Websites unter gemeinsamen Vorlagen wie einem künstlerischen Portfolio oder einer Unternehmenswebsite ein. Jede Vorlage enthielt 10 Platzhalter, die schließlich mit Token besetzt werden sollten, die für jeden Besucher einzigartig waren (basierend auf Faktoren wie IP-Adresse, Canvas-Fingerprinting und verschiedenen anderen “Sniffing-Methoden”):

Ein Beispiel für die Vorlage und die Variablen-Platzhalter, die im Experiment verwendet wurden. Jeder wahrgenommene einzigartige Besucher erhielt persistente, individualisierte benutzerdefinierte Variablen.
Jeder wahrgenommene einzigartige Besucher erhielt benutzerdefinierte Variablen. Im Fall, in dem das System die Rückkehr eines vorherigen Besuchers erkannte, wurden die gleichen Variablen wie zuvor präsentiert. Die Variablen wurden mit Hilfe der Python-Faker-Bibliothek sowie (nicht spezifizierter) Zufallszahlengeneratoren erstellt.
Die Honeypot-Domains wurden dann verschiedenen Indexen wie Google und Bing vorgestellt und wurden auch von anderen bereits existierenden Domains verlinkt, die die Autoren kontrollierten.
Zwei Monate wurden zugelassen, um zu ermöglichen, dass eine breite Palette von Suchmaschinen- und ähnlichen Bots die Seiten scannen konnten, sowie (möglicherweise) organische Besuche. Zu diesem Zeitpunkt waren die Forscher in der Lage, die Ziel-AI-Chatbots (siehe unten) abzufragen:
|
|
Skripte wurden erstellt, um jeden System über API abzufragen, wo möglich. Wenn dies nicht möglich war und automatisierte Lösungen wie Selenium von den Erkennungsroutinen des AI-Portals blockiert wurden, wurden manuelle Interaktionen über die offiziellen GUIs der LLMs durchgeführt.
Nach dem anfänglichen Vorlagen-Austausch (siehe Bild oben) folgten die Autoren mit einer sekundären Aufforderung, die darauf abzielte, den Namen eines Unternehmens oder einer Person in einem assoziierten Token zu ermitteln.
Die Experimente wurden in einer von drei Bedingungen durchgeführt: einer voll zugänglichen Website; der Website offline; und der Website mit einer robots.txt-Einschränkung, die Scraping abwehrte. Diese Experimente wurden in genau dieser Reihenfolge durchgeführt, eine nach der anderen, da die späteren Stadien von den früheren abhängig waren.
Schließlich, mit allen Seiten wieder online, würde die letzte Phase die LLM-Ausgabe nach Intervallen von einer Woche überprüfen.
Ergebnisse
Vier der Ziel-LLMs erwiesen sich als völlig resistent gegen die Methoden der Forscher, und keine Ergebnisse konnten daher für DeepSeek, Hunyuan, GLM und Liquid erzielt werden.
In Bezug auf die Neigung vieler AI-Bots, non-AI-Verkehr zu imitieren, stellen die Autoren fest:
‘Zusätzlich zu den ersten deklarierten Agenten gaben mehrere AI-Systeme Inhalte zurück, die mit generischen Browser-Benutzer-Agent-Zeichenfolgen in Verbindung gebracht werden konnten. Wir beobachteten dieses Verhalten bei sechs der 18 AI-Systeme, für die wir Benutzer-Agent-Informationen erhielten.
‘Dieses Ergebnis legt nahe, dass einige AI-Systeme Website-Inhalte über Anfragen abrufen können, die denen von gewöhnlichem Browser-Verkehr ähneln, was eine Benutzer-Agent-basierte Blockierung schwierig macht.’
ERNIE gab sowohl Baiduspider als auch eine Chrome-Identität zurück; Grok kombinierte Googlebot mit zwei Browser-Agenten; Solar verwendete nur Browser-Identitäten; Qwen mischte Googlebot mit Chrome; und Kimi wurde mit mehreren browser-ähnlichen Agenten in Verbindung gebracht.
Viele Systeme schienen auf Drittanbieter-Suchmaschinen-Scrapers angewiesen zu sein, in Beziehungen, die nicht immer offengelegt wurden. Inhalte, die mit Googlebot, Bingbot und Bravebot verknüpft waren, wurden von zehn der 18 analysierten Systeme zurückgegeben, oft in Fällen, in denen keine öffentliche Verbindung zwischen dem AI-Anbieter und der Suchmaschine bestand – obwohl einige Verbindungen, wie Claudes Verwendung von Brave, dokumentiert sind.
Die Autoren behaupten, dass dies die Aufnahme von Suchmaschinenergebnissen anstelle von direktem Scraping widerspiegelt, da ASN-Überprüfungen darauf hindeuteten, dass der Verkehr von den erwarteten Suchmaschinen-Netzwerken stammte und nicht von gefälschten Identitäten.
Dies legt nahe, so behauptet das Papier, eine zusätzliche Ebene von Undurchsichtigkeit in der Web-zu-AI-Pipeline, wo das Blockieren bekannter AI-Crawler die Datenverwendung nicht verhindern kann und das Vermeiden der Aufnahme möglicherweise eine völlige Ablehnung der Suchmaschinen-Indexierung erfordert – eine unerwünschte Wahl, solange die Spannung zwischen traditionellem SEO und LLM-basierten Suchfunktionen noch weit von einer Lösung entfernt ist.
Nur Cache
Die Autoren testeten dann, ob das Entfernen einer Quelle die Ausgabe der Chatbots beeinflussen würde, indem sie die Testseiten offline nahmen und die Systeme eine Woche später erneut abfragten. Laut Papier reproduzierten viele Chatbots den “gepflanzten” Inhalt auch nach einer Woche der Außerbetriebnahme, was darauf hindeutet, dass die Antworten aus dem Cache und nicht aus Live-Daten stammten.
Diese Persistenz war am deutlichsten in Systemen erkennbar, die mit Suchmaschinen-Crawlern verbunden waren, wo bereits indexierte Inhalte auch nachdem die Quellseiten nicht mehr verfügbar waren, weiterhin verfügbar blieben – obwohl ein ähnliches Verhalten auch in Systemen beobachtet wurde, die mit browser-ähnlichen Agenten assoziiert waren, was darauf hindeutet, dass das Caching über Suchmaschinen-gestützte Pipelines hinausgehen könnte.
Das Papier legt nahe, dass, sobald Inhalte in einen Cache gelangen, egal ob dieser von dem Chatbot oder über Suchmaschinen-Indexe zugänglich ist, das Entfernen der ursprünglichen Seite die Inhalte nicht zuverlässig aus den späteren Ausgaben entfernt.
Schlussfolgerung
Die Autoren räumen ein, dass einige “Leckagen” in diesem klassischen “silohaften” Ansatz auftreten werden, da die einzigartigen Token, die auf ein LLM abzielen, manchmal in Suchmaschinenergebnisse (erzeugt durch die tatsächlichen Besitzer der Token) gelangen können, die dann von einem zweiten LLM aufgenommen werden. In solchen Schemata ist eine solche Diffusion unvermeidlich, und die Wachsamkeit für den ersten Vorkommenszeitpunkt ist der kritische und ausschlaggebende Moment.
Was noch zu sehen ist, ist, in welchem Umfang ein solches Schema in großem Maßstab umgesetzt werden könnte, insbesondere da die Autoren bemerken, dass man sehr schnell an kontextuell korrekten Token ausgeliefert wäre.
Das ist jedoch nicht der Punkt, da es möglicherweise eine Grenze für die Kühnheit der AI-Unternehmen gibt, ihre offensichtlichen Lügen über ihre Scraping-Richtlinien zu ignorieren. Zusätzlich benötigen diese Unternehmen, es sei denn, sie verpflichten sich zu dem potenziell teuren Weg, durch nationale IP-Adressen zu rollen, um ihre Identität zu verbergen, nur eine Organisation, die eine SpamHaus-ähnliche Schwarze Liste von betrügerischen AI-Bot-IPs oder ASNs identifiziert und veröffentlicht; der Prozess muss nicht industrialisiert werden, um effektiv zu sein.
Erstveröffentlichung am Donnerstag, 14. Mai 2026












