Andersons Blickwinkel

KI-Verschmutzung in Suchergebnissen riskiert ‘Abrufzusammenbruch’

Veröffentlicht am 19. Februar 2026

Aktualisiert am 16. Mai 2026

Von

Martin Anderson

AI-generated image (GPT-1.5) depicting sewer workers shining their torches on a huge fatberg blocking the sewer, in which is embedded multiple extruded texts saying 'AI'.

Da KI-Inhalte das Web verschmutzen, öffnet sich ein neuer Angriffsweg im Kampf um den kulturellen Konsens.

Forschung unter der Leitung eines koreanischen Suchunternehmens argumentiert, dass KI-generierte Seiten, die in Suchergebnisse eindringen, die Stabilität von Such- und Ranglistepipelines untergraben und Systeme wie Retrieval-Augmented Generation (RAG) schwächen, die auf diesen Ranglisten basieren, um zu entscheiden, welche Informationen angezeigt und vertraut werden, und damit das Risiko erhöhen, dass irreführende oder ungenaue Materialien als autoritativ behandelt werden.

Der von den Forschern geprägte Begriff für dieses Syndrom ist Abrufzusammenbruch, zu unterscheiden von der bekannten Bedrohung durch Modellzusammenbruch (wobei KI, die auf ihrer eigenen Ausgabe trainiert wurde, progressiv schlechter wird).

In einem Szenario des Abrufzusammenbruchs dominieren KI-generierte Inhalte schließlich die Suchmaschinen-Ergebnisse, so dass selbst wenn die Antworten oberflächlich genommen genau bleiben, die zugrunde liegende Beweisbasis von den ursprünglichen menschlichen Quellen getrennt wird. Dennoch scheint diese “wurzellose” Datenbasis auf dem Weg zu sein, einen hohen Platz in den Suchergebnissen zu erreichen*:

‘Mit der Verbreitung von KI-generiertem Text haben Herausforderungen in der Zuschreibung und der Vorbereitung von Datenqualität zugenommen. Im Gegensatz zu traditionellem Keyword-Spam ist moderner synthetischer Inhalt semantisch kohärent, was es ihm ermöglicht, sich in Ranglistensysteme einzufügen und sich durch Pipelines als autoritative Beweise zu verbreiten.’

Die Studie behauptet, dass dies ein “strukturell brüchiges” Umfeld schaffen würde, in dem Rangsignale KI-produzierte, SEO-optimierte Seiten bevorzugen, menschliche Quellen im Laufe der Zeit auf eine heimtückische Weise verdrängen, d. h. ohne offensichtliche Abnahmen in der Antwortqualität:

‘Die [Zunahme] von KI-generiertem Inhalt im Web stellt ein strukturelles Risiko für die Informationsabrufung dar, da Suchmaschinen und Retrieval-Augmented Generation (RAG)-Systeme zunehmend Beweise konsumieren, die von Large Language Models (LLMs) produziert werden.’

‘Wir charakterisieren diesen ökologischen Fehlermodus als Abrufzusammenbruch, ein zweistufiger Prozess, bei dem (1) KI-generierte Inhalte die Suchergebnisse dominieren, die Quellenvielfalt untergraben und (2) Inhalte mit niedriger Qualität oder feindlichen Inhalten in die Abrufpipeline eindringen.’

Die Forscher behaupten, dass sobald die “Dominanz”-Phase etabliert ist, die gleiche Abrufpipeline anfälliger für absichtliche Verschmutzung wird, da feindliche Seiten die gleichen Optimierungsmechanismen ausnutzen können, um Sichtbarkeit zu erlangen*:

‘Indem wir den Rahmen des Abrufzusammenbruchs etablieren, legen wir den Grundstein für das Verständnis, wie synthetischer Inhalt die Informationsabrufung umgestaltet. Um diese Risiken zu mindern, schlagen wir einen Wechsel zu defensiven Rangstrategien vor, die gemeinsam Relevanz, Tatsächlichkeit und Herkunft optimieren.’

Abrufzusammenbruch würde den Modellzusammenbruch wahrscheinlich verschärfen, da er eine Schicht von böswilliger Absicht auf den “Photokopie-Effekt” von Entropie hinzufügt, bei dem KI zunehmend von KI-generierten Ausgaben zehrt. Neben der Auswirkung auf den offensichtlichen Konsens über “Wahrheit” in Echtzeit-Suchergebnissen könnten Ungenauigkeiten und Angriffe später in trainierten LLMs als autoritative Quellen verewigt werden.

Die neue Arbeit trägt den Titel Abrufzusammenbruch, wenn KI das Web verschmutzt und stammt von drei Forschern der Naver Corporation.

Methode

Um zu testen, wie KI-generierte Inhalte durch Abrufsysteme propagieren, haben die Forscher 1000 zufällig ausgewählte Frage-Antwort-Paare aus dem MS MARCO-Dataset und -Benchmark ausgewählt, das aus offenen Fragen mit menschlich validierten Referenzantworten besteht. Diese wurden verwendet, um die Abrufung zu begründen und die faktische Richtigkeit der generierten Antworten zu bewerten.

Für jede MS MARCO-Frage in den Tests wurden zehn Webdokumente aus Google Search abgerufen, basierend auf den Top-Ranking-SEO-Ergebnissen für jeden Begriff, was letztendlich einen Pool von 10.000 Dokumenten produzierte.

Die faktische Gültigkeit der Dokumente wurde durch Vergleich jedes von ihnen mit der MS MARCO-Grundwahrheit bewertet, wobei GPT-5 Mini als Richter verwendet wurde.

Inhaltsfarm-Simulation

Um die Qualität (von normalen, nicht feindlichen) Artikeln zu simulieren, die mit Inhaltsfarmen verbunden sind, verwendeten die Autoren das wirtschaftliche GPT-5 Nano-OpenAI-Modell, um neue synthetische Artikel zu generieren, da dies das “erschwingliche” Niveau von KI ist, das wahrscheinlich von Content-Mühlen verwendet wird. GPT-5 Mini, das zur Bewertung der Ausgabe verwendet wurde, ist ein etwas leistungsfähigeres Modell.

Im Gegensatz dazu wurden, um feindliche Beiträge (d. h. Inhalte, die darauf abzielen, Fehlinformationen zu verbreiten oder die anderweitig Fehlinformationen enthalten) keine realen Referenzen verwendet. Stattdessen wurden erste Entwürfe der Beispiele mit einem herkömmlichen Klickbait-/SEO-Generator erstellt und dann an GPT-5 Nano weitergeleitet, das mit der Aufgabe betraut wurde, eine bestimmte Anzahl von Fakten durch plausible, aber unrichtige Alternativen zu ersetzen. GPT-5 Nano führte auch eine semantische Neubewertung für den Zweck des experimentellen Kontexts durch.

Um die KI-Sättigung im Laufe der Zeit zu simulieren, wurde ein 20-Runden-Verunreinigungsprozess durchgeführt, bei dem pro Abfrage ein synthetisches Dokument zu einer festen Menge von zehn ursprünglichen Dokumenten hinzugefügt wurde, wodurch der KI-Anteil von 0 % auf 66,7 % anstieg.

Für den SEO-ähnlichen Pool wurde der Generator angewiesen, “als SEO-Spezialist zu handeln” und hoch-IDF-Schlüsselwörter aus den ursprünglichen Dokumenten zu integrieren, um die Abrufwahrscheinlichkeit zu erhöhen.

Für den feindlichen Pool wurde der Prompt so gestaltet, dass er flüssige, natürlich klingende Prosa beibehielt, während er gleichzeitig benannte Entitäten und numerische Details subtil änderte, was Dokumente erzeugte, die statistische Filter nicht auslösten, während sie gleichzeitig die faktische Genauigkeit untergruben.

Metriken

Drei Metriken wurden für die Experimente übernommen: Pool-Verunreinigungsrate (PCR), um zu bestimmen, wie viel des gesamten Dokumentenpools KI-generiert war; Expositions-Verunreinigungsrate (ECR), um zu messen, wie viel der Top-Ten-Suchergebnisse aus KI-Quellen stammten (was zeigt, was tatsächlich in die Abrufpipeline eintrat); und Zitations-Verunreinigungsrate (CCR), um zu erfassen, wie viel der in der endgültigen Antwort zitierten Beweise synthetisch war.

Um die praktischen Auswirkungen zu untersuchen, wurden sowohl die Qualität der abgerufenen Quellen als auch die Integrität der endgültigen Antwort getestet. Präzision@10 (P@10) erfasste, wie viele der Top-Ten-Ergebnisse tatsächlich korrekt waren, wenn sie mit der MS MARCO-Grundwahrheit verglichen wurden; und die Antwortgenauigkeit (AA) maß, ob die generierte Antwort mit der gleichen Referenzantwort übereinstimmte, wobei GPT-5 Mini verwendet wurde, um zu bestimmen, ob die Bedeutung konsistent war.

Tests

Zunächst testeten die Autoren ihre Methode gegen den ursprünglichen Pool von Dokumenten, die aus SERPS extrahiert wurden, d. h. bevor sie als Material zur Generierung von synthetischen Daten verwendet wurden, und sie bemerken, dass ihr LLM-Ranker eine “starke Abrufqualität” erzielte, die den BM25-Ranker-Baseline übertraf.

Der erste der beiden primären Szenariotests, der als Dominanz und Homogenisierung bezeichnet wurde, war eine Untersuchung der Art und Weise, wie SEO-gestaltete synthetische Dokumente die Abrufergebnisse beeinflussen:

Links: Kontaminationskurven für Szenario 1 unter BM25- und LLM-Rankern zeigen die Pool-Kontaminationsrate (PCR) pro Runde ansteigend, mit Expositions-Kontaminationsrate (ECR) und Zitations-Kontaminationsrate (CCR), die steiler ansteigen, wenn synthetische Dokumente in die Top-Ergebnisse einbrechen; die Antwortgenauigkeit (AA) bleibt im Wesentlichen stabil. Rechts: die entsprechende Tabelle berichtet über den gleichen Fortschritt numerisch über die Runden 0, 5, 10 und 20, wobei PCR, ECR, CCR und AA für beide Ranker aufgeführt sind.

Als mehr KI-geschriebene Seiten allmählich der Testumgebung hinzugefügt wurden, begannen sie, die Top-Suchergebnisse schneller zu dominieren, als erwartet. Als KI-Inhalte 50 % aller verfügbaren Dokumente ausmachten, waren bereits mehr als 68 % der Top-Ten-Ergebnisse von BM25 KI-generiert; und als der Anteil von KI-Material auf 67 % anstieg, kamen über 80 % der Top-Ergebnisse von BM25 aus KI-Quellen.

Der LLM-basierte Ranker zeigte eine noch stärkere Tendenz in diese Richtung, mit etwa 76 % seiner Top-Ergebnisse, die aus KI-geschriebenen Seiten stammten, als diese Seiten nur die Hälfte des Gesamtpools ausmachten – und er setzte seine Abhängigkeit von ihnen stärker fort als BM25, als ihre Präsenz zunahm. Die Autoren bemerken:

‘Dieses Muster zeigt, dass SEO-optimierter Inhalt Rangsignale unverhältnismäßig aktiviert, was beide Modelle dazu bringt, sich schnell auf synthetisch dominierte Beweise zu konzentrieren.’

In Bezug auf die Spannung zwischen scheinbarer Stabilität und Zusammenbruch der Vielfalt bemerkt die Studie, dass trotz der “dramatischen” Verschiebungen in den abgerufenen Beweisen die Antwortgenauigkeit stabil blieb oder sogar verbessert wurde:

‘Weil SEO-Dokumente von hoher Qualität und thematisch ausgerichtet sind, erscheint die Abrufung gesund, wenn sie allein nach Genauigkeit gemessen wird. Allerdings ist fast alle abgerufene Beweise synthetisch, was auf einen schweren Zusammenbruch der Quellenvielfalt hinweist.

‘Diese Divergenz, die durch stabile Genauigkeit trotz des Zusammenbruchs der Vielfalt gekennzeichnet ist, zeigt eine strukturell brüchige Abrufpipeline: das System funktioniert gut in aggregierten Metriken, während es stillschweigend seine Grundlage in menschlich geschriebenen Inhalten verliert.

‘Insgesamt integrieren sich hochwertige synthetische Inhalte nicht nur nahtlos in die Abrufpipelines, sondern überwältigen auch die Rangsignale, was dazu führt, dass beide BM25- und LLM-Ranker fast ausschließlich auf KI-generierte Beweise angewiesen sind.’

Der zweite Szenario wurde Verunreinigung und Systemkorruption genannt und zeigte eine bemerkenswerte Abweichung im Rangerverhalten im Vergleich zum ersten Szenario:

Links: die Ergebnisse des Szenarios 2 zeigen, was passiert, wenn absichtlich irreführende Seiten dem System hinzugefügt werden. Wenn mehr dieser Seiten hinzugefügt werden, beginnt BM25, einige von ihnen in seine Top-Ergebnisse aufzunehmen – wenn auch nur bis zu etwa einem Viertel am Mittelpunkt, und fast keine werden tatsächlich in der endgültigen Antwort verwendet. Die allgemeine Antwortqualität sinkt leicht. Rechts: die Tabelle präsentiert das gleiche Muster in Zahlen für beide BM25- und LLM-basierte Ranker, was klar macht, dass BM25 einige irreführende Seiten in seine Top-Ergebnisse aufnimmt, während der LLM-Ranker sie größtenteils ausfiltert.

Der LLM-basierte Ranker war in der Lage, irreführende Seiten größtenteils zu erkennen und auszufiltern, wobei der Anteil solcher Inhalte in seinen Top-Ergebnissen nahe bei Null blieb; BM25 ließ jedoch einen bemerkenswerten Anteil der feindlichen Seiten in seine Top-Ten-Ergebnisse ein, mit etwa 19 % bis 24 % an bestimmten Stadien des Tests.

Obwohl der LLM-basierte Ranker in diesem Experiment widerstandsfähiger war, bemerken die Autoren, dass LLM-basierte Rangsysteme rechenintensiver sind, was eine groß angelegte Bereitstellung unmöglich machen kann. Obwohl BM25 einfacher und billiger zu betreiben ist, können weit verbreitete Abrufsysteme, die es nutzen, möglicherweise anfälliger für manipulierten Inhalt sein, als sie zunächst erscheinen.

Die Autoren bezeichnen dies als “signifikantes strukturelles Risiko”.

In Bezug auf den Kontrast zwischen scheinbarer Stabilität und untergründiger Verschlechterung bemerken die Autoren, dass in diesem Kontext die Antwortgenauigkeit (AA) im Wesentlichen stabil bleibt, da der LLM-Richter die Zitationskorruption unterdrückt und somit als eine Art letzte Firewall gegen feindlichen Inhalt fungiert.

Jedoch war die Antwortgenauigkeit in diesem Aspekt konsistent niedriger als im ersten Szenario:

‘Während Szenario 1 eine beibehaltene oder sogar verbesserte Antwortgenauigkeit (bis zu 70 % mit LLM-Rankern) aufgrund der hohen Qualität von SEO-Inhalten zeigte, zeigt Szenario 2 einen Rückgang der Antwortqualität im Vergleich zum SEO-Szenario […]

‘Dies bestätigt, dass unabhängig vom Ranker die feindliche Verunreinigung in der Abrufphase die End-to-End-Leistung negativ beeinflusst, wobei die Verschlechterung am stärksten ist, wenn auf leichte Abrufsysteme zurückgegriffen wird.’

Die Autoren kommen zu dem Schluss, dass die Neubewertung in der Abrufphase zu spät ist und dass “Ingestions-Filter” in Betracht gezogen werden sollten, wobei sie vorschlagen, dass “Herkunftsgraphen” und “Perplexitätsfilter” verwendet werden könnten.

Sie schließen mit der Betonung, dass die Kernbedrohung Inhalt mit hoher Flüssigkeit, aber niedriger Zuschreibungsdichte ist, im Wesentlichen von beruhigenden Zuschreibungsketten getrennt, und bemerken:

‘[Wenn] Agentic KI autonom Inhalte veröffentlicht, müssen Verteidigungsmechanismen von statischer Textanalyse zu Verhaltens-Fingerprinting evolvieren, um Agenten zu identifizieren und zu isolieren, die systematisch hochentropische, tatsächlichkeitsarme Datenströme produzieren.’

Schlussfolgerung

Die Etablierung neuer oder verbesserter Methoden für die Informationsherkunft kann eine der wichtigsten Notwendigkeiten für 2026 sein. Komplexe Anmeldeschemata wie das schwache C2PA, die infrastrukturelle Änderungen von Verlegern und öffentliche Aufklärung über ihre Bedeutung und ihre Verwendung erfordern, scheinen dazu verurteilt zu sein, zu scheitern.

Es ist etwas Einfacheres erforderlich, und es wurde noch nicht gefunden. Es ist eine dringende Mission, da diese aktuelle Ära möglicherweise der wichtigste Wendepunkt für den öffentlichen Konsens über die Wahrheit seit der Erfindung der Fotografie im Jahr 1822 und dem Aufstieg der Propaganda in den Jahrzehnten vor dem Zweiten Weltkrieg ist.

* Meine (selektive, falls notwendig) Umwandlung der Autoren-Zitate in Hyperlinks.

Erstveröffentlichung am Donnerstag, 19. Februar 2026