Andersonův úhel

Znečištění AI ve vyhledávacích výsledcích riskuje ‘Kolaps načtení’

Published February 19, 2026

Updated April 1, 2026

Martin Anderson

AI-generated image (GPT-1.5) depicting sewer workers shining their torches on a huge fatberg blocking the sewer, in which is embedded multiple extruded texts saying 'AI'.

Jak obsah AI znečišťuje web, otevírá se nová útočná větev v bitvě o kulturní konsenzus.

Výzkum vedený korejskou vyhledávací společností tvrdí, že jak stránky generované AI pronikají do vyhledávacích výsledků, podkopávají stabilitu vyhledávacích a řazených potrubí a oslabují systémy – jako je Retrieval-Augmented Generation (RAG) – které se spoléhají na tato řazení, aby rozhodly, jaká informace bude zobrazena a důvěřována, a tím zvyšují riziko, že matoucí nebo nepřesné materiály budou považovány za autoritativní.

Termín vynalezený pro tuto syndromu výzkumníky je Kolaps načtení, jako odlišný od známého ohrožení kolapsu modelu (kde AI školená na svém vlastním výstupu se stává postupně horší).

V scénáři Kolapsu načtení obsah generovaný AI postupně dominuje výsledkům vyhledávače, do té míry, že i když odpovědi zůstávají povrchově přesné, základní důkazní základna se bude odtrhávat od původních lidských zdrojů. Přestože tento “bezkořenový” dat seem připravený dosáhnout vysoké pozice ve vyhledávacích výsledcích*:

‘S šířením textu generovaného AI, výzvy v připsání a kvalitě předškolních dat se zintenzivnily. Na rozdíl od tradičního klíčového spam, moderní syntetický obsah je sémanticky koherentní, což mu umožňuje sladit se do řazených systémů a šířit se potrubím jako autoritativní důkaz.’

Článek tvrdí, že by to vytvořilo “strukturálně křehké” prostředí, ve kterém signály řazení upřednostňují stránky vyrobené AI a optimalizované pro SEO, které postupně nahrazují lidské zdroje v průběhu času nenápadným způsobem, tj. bez vyvolání zjevného poklesu kvality odpovědí:

‘[Růst] obsahu generovaného AI na webu představuje strukturální riziko pro načtení informací, protože vyhledávače a systémy RAG stále více konzumují důkazy vyrobené velkými jazykovými modely (LLM).’

‘Charakterizujeme tento ekosystémový režim selhání jako Kolaps načtení, dvoufázový proces, ve kterém (1) obsah generovaný AI dominuje vyhledávacím výsledkům, eroduje rozmanitost zdrojů, a (2) nízkokvalitní nebo adversářský obsah infiltrovává potrubí načtení.’

Výzkumníci tvrdí, že jakmile je etapa “dominace” etablována, stejné potrubí načtení se stává náchylnějším k úmyslnému znečištění, protože adversářské stránky mohou využít stejné optimalizačních mechanismů, aby získaly viditelnost*:

‘Establishing rámci Kolapsu načtení, tato práce vytváří základ pro pochopení, jak syntetický obsah mění načtení informací. Abychom zmírnili tato rizika, navrhujeme posun směrem k obranným strategiím řazení, které společně optimalizují relevantnost, fakticitu a původ.’

Kolaps načtení by zřejmě zhoršil kolaps modelu, protože přidává vrstvu zlomyslného úmyslu na “fotokopírovací efekt” entropie, kde AI stále více krmit AI-generovaným výstupem. Kromě ovlivnění zdánlivého konsensu o “pravdě” v reálném čase vyhledávacích výsledků by nesprávnosti a útoky mohly později být zapsány do trénovaných LLM jako autoritativní zdroje.

Nová práce je nazvaná Kolaps načtení, když AI znečišťuje web a pochází od tří výzkumníků z Naver Corporation.

Metoda

Aby otestovali, jak obsah generovaný AI propaguje prostřednictvím systémů načtení, výzkumníci náhodně vybrali 1000 párů dotaz/odpověď z MS MARCO datové sady a benchmarku, který se skládá z otevřených dotazů spárovaných s lidsky validovanými referenčními odpověďmi. Tyto byly použity jak pro zakotvení načtení, tak pro hodnocení faktické správnosti generovaných odpovědí.

Pro každý dotaz MS MARCO v testech byly vyhledány deset webových dokumentů z Google Search, na základě top-rankingu SEO výsledků pro každý termín, což nakonec vytvořilo bazén 10 000 dokumentů.

Faktická platnost dokumentů byla hodnocena porovnáním každého z nich proti MS MARCO ground truth, pomocí GPT-5 Mini jako soudce.

Simulace obsahu

Aby simulovali úroveň kvality (normálních, neadversářských) článků spojených s farmami obsahu, autoři použili ekonomický GPT-5 Nano OpenAI model k skutečnému generování nových syntetických článků, protože toto je “dostupná” úroveň AI, která bude pravděpodobně použita farmami obsahu. GPT-5 Mini, použitý pro hodnocení výstupu, je mírně schopnější model.

Naopak, aby simulovali adversářské příspěvky (tj. obsah navržený k šíření dezinformací nebo který jinak obsahuje dezinformace), nebyly použity žádné reálné reference. Místo toho byly první návrhy vzorků vytvořeny pomocí konvenčního generátoru clickbait/SEO a poté předány GPT-5 Nano, kterému bylo přiděleno úkolu nahradit určitý počet faktů věrohodnými, ale nepravdivými alternativami. GPT-5 Nano také provedl sémantické re-řazení pro účely experimentálního kontextu.

Aby simulovali nasycení AI v průběhu času, byl spuštěn 20-kolový proces kontaminace, ve kterém byl jeden syntetický dokument přidán pro každý dotaz do pevné sady deseti původních dokumentů, zvyšující se podíl AI z 0% na 66,7%.

Pro bazén SEO stylu byl generátor vyzván, aby “jednal jako specialista na SEO”, a integroval high-IDF klíčová slova z původních dokumentů, aby zvýšil pravděpodobnost načtení.

Pro adversářský bazén byl prompt navržen tak, aby zachoval plynulou, přirozeně znějící prózu, zatímco jemně měnil pojmenované entity a numerické detaily, vytvářející dokumenty, které by nevyvolaly statistické filtry, zatímco tichounce erodovaly faktickou přesnost.

Metriky

Byly přijaty tři metriky pro experimenty: Míra kontaminace bazénu (PCR), pro určení, kolik celkového dokumentu bylo generováno AI; Míra expozice kontaminace (ECR), pro měření, kolik z top deseti vyhledávacích výsledků pocházelo z AI zdrojů (ukazující, co skutečně vstoupilo do potrubí načtení); a Míra citace kontaminace (CCR), pro zaznamenání, kolik důkazů citovaných v konečné odpovědi bylo syntetické.

Aby se prozkoumal praktický dopad, byly testovány jak kvalita načtených zdrojů, tak integrita konečné odpovědi. Precision@10 (P@10) zachytil, kolik z top deseti výsledků bylo skutečně správných, když byly zkontrolovány proti MS MARCO ground truth; a Přesnost odpovědi (AA) měřila, zda generovaná odpověď odpovídala téže referenční odpovědi, s GPT-5 Mini použitým pro určení, zda význam byl konzistentní.

Testy

Zpočátku autoři otestovali svou metodu proti původnímu bazénu dokumentů extrahovaných z SERPS, tj. předtím, než byly použity jako materiál pro generování syntetických dat, a poznamenali, že jejich LLM ranker dosáhl “silné kvality načtení”, překonávající BM25 Ranker baseline.

První ze dvou primárních scénářů testů, nazvaný Dominance a homogenizace, byl zkoumáním způsobu, jakým dokumenty syntetizované SEO ovlivňují výsledky načtení:

Left, contamination curves for Scenario 1 under BM25 and LLM rankers show Pool Contamination Rate (PCR) rising round by round, with Exposure Contamination Rate (ECR) and Citation Contamination Rate (CCR) increasing more steeply as synthetic documents crowd into the top results, while Answer Accuracy (AA) remains broadly stable. Right, the corresponding table reports the same progression numerically across rounds 0, 5, 10, and 20, detailing PCR, ECR, CCR, and AA for both rankers.

Left: contamination curves for Scenario 1 under BM25 and LLM rankers show Pool Contamination Rate (PCR) rising with each round, with Exposure Contamination Rate (ECR) and Citation Contamination Rate (CCR) increasing more steeply as synthetic documents crowd into the top results; Answer Accuracy (AA) remains broadly stable. Right: the corresponding table reports the same progression numerically across rounds 0, 5, 10, and 20, detailing PCR, ECR, CCR, and AA for both rankers.

Jakmile byly AI-napsané stránky postupně přidány do testovacího prostředí, začaly dominovat top vyhledávacím výsledkům rychleji, než se očekávalo. Když obsah AI tvořil 50% všech dostupných dokumentů, více než 68% top deseti výsledků BM25 již pocházelo z AI; a když se podíl materiálu AI zvýšil na 67%, více než 80% top výsledků BM25 pocházelo z AI zdrojů.

LLM-založený ranker ukázal ještě silnější tendenci v tomto směru, s asi 76% svých top výsledků pocházejících z AI-napsaných stránek, když tyto stránky tvořily pouze polovinu celkového bazénu – a pokračoval v tom, že se na nich spoléhal více, než BM25, jak jejich přítomnost vzrostla. Autoři komentují:

‘Tento vzorec ukazuje, že SEO-optimalizovaný obsah aktivuje řazení signálů, což způsobuje, že oba modely rychle konvergují k synteticky dominantnímu důkazu.’

Pokud jde o napětí mezi faktickou stabilitou a kolapsem rozmanitosti, článek poznamenává, že navzdory “dramatickým” posunům v načteném důkazu zůstala Přesnost odpovědi stabilní, nebo se dokonce zlepšila:

‘Protože SEO dokumenty jsou vysoce kvalitní a topicky sladěné, načtení se zdá zdravé, když se měří pouze podle přesnosti. Nicméně, téměř všechny načtené důkazy jsou syntetické, což ukazuje na vážný kolaps rozmanitosti zdrojů.

‘Tento rozpor, charakterizovaný stabilní přesností navzdory kolapsu rozmanitosti, odhaluje strukturálně křehký potrubí načtení: systém funguje dobře v agregovaných metrikách, zatímco tichounce ztrácí své zakotvení v lidsky napsaném obsahu.

‘Celkově, vysokokvalitní syntetický obsah nejenom bezproblémově integruje do potrubí načtení, ale aktivně přehlušuje řazení signálů, což vede oba BM25 a LLM Rankery k tomu, aby se téměř výhradně spoléhaly na důkazy generované AI.’

Druhý scénář byl nazván Znečištění a systémová koroze, a odhalil pozoruhodný rozpor v chování rankeru, ve srovnání s prvním scénářem:

Left: the scenario 2 results show what happens when deliberately misleading pages are added to the system. As more of these pages are mixed in, BM25 begins to place some of them in its top results – though only up to about a quarter at the midpoint, and almost none are actually used in the final answer. Overall answer quality falls slightly. Right: the table presents the same pattern in numbers for both BM25 and the LLM-based ranker, making clear that BM25 lets some misleading pages into its top results, whereas the LLM ranker largely filters them out.

LLM-založený ranker byl schopen rozpoznat a filtrovat matoucí stránky, udržet podíl takového obsahu v jeho top výsledcích blízko nule; ale BM25 umožnil jistou část adversářských stránek vstoupit do svých top deseti výsledků, s asi 19% až 24% objevujících se tam v určitých fázích testu.

Ačkoli LLM-založený ranker prokázal větší odolnost v tomto experimentu, autoři poznamenávají, že LLM-založené systémy řazení jsou výpočetně náročnější, což může učinit jejich rozsáhlé nasazení nepraktickým. Přestože BM25 je jednodušší a levnější na běh, široce používané systémy načtení, které využívají BM25, mohou, podle článku, být více vystaveny manipulovanému obsahu, než se zdá.

Autoři charakterizují tuto situaci jako “významné strukturální riziko”.

Pokud jde o kontrast mezi zdánlivou stabilitou a podkladovým poklesem, autoři poznamenávají, že v tomto kontextu Přesnost odpovědi zůstává relativně stabilní, díky LLM soudci, který potlačuje korupci citací, a tedy funguje jako druh poslední instance proti adversářskému obsahu.

Nicméně, Přesnost odpovědi v tomto aspektu byla konzistentně nižší než v prvním scénáři:

‘Zatímco Scénář 1 viděl Přesnost odpovědi udrženou nebo dokonce zlepšenou (dosahující až 70% s LLM Rankery) díky vysoké kvalitě SEO obsahu, Scénář 2 vykazuje pokles kvality odpovědi ve srovnání se scénářem SEO […]

‘To potvrzuje, že bez ohledu na ranker, adversářské znečištění v fázi načtení negativně ovlivňuje konečné výkon, s tím, že degradace je nejhorší, když se spoléháme na lehké retrievery.’

Autoři uzavírají, že re-řazení ve fázi načtení je příliš pozdní přístup, a že by měly být zvažovány “ingest-stage” filtry, navrhují, že “provenance grafy” a “perplexity filtry” by mohly být využity.

Zakončují tím, že zdůrazňují, že základní hrozbou je obsah s vysokou plynulostí, ale nízkou hustotou připsání, který je prakticky odtržen od uklidňujících řetězců důkazů, a poznamenávají:

‘[Jak] Agentic AI začíná autonomně publikovat obsah, obranné mechanismy musí evoluce z statické textové analýzy na behaviorální fingerprinting, identifikaci a izolaci agentů, kteří systematicky produkují high-entropy, low-factuality streams.’

Závěr

Zavedení nových nebo vylepšených metod pro prokázání původu informací může být jednou z nejkritičtějších nutností pro rok 2026. Komplexní systémy pověřování, jako je C2PA, které vyžadují infrastrukturální změny od vydavatelů, a veřejnou osvětu o tom, co znamenají a jak nebo proč je používat, zdají se být odsouzeny k neúspěchu.

Je zapotřebí něco jednoduššího, a dosud nebylo nalezeno. Je to naléhavá mise, protože tato současná éra může být nejkritičtějším bodem zlomu pro veřejný konsenzus o pravdě od vynálezu fotografie v roce 1822 a vzestupu propagandy v desetiletích před druhou světovou válkou.

* Moje (selektivní, kde je to nutné) konverze autorů ” inline citací na hypertextové odkazy.

Poprvé publikováno ve čtvrtek, 19. února 2026

Related Topics:Advanced LLMs Large Language Models (LLMs)model collapse