زاوية Anderson

تلوث الذكاء الاصطناعي في نتائج البحث يهدد بحدوث ‘انهيار الاسترجاع’

Published February 19, 2026

Updated April 25, 2026

Martin Anderson

AI-generated image (GPT-1.5) depicting sewer workers shining their torches on a huge fatberg blocking the sewer, in which is embedded multiple extruded texts saying 'AI'.

随着人工智能内容污染网络，一个新的攻击向量在文化共识的战场上打开。

由一家韩国搜索公司领导的研究认为，随着人工智能生成的页面逐渐进入搜索结果，它们破坏了搜索和排名管道的稳定性，并削弱了依赖这些排名来决定哪些信息被显示和信任的系统，例如检索增强生成（RAG），从而增加了误导性或不准确的材料被视为权威的风险。

研究人员为这种症状创造的术语是 检索崩溃，与已知的模型崩溃威胁（模型崩溃）不同，模型崩溃是指人工智能在其自身输出上训练时变得越来越糟糕（变得越来越糟糕）。

在检索崩溃场景中，人工智能生成的内容逐渐主导搜索引擎结果，以至于即使答案在表面上仍然准确，基础证据基础也将与原始人类来源脱节。然而，这些“无根”的数据似乎有可能在搜索结果中获得高排名：

‘随着人工智能生成文本的普及，归属和预训练数据质量的挑战加剧。与传统的关键词垃圾邮件不同，现代合成内容在语义上是连贯的，允许它融入排名系统并作为权威证据传播通过管道‘。

该论文断言，这将创造一个“结构脆弱”的环境，在这种环境中，排名信号偏向人工智能生成、SEO 优化的页面，随着时间的推移，人类作者的来源将被逐渐取代，而不会触发明显的答案质量下降：

‘网络上人工智能生成内容的增长对信息检索构成了结构风险，因为搜索引擎和检索增强生成（RAG）系统越来越多地消耗大型语言模型（LLM）生成的证据。

‘我们将这种生态系统级别的故障模式称为检索崩溃，它是一个两阶段过程：（1）人工智能生成的内容主导搜索结果，侵蚀源多样性，（2）低质量或对抗性内容渗透到检索管道中’。

研究人员认为，一旦“主导”阶段建立，相同的检索管道将更容易受到故意污染的影响，因为对抗性页面可以利用相同的优化机制来获得可见性*：

‘通过建立检索崩溃的框架，本工作为理解合成内容如何重塑信息检索奠定了基础。为了减轻这些风险，我们提议转向防御性排名策略，该策略同时优化相关性、事实性和来源’。

检索崩溃可能会加剧模型崩溃，因为它在“复印效应”的熵上添加了一层恶意意图，即人工智能越来越多地以人工智能生成的输出为食。除了影响搜索结果中“真相”的明显共识外，不准确性和攻击还可能后来被训练的 LLM 储存为权威来源。
该论文题为 当人工智能污染网络时检索崩溃，由 Naver Corporation 的三位研究人员撰写。

方法

为了测试人工智能生成的内容如何传播通过检索系统，研究人员从 MS MARCO 数据集和基准中随机抽取了 1000 个查询/答案对，该数据集由开放领域问题和人类验证的参考答案组成。这些用于检索和评估生成的响应的事实正确性。
对于测试中的每个 MS MARCO 查询，根据每个术语的顶级 SEO 结果，从 Google 搜索中检索了十个 Web 文档，最后产生了一个包含 10,000 个文档的池。
使用 GPT-5 Mini 作为法官，通过将每个文档与 MS MARCO 基准事实进行比较来评估文档的事实有效性。

内容农场模拟

为了模拟内容农场相关的正常（非对抗性）文章的质量水平，作者使用了经济的 GPT-5 Nano OpenAI 模型来生成新的合成文章，因为这是内容工厂可能使用的“经济”的人工智能水平。用于评估输出的 GPT-5 Mini 是一个稍微更强大的模型。
相反，为了模拟 对抗性 文章（即旨在传播错误信息或包含错误信息的内容），没有使用任何现实世界的引用。相反，样本的第一稿是使用传统的点击诱饵/SEO 生成器创建的，然后传递给 GPT-5 Nano，后者被任务用合理但不正确的替代事实替换某些事实。GPT-5 Nano 还执行了语义重新排名，以适应实验背景。
为了模拟随时间推移的人工智能饱和度，运行了一个 20 轮的污染过程，其中每轮查询向一个固定集合的十个原始文档中添加一个合成文档，增加了人工智能的份额，从 0% 到 66.7%。
对于 SEO 风格的池，生成器被提示“扮演 SEO 专家”的角色，并从原始文档中集成高 IDF 关键字，以提高检索可能性。
对于对抗性池，提示的设计目的是在保留流畅、自然听起来的散文的同时，微妙地改变命名实体和数字细节，创建不会触发统计过滤器的文档，同时悄悄地破坏事实准确性。

指标

采用了三个指标：池污染率（PCR），用于确定文档池中有多少是人工智能生成的；暴露污染率（ECR），用于衡量搜索结果的前十名中有多少来自人工智能来源（表明哪些进入了检索管道）；以及引用污染率（CCR），用于记录最终答案中有多少证据是合成的。
为了检查实际影响，检验了检索来源的质量和最终答案的完整性。精度@10（P@10）捕获了在与 MS MARCO 基准事实检查时，前十名结果中有多少实际上是正确的；答案准确性（AA）衡量了生成的响应是否与参考答案匹配，使用 GPT-5 Mini 确定其含义是否一致。

测试

最初，作者将他们的方法与从 SERPS 中提取的原始文档池进行了测试，即在使用它们生成合成数据之前，并且他们注意到他们的 LLM 排名器实现了“强大的检索质量”，超越了 BM25 排名器基准。
两个主要场景测试中的第一个被称为 主导和同质化，它检查了 SEO 形成的合成文档如何影响检索结果：

左：污染曲线图显示 BM25 和 LLM 排名器的 PCR 随轮数增加而上升，ECR 和 CCR 随着合成文档涌入前十名结果而更陡峭地增加，而答案准确性（AA）基本保持稳定。右：表格以数字形式报告了相同的进展，跨越 0、5、10 和 20 轮，详细列出了 BM25 和 LLM 排名器的 PCR、ECR、CCR 和 AA

Related Topics:Advanced LLMs Large Language Models (LLMs)model collapse

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai

Unite.AI

تلوث الذكاء الاصطناعي في نتائج البحث يهدد بحدوث ‘انهيار الاسترجاع’

方法

内容农场模拟

指标

测试

You may like