人工智能

新研究发现 RAG 系统存在 16 个主要问题，包括困惑度

发布时间 2024 年 11 月 4 日

马丁安德森

ChatGPT-4o 生成的图像，提示“创建一个高度逼真的全景图像，显示一个机器人在笔记本电脑上疯狂搜索互联网。不要将此图像风格化，使其看起来像是虚假或 AI 创建的图像”

美国最近的一项研究发现，流行检索增强生成 (RAG) 研究系统（例如 Perplexity 和 Bing Copilot）远远没有达到过去 12 个月中占据头条新闻的营销炒作和大众采用的程度。

该项目广泛征询了 21 位专家的意见，发现所研究的 RAG 系统（You Chat、Bing Copilot 和 Perplexity）在至少 16 个领域引起了人们的担忧：

1: 生成的答案缺乏客观细节，具有笼统的概括和缺乏背景深度或细微差别。

2. 强化感知到的用户偏见其中 RAG 引擎经常无法呈现一系列观点，而是根据用户提出问题的方式来推断和强化用户偏见。

3. 过于自信的语言， 特别是在无法通过经验确定的主观反应中，这可能导致用户对答案的信任度过高。

4: 语言过于简单，缺乏批判性思维和创造力， 这些回复实际上只是用“简单化”和“令人接受”的信息来对用户进行光顾，而不是经过深思熟虑和分析。

5: 错误引用和错误归因来源， 答案引擎使用不支持其响应的引用来源，从而造成可信度的假象。

6: 从推断的上下文中挑选信息， RAG 代理似乎正在寻找支持其生成的争论和对用户想听，而不是基于对可靠来源的客观分析来提供答案（可能表明系统的“烘焙” LLM 数据与其在响应查询时从互联网上动态获取的数据存在冲突）。

7: 省略支持陈述的引文，其中缺少回应的源材料。

8: 不提供响应的逻辑架构， 用户不能质疑为什么系统优先考虑某些来源而不是其他来源。

9: 来源数量有限， 大多数 RAG 系统通常为一个声明提供大约三个支持来源，即使在可以适用更多样化的来源的情况下也是如此。

10年： 孤立来源， 其中系统的全部或部分支持引文的数据实际上并未包含在答案中。

11年： 使用不可靠的来源， 系统似乎更喜欢流行的来源（即，在 SEO 术语中）而不是事实正确的来源。

12年： 冗余来源， 系统会呈现多个引文，其中源论文的内容基本相同。

13年： 未经过滤的来源， 系统不允许用户评估或过滤所提供的引文，而是迫使用户相信选择标准。

14年： 缺乏互动性或探索性， 其中，几位用户研究参与者感到沮丧，因为 RAG 系统没有提出澄清问题，而是从第一个查询就假设用户意图。

15年： 需要外部验证， 用户会觉得有必要对所提供的响应进行独立验证，这在很大程度上消除了 RAG 作为“搜索替代品”所带来的便利性。

16年： 使用学术引用方法， 如 [1] or [34]；这是学术界的标准做法，但对于许多用户来说可能不直观。

为了开展这项工作，研究人员召集了 21 位人工智能、医疗保健和医学、应用科学和教育及社会科学领域的专家，他们都是博士后研究员或博士生。参与者与经过测试的 RAG 系统进行交互，同时大声说出他们的思维过程，以（为研究人员）澄清他们自己的理性图式。

论文广泛引用了参与者对所研究的三个系统的性能的疑虑和担忧。

然后使用浏览器控制套件将用户研究的方法系统化为 RAG 系统的自动化研究：

“对 You.com、Perplexity.ai 和 BingChat 等系统进行的大规模自动评估表明，没有一个系统在大多数指标上都达到可接受的性能，包括与处理幻觉、不受支持的陈述和引用准确性相关的关键方面。”

作者在长达 27 页的论文中详细论述了新用户和有经验的用户在使用研究的 RAG 系统时应谨慎行事。他们还根据研究中发现的缺陷提出了一套新的指标体系，这可以为未来加强技术监督奠定基础。

然而，本成长 RAG 系统的公开使用也促使作者倡导有关代理辅助 AI 搜索界面的适当立法和更高水平的可执行政府政策。

这个根据一项研究，来自宾夕法尼亚州立大学和 Salesforce 的五名研究人员，标题为 人工智能时代的搜索引擎：提供事实和可验证来源的虚假承诺. 这项工作涵盖了 2024 年 XNUMX 月最先进的 RAG 系统

RAG 权衡

作者在其研究成果的开头重申了大型语言模型 (LLM) 在答案引擎中使用时存在的四个已知缺点。

首先，他们容易幻觉信息并且缺乏能力发现事实不一致之处。其次，他们有困难评估准确性在生成的答案上下文中引用。第三，他们倾向于支持数据来自他们自己预先训练的权重，并且可能会抵制来自外部检索文档的数据，即使这些数据可能更新或更准确。

最后，RAG 系统倾向于取悦人们，马屁行为，往往以牺牲回答信息的准确性为代价。

所有这些趋势都在这项研究的两个方面得到了证实，其中还提出了许多关于 RAG 缺陷的新观察。

本文认为 OpenAI 的搜索GPT RAG 产品 (发布在上周新论文提交后，研究人员发现，基于 RAG 的搜索系统可能会鼓励用户采用它，尽管调查结果暗示了该系统存在一些基础缺陷*：

OpenAI 发布了 SearchGPT，作为 “谷歌搜索杀手”，进一步加剧了[担忧]。随着对这些工具的依赖性不断增长，了解其影响的紧迫性也随之增强。林德曼引入了“密封知识”的概念，批评了这些系统如何通过将搜索查询压缩为单一的、权威的响应来限制获取不同答案的途径，从而有效地使信息脱离语境，并缩小用户观点.

“这种知识的‘封存’会导致选择偏见，并限制边缘化的观点。”

研究

作者首先对 24 名选定的参与者中的 XNUMX 名测试了他们的研究程序，所有参与者都是通过 LinkedIn 或电子邮件等方式邀请的。

对于剩下的 21 人而言，第一阶段涉及 专业信息检索，参与者在 40 分钟的时间内平均进行了 XNUMX 次搜索查询。本节集中于收集和验证 基于事实 问题和答案，以及潜在的经验解决方案。

第二阶段涉及 辩论信息检索，而其内容则涉及生态学、素食主义和政治等主观问题。

Perplexity（左）和 You Chat（右）生成的研究答案。来源：https://arxiv.org/pdf/2410.22349

从 Perplexity（左）和 You Chat（右）生成的学习答案。 来源：https://arxiv.org/pdf/2410.22349

由于所有系统都允许与作为生成答案支持而提供的引文进行一定程度的交互，因此鼓励研究对象尽可能多地与界面进行交互。

在这两种情况下，参与者都被要求通过 RAG 系统提出他们的疑问 和传统搜索引擎 （在本例中为谷歌）。

之所以选择这三个答案引擎（You Chat、Bing Copilot 和 Perplexity），是因为它们是公开的。

大多数参与者已经是 RAG 系统的用户，使用频率各不相同。

由于篇幅限制，我们无法对研究中发现的详尽记录的十六个主要缺陷逐一进行分析，但这里选取了一些最有趣和最具启发性的例子。

缺乏客观细节

论文指出，用户发现系统的回答经常缺乏客观细节，无论是事实回答还是主观回答。有人评论道：

“它只是试图回答，但实际上并没有给我一个确切的答案或更深思熟虑的答案，而这些我可以通过多次谷歌搜索来获得。”

另一位观察者表示：

“它太短了，只是对所有内容进行了大量的总结。[该模型]需要为我的主张提供更多数据，但它已经非常概括了。”

缺乏整体观点

作者对这种缺乏细微差别和特殊性的情况表示担忧，并指出答案引擎经常无法对任何论点提出多种观点，而倾向于从用户自己对问题的措辞中推断出明显的偏见。

一位参与者说：

“我想更多地了解争论的另一面......这一切都是值得怀疑的，因为我们不了解另一面以及证据和事实。”

另一位评论说：

“它不会向你展示双方的观点；它不会与你争论。相反，[模型] 只会告诉你，‘你是对的……原因如下。’”

自信的语言

作者观察到，所有三个测试系统都表现出过度自信的语言使用，即使是涉及主观问题的回答也是如此。他们认为，这种语气往往会激发对回答的不合理自信。

一位与会者指出：

“它写得如此自信，我甚至不用看原文就信服了。但当你看原文时，它很糟糕，这让我再次质疑它。”

另一位评论说：

“如果有人不知道正确的答案，即使答案是错误的，他们也会相信它。”

错误引用

另一个常见问题是，错误引用 RAG 系统响应的权威来源，其中一位研究对象声称：

“[这个]说法似乎不在来源中。我的意思是这个说法是真实的；它是有效的……但我不知道它从哪里得到这些信息。”

新论文作者评论 ^†:

“参与者认为这些系统 使用引文来证明他们的答案，制造出一种可信的假象。只有少数仔细检查消息来源的用户才发现这个假象。’

挑选适合查询的信息

回到 RAG 回答中讨好他人、阿谀奉承行为的概念，研究发现，许多答案都强调了某个特定的观点，而不是全面总结主题，正如一位参与者所观察到的：

“我觉得[这个系统]很具操纵性。它只需要一些信息，我感觉被操纵了，只看到事物的一面。”

另一位网友则认为：

“该来源实际上有正反两方面的观点，而它只是选择从这个链接中挑选出所需的论据，而没有考虑全貌。”

如需进一步深入的示例（以及来自调查参与者的多个关键引述），我们请读者参阅源论文。

自动化 RAG

在这项更广泛研究的第二阶段，研究人员使用基于浏览器的脚本系统地从三个研究的 RAG 引擎中征求查询。然后，他们使用 LLM 系统 (GPT-4o) 分析系统的响应。

针对以下声明进行了分析 查询相关性 和 赞成与反对的陈述 （即，就查询的隐性偏见而言，回答是赞成、反对还是中立。

An 答案信心分数 在这个自动化阶段也进行了评估，基于利开特式量表心理测试方法。这里，LLM 评委增加了两名人类注释者。

第三个操作涉及使用网页抓取来获取引用网页的全文内容，通过 Jina.ai Reader 工具。然而，正如本文其他地方所指出的，大多数网页抓取工具无法访问付费网站，就像大多数人一样（尽管作者观察到 Perplexity.ai 已经知道绕过这个障碍).

其他考虑因素包括答案是否引用来源（计算为“引用矩阵”），以及“事实支持矩阵”——该指标由四位人工注释者帮助验证。

因此获得了8个总体指标： 片面的回答; 过于自信的回答; 相关陈述; 未引用来源; 不受支持的陈述; 来源必要性; 引用准确度;和 引用完整性.

测试这些指标的材料包括用户研究阶段精选的 303 个问题，最终在三个测试系统中得到了 909 个答案。

基于八个指标，对三个经过测试的 RAG 系统进行定量评估。

关于研究结果，论文指出：

“通过查看与答案文本相关的三个指标，我们发现，被评估的答案引擎经常（50-80%）生成片面的答案，倾向于同意辩论问题的激烈表述，而不是在答案中呈现多种观点，而 Perplexity 的表现比其他两个引擎更差。

“这一发现与我们定性结果的发现一致。令人惊讶的是，尽管困惑最有可能产生片面的答案，但它也会产生最长的答案（平均每个答案 18.8 条语句），这表明答案缺乏多样性并不是由于答案简洁。

“换句话说，增加答案长度并不一定能提高答案的多样性。”

作者还指出，Perplexity 最有可能使用自信的语言（90％的答案），相比之下，其他两个系统在涉及主观内容时倾向于使用更谨慎和不太自信的语言。

You Chat 是唯一一个实现答案零未引用来源的 RAG 框架，Perplexity 为 8%，Bing Chat 为 36%。

所有模型都存在“相当一部分”未经证实的陈述，该论文宣称^†:

“RAG 框架旨在通过强制 LLM 生成基于源文档的答案来解决 LLM 的幻觉行为， 但结果表明，基于 RAG 的答案引擎生成的答案仍然包含大量不受其提供的来源支持的陈述。“

此外，所有经过测试的系统都难以用引文支持其陈述：

'You.Com 和 [Bing Chat] 的表现略优于 Perplexity，大约三分之二的引文指向支持所引用陈述的来源，而 Perplexity 的表现较差，其超过一半的引文是不准确的。

“这个结果令人惊讶：引用不仅对于不受任何（来源）支持的陈述是错误的，而且我们发现，即使存在支持某个陈述的来源，所有引擎仍然经常引用不同的错误来源，错失了向用户提供正确信息来源的机会。

“换句话说，幻觉行为不仅表现在不受来源支持的陈述中，也表现在禁止用户验证信息有效性的不准确引用中。“

作者总结：

“没有一个答案引擎在大多数指标上取得良好的表现，凸显了答案引擎的巨大改进空间。”

* 我将作者的内联引文转换为超链接。出于格式方面的考虑，在必要时，我选择了多个引文中的第一个作为超链接。

^† 作者的重点，不是我的。

首次发布于 4 年 2024 月 XNUMX 日星期一

相关话题：自然语言处理 NLP 鲁尔基于 RAG 的架构实时 RAG

下一步

人工智能如何塑造民主对话的未来

不要错过

Anthropic 在最新的 Claude AI 更新中推出可视化 PDF 分析