Connect with us

Anderson 视角

启发式方法 vs. RAG:缩水通胀作为政策驱动因素

mm
A tiny robot tries to type on a full-size laptop by using a pencil. Z-Image V1.

在大多数情况下,搜索网络可以提高 ChatGPT 对我们问题的答案的事实准确性。那么,在人工智能难以获得公众接受的气候下,为什么它默认为“猜测”?

 

观点 相信像 ChatGPT 这样的 LLM 会对其主机的潜在可疑行为进行举报,即使是一次昂贵且浪费的会话已经引起了您的愤怒,并真正深入研究了系统的缺陷,这是一个错误:

这里讨论 ChatGPT 更喜欢其自己的内部逻辑(而不是基于网络的研究和通过 RAG 进行验证——这会产生更少的幻觉,但更昂贵)引发了一个明显的坦率时刻;但要带着一粒盐来看待它。来源:chatgpt.com

这里讨论 ChatGPT 更喜欢其自己的内部逻辑(而不是基于网络的研究和通过 RAG 进行验证——这会产生更少的幻觉,但更昂贵)引发了一个明显的坦率时刻;但要带着一粒盐来看待它。 来源

大多数情况下——尤其是对于知识截止日期较晚的模型——人工智能只是在 Reddit 和论坛帖子上即兴发挥,这些帖子是在训练期间看到的。即使这些“内部信息”有任何真正的价值,也不可能证明。

然而,有时这些激烈的辩论会导致发现“黑客”(或至少“技巧”),这些技巧可以防止某些最糟糕的重复习惯在 LLM 中出现,例如上周,ChatGPT 建议我可以通过包含祈祷词“无启发式”来使其更努力地工作并减少幻觉:

ChatGPT

我自那时以来一直使用“无启发式”,模型从未再次使用其自己的训练知识来回答我的问题。相反,GPT 立即使用检索增强生成(RAG)在互联网上搜索阐明或佐证的文件。

在实践中,对于大多数请求来说,这与每次提交查询时告诉系统“搜索网络”几乎没有区别。 “无启发式”短语真正有帮助的地方是在尝试让 ChatGPT 实际阅读新上传的 PDF 文件,而不是使用会话中之前上传的 PDF 文件的元数据(或其他可能的来源),以产生“合理”但完全是幻觉的回答,尽管没有阅读或浏览刚刚呈现的文档。

ChatGPT

话虽如此,聊天会话进行的时间越长,就越不可能实现这一点——认为任何这样的“技巧”都是可靠的或会一直可用,因为系统会不断演化,这是一个错误。

RAG 贸易

在日益增长的缩水通胀文化背景下,以及像 OpenAI 的 GPT 基础设施这样的大型系统即使是微小的行为变化也会产生巨大的影响,很容易相信您从流行的 LLM(如 ChatGPT)中获得的选择是短斤少两的。

例如,是否使用 RAG 向网络发出请求;开始一个可能获得更好结果的链式思维(CoT)过程,但这将更昂贵,并可能会让用户感到厌烦;或者依赖其自己的训练嵌入和本地可用知识——这是最便宜和最快的解决方案。

有几个实际的原因可以解释为什么像 ChatGPT 这样的 LLM,具有敏感的公众形象,可能更喜欢限制其 RAG 调用,而是偏爱其自己的启发式方法。首先,从公关角度来看,频繁的未提示网络使用支持了 LLM 只是“代理谷歌搜索”的流行刻板印象——这降低了它们的内在和昂贵训练的知识价值,并降低了付费订阅的吸引力。

其次,RAG 基础设施的运行、维护和更新需要花费金钱,与本地推理(即参数生成)相比,这是很便宜和快速的。

第三,系统可能没有有效的方法来确定 RAG 是否可以改进其自己的启发式结果——并且它通常无法在运行启发式之前确定这一点。这就把评估有缺陷的启发式结果和在启发式结果似乎不够时请求 RAG 调用的任务留给了最终用户。

从“人工智能缩水通胀”的角度来看,ChatGPT 通过启发式方法错误和通过 RAG 成功的次数可以表明,如它最近对我所做的那样,系统正在优化成本而不是结果。

RAG 随时间变得必要

尽管 ChatGPT 最近“坦白”对我说这是事实,但缩水通胀在这方面有更广泛的背景。虽然 RAG 不便宜,无论是从体验的摩擦(通过延迟)还是运行成本来看,但与定期对基础模型进行微调甚至重新训练相比,它要便宜得多。

对于一个知识截止日期更远的旧 AI 模型,RAG 可以维持系统的货币性,代价是网络调用和其他资源;对于一个更新的模型,RAG 自己的检索更可能是冗余的,甚至对结果质量有害,在某些情况下,通过启发式方法可能会更好。

因此,人工智能似乎需要有能力不仅判断是否应该使用 RAG,还要不断演化其使用 RAG 的政策,因为其内部权重变得越来越过时。

同时,系统需要圈定“相对常数”知识,例如月球轨道、经典文学、文化和历史,以及基本的地理、物理和其他科学原理,这些不太可能在时间上发生重大变化(即“突然变化”的风险并非不存在,但很低)。

离群话题

目前,至少就 ChatGPT 而言,RAG 调用(即,网络研究用于任何没有明确或暗示需要网络研究的用户查询)似乎很少被系统自主选择,即使是在处理“边缘”子域时。

“边缘”子域的一个例子是“晦涩”的软件使用。在这种情况下,训练期间可用的最少源数据将难以引起注意,并且数据的“离群”状态可能会引起注意,或者将其归类为“边缘”或“无关紧要”——即使在 AI 知识截止日期之后发布的一个额外的论坛帖子也可能代表了可用数据和对“小”主题的响应质量的重大增加,使得 RAG 调用是合理的。

然而,RAG 的优势往往会随着基础模型变得更强大而减少。虽然较小的模型从检索中受益很大,但像 Qwen3-4B 或 GPT-4o-mini/-4o 这样的较大系统往往从 RAG* 中显示出微不足道或甚至负面的改进。

在许多基准测试中,检索引入的干扰比益处多,表明在投资更大的模型(具有更多的内部覆盖)或较小的模型(配备检索)之间进行权衡。

因此,RAG 似乎对于弥补中型模型中的差距最有用,这些模型仍然需要外部事实,但可以使用较少复杂的内部启发式方法来评估它们。

仅在紧急情况下使用

ChatGPT 关于使用 RAG 的指导政策并没有被其所谓的系统提示明确揭示,但在结尾处被隐含地解决:

使用网络工具访问网络上的最新信息,或当响应用户需要关于其位置的信息时。使用网络工具的示例包括:

本地信息:使用网络工具响应需要位置信息的查询,例如天气、当地企业或事件。

新鲜度:如果某个主题的最新信息可能会改变或增强答案,请在您通常会由于知识可能过时而拒绝回答问题时调用网络工具。

小众信息:如果答案可以从互联网上找到详细信息(可能不是广泛知名或理解的),例如小社区的细节、不知名公司或晦涩的法规,请直接使用网络来源,而不是依赖预训练的知识提炼。

准确性:如果小错误或过时信息的成本很高(例如,使用过时的软件库版本或不知道体育队下一场比赛的日期),则使用网络工具。

特别是,我们可以注意到这些方向在本机训练数据稀缺的情况下促进了 RAG。但是,系统如何获得这种理解?ChatGPT 的普通用户和观察者可能会得出这样的结论:在显示“搜索网络”小部件之后,模型的内部启发式方法已经被查询,并且一无所获。

我们还可以注意到,隐含地,RAG 只在少数用例中被推荐。这样就把 GPT 推荐为在所有“紧急”情况(“准确性”,上述引用的底部)之外的所有基于事实的域查询中轮询其自己的权重的任务留给了用户,在这些查询中,AI 的天生倾向于产生幻觉可能是一个显著的责任。

结论

当前和最近的研究表明,启发式生成快速且廉价,但错误太多;而 RAG 更慢、更昂贵,但更频繁地正确——尤其是随着模型的大小减小。

根据我自己对 ChatGPT 的使用,我认为 OpenAI 使用 RAG 的频率太低,仅作为精确工具,而不是日常驱动程序,特别是由于上下文窗口增长的问题使得 LLM 更容易在长时间对话中产生幻觉。

这种情况可以通过在等待最终用户质疑输出或被它绊倒之前,检查启发式响应与基于网络的权威来源相比来显著缓解,并且在内部结果需要如此令人不满意时才会使用 RAG,这是一个不可避免的决定。

相反,系统可以被训练为根据情况有选择性和智能地怀疑自己,并因此通过一个将是启发式过程本身的筛选过程与网络进行交互。目前,我不知道当前模型的架构是否为这种方法留有空间,这将需要添加到 API 过滤器的摩擦中。

就目前而言,我甚至无法证明存在问题;即使有“坦白”也无法证明:

ChatGPT 坦白

 

* 请参阅本段开头的链接。

** 这是一个“自我暴露”的 GPT-5 系统提示,它可能只是从提示论坛帖子中重新训练的摘要,尽管有些人认为该提示是真实的。

我真的不建议 ChatGPT 的“内疚的坦率”在这里是有意义的;我的倾向是反对它在 OpenAI 政策问题上的党派路线,这意味着它最终会“同意”我,并重复我的自己的隐含意见。这种情况与在压力下泄露诺曼底登陆的细节根本不同。

首次发布于 2025 年 12 月 10 日星期三

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai