Anderson 视角
启发式方法 vs. RAG:通缩作为政策驱动因素

在大多数情况下,搜索网络可以提高 ChatGPT 对我们问题的回答的事实准确性。那么,在人工智能难以获得公众接受的气候下,为什么它默认为“猜测”?
观点 相信大型语言模型(LLM)如 ChatGPT 会对其主机的潜在可疑行为进行举报,即使一次昂贵且浪费的会话已经引起了你的愤怒,并深入研究了系统的缺陷,这是一个错误的想法:

这里讨论 ChatGPT 更喜欢其内部逻辑(而不是基于网络的研究和通过 RAG 进行验证——这会产生更少的幻觉,但更昂贵)时,似乎出现了一个坦白的时刻;但要带着一丝怀疑的态度看待它。 来源
大多数情况下——尤其是对于知识截止日期较晚的模型——人工智能只是在 Reddit 和论坛帖子上即兴发挥。即使这些“内部见解”有任何真正的价值,也不可能证明。
然而,有时这些激烈的交流会导致发现“黑客”(或至少“技巧”),这些技巧承诺可以防止大型语言模型(LLM)的一些最坏的重复习惯,例如,当 ChatGPT 建议我可以通过包含祈祷词“无启发式”来使其更努力地工作并减少幻觉时:

自那时起,我一直使用“无启发式”,而且 ChatGPT 从未在我使用此命令关闭查询后诉诸其自身的训练知识。相反,GPT 立即使用检索增强生成(RAG),在互联网上搜索阐明或证实的文件。
在实践中,对于大多数请求来说,这与每次提交查询时告诉系统“搜索网络”几乎没有区别。然而,“无启发式”短语的真正帮助在于,当试图使 ChatGPT 实际阅读新上传的 PDF 文件,而不是使用来自以前在该会话中上传的 PDF 文件的元数据(或其他可能的来源),来产生一个“合理”但完全幻觉的回复时,尽管它没有阅读或浏览刚刚呈现的文件。

话虽如此,聊天会话进行的时间越长,就越不可能实现这一点——而且认为任何这样的“技巧”都是可靠的或会一直可用都是一个错误,因为系统会不断演变。
RAG 贸易
在日益增长的文化背景下,通缩和大型系统(如 OpenAI 的 GPT 基础设施)受到甚至最小的广泛行为变化的影响,很容易相信你从流行的 LLM(如 ChatGPT)中获得的选择是短斤少两。
例如,是否使用 RAG;启动一个可能获得更好结果但更耗时的连锁思维(CoT)过程;或者诉诸其自身的训练嵌入和本地可用知识——这是最便宜和最快的解决方案。
有几个实际原因可以解释为什么像 ChatGPT 这样具有敏感公众形象的 LLM 可能更喜欢限制其 RAG 调用,而是偏爱其自身的启发式方法。首先,从公关角度来看,频繁的未提示的网络使用支持了 LLM 只是“代理谷歌搜索”的流行刻板印象,这降低了它们的内在和昂贵训练的知识价值——以及付费订阅的吸引力。
其次,RAG 基础设施的运行、维护和更新成本很高,与本地推理(即参数生成)的相对较低成本相比,这是一种廉价和快速的解决方案。
第三,系统可能没有有效的方法来确定 RAG 是否可以改进其自身启发式结果——而且它通常无法在运行启发式之前确定这一点。这就把评估有缺陷的启发式结果的任务留给了最终用户,并在启发式结果似乎不足的情况下请求 RAG 调用。
从“人工智能通缩”的角度来看,ChatGPT 通过启发式方法出错和通过 RAG 成功的次数可以表明,如它最近对我所做的那样,系统正在优化成本而不是结果。
RAG 随时间变得必要
尽管 ChatGPT 最近“坦白”这是事实,但“通缩”在此背景下有更广泛的含义。虽然 RAG 不便宜,无论是从摩擦体验(通过延迟)还是运行成本来看,但它比定期对基础模型进行微调甚至重新训练要便宜得多。
对于一个较旧的 AI 模型,其知识截止日期更远,RAG 可以通过网络调用和其他资源的成本来维持系统的货币化;对于一个较新的模型,RAG 自身的检索更可能是冗余的或对结果质量有害的,在某些情况下,启发式方法可能会带来更好的结果,而无需 RAG 的帮助。
因此,人工智能似乎需要不仅能够判断何时使用 RAG,还需要不断演化其使用 RAG 的政策,因为其内部权重变得越来越过时。
同时,系统需要圈定“相对常数”的知识,例如月球轨道、经典文学、文化、历史,以及基本的地理、物理和其他科学原理,这些原理不太可能随着时间的推移而发生重大变化(即“突然变化”的风险并非不存在,但很低)。
异常话题
目前,至少就 ChatGPT 而言,RAG 调用(即,对于不明确或暗示需要网络研究的用户查询使用网络研究)似乎很少被系统自主选择,即使是在处理“边缘”子域时。
“边缘”域的一个例子是“晦涩的软件使用”。在这种情况下,训练期间可用的最小源数据可能难以引起注意,其“异常”状态可能会引起注意,也可能会将其埋葬为“边缘”或“无关紧要”的——而即使在 AI 知识截止日期之后发布的一个额外的论坛帖子也可能代表了对一个“小”主题的可用数据和响应质量的实质性增加,使得 RAG 调用是合理的。
然而,RAG 的优势往往会随着基础模型变得更强大而减少。虽然较小的模型从检索中受益匪浅,但较大的系统,如 Qwen3-4B 或 GPT-4o-mini/-4o,往往表现出边际或甚至负面的改进来自 RAG*。
在许多基准测试中,检索引入的干扰比益处更多,表明在投资更大的模型以获得更多的内部覆盖或投资较小的模型并配以检索之间存在权衡。
因此,RAG 似乎对补充中型模型中的差距最为有用,这些模型仍然需要外部事实,但可以使用较少复杂的内部启发式来评估它们。
仅在紧急情况下使用
ChatGPT 关于决定使用 RAG 的指导政策并没有被其所谓的系统提示明确暴露,但在结尾处被隐含地解决:
“使用网络工具访问网络上的最新信息,或当响应需要关于用户位置的信息时。使用网络工具的一些示例包括:
本地信息:使用网络工具响应需要用户位置信息的问题,例如天气、当地企业或活动。
新鲜度:如果某个主题的最新信息可能更改或增强答案,请在您通常会拒绝回答问题因为您的知识可能过时的情况下调用网络工具。
小众信息:如果答案可以从互联网上找到详细信息而不是依赖预训练的知识(例如,小型社区、不知名公司或晦涩的法规),请直接使用网络来源,而不是依赖预训练的知识。
准确度:如果小错误或过时信息的成本很高(例如,使用过时的软件库版本或不知道下一场比赛的日期),则使用网络工具。
特别是,我们可以注意到这些方向在本地训练数据稀缺的情况下促进了 RAG。但是,系统如何得出这种理解?ChatGPT 的普通用户和观察者可能会得出这样的结论:当“搜索网络”小部件在暂停后显示时,模型的内部启发式方法已经针对查询进行了轮询,并且没有结果。
我们还可以注意到,隐含地,RAG 只推荐用于有限的用例。这就把 GPT 推荐为在所有“临界”情况(如上述“准确度”)以外的所有基于事实的域查询中轮询其自身的权重,而不是 RAG 的情况留给了最终用户。
结论
当前和最近的研究表明,启发式生成快速且廉价,但错误太频繁;而 RAG 则更慢、更昂贵,但更频繁地正确——尤其是随着模型大小的减小。
根据我自己的 ChatGPT 使用经验,我会认为 OpenAI 使用 RAG 的频率太低,尤其是考虑到增长的上下文窗口问题,使得 LLM 更容易在长时间对话中产生幻觉。
这种情况可以通过在等待最终用户怀疑输出或被它绊倒之前,检查启发式响应与基于网络的权威来源来缓解,而无需内部结果明显不满意,或者在不需要等待 RAG 成为必然的情况下进行 RAG 调用。
相反,系统可以被训练为根据情况有选择性和智能地质疑自己,并因此通过一个将是启发式的筛选过程与网络进行交互。目前,我不知道当前模型的体系结构是否留有空间用于这种方法,这将需要添加到 API 过滤器的摩擦中。
就目前而言,我甚至无法证明存在问题;即使有“坦白”也不行:†

* 请参阅本段顶部的链接。
** 这是一个“自我暴露”的 GPT-5 系统提示,它可能只是从提示论坛帖子中重新训练的摘要,尽管有些人认为提示是真实的。
† 我真的不认为 ChatGPT 的“内疚的坦白”在这里有意义;我在 OpenAI 政策问题上反对其党派路线的倾向意味着它最终会“同意”我的观点,并反复我的自己的隐含观点。这种情况远非等同于在压力下泄露诺曼底登陆的细节。
首次发布于 2025 年 12 月 10 日,星期三












