Anderson 视角
一种“禅”方法可以防止语言模型产生幻觉

告诉ChatGPT在解决实际问题之前先事实核查一个随机答案,可以使其更认真地思考,并且更经常地得到正确答案,即使之前的“随机”答案与实际查询无关。
一篇来自中国的有趣新论文开发了一种非常低成本的方法,可以防止语言模型(如ChatGPT)产生幻觉,并提高答案质量:让模型先事实核查一个完全无关的问题的答案:

一个无关问题的例子,可以“解放”LLM的思维,并帮助它专注于后续的实际查询。 来源
这种“禅”方法是一种非常廉价的提高性能的方法,相比其他更复杂的方法,如微调、提示工艺和并行采样,它适用于开源和闭源模型,并表明这是多个LLM架构的基本特征,而不是特定训练材料或方法的脆弱特征。
作者概述了这种方法的规模经济:
‘为了实现最小的额外先验知识,VF只需要在提示中提供一个随机/琐碎的答案。验证过程的输出令牌比普通CoT路径少,[有时]甚至没有显式的验证过程,因此[需要] 非常[少]的额外测试计算.’
在测试中,这种方法——被称为验证优先(VF)——能够在多种任务中提高响应,包括数学推理,在开源和商业平台上。
这种技术之所以有效的部分原因可能在于语言模型吸收和适应人类心理学趋势的方式,因此直接的问题可能使模型变得“防御”和“紧张”,而要求验证他人的工作则不会引发这些“生存本能”。
核心思想是,验证一个答案需要的努力比从头生成一个答案少,并且可以触发一种不同的推理路径来补充标准的链式思维。
提示模型批判一个给定的答案(即,模型没有参与创建的答案)也可能激活一种批判性思维,帮助避免过度自信于模型自己的第一印象。
该工作将这个过程描述为逆向推理路径:

从一个提出的答案开始,逆向推理到问题,可以暴露更难以发现的捷径或洞察力。这种“逆向路径”可能遵循一个更简单的轨迹,并提供补充信息给标准的链式思维推理。
研究人员还将这个核心概念具体化为Iter-VF,一种顺序时间测试缩放方法,该方法迭代地改进答案,避免了自我纠正策略中常见的错误累积问题。
该新工作的标题为让LLM先验证几乎是免费的,由清华大学电子工程系的两位研究人员完成。
方法
新工作背后的中心思想是反转语言模型中的常规推理流程。与其要求模型从头解决问题,不如先给它一个候选答案(通常是错误或任意的),然后要求它检查这个答案是否有意义。
这促使模型逆向推理,从提出的答案开始,向后推理到问题。一旦验证完成,模型就按照通常的方式解决原始问题。
这种逆转,论文断言,减少了粗心的错误,并鼓励一种更具反思性的推理方式,帮助LLM发现隐藏的结构,并避免误导性的假设。
如下所示,即使提示模型验证一个明显错误的猜测,如’10’ ,也可以帮助它从有缺陷的逻辑中恢复过来,并比标准的链式思维提示更好地表现:

先提示模型验证一个猜测的答案,可以帮助它发现不一致性,并更仔细地处理问题。在这个例子中,标准方法导致一个流畅但错误的解决方案,而验证优先提示触发了一个更清晰的逻辑结构和正确的结果。
对于许多实际问题,提供一个猜测让模型检查并不容易,尤其是当任务是开放式的,例如编写代码或调用API。因此,为了更好地适应,这种方法首先提供一个普通的答案,然后将该答案以验证优先的格式反馈给模型:

当模型被要求验证其自己的早期输出时,它会发现逻辑中的缺陷,并正确地重写解决方案。验证优先提示帮助它专注于特定的错误,而不是重复相同的错误。
这种方法构成了上述Iter-VF。模型重复这个循环,每次都改进其答案,而无需重新训练或专用工具。与其他自我纠正策略不同,Iter-VF每次只查看最近的答案,这有助于保持其推理清晰。
数据和测试
作者在四个领域评估了这种方法:一般推理任务,其中VF用一个琐碎的猜测初始化;时间敏感任务,其中Iter-VF与其他缩放方法进行比较;开放式问题,如编码和API调用,VF使用模型自己的早期答案;以及闭源商业LLM,其中内部推理步骤不可访问。
为了测试这种方法,研究人员使用了三个推理基准:GSM8K和MATH500用于数学问题;以及GPQA-Diamond用于研究生级科学问题。
在每种情况下,模型都被给予一个琐碎的猜测,例如‘1’,作为数字答案的起点;或者一个随机混排的多选项作为验证的起点。没有添加任何特殊的调优或先验知识,比较的基线是标准的零次链式思维提示。
测试在一系列Qwen2.5和Llama3指令调优模型上进行,从1B到72B(参数)大小。使用的Qwen模型是Qwen2.5-1.5B-Instruct、Qwen2.5-3B-Instruct、Qwen2.5-14B-Instruct和Qwen2.5-72B-Instruct。Llama3变体是Llama3.2-1B-Instruct、Llama3.2-3B-Instruct、Llama3.1-8B-Instruct和Llama3.3-70B-Instruct。
如图所示,验证优先提示的改进在所有模型规模上保持一致,从1B参数到72B参数,清晰的收益在所有模型规模上都可见:

在Qwen2.5和Llama3家族的所有模型大小上,验证优先提示一致地优于标准的链式思维提示,在GSM8K、MATH500和GPQA-Diamond上。
这种效果在计算密集型的数学基准上最强,如GSM8K和MATH500,其中验证一个错误答案可以比从头开始解决问题更好地促进推理。在GPQA-Diamond上,依赖于存储的知识而不是推导结构,优势较小但一致。
验证优先的计算成本很低:在下表中,我们可以看到生成一个验证步骤比标准的链式思维提示多增加了大约20-50%的输出令牌:

在GSM8K、MATH500和GPQA基准上,每种提示方法的平均输出令牌数量。
尽管如此,额外的成本仍然远远低于需要多个采样完成或递归规划的策略。
在下面的图中,我们可以看到这种方法对猜测答案质量的敏感性。令人惊讶的是,即使猜测是琐碎的(‘1’)、不合理的(‘2025’)或随机的多选项,验证优先仍然优于标准提示:

在GSM8K、MATH500和GPQA上,验证优先提示的准确性提高,当模型被给予琐碎、不合理或正确的答案进行验证。
如预期,当猜测是正确答案时,准确性会大幅提高;但是这种方法无论如何都有效,表明收益并不是由猜测答案本身的信息驱动的,而是由验证行为本身驱动的。
Iter-VF还与四种不需要重新训练或任务特定适应的测试时缩放策略进行了比较。在自我纠正中,模型被提示通过反思以前的推理步骤来修订其答案;在PHP中,之前的答案被追加到输入中作为上下文提示,尽管没有说明如何使用它们。
此外,在自我一致性中,多个推理路径被采样,最后的答案通过多数票选择;最后,在最佳N中,多个输出被独立生成,并使用验证器提示对其进行排名,最高评分的响应被选中。
实现了Iter-VF的两个变体:一个用琐碎的猜测(‘1’)初始化,另一个用标准CoT输出初始化:

在MATH500上,随着输出预算的增加,准确性和令牌效率显示两个Iter-VF变体都优于所有基线。
Iter-VF在可用计算资源较低时比其他所有方法都表现更好,这被归因于它检查答案的方式,而不是初始答案的质量(因为两个VF和CoT变体都迅速达到类似的准确性)。
PHP表现较差,尽管它重用了早期的答案作为提示,可能是因为LLM没有很好地利用这些提示。
与PHP和自我纠正不同,后者在迭代中积累上下文,Iter-VF每次只考虑最近的答案。这是一种马尔可夫方法,避免了延长推理链的混乱,这是自我纠正的一个弱点。
并行方法,如自我一致性和最佳N,避免了这个问题,尽管它们的改进较慢且更为谦逊。
(注:结果部分虽然详尽,但阅读起来并不友好,我们不得不在此截断大部分剩余的报道,并将读者引导至源论文以获取更多细节)。
当在GPT-5 Nano和GPT-5 Mini上测试时,闭源商业模型隐藏了完整的推理痕迹,只返回最终答案,Iter-VF在不依赖中间输出的情况下提高了性能。在下表中,我们可以看到MATH500和GPQA上的收益,确认验证然后生成的方法即使只有输入和最终答案可访问时仍然有效:

当Iter-VF应用于具有隐藏推理痕迹的GPT-5模型时,MATH500和GPQA上的准确性。
结论
尽管新论文从结果部分开始变得晦涩,但在一类AI模型中发现一个普遍特征的明显发现仍然是一个令人着迷的发展。任何经常使用LLM的人都本能地开发了一系列技巧来绕过模型的缺点,因为每个缺点在一段时间后都会变得明显,并且会出现一个模式;所有人都希望找到一个像这种方法一样通用和适用的“技巧”。
在LLM中实现和更新上下文窗口的一个最大问题似乎是平衡会话进度的保留和在必要时走向新方向的能力,而不会陷入虚假的幻觉或离题的输出。在新论文中呈现的案例中,我们看到一个温和但坚定的“唤醒电话”,似乎可以重新集中和重置LLM,而不会失去上下文。将来会看到后续项目是否会采用和演化这种方法将会很有趣。
研究人员强调了他们新方法的纯粹经济性——这是一个12个月前不太重要的考虑因素。现在,超大规模AI的影响使得曾经被认为是琐碎的资源节约现在变得至关重要和基本。
* 请注意,我不得不限制通常的引用数量,因为部分论文中的英语水平可能会让读者感到困惑。因此,我采取了总结关键见解的自由,并将读者引导至源论文以供核实。
首次发布于2025年12月4日星期四












