Unite.AI

Anderson's Angle1 month ago
By Martin Anderson

一种防止语言模型“幻觉”的“禅宗”方法

让ChatGPT在解决实际问题之前，先对一个随机答案进行事实核查，这会促使它更深入地思考，从而更频繁地获得正确答案——即使之前的“随机”答案与你真正的查询毫无关系。中国一项有趣的新研究提出了一种成本极低的方法，可以阻止ChatGPT等语言模型产生幻觉，并提高答案质量：首先让模型对一个完全不相关的问题的答案进行事实核查：与其他更复杂的方法（如微调、提示词工程和并行采样）相比，这种“禅宗式拍打”是一种成本极低的性能提升方式，并且它在开源和闭源模型上同样有效，这表明研究者发现了一种多种大语言模型架构共有的基本特征（而非特定训练材料或方法独有的脆弱怪癖）。作者概述了以这种斯巴达式方法改进输出可能带来的规模经济效益*：‘为了以最少的额外先验知识实现，VF只需在提示中提供一个随机/琐碎的答案。验证过程产生的输出标记远少于普通的思维链路径，[有时]甚至没有显式的仅验证过程，因此[需要]非常[少]的额外测试时计算。’在测试中，这种方法——被称为“验证优先”——能够在包括数学推理在内的多种任务中改进回答，且适用于开源和商业平台。这种技术之所以有效，部分原因可能在于语言模型吸收和借鉴人类心理学趋势的方式，因此直接提问可能会让模型变得“防御性”和“紧张”，而要求其验证他人工作则不会触发这些“生存本能”。核心思想是，验证一个答案比从头生成一个答案耗费的精力更少，并且可以触发一条不同的推理路径，与标准的思维链形成互补。提示模型去评判一个给定的答案（即模型未参与创建的答案），也可能激活一种批判性思维，有助于避免模型对其自身第一印象的过度自信。该研究将这一过程描述为“逆向推理路径”：研究人员还将这一核心概念具体化为Iter-VF，这是一种顺序时间测试扩展方法，通过迭代优化答案，避免了大语言模型架构中常见的自校正策略所产生的错误累积问题。这项新研究题为《让大语言模型先验证几乎是免费午餐》，来自北京清华大学电子工程系的两位研究人员。方法这项新研究的核心思想是翻转语言模型中通常的推理流程。不是要求模型从头开始解决问题，而是首先交给它一个候选答案（通常是错误或任意的），并要求它检查该答案是否合理。这会促使模型进行逆向推理，从提议的答案反向推演回问题。一旦验证完成，模型再像往常一样解决原始问题。论文断言，这种反转减少了粗心错误，并鼓励了一种更具反思性的推理模式，帮助大语言模型发现隐藏的结构并避免误导性假设。如下例所示，即使提示模型验证一个明显错误的猜测（如‘10’），也能帮助它从有缺陷的逻辑中恢复过来，并超越标准的思维链提示：对于许多现实世界的问题，提供一个猜测供模型检查并不容易，尤其是当任务是开放式的，例如编写代码或调用API。因此，为了更好地适应，该方法首先像往常一样给出其最佳答案，然后将该答案反馈到验证优先的格式中。这样，模型就可以检查并改进自己的输出：这种方法构成了前面提到的Iter-VF。模型重复这个循环，每次迭代优化其答案，无需重新训练或定制工具。与其他自校正策略不同（这些策略会堆积先前的思考，并可能使模型混淆），Iter-VF每次只查看最新的答案，这有助于保持其推理清晰。数据与测试作者在四个领域评估了该方法：通用推理任务，其中VF以一个琐碎的猜测作为起点；时间敏感任务，其中Iter-VF与其他扩展方法进行比较；开放式问题，如编码和API调用，其中VF使用模型自己先前的答案；以及闭源商业大语言模型，其中内部推理步骤无法访问。为了测试该方法，研究人员使用了三个推理基准：用于数学问题的GSM8K和MATH500；以及用于研究生级别科学问题的GPQA-Diamond。在每种情况下，模型都会得到一个琐碎的猜测（例如，对于数值答案是‘1’）或一个随机打乱的多选选项，作为验证的起点。没有添加特殊的调整或先验知识，比较的基线是标准的零样本思维链提示。测试涵盖了全系列的Qwen2.5和Llama3指令调优模型，规模从1B到72B（参数）。使用的Qwen模型包括Qwen2.5-1.5B-Instruct、Qwen2.5-3B-Instruct、Qwen2.5-14B-Instruct和Qwen2.5-72B-Instruct。Llama3变体包括Llama3.2-1B-Instruct、Llama3.2-3B-Instruct、Llama3.1-8B-Instruct和Llama3.3-70B-Instruct。如下图所示，验证优先提示带来的改进在不同模型规模上保持稳定，即使在1B参数时也能看到明显的增益，并一直持续到72B：这种方法在计算密集型的数学基准测试（如GSM8K和MATH500）上效果最强，验证一个错误答案比从头开始尝试解决能引发更好的推理。在GPQA-Diamond上（该测试更依赖于存储的知识而非演绎结构），优势较小但保持一致。验证优先的计算成本是适中的：在下表中，我们可以看到，与标准思维链提示相比，生成验证步骤增加了大约20-50%的输出标记：尽管如此，额外的成本仍远低于需要多次采样完成或递归规划的策略。在下图中，我们可以看到该方法对猜测答案质量的敏感程度。令人惊讶的是，即使猜测是琐碎的（‘1’）、不合理的（‘2025’）或随机的多选选项，验证优先仍然优于标准提示：正如预期的那样，当猜测恰好是正确答案时，准确率会跳得更高；但无论猜测如何，该方法都运作良好，这表明增益并非由猜测答案本身的信息驱动，而仅仅是由验证这一行为驱动的。Iter-VF还与四种无需重新训练或任务特定适配的测试时扩展策略进行了比较。在自我校正中，模型被提示通过反思先前的推理步骤来修订其答案；在PHP中，先前的答案作为上下文提示附加到输入中，但没有给出如何使用它们的指令。此外，在自我一致性中，对多个推理路径进行采样，并通过多数投票选择最终答案；最后，在Best-of-N中，独立生成多个输出，并使用验证器提示进行排序，选择得分最高的响应。实现了两种Iter-VF变体：一种以琐碎猜测（‘1’）初始化，另一种以标准CoT输出作为种子：当可用计算资源较低时，Iter-VF给出了比所有其他方法更好的结果，作者将此归功于它检查答案的方式，而非初始答案的好坏（因为VF和CoT变体都很快达到了相似的准确率）。PHP表现更差，尽管它重复使用了先前的答案作为提示，这可能是因为大语言模型未能很好地利用这些提示。与PHP和自我校正（它们在迭代中积累上下文）不同，Iter-VF在每一步只考虑最新的答案。这种马尔可夫方法避免了扩展推理链带来的复合混淆——这对自我校正尤其有害。并行方法如自我一致性和Best-of-N避免了这个问题，尽管它们的改进速度较慢且幅度较小。（注：结果部分虽然详尽，但阅读起来并不友好且冗长，我们必须在此时截断大部分剩余内容，请读者参考源论文以获取更多细节）。当在GPT-5 Nano和GPT-5 Mini上进行测试时（这些是隐藏完整推理痕迹、只返回最终答案的闭源商业模型），Iter-VF在不依赖中间输出的情况下提高了性能。在下表中，我们可以看到在MATH500和GPQA上的增益，证实了“先验证后生成”的方法即使在只能访问输入和最终答案时仍然可行：结论尽管这篇新论文从结果部分开始转向了不透明性，但在某类AI模型中发现一个普遍特征仍然是一个引人入胜的进展。任何经常使用大语言模型的人都会本能地发展出一套技巧来规避模型的缺点，因为每个缺点都会随着时间的推移变得明显，模式也随之浮现；所有人都希望找到一个像这样适用且通用的“技巧”。在大语言模型中实施和更新上下文窗口的最大问题之一，似乎是在保持会话进展与必要时开拓新方向的能力之间取得平衡，同时避免陷入虚假的幻觉或离题输出。在这篇新论文所展示的案例中，我们看到了一个温和但执着的“唤醒呼叫”的例子，它似乎能在不丢失上下文的情况下重新聚焦和重置大语言模型。看看后续项目是否会采纳和发展这一方法将会很有趣。研究人员非常强调他们新方法的纯粹经济性——这一考量在短短12个月前还远没有那么重要。如今，超大规模人工智能的影响清楚地表明，在“纯研究”时代曾被认为是迂腐的资源节约，现在正变得至关重要。 * 请注意，我无法像往常一样引用论文中的大量引文，因为其中某些部分的英语水平可能会让读者感到困惑。因此，我冒昧地总结了关键见解，并请读者参考源论文进行核实。首次发布于2025年12月4日，星期四

Unite.AI

一种防止语言模型“幻觉”的“禅宗”方法