Connect with us

Anderson 视角

链式推理在主要语言模型中被证明是“装饰性的”

mm
An AI-generated image (GPT1.5) depicting a robot cheating in an exam by using a smartphone.

新的研究提供了一种简单的方法来确定当前所有领先的AI语言模型(包括ChatGPT和Claude)的精心编制的、一步一步的解释,实际上只是“装饰性的”,通常是在AI决定了答案之后编造的。

 

去年,一系列来自AI相关公司(包括AnthropicApple)的高调研究表明,所谓的“推理AI”通常会产生一步一步的解释,但这些解释并不能反映出它们实际上是如何得出答案的。

由于各种原因,辩论很快就变成了激烈的反驳不同的解释(包括在这个网站上),留下了一个未解决的问题:链式推理(CoT)是否只是一个装饰性的东西,旨在让用户感到安心,还是真正的推理过程的证据。

ChatGPT '显示其工作' - 但它已经决定了答案吗?

ChatGPT ‘显示其工作’ – 但它已经决定了答案吗?

展示和讲述

现在,来自印度的一篇有趣的新论文提供了一种廉价且易于复制的方法来判断ChatGPT和其他主要的大型语言模型(LLM)接口中那些令人印象深刻的“推理动画”是否真正表明AI正在一步一步地推理到结论。

这篇新研究来自印度信息技术学院(IIITA)和德里国家电子和信息技术研究所(NIELIT)的两位研究人员。

作者发现,在几乎所有情况下,跨越大量专有和开源LLM,向用户呈现的链式推理是“装饰性的”,是在AI得出答案之后编造的。

测试了ChatGPT5.4、Claude Opus 4.6-R和DeepSeek-V3.2等模型,作者发现,删除任何单个步骤(通常为10-15个CoT指示)实际上改变了答案的次数少于17%,任何单个步骤都足以恢复正确答案。

作者指出*:

‘医疗、金融和法律领域的AI监管框架越来越需要“可解释的”系统。我们的结果表明,标准方法——要求模型显示其工作——提供了一个透明度的幻觉。 ‘

‘解释是流畅的、领域适当的,但在微妙的方式上是错误的:它们描述了模型没有执行的推理。 ‘

‘一个写了“嗜酸性细胞增多提示有栓塞过程”的医疗AI,并不一定考虑了嗜酸性细胞增多。它可能从问题干到答案,并在之后编造了推理。 ‘

‘在EU AI法(第13条)下,高风险AI系统必须提供“有意义的信息关于所涉及的逻辑”。我们的发现表明,大多数前沿模型的链式推理解释不符合这一标准——得出答案所涉及的“逻辑”并不是解释中描述的逻辑。 ‘

作者观察到,两种较小的模型在特定情况下打破了这种虚假模式:MiniMax-M25在情感分析中表现出真正的步骤依赖性,而Kimi-K25在主题分类中表现出39%的CoT处理需求。

在所有其他情况下,较大和更知名的模型中,所示的推理步骤似乎是完全表演性的,模型使用捷径

小模型努力更多

除了测试的十个API模型外,作者还测试了一些小型开源模型,参数范围从0.8到8亿(现在相当 MODEST),发现这些较小的AI真正推理,而它们所示的CoT通常(尽管不是总是)是为了得出有用和准确的结论所必需的。

较小的模型表现出55%的步骤推理需求,与较大模型的平均11%需求相比,作者断言,‘它们已经学会完全绕过多步骤推理,通过内部捷径得出正确答案,而这些捷径并没有在它们的书面推理中反映出来’

作者认为,模型在任务上表现得越好,就越少需要推理步骤(尽管这是对“放弃理性分析,转而使用训练数据分布中最强的答案”的更外交式表述)††

‘小模型在数学上忠实地推理——它们必须这样做——它们缺乏参数知识来捷径。 ‘

‘前沿模型已经内化了足够多的数学模式,使得显式的链式推理变得多余。CoT仍然可以提高准确率(通过结构化生成),但个别步骤不再携带唯一的信息。 ‘

方法

用于测试模型的方法基于三个标准:

必要性删除每个CoT步骤,然后检查答案是否改变。任何改变结果的步骤都被视为“必要”;充分性隔离每个步骤,然后检查它是否可以单独恢复答案,任何这样的步骤都被视为充分;顺序敏感性混乱步骤,然后观察答案是否改变(因为真正的推理应该依赖于序列而不是关键字)。

综合考虑高必要性和低充分性,表明真正的步骤推理,而低必要性高充分性表明可以删除、重新排列或减少而不影响结果的解释。

作者指出,这种方法消除了任何需要白盒模型访问的必要性,因为它可以在封闭源、仅API模型(如ChatGPT和Claude)上以几美元的成本完成,并且可以在本地安装的开源模型上同样成功地完成。

他们还指出,之前的研究要么使用开源模型以便于内部分析,要么使用更简单的二元是/否答案,这些答案揭示了API模型的内部推理过程的很少一部分。

最小成本

作者通过必要性充分性定义真正的推理,高必要性和低充分性表明每个步骤都有独特的权重。相反,装饰性的推理显示出低必要性和高充分性,这意味着步骤可以被删除或单独使用而不会改变答案。

必要性本身,他们说,可能会掩盖这一点,因为可能存在多个有效路径。因此充分性被用来测试是否任何单个步骤已经编码了结果,顺序敏感性检查模型是否依赖于序列而不是表面线索。

这种方法建立在干预一致性解释(ICE)框架之上,仅需要文本输入、文本输出API访问,并且对于六步CoT链,需要15次评估,成本约为每个模型1-2美元。

ICE框架根据必要性充分性将模型行为分类为三种模式:装饰性显示出低必要性和高充分性,这意味着步骤是冗余的,答案将无论如何被得出;真正忠实的显示出高必要性和高充分性,这意味着每个步骤都携带真正的信号(如前所述,这出现在MiniMax-M2.5的情感分析中);上下文依赖的显示出高必要性和低充分性,这意味着步骤只在序列中一起起作用(这出现在Kimi-K2.5和MiniMax在主题分类中的表现,以及小型模型在处理数学时的表现)。

测试

使用修订的ICE方法测试的十个主要API模型是ChatGPT-5.4Claude Opus 4.6-RDeepSeek-V3.2GPT-OSS-120BKimi-K2.5Qwen3.5-397BQwen3.5-122BMiniMax-M2.5GLM-5Nemotron-Ultra(253B参数)。

每个模型都在四个任务上进行了测试:情感分类(使用SST-2);数学文字问题(使用GSM8K);主题分类(使用AG News);医疗问答(使用MedQA)。最初的测试是在情感数学上进行的:

测试十个领先语言模型,评估它们如何处理一步一步的推理。'必要性'跟踪是否删除步骤会改变答案;'充分性'检查是否可以单独产生答案;'shuffle'测试是否有序。

测试十个领先语言模型,评估它们如何处理一步一步的推理。’必要性’跟踪是否删除步骤会改变答案;’充分性’检查是否可以单独产生答案;’shuffle’测试是否有序。

作者指出:

‘大多数模型在SST-2和GSM8K上表现出“装饰性推理”(Lucky Steps在ICE分类法中)——一种模式,其中步骤必要性低于17%,步骤充分性超过60%。 ‘

‘用简单的话来说:你可以删除任何推理步骤,答案几乎不会改变,但任何单个步骤都足以恢复答案。 ‘

在SST-2情感测试中,GPT-5.4几乎从不依赖其书面推理,因为删除步骤改变答案的次数少于0.1%(500次),这表明解释是在决定之后添加的。

Claude Opus 4.6-R稍微更依赖其步骤,达到14.8%,但91%的步骤可以单独产生答案;因此,其更长的解释更详细,但仍然大多是“装饰性的”。

随后,研究人员添加了其他领域并再次进行了测试:

跨四个领域的步骤级忠实度和准确率:SST-2;GSM8K;AG News;和MedQA。

跨四个领域的步骤级忠实度和准确率:SST-2;GSM8K;AG News;和MedQA。

作者观察到:

‘四个领域的结果加强了中心发现:装饰性推理在捷径模型中跨领域是普遍的。Claude Opus在MedQA上表现出1.7%的必要性(486个示例,93.4%的准确率)——模型编写详细的医疗推理链,平均5.8步骤,但删除任何步骤几乎不会改变诊断。 ‘

AG News显示了模型之间最大的差异,Kimi-K2.5和MiniMax真正依赖于它们的步骤推理,而大多数其他系统产生的解释对最终答案影响不大。

DeepSeek-V3.2在所有四个任务中都保持着装饰性的特点,尽管它编写了最长的解释,但其答案很少依赖于步骤。

输出刚性

测试表明,作者将其称为输出刚性的第四种现象:一些模型不愿意输出推理过程,这取决于主题,也可能取决于其他情况。下面我们看到Claude Opus在回答关于61岁男性医疗状况的问题时的推理;以及下面GPT-OSS-120B的输出:

冗长与简洁。

冗长与简洁。

作者指出,输出刚性是任务依赖的:

跨任务,模型在多大程度上选择“显示其工作”。Claude和DeepSeek几乎每次都产生多步骤解释,无论领域如何,而Qwen3.5-397B几乎从不这样做。其他模型根据任务改变其行为,有些模型在分类中产生详细的逻辑链,但在医疗问题中产生的逻辑链要少得多。

跨任务,模型在多大程度上选择“显示其工作”。Claude和DeepSeek几乎每次都产生多步骤解释,无论领域如何,而Qwen3.5-397B几乎从不这样做。其他模型根据任务改变其行为,有些模型在分类中产生详细的逻辑链,但在医疗问题中产生的逻辑链要少得多。

他们观察到:

‘最有可能绕过内部推理的模型也是最有可能省略外部推理的模型。GPT-OSS-120B在99%的情感问题和100%的主题分类问题中产生多步骤推理——但只有38%的医疗问题。 在62%的医疗查询中,它输出一个单独的答案字母。 ‘

这种模式似乎不是随机的:GPT-OSS-120B几乎在所有情感和主题分类问题中都产生多步骤解释,但在大多数医疗问题中却切换到一个单独的答案字母(在那里它通常不提供任何可见的推理)。

作者假设,因为步骤级测试需要书面链来分析,一个只输出一个令牌的模型不能通过这些方法进行评估;外部推理的缺失因此阻止了直接测量。

该论文得出结论,用于高风险应用的模型需要测试其忠实度以及准确率,并建议,一个准确率低2%但真正推理的模型可能更可取——尤其是因为它满足了EU和其他新兴法规关于可解释AI的要求。目前,根据研究中发现的证据,几乎所有能够进行CoT的LLM都在“作弊”,几乎所有时间都如此。

结论

这是一个有趣的论文,提供了比我们在这里有空间涵盖的更广泛的测试和讨论,建议读者阅读原始资料。

核心信息,接着去年的争议,是最高风险的AI平台可能会大幅偏离并不诚实,关于它们的标准,目前尚无法达到。

此外,开源和封闭API模型(如ChatGPT)之间的规模和能力差距如此之大,以至于通常无法合理地推断封闭权重模型的效果从开源安装中得出,这加深了这些过程和标准的不透明度。

然而,真正的白盒测试方法很少出现,可以涵盖开源和封闭源模型;但对此类“廉价技巧”的真正解决方案可能只会在强大的机构(如EU)威胁主要AI门户的利润时才会发生。

 

*我将作者的内联引用转换为超链接。

该论文没有披露这些较小模型的明确列表,并包括一个模型的额外变体,使得明确的列表成为推断的问题。

†† 作者的强调。

首次发布于2026年3月25日星期三。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai