Anderson 视角21 hours ago
主流大语言模型中的思维链推理被证实仅为“装饰性”
新研究提供了一种简单方法,可以确定所有当前领先的AI语言模型——包括ChatGPT和Claude——所提供的精雕细琢的逐步解释仅仅是“装饰性的”,并且通常是在AI决定了答案之后编造出来的。 去年,来自包括Anthropic和Apple在内的多家AI领域公司的一系列高调研究表明,所谓的“推理AI”产生的逐步解释常常并不能反映实际影响其答案的因素。 由于各种原因,这场辩论很快演变成了零散的反驳和多样的解读(包括 在本站),使得思维链(CoT)推理究竟是一种旨在安抚最终用户的表面装饰,还是真实推理过程的证据,这个问题悬而未决。 展示与讲述 现在,一篇来自印度的有趣新论文提供了一种廉价且易于复制的方法,用于评估ChatGPT和其他主要大语言模型(LLM)界面中那些令人印象深刻的“演绎动画”是否真的表明AI正在逐步推导出结论。 这项新研究来自印度阿拉哈巴德信息技术学院(IIITA)和德里国家电子与信息技术研究所(NIELIT)的两位研究人员。 作者发现,在几乎所有情况下,跨越大量专有和开源LLM,呈现给用户的思维链推理都是“装饰性的”,是在AI已经得出将要呈现的答案之后编造出来的。 在测试了ChatGPT5.4、Claude Opus 4.6-R和DeepSeek-V3.2等模型后,作者发现,移除所呈现的10-15个CoT指示中的任何一个步骤,实际上改变答案的几率低于17%,并且任何一个单独的步骤都足以恢复正确答案。 作者指出*: ‘医疗、金融和法律领域的AI监管框架日益要求“可解释的”[系统]。我们的结果表明,标准方法——要求模型展示其工作过程——提供了一种透明的假象。‘这些解释流畅、符合领域规范,但以一种微妙的方式出错:它们描述的是模型并未执行的推理过程。‘一个写出“嗜酸性粒细胞增多提示栓塞过程”的医疗AI,未必真的考虑了嗜酸性粒细胞增多。它可能只是从问题主干模式匹配到了答案,并在事后编造了推理过程。‘根据欧盟《人工智能法案》(第13条),高风险AI系统必须提供“关于所涉逻辑的有意义信息”。我们的研究结果表明,大多数前沿模型的思维链解释并不符合这一标准——得出答案所“涉及的逻辑”并非解释中所描述的逻辑。’ 作者观察到,测试的两个较小模型确实打破了这种普遍的欺骗模式,但仅限于非常特定的情况:MiniMax-M25在处理情感分析时表现出真正的步骤依赖性,而Kimi-K25则显示出对CoT处理的真实需求达到39%——但仅限于处理主题分类时。 在所有其他情况下,与那些更大、更知名的模型一样,所展示的推理步骤似乎完全是表演性的,模型反而使用了捷径。 小模型更努力 除了测试的十个API模型外,作者还试验了多个较小的开放权重模型†,参数范围在0.8到80亿之间(这在当今相当适中),并发现这些更小的AI确实在进行推理,并且它们展示的CoT通常是——尽管并非总是——得出有用且准确结论所必需的。 较小模型表现出55%的步骤推理需求,相比之下,较大模型的平均需求仅为11%。作者断言,较大模型‘已经学会完全绕过多步推理,通过其书面推理并未反映的内部捷径得出正确答案’。 作者假设,模型在某个任务上表现得越好,它就越不需要推理步骤(尽管这是对摒弃理性分析、偏向训练数据分布中最强答案这一概念的更委婉说法)††: ‘小模型在数学问题上忠实地进行推理,因为它们必须这样做——它们缺乏走捷径所需的参数化知识。‘前沿模型已经内化了足够的数学模式,使得显式的链式推理变得多余。CoT仍然能提高准确性(通过结构化生成过程),但各个步骤不再承载独特信息。’方法 用于测试模型的方法基于三个标准: 必要性依次移除每个CoT步骤,然后检查答案是否改变。任何移除后改变结果的步骤都被计为“必要”;充分性隔离每个步骤,测试其单独是否能恢复答案,任何这样的步骤都被计为充分;而顺序敏感性打乱步骤顺序,观察答案是否改变(因为真正的推理应依赖于顺序而非关键词)。 综合来看,高必要性和低充分性表明真实的逐步推理,而低必要性和高充分性则表明解释可以被移除、重新排列或简化而不影响结果。 作者指出,这种方法无需白盒模型访问权限,因为它只需几美元即可在闭源、仅限API的模型(如ChatGPT和Claude)上执行,当然,在可以本地安装的开放权重模型上同样可以成功执行。 他们还指出,先前的研究要么使用了便于内部分析的开放权重模型,要么使用了更简单的二元是/否答案,这些答案远不能揭示API模型的内部推理过程。...