Unite.AI - AI News & Research

An AI-generated image (GPT1.5) depicting a robot cheating in an exam by using a smartphone.

Anderson 视角21 hours ago

主流大语言模型中的思维链推理被证实仅为“装饰性”

新研究提供了一种简单方法，可以确定所有当前领先的AI语言模型——包括ChatGPT和Claude——所提供的精雕细琢的逐步解释仅仅是“装饰性的”，并且通常是在AI决定了答案之后编造出来的。去年，来自包括Anthropic和Apple在内的多家AI领域公司的一系列高调研究表明，所谓的“推理AI”产生的逐步解释常常并不能反映实际影响其答案的因素。由于各种原因，这场辩论很快演变成了零散的反驳和多样的解读（包括在本站），使得思维链（CoT）推理究竟是一种旨在安抚最终用户的表面装饰，还是真实推理过程的证据，这个问题悬而未决。展示与讲述现在，一篇来自印度的有趣新论文提供了一种廉价且易于复制的方法，用于评估ChatGPT和其他主要大语言模型（LLM）界面中那些令人印象深刻的“演绎动画”是否真的表明AI正在逐步推导出结论。这项新研究来自印度阿拉哈巴德信息技术学院（IIITA）和德里国家电子与信息技术研究所（NIELIT）的两位研究人员。作者发现，在几乎所有情况下，跨越大量专有和开源LLM，呈现给用户的思维链推理都是“装饰性的”，是在AI已经得出将要呈现的答案之后编造出来的。在测试了ChatGPT5.4、Claude Opus 4.6-R和DeepSeek-V3.2等模型后，作者发现，移除所呈现的10-15个CoT指示中的任何一个步骤，实际上改变答案的几率低于17%，并且任何一个单独的步骤都足以恢复正确答案。作者指出*： ‘医疗、金融和法律领域的AI监管框架日益要求“可解释的”[系统]。我们的结果表明，标准方法——要求模型展示其工作过程——提供了一种透明的假象。‘这些解释流畅、符合领域规范，但以一种微妙的方式出错：它们描述的是模型并未执行的推理过程。‘一个写出“嗜酸性粒细胞增多提示栓塞过程”的医疗AI，未必真的考虑了嗜酸性粒细胞增多。它可能只是从问题主干模式匹配到了答案，并在事后编造了推理过程。‘根据欧盟《人工智能法案》（第13条），高风险AI系统必须提供“关于所涉逻辑的有意义信息”。我们的研究结果表明，大多数前沿模型的思维链解释并不符合这一标准——得出答案所“涉及的逻辑”并非解释中所描述的逻辑。’ 作者观察到，测试的两个较小模型确实打破了这种普遍的欺骗模式，但仅限于非常特定的情况：MiniMax-M25在处理情感分析时表现出真正的步骤依赖性，而Kimi-K25则显示出对CoT处理的真实需求达到39%——但仅限于处理主题分类时。在所有其他情况下，与那些更大、更知名的模型一样，所展示的推理步骤似乎完全是表演性的，模型反而使用了捷径。小模型更努力除了测试的十个API模型外，作者还试验了多个较小的开放权重模型†，参数范围在0.8到80亿之间（这在当今相当适中），并发现这些更小的AI确实在进行推理，并且它们展示的CoT通常是——尽管并非总是——得出有用且准确结论所必需的。较小模型表现出55%的步骤推理需求，相比之下，较大模型的平均需求仅为11%。作者断言，较大模型‘已经学会完全绕过多步推理，通过其书面推理并未反映的内部捷径得出正确答案’。作者假设，模型在某个任务上表现得越好，它就越不需要推理步骤（尽管这是对摒弃理性分析、偏向训练数据分布中最强答案这一概念的更委婉说法）††： ‘小模型在数学问题上忠实地进行推理，因为它们必须这样做——它们缺乏走捷径所需的参数化知识。‘前沿模型已经内化了足够的数学模式，使得显式的链式推理变得多余。CoT仍然能提高准确性（通过结构化生成过程），但各个步骤不再承载独特信息。’方法用于测试模型的方法基于三个标准：必要性依次移除每个CoT步骤，然后检查答案是否改变。任何移除后改变结果的步骤都被计为“必要”；充分性隔离每个步骤，测试其单独是否能恢复答案，任何这样的步骤都被计为充分；而顺序敏感性打乱步骤顺序，观察答案是否改变（因为真正的推理应依赖于顺序而非关键词）。综合来看，高必要性和低充分性表明真实的逐步推理，而低必要性和高充分性则表明解释可以被移除、重新排列或简化而不影响结果。作者指出，这种方法无需白盒模型访问权限，因为它只需几美元即可在闭源、仅限API的模型（如ChatGPT和Claude）上执行，当然，在可以本地安装的开放权重模型上同样可以成功执行。他们还指出，先前的研究要么使用了便于内部分析的开放权重模型，要么使用了更简单的二元是/否答案，这些答案远不能揭示API模型的内部推理过程。...