人工智能

AI 推理的幻觉:为什么链式思维可能不是我们想象的那样

mm

大型语言模型(LLMs)已经以其能够分解复杂问题的能力给我们留下了深刻的印象。当我们要求 LLMs 解决一个数学问题时,它们现在会一步一步地展示其逻辑推理过程,直到得出答案。这种方法被称为链式思维(CoT)推理,使得 AI 系统在思维过程中看起来更加像人类。但是,如果这种令人印象深刻的推理能力实际上是一种幻觉呢?亚利桑那州立大学最近的一项研究表明,所谓的真正逻辑思维可能只是一种复杂的模式匹配技术。在本文中,我们将探讨这一发现及其对我们设计、评估和信任 AI 系统的影响。

当前理解的问题

链式思维提示已经成为 AI 推理领域最重要的进展之一。它使得模型能够通过展示中间步骤来解决从数学问题到逻辑谜题的一切问题。这种明显的推理能力使得许多人相信 AI 系统正在发展类似于人类思维的推理能力。然而,研究人员已经开始质疑这一信念。

在最近的一项研究中,他们观察到,当被问及诸如美国是否成立于闰年还是平年等问题时,LLMs 会给出不一致的答案。虽然它们正确地确定了 1776 年是闰年,但模型仍然得出结论,美国成立于平年。在这种情况下,模型展示了对规则的了解并展示了逻辑步骤,但得出了相互矛盾的结论。

这种例子表明,可能存在一种根本性的差距 zwischen 所谓的推理和实际的逻辑推理。

理解 AI 推理的新视角

这项研究的关键创新是引入了“数据分布镜头”来检查链式思维(CoT)推理。研究人员假设 CoT 是一种高级的模式匹配技术,它在训练数据的统计规律上运行,而不是真正的逻辑推理。模型生成的推理路径近似于它以前见过的内容,而不是执行逻辑操作。

为了测试这一假设,研究人员创建了 DataAlchemy,一种受控的实验环境。他们没有使用预训练的 LLMs 和其复杂的训练历史,而是从头开始训练较小的模型,以精心设计的任务。这种方法消除了大规模预训练的复杂性,并使得可以系统地测试分布偏移如何影响推理性能。

研究人员专注于简单的变换任务,涉及字母序列。例如,他们教导模型应用诸如旋转字母表(A 变成 N,B 变成 O)或在序列中移动位置(APPLE 变成 EAPPL)的操作。通过组合这些操作,研究人员创建了具有不同复杂度的多步骤推理链。这种方法使他们能够精确控制模型在训练期间学习的内容,然后测试它们如何推广到新情况。这种控制水平对于大型商业 AI 系统来说是不可能的,因为它们是在大量多样化的数据集上训练的。

AI 推理何时会失效

研究人员在三个关键维度上测试了 CoT 推理,这些维度可能会使现实世界应用与训练数据有所不同。

任务泛化 检查模型如何处理它们以前从未遇到过的问题。当在与训练数据相同的转换上进行测试时,模型实现了完美的性能。然而,轻微的变化会导致它们的推理能力出现戏剧性的失败。即使新任务是熟悉操作的组合,模型也无法正确地应用它们所学的模式。

最令人担忧的见解之一是模型经常产生看似合乎逻辑的推理步骤,但这些步骤会导致不正确的答案。在某些情况下,它们会通过巧合产生正确的答案,同时遵循完全错误的推理路径。这些发现表明,模型本质上是匹配表面模式,而不是理解潜在的逻辑。

长度泛化 测试模型是否能够处理比训练数据中更长或更短的推理链。研究人员发现,训练长度为 4 的模型在测试长度为 3 或 5 时完全失败,尽管这些变化相对较小。此外,模型会试图将其推理强制到熟悉的模式长度,通过不恰当地添加或删除步骤,而不是适应新的要求。

格式泛化 评估模型对问题表述的表面变化的敏感性。即使是插入噪声令牌或轻微修改提示结构等小变化,也会导致性能显著下降。这表明模型在训练数据的确切格式模式上有多么依赖。

脆弱性问题

在所有三个维度上,研究都揭示了一个一致的模式:CoT 推理在应用于类似训练示例的数据时效果良好,但在遇到中等程度的分布偏移时变得脆弱,容易失败。所谓的推理能力基本上是一个“脆弱的幻觉”,它会在模型遇到陌生情况时消失。

这种脆弱性可能以多种方式表现出来。模型可以生成流畅、结构良好的推理链,但完全错误。它们可能遵循完美的逻辑形式,同时缺乏基本的逻辑联系。有时它们会通过数学巧合产生正确的答案,同时展示有缺陷的推理过程。

研究还表明,使用少量新数据进行监督微调可以快速恢复性能,但这只是扩展了模型的模式匹配库,而不是开发真正的推理能力。这就像通过记忆特定示例来学习一种新类型的数学问题,而不是理解潜在的数学原理。

现实世界的影响

这些发现可能会对我们部署和信任 AI 系统的方式产生严重的影响。在高风险领域,如医学、金融或法律分析,生成听起来合理但基本上有缺陷的推理的能力可能比简单的错误答案更危险。逻辑思维的出现可能会导致用户过度信任 AI 结论。

研究表明,AI 实践者应该遵循几条重要的指导方针。首先,组织不应该将 CoT 视为通用问题解决方案。使用类似训练集的数据进行标准测试方法不足以评估真正的推理能力。相反,严格的离分布测试对于了解模型的局限性至关重要。

第二,模型生成“流畅的废话”的趋势需要仔细的人类监督,特别是在关键应用中。AI 生成的推理链的连贯结构可能会掩盖根本的逻辑错误,这些错误可能不会立即显现出来。

超越模式匹配

也许最重要的是,这项研究挑战 AI 社区超越表面层面的改进,开发真正具有推理能力的系统。当前依赖于扩大数据和参数的方法可能会遇到根本限制,如果它们主要是复杂的模式匹配系统。

这项工作并没有贬低当前 AI 系统的实用价值。规模化的模式匹配可以在许多应用中非常有效。然而,它强调了了解这些能力的真实性质的重要性,而不是将类似人类的推理归因于它们。

前进之路

这项研究提出了关于 AI 推理未来的重要问题。如果当前的方法由于其训练分布而具有根本的局限性,那么什么样的替代方法可能会带来更强大的推理能力?如何开发评估方法来区分模式匹配和真正的逻辑推理?

研究结果还强调了 AI 开发中透明度和适当评估的重要性。随着这些系统变得更加复杂和令人信服,它们的输出之间的差距可能会变得越来越危险,如果不正确理解。

结论

LLMs 中的链式思维推理往往反映出模式匹配,而不是真正的逻辑。虽然输出看起来令人信服,但在新条件下可能会失败,这引发了人们对医学、法律和科学等关键领域的担忧。这项研究强调了更好地测试和更可靠地开发 AI 推理的必要性。

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授,拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉,他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目,并担任人工智能顾问。