人工智能
大型语言模型并非真正的推理——它们只是计划得非常好
像OpenAI的o3、Google的Gemini 2.0和DeepSeek的R1这样的大型语言模型(LLM)已经在解决复杂问题、生成类似人类的文本甚至编写精确的代码方面取得了显著进步。这些先进的LLM通常被称为“推理模型”,因为它们具有分析和解决复杂问题的卓越能力。但是,这些模型是否真正“推理”,还是只是异常擅长“计划”?这种区别是微妙但深刻的,对于我们理解LLM的能力和局限性具有重要的影响。
为了理解这种区别,让我们比较两个场景:
- 推理:一名侦探调查一桩犯罪案件,必须将相互矛盾的证据拼凑起来,推断出哪些证据是虚假的,并根据有限的证据得出结论。这个过程涉及推理、矛盾解决和抽象思维。
- 计划:一名棋手计算出最好的移动序列来将死对手。
虽然这两个过程都涉及多个步骤,但侦探进行深入的推理以得出结论,而棋手主要是进行计划,选择最优的移动序列来赢得游戏。正如我们将看到的,LLM更像棋手而不是侦探。
理解差异:推理与计划
为了理解为什么LLM擅长计划而不是推理,首先需要了解这两个术语之间的区别。推理是使用逻辑和推理从给定的前提中得出新结论的过程。它涉及识别和纠正不一致性,产生新见解而不是提供信息,在模糊情况下做出决定,并参与因果理解和反事实思维,如“如果”场景。
计划另一方面,侧重于结构化一系列行动以实现特定目标。它依赖于将复杂任务分解为较小的步骤,遵循已知的解决问题策略,将以前学习的模式适应于类似的问题,并执行结构化序列而不是产生新见解。虽然推理和计划都涉及步骤式处理,但推理需要更深层次的抽象和推理,而计划遵循既定的程序而不产生根本性的新知识。
LLM如何“推理”
现代LLM,如OpenAI的o3和DeepSeek-R1,采用了一种称为链式思维(CoT)的技术来提高其解决问题的能力。这种方法鼓励模型将问题分解为中间步骤,模仿人类逻辑地思考问题。要了解它的工作原理,考虑一个简单的数学问题:
如果一个商店以每个2美元的价格出售苹果,但如果你购买超过5个苹果,则每个苹果可享受1美元的折扣,那么7个苹果的成本是多少?
使用CoT提示的典型LLM可能会按以下方式解决它:
- 确定正常价格:7 * 2美元 = 14美元。
- 确定折扣是否适用(因为7 > 5)。
- 计算折扣:7 * 1美元 = 7美元。
- 从总价中减去折扣:14美元 – 7美元 = 7美元。
通过明确地列出一系列步骤,模型最小化了由于一次性预测答案而产生的错误的可能性。虽然这种一步一步的分解使LLM看起来像是在推理,但它本质上是一种结构化的解决问题,类似于遵循一步一步的食谱。另一方面,真正的推理过程可能会认识到一个一般规则:如果折扣适用于超过5个苹果,那么每个苹果的价格就是1美元。人类可以立即推断出这样的规则,但LLM不能,因为它只是遵循一个结构化的计算序列。
为什么链式思维是计划,而不是推理
虽然链式思维(CoT)已经提高了LLM在逻辑任务(如数学文字问题和编码挑战)上的性能,但它并不涉及真正的逻辑推理。这是因为CoT遵循程序化知识,依赖于结构化步骤而不是产生新见解。它缺乏对因果关系和抽象关系的真正理解,这意味着模型不参与反事实思维或考虑需要超出已见数据的直觉的假设情景。另外,CoT不能从根本上改变其方法,超出它所训练的模式,限制了它进行创造性推理或在陌生场景中适应的能力。
LLM如何成为真正的推理机器
那么,LLM需要什么才能真正像人类一样推理?以下是一些LLM需要改进的关键领域以及实现它的潜在方法:
- 符号理解:人类通过操作抽象符号和关系进行推理。LLM缺乏真正的符号推理机制。将符号人工智能或混合模型(将神经网络与形式逻辑系统相结合)集成到LLM中可以增强其进行真正推理的能力。
- 因果推理:真正的推理需要理解因果关系,而不仅仅是统计相关性。一个进行推理的模型必须从数据中推断出潜在的原理,而不是仅仅预测下一个标记。因果人工智能(显式建模因果关系)的研究可能有助于LLM从计划转向推理。
- 自我反思和元认知:人类不断地通过问自己“这个结论有意义吗?”来评估自己的思维过程。LLM没有自我反思的机制。构建能够批判性地评估自己输出的模型将是朝着真正推理迈出的一步。
- 常识和直觉:尽管LLM可以访问大量知识,但它们经常难以进行基本的常识推理。这是因为它们没有现实世界的经验来塑造它们的直觉,并且不能轻松地识别出人类可以立即识别出的荒谬之处。它们也缺乏一种方法来将现实世界的动态纳入决策中。改进这一点的一种方法可能是构建一个具有常识引擎的模型,这可能涉及集成现实世界的感官输入或使用知识图来帮助模型更好地理解人类的世界。
- 反事实思维:人类推理通常涉及问“如果事情不同会怎样?”LLM在这些“如果”场景中挣扎,因为它们受到训练数据的限制。为了使模型在这些情况下更像人类思考,它们需要模拟假设场景,并理解变量的变化如何影响结果。它们还需要一种方法来测试不同的可能性并产生新见解,而不是仅仅根据已见数据进行预测。没有这些能力,LLM无法真正想象替代的未来——它们只能处理已学到的内容。
结论
虽然LLM可能看起来像是在推理,但它们实际上是依靠计划技术来解决复杂问题。不论是解决数学问题还是进行逻辑推理,它们主要是以结构化的方式组织已知的模式,而不是深入地理解背后的原理。这种区别在人工智能研究中至关重要,因为如果我们将复杂的计划误认为是真正的推理,我们就有可能高估人工智能的真实能力。
真正的推理人工智能将需要在标记预测和概率规划之外取得根本性的进步。它将需要在符号逻辑、因果理解和元认知方面取得突破。直到那时,LLM将仍然是结构化问题解决的强大工具,但它们不会真正像人类一样思考。












