人工智能
为什么法学硕士(LLM)总是想着简单的问题,却放弃困难的问题

人工智能取得了显著进步,大型语言模型(LLM)及其先进的对应物, 大型推理模型(LRM)重新定义机器处理和生成类似人类文本的方式。这些模型可以撰写文章、回答问题,甚至解决数学问题。然而,尽管这些模型拥有令人印象深刻的能力,却也表现出一些奇怪的行为:它们常常将简单的问题复杂化,而复杂的问题却难以解决。最近一项 根据一项研究, 苹果研究人员的研究成果为这一现象提供了宝贵的见解。本文探讨了 LLM 和 LRM 为何会出现这种现象,以及这对 AI 的未来意味着什么。
了解 LLM 和 LRM
要理解 LLM 和 LRM 为何如此运作,我们首先需要明确这些模型的本质。LLM(例如 GPT-3 或 BERT)基于海量文本数据集进行训练,以预测序列中的下一个单词。这使得它们在文本生成、翻译和摘要等任务上表现出色。然而,它们并非天生为推理而设计的,推理涉及逻辑推理或问题解决。
LRM 是一类旨在弥补这一差距的新型模型。它们融合了以下技术: 思想链(CoT) 提示,模型在提供最终答案之前会生成中间推理步骤。例如,在解决数学问题时,LRM 可能会将其分解为几个步骤,就像人类一样。这种方法可以提高复杂任务的性能,但在处理不同复杂程度的问题时会面临挑战,正如苹果的研究表明的那样。
研究
苹果研究团队采取了不同的 的途径 评估 LLM 和 LRM 的推理能力。他们没有依赖数学或编码测试等传统基准测试,因为这些测试容易受到数据污染(模型会记住答案)的影响,而是创建了可控的谜题环境。这些环境包括一些著名的谜题,例如 汉诺塔, 跳棋, 渡河以及 Blocks World。例如,汉诺塔游戏需要按照特定规则在柱子之间移动圆盘,随着圆盘数量的增加,复杂性也会随之增加。通过系统地调整这些谜题的复杂性,同时保持一致的逻辑结构,研究人员观察了模型在各种难度下的表现。这种方法使他们不仅可以分析最终答案,还可以分析推理过程,从而更深入地了解这些模型的“思考”方式。
关于过度思考和放弃的发现
该研究根据问题的复杂性确定了三种不同的绩效制度:
- 在低复杂度水平下,标准 LLM 通常比 LRM 表现更好,因为 LRM 往往会过度思考,产生不必要的额外步骤,而标准 LLM 效率更高。
- 对于中等复杂度的问题,LRM 表现出卓越的性能,因为它们能够生成详细的推理痕迹,帮助它们有效地应对这些挑战。
- 对于高复杂度问题,LLM 和 LRM 都会彻底失败;尤其是 LRM,尽管难度增加了,但其准确性却彻底崩溃,推理力度也减少了。
对于简单的谜题,例如只有一两个圆盘的汉诺塔,标准 LLM 能够更高效地提供正确答案。然而,LRM 往往会过度思考这些问题,即使答案很简单,也会产生冗长的推理轨迹。这表明 LRM 可能会模仿训练数据中夸张的解释,从而导致效率低下。
在中等复杂度的场景中,LRM 表现更佳。它们能够生成详细的推理步骤,从而能够解决需要多个逻辑步骤的问题。这使得它们的表现优于难以保持连贯性的 LLM 标准模型。
然而,对于高度复杂的谜题,例如包含多个圆盘的汉诺塔,两种模型都完全失败了。令人惊讶的是,尽管拥有足够的计算资源,但随着复杂度超过一定水平,LRM 反而减少了推理工作量。这种“放弃”行为表明其推理能力的扩展能力存在根本性限制。
为什么会这样
对简单谜题的过度思考可能源于 LLM 和 LRM 的训练方式。这些模型从包含简洁和详细解释的海量数据集中学习。对于简单的问题,它们可能会默认生成冗长的推理痕迹,模仿训练数据中冗长的示例,即使直接给出答案就足够了。这种行为并非缺陷,而是训练方式的体现,训练方式优先考虑推理而非效率。
在复杂谜题上的失败反映了 LLM 和 LRM 无法学习概括逻辑规则。随着问题复杂性的增加,它们对模式匹配的依赖逐渐减弱,导致推理不一致,性能下降。研究发现,LRM 无法使用明确的算法,并且在不同的谜题中推理不一致。这凸显了虽然这些模型可以模拟推理,但它们并不能像人类那样真正理解其底层逻辑。
多元视角
这项研究引发了人工智能界的讨论。一些专家 争论 这些发现可能是 曲解他们认为,尽管 LLM 和 LRM 的推理能力可能不如人类,但它们仍然能够在一定复杂度范围内有效解决问题。他们强调,人工智能中的“推理”无需模仿人类认知即可发挥作用。同样, 讨论 Hacker News 等平台上的评论称赞了这项研究的严谨方法,但也强调需要进一步研究来改进人工智能推理。这些观点强调了关于人工智能推理的构成以及我们应如何评估它的持续争论。
影响和未来方向
这项研究的发现对人工智能发展具有重要意义。虽然逻辑推理模型 (LRM) 代表了在模仿人类推理方面取得的进步,但它们在处理复杂问题和扩展推理能力方面的局限性表明,当前模型距离实现可泛化的推理还很远。这凸显了对新的评估方法的需求,这些方法不仅关注最终答案的准确性,更注重推理过程的质量和适应性。
未来的研究应致力于增强模型准确执行逻辑步骤的能力,并根据问题的复杂性调整其推理力度。开发能够反映现实世界推理任务(例如医学诊断或法律论证)的基准,可以为人工智能能力提供更有意义的洞察。此外,解决模型对模式识别的过度依赖并提升其泛化逻辑规则的能力,对于推进人工智能推理至关重要。
底线
该研究对LLM和LRM的推理能力进行了批判性分析。结果表明,这些模型虽然过度分析简单的谜题,但在处理更复杂的谜题时却举步维艰,这既暴露了它们的优势,也暴露了它们的局限性。尽管它们在某些情况下表现良好,但它们在处理高度复杂问题方面的不足凸显了模拟推理与真正理解之间的差距。该研究强调了开发一种能够自适应地推理不同复杂程度的人工智能系统的需求,使其能够像人类一样解决不同复杂程度的问题。












