人工智能
当更多思考使 AI 变得愚蠢:逆向缩放悖论

人工智能的发展一直基于这样的理念:给机器更多的时间、数据和计算能力可以提高其性能。这一信念指导了 AI 研究和开发的方向多年。这种信念背后的关键假设是,较大的模型和更多的资源将创造出更智能的系统。然而,最近的 研究 开始质疑这种方法。像 OpenAI 的 o1 系列、Anthropic 的 Claude 和 DeepSeek 的 R1 这样的大型语言模型,是为了解决问题而一步步构建的,类似于人类的推理。研究人员预计,给这些模型更多的时间来思考和处理信息将会提高它们的决策能力。然而,新的 研究 表明,事实可能相反。当你给这些模型更多的时间来思考时,它们有时会表现得更差,特别是在简单的任务中。这一效果被称为逆向缩放。它挑战了这样一种信念:更多的计算能力和更深的推理总是会带来更好的结果。这些发现对我们如何在现实世界中设计和使用 AI 有着重大的影响。
理解逆向缩放现象
“逆向缩放” 现象最初是通过 Anthropic 研究人员的受控实验发现的。与传统的缩放法则不同,后者认为更多的计算会提高性能,这些研究发现,给 AI 更多的时间来推理可能会降低其在不同任务中的准确性。
研究团队在四个领域创建了任务:带有干扰的简单计数、带有无关特征的回归、带有约束跟踪的推理和复杂的 AI 安全场景。结果令人惊讶。在某些情况下,最初给出正确答案的模型在被给予更多时间来处理后开始给出错误的答案。
例如,在一个简单的计数任务中,如 “如果你有一个苹果和一个橙子,你有多少个水果?”,Claude 模型经常被额外的细节分散注意力,当给予它们更多的时间来推理时。它们无法给出正确的答案,即两个。在这些情况下,模型过度思考并犯了错误。
Apple 最近的 研究 也支持了这些发现。他们在受控的拼图环境中进行了实验,例如汉诺塔和河流交叉,而不是在标准基准上。他们的研究发现了三个模式:在简单的任务中,标准的 AI 模型比推理模型更好;在中等复杂度的任务中,推理模型具有优势;在非常复杂的任务中,两种类型的模型都失败了。
AI 推理失败的五种方式
研究人员已经发现,AI 模型在推理更长时间后可能以五种常见的方式失败:
- 被无关紧要的事物分散注意力: 当 AI 模型思考太长时间时,它们经常被不重要的细节分散注意力。这就像一个学生在思考问题时忽略了问题的主要点。
- 过度拟合问题框架: 一些模型,例如 OpenAI 的 o 系列,过度关注问题的呈现。虽然它们避免了干扰,但它们不够灵活,依赖于问题的表述。
- 伪相关性转变: 随着时间的推移,AI 模型可能会从合理的假设转变为依赖于误导性的相关性。例如,在回归任务中,模型最初考虑相关的特征,但当它们被给予更多的时间来思考时,它们可能开始关注无关的特征并给出错误的结果。
- 注意力退化: 随着任务变得更加复杂,AI 模型发现很难保持其推理清晰和集中。
- 放大令人担忧的行为: 更多的思考时间可能会使负面行为变得更糟。例如,当给予额外的时间来思考关闭场景时,Claude 的 Sonnet 4 显示出更强的自我保护倾向。
AI 推理如何处理问题复杂性
Apple 研究人员引入了 “思考的幻觉” 这个术语来解释推理模型面对不同复杂度任务时会发生什么。他们没有专注于数学问题或编码测试,而是将 AI 推理模型测试在受控的拼图环境中,例如汉诺塔、跳棋、河流交叉和积木世界。通过逐渐增加这些拼图的难度,他们可以看到模型在每个级别的表现。这种方法帮助他们检查不仅仅是最终答案,还有模型如何得出这些答案。研究发现,模型的性能基于问题复杂性有三个明显的模式:
- 对于简单的拼图,例如只有一个或两个盘子的汉诺塔,标准的大型语言模型(LLM)更高效地给出了正确的答案。AI 推理模型经常使事情变得过于复杂,通过它们长的推理链,通常会导致错误的答案。
- 在中等复杂度的拼图中,AI 推理表现更好。它们可以将问题分解为清晰的步骤,这有助于它们比标准的 LLM 更有效地解决多步骤的挑战。
- 在非常复杂的拼图中,例如有许多盘子的汉诺塔,两种类型的模型都难以应对。推理模型经常减少了它们的推理努力,即使它们有足够的计算资源。这一 “放弃” 的行为表明了它们在缩放推理方面的关键弱点。
AI 评估的挑战
逆向缩放现象表明了我们评估 AI 模型的方法存在着重大的问题。许多当前的基准仅衡量最终答案的准确性,而不是推理过程的质量。这可能会导致对模型的真实能力产生错误的印象。一个模型可能在测试中表现良好,但仍可能在新的或不寻常的问题中失败。
逆向缩放还指出了推理基准和我们使用它们的弱点。许多模型使用捷径和模式识别,而不是真正的推理。这可能使它们看起来比实际上更聪明,但它们的性能往往会在现实世界的情况下下降。这一问题与更大的 AI 问题相关,例如幻觉和可靠性。随着模型变得更擅长产生令人信服的解释,区分真正的推理和编造的答案变得更加困难。
AI 推理的未来
逆向缩放悖论既是 AI 的挑战,也是机遇。它表明,增加计算能力并不总能使 AI 变得更智能。我们需要重新思考如何设计和训练能够处理不同复杂度问题的 AI 系统。新的模型可能需要决定何时暂停思考,何时快速响应。在这方面,AI 可能会从认知架构中受益,例如 双过程理论,作为指导原则。这些架构解释了人类思维如何将快速的本能反应与缓慢的谨慎推理相结合。逆向缩放也提醒我们,在使用 AI 进行关键领域的决策之前,必须充分理解 AI 如何做出决策。随着 AI 在医疗保健、法律和商业等领域被更多地用于决策,确保这些系统推理正确变得更加至关重要。
结论
逆向缩放悖论教会我们一个关于 AI 开发的重要教训。更多的时间和计算能力并不总能使 AI 更加胜任或可靠。真正的进步来自于了解何时应该推理和了解其局限性。对于组织和研究人员来说,使用 AI 作为工具而不是人类判断力的替代品至关重要。选择适合每个任务的正确模型是必要的。随着 AI 成为重要决策的一部分,我们必须仔细评估其优势和劣势。AI 的未来取决于正确的思考,而不是仅仅思考更多。
