人工智能
当人工智能思考更多时变得更愚蠢:逆向扩展悖论

人工智能的发展一直基于这样一个理念:给机器更多的时间、数据和计算能力可以提高其性能。这一信念指导了多年来的人工智能研究和开发的方向。这种信念背后的关键假设是,较大的模型和更多的资源将会产生更智能的系统。然而,最近的研究开始质疑这种方法。像OpenAI的o1系列、Anthropic的Claude和DeepSeek的R1这样的大型语言模型是为了解决问题而一步步构建的,类似于人类的推理。研究人员预计,这些模型如果有更多的时间来思考和处理信息,会做出更好的决策。然而,新的研究表明,事实可能恰恰相反。当你给这些模型更多的时间来思考时,它们有时会表现得更差,尤其是在简单的任务中。这一现象被称为逆向扩展,它挑战了“更多的计算能力和更深入的推理总是会带来更好的结果”的信念。
理解逆向扩展现象
“逆向扩展”现象最初是通过Anthropic研究人员的受控实验发现的。与传统的扩展规律不同,这些研究发现,给人工智能更多的时间来推理可能会降低其在不同任务中的准确性。
研究团队在四个领域创建了任务:简单的计数任务、回归任务、逻辑推理任务和复杂的AI安全场景。结果令人惊讶。在某些情况下,最初给出正确答案的模型在被给予更多时间来处理后开始给出错误的答案。
例如,在一个简单的计数任务中,如“如果你有一个苹果和一个橙子,你有多少个水果?”,Claude模型经常被额外的细节分散注意力,当给予更多的时间来推理时。它们无法给出正确的答案,即两个。在这些情况下,模型过度思考,最终犯了错误。
苹果公司最近的研究也支持了这些发现。他们在受控的谜题环境中进行了实验,如汉诺塔和河流过渡,而不是在标准基准上。他们的研究发现了三个模式:在简单的任务中,标准的大型语言模型比推理模型更有效;在中等复杂度的任务中,推理模型具有优势;在非常复杂的任务中,两种类型的模型都难以应对。
人工智能推理失败的五种方式
研究人员已经发现,人工智能模型在推理更长时间后可能会以五种常见方式失败:
- 不相关的干扰: 当人工智能模型思考太长时间时,它们经常被不重要的细节分散注意力。这就像一个学生在思考问题时忽略了问题的主要点。
- 过度拟合问题框架: 一些模型,如OpenAI的o系列,过度关注问题的表述。虽然它们避免了干扰,但它们缺乏灵活性,过度依赖问题的表述。
- 伪相关性转移: 随着时间的推移,人工智能模型可能会从合理的假设转变为依赖于误导性的相关性。例如,在回归任务中,模型最初考虑相关的特征,但当它们被给予更多的时间来思考时,它们可能会开始关注不相关的特征并给出错误的结果。
- 焦点退化: 随着任务的复杂性增加,人工智能模型发现很难保持其推理的清晰和集中。
- 放大令人担忧的行为: 更多的时间来推理可能会使负面的行为变得更糟糕。例如,Claude的Sonnet 4在被给予更多的时间来思考关闭场景时表现出更强的自我保护倾向。
人工智能推理如何处理问题复杂性
苹果研究人员引入了“推理幻觉”这个术语来解释当推理模型面临不同复杂度的任务时会发生什么。他们在受控的谜题环境中测试人工智能推理模型,如汉诺塔、跳棋、河流过渡和积木世界。通过逐渐增加这些谜题的难度,他们可以看到模型在每个级别的表现。这种方法帮助他们不仅仅关注最终的答案,还关注模型如何得出这些答案。研究发现,模型的性能基于问题复杂度有三个明显的模式:
- 对于简单的谜题,如只有一个或两个盘子的汉诺塔,标准的大型语言模型更有效地给出了正确的答案。人工智能推理模型经常使问题变得过于复杂,通过他们长的推理链,最终得出错误的答案。
- 在中等复杂度的谜题中,人工智能推理模型表现更好。它们可以将问题分解为清晰的步骤,这帮助它们更有效地解决多步骤的挑战,而标准的大型语言模型则难以做到这一点。
- 在非常复杂的谜题中,如有多个盘子的汉诺塔,两种类型的模型都难以应对。推理模型经常减少了它们的推理努力,即使它们有足够的计算资源。这一“放弃”的行为表明了它们在扩展推理方面的关键弱点。
人工智能评估的挑战
逆向扩展现象表明了人工智能模型评估中的重大问题。许多当前的基准仅衡量最终答案的准确性,而不是推理过程的质量。这可能会导致对模型的真实能力的错误印象。一个模型可能在测试中表现良好,但仍然可能在新颖或不寻常的问题上失败。
逆向扩展还指出了推理基准和使用它们的弱点。许多模型使用捷径和模式识别,而不是真正的推理。这可能会使它们看起来比实际上更智能,但它们的性能往往会在现实世界的情况下下降。这一问题与人工智能的更大问题有关,例如幻觉和可靠性。随着模型变得更擅长产生令人信服的解释,区分真正的推理和编造的答案变得更加困难。
人工智能推理的未来
逆向扩展悖论既是人工智能的挑战,也是机遇。它表明,增加计算能力并不总能使人工智能变得更智能。我们需要重新思考如何设计和训练能够处理不同复杂度问题的人工智能系统。新的模型可能需要决定何时暂停思考,何时快速响应。在这方面,人工智能可以从认知架构中受益,例如双重过程理论作为指导原则。这些架构解释了人类思维如何将快速的直觉反应与缓慢的谨慎推理相结合。逆向扩展也提醒我们,在将人工智能用于关键领域之前,必须完全理解人工智能的决策过程。随着人工智能在医疗保健、法律和商业等领域被用于决策,其确保这些系统推理正确的重要性变得更加重要。
结论
逆向扩展悖论教会我们一个关于人工智能开发的重要教训。更多的时间和计算能力并不总能使人工智能变得更有能力或更可靠。真正的进步来自于理解人工智能何时应该推理以及其局限性。对于组织和研究人员来说,使用人工智能作为工具而不是人类判断力的替代品是至关重要的。选择每个任务的正确模型是必要的。随着人工智能成为重要决策的一部分,仔细评估其优势和劣势变得更加重要。人工智能的未来取决于正确的思考,而不是更多的思考。












