人工智能

自信地错误：为什么最智能的 AI 模型在纠正自己方面是最差的

Published January 23, 2026

Updated April 1, 2026

Dr. Tehseen Zia

许多在 AI 社区相信下一个重大革命将是自我改进 AI 的时代，在那里 AI 可以在没有人类干预的情况下改进自己。论点是：随着模型变得更加强大，它们最终将从数据中学习，并从自身中学习。每次迭代都会改进前一次。错误将被识别、纠正和消除。随着时间的推移，这种改进的复合可能会引发智能爆炸，在那里 AI 开始构建 AI。这一愿景是围绕递归 AI、自主代理和长期期待的智能爆炸的兴奋的基础。在这一愿景的中心是 AI 系统可靠地纠正自己的错误的能力。然而，没有强大的自我纠正，自我改进是不可能实现的。一个无法识别自己错误的系统无法从自己的输出中有意义地学习，无论它看起来多么强大。

目前的假设一直是，自我纠正会随着模型变得更加强大而自然出现。这种信念感觉很直观。毕竟，更加强大的模型知道的更多，推理得更好，并且在各项任务中表现良好。然而，最近的研究揭示了一个违反直觉的发现，即更加先进的模型往往难以纠正自己的错误，而较弱的模型在自我纠正方面表现得更好。这种现象，被称为准确性-纠正悖论，迫使我们重新思考不仅仅是如何 AI 系统推理，还有我们真正为自我改进 AI 做好了多少准备。

理解自我改进 AI

自我改进 AI 指的是一种可以识别自己的错误、从中学习并迭代改进其行为的 AI 系统。与传统的模型不同，传统模型仅依赖于人类策划的训练数据，自我改进 AI 将积极地评估自己的输出并随时间适应。理论上，这创建了一个反馈循环，其中每个学习周期建立在上一个周期的基础上，导致了所谓的智能爆炸。

但是，实现这一目标远非微不足道。自我改进需要的不仅仅是原始的计算能力或更大的数据集。它需要可靠的自我评估，包括检测错误、识别错误源和产生纠正解决方案的能力。没有这些能力，模型无法区分正确的推理路径和有缺陷的路径。迭代错误的解决方案，无论速度多快，都只会强化错误，而不是改进性能。

这种区别是至关重要的。在人类中，从错误中学习往往涉及反思、假设测试和课程更正。对于 AI，这些过程必须编码在系统本身中。如果模型无法可靠地识别和纠正其错误，它就无法有意义地参与自我改进循环，递归智能的承诺仍然是理论上的，而不是实际的。

准确性-纠正悖论

自我纠正通常被视为一种单一的能力，但实际上它结合了必须分别考虑的几个不同的能力。至少，我们可以将其分为三个可衡量的子能力：错误检测、错误定位或源检测和错误纠正。错误检测询问模型是否可以识别其输出是错误的。错误定位关注于识别错误发生的位置。错误纠正指的是产生纠正解决方案的能力。

通过分别衡量这些能力，研究人员揭示了当前系统的重要见解。他们显示了模型在这些能力方面的差异很大。有些模型在检测错误方面很好，但在纠正方面很差。其他模型几乎无法识别错误，但仍然可以通过重复尝试来纠正它们。更重要的是，这些见解显示，一个领域的改进不能保证其他领域的改进。

当研究人员测试先进模型在复杂的数学推理任务时，这些模型犯了较少的错误。这部分是预期的。但是，意外的是：当这些模型犯了错误时，它们不太可能自己纠正错误。相反，较弱的模型尽管犯了更多错误，但在没有外部反馈的情况下显著更好地纠正了自己的错误。换句话说，研究人员发现准确性和自我纠正朝着相反的方向移动，这被称为准确性-纠正悖论。这种发现挑战了 AI 开发中一个深深的假设。我们经常假设扩大模型可以提高每个方面的智能。悖论表明，这个假设并不总是成立，尤其是对于内省能力。

错误深度假设

这种悖论提出了一个明显的问题：为什么较弱的模型在自我纠正方面优于较强的模型？研究人员通过检查模型所犯错误的类型找到了答案。他们发现，较强的模型犯了较少的错误，但它们所犯的错误更“深”、更难以纠正。相反，较弱的模型犯了“浅”错误，可以在第二次尝试中轻松纠正。

研究人员将这种见解称为错误深度假设。他们将错误分为设置错误、逻辑错误和计算错误。设置错误涉及误解问题。逻辑错误发生在推理路径结构上有缺陷时。计算错误是简单的算术错误。对于 GPT-3.5，错误的大多数（62%）是简单的计算错误。这些是浅层错误。当提示“仔细检查”时，模型通常可以找到数学错误并纠正它。然而，对于 DeepSeek，77% 的错误是设置或逻辑错误。这些深层次的失败需要模型从根本上重新思考其方法。较强的模型难以做到这一点，因为它们倾向于坚持其初始的推理路径。随着模型智能的增加，只有最具韧性和难以纠正的错误仍然存在。

为什么检测错误并不保证纠正错误

研究中最令人惊讶的发现之一是，错误检测并不与纠正错误的能力相关。一个模型可能正确地识别其答案是错误的，但仍然无法纠正它。另一个模型可能几乎无法检测错误，但通过反复解决问题来改进。Claude-3-Haiku 提供了最戏剧性的例子。Claude 只检测到 10.1% 的自己的错误，这是所有测试模型中最低的。尽管如此，它实现了最高的内在纠正率，达到 29.1%。相比之下，GPT-3.5 检测到 81.5% 的错误，但只纠正了 26.8%。

这表明，一些模型可能“偶然”地通过简单地重新解决问题来纠正自己的错误，即使它们不认识到第一次尝试是错误的。这种脱节对于现实世界的部署来说是危险的。当一个模型过于自信并且无法检测到自己的逻辑错误时，它可能会以错误的解释为真。有时，提示模型识别自己的错误可能会使情况变得更糟。当一个模型错误地识别出哪里出了错时，它会将自己固定在一个有缺陷的解释上，并加倍于错误。与其帮助，自动生成的提示可能会将模型锁定在错误的推理路径上。这种行为类似于人类的认知偏见。一旦我们相信自己知道哪里出了错，我们就会停止寻找更深层次的原因。

迭代有助于，但不均等

研究还表明，迭代反思通常会改进结果，但并非所有模型都能同样受益。较弱的模型从多次重新思考中受益匪浅，因为每次迭代都给了它们另一个机会来纠正其表面层次的问题。较强的模型从迭代中显示出较小的收益。它们的错误并不是通过重复轻易解决的。没有外部指导，额外的尝试通常会以不同的方式重现相同的有缺陷的推理。这种见解表明，自我改进技术并不普遍有效。它们的成功取决于所犯错误的性质，而不仅仅是模型的智能。

这对 AI 系统设计意味着什么

这些见解带来了实际的影响。首先，我们应该停止假设更高的准确性意味着更好的自我纠正。依赖自主自我改进的系统需要被明确地测试其纠正行为，而不仅仅是最终的性能。其次，不同的模型可能需要不同的干预策略。较弱的模型可能会受益于简单的验证和迭代。较强的模型可能需要外部反馈、结构化验证或基于工具的检查来克服深层次的推理错误。第三，自我纠正管道应该是错误感知的。了解任务是否容易出现浅层或深层错误可以告知自我纠正是否可能有效。最后，评估基准应该将检测、定位和纠正分开。将它们视为单一的衡量标准会隐藏在现实世界部署中至关重要的弱点。

结论

自我改进 AI 不仅仅依赖于产生正确的答案，还依赖于识别、诊断和修订不正确的答案的能力。准确性-纠正悖论揭示了较强的模型并不自动地擅长于这一任务。随着模型变得更加强大，它们的错误变得更加深刻、更难以检测和更能抵抗自我纠正。这意味着仅仅在模型扩大方面的进步是不够的。如果我们想要真正能够从自己的错误中学习的 AI 系统，自我纠正必须被视为一种不同的能力，明确地衡量、训练和支持。