人工智能

锯齿智能：为什么人工智能在奥林匹克问题上表现出色，但在学校数学中却苦苦挣扎

发布于 2025年9月25日

更新于 2026年5月18日

作者

Dr. Tehseen Zia

人工智能社区在2025年庆祝了一个值得注意的里程碑，当时谷歌DeepMind和OpenAI系统都在国际数学奥林匹克比赛中获得了金牌。这些人工智能模型解决了只有少数世界上最优秀的年轻数学家才能解决的问题。然而，这些系统在被要求进行基本的算术运算时，往往会出现问题，这些运算任何中学生都可以轻松解决。这种鲜明的矛盾揭示了人工智能的本质。我们正在见证“锯齿智能”的出现，即机器在某些领域表现出超人的能力，但在我们认为是基本的任务中却失败。

奥林匹克的胜利

国际数学奥林匹克比赛是预大学数学竞赛的领先标准。每年，来自世界各地的最优秀的年轻数学家都会解决六个需要深刻见解、创造性思维和高级证明技术的问题。2025年，谷歌DeepMind和OpenAI的系统都获得了35分中的42分，足以获得金牌。DeepMind的AlphaGeometry 2在19秒内解决了一个复杂的几何问题，而AlphaProof解决了数论和代数问题，这些问题大多数人类参赛者都无法解决。

这些成就建立在多年的渐进式进步之上。这些系统使用正式的数学语言，如Lean，来构建严格的证明。它们采用了课程学习的技术，即人工智能在难度递增的问题上进行训练。这种训练使人工智能能够理解数学对象之间的复杂关系，识别微妙的模式，并构建优雅的证明。

基本的挣扎

同样的人工智能系统在奥林匹克问题上取得成功，但在看似微不足道的任务中却失败了。例如，如果你要求它们将大数字相乘，它们可能会自信地产生错误的答案。同样，如果你尝试执行其他基本的算术运算，它们的性能就会变得不可预测。这个问题不仅仅是简单的计算。这些系统经常在需要跟踪多个数量、理解现实世界的背景或按顺序应用基本的数学运算的文字问题中挣扎。

这种弱点本质上源于这些人工智能模型的基本工作原理。大量的语言模型根据它们在训练数据中看到的模式来预测下一个文本。当它们遇到“2 + 2”时，它们会识别这个模式并正确预测“4”，不是因为它们理解加法，而是因为这个序列在它们的训练数据中出现了无数次。当你向它们提出不常见的计算时，它们的性能会迅速恶化。它们本质上是模式匹配机器，在模式清晰一致时表现出色，但在被迫计算未见过的问题时却会挣扎。

架构悖论

奥林匹克成功和算术失败之间的矛盾揭示了一个更深层次的架构问题。现代人工智能系统在可以通过模式识别、逻辑推理和系统搜索解决空间来解决的问题上表现出色。奥林匹克问题尽管难度很大，但往往具有人工智能可以利用的优雅结构。这些系统可以探索不同的证明策略，验证逻辑步骤，并建立在既定的数学框架之上。它们在符号和规则的世界中运行，逻辑和一致性占主导地位。

相比之下，基本的算术运算却带来了不同的挑战。它需要对数量进行精确的操作，而不是模式匹配。它需要对数量的大小和关系有所了解，这些是无法近似的。当人工智能系统通过语言建模来处理算术运算时，它会将数字视为要预测的标记，而不是要计算的数量。这种任务要求和模型架构之间的基本不匹配产生了我们观察到的性能差距。

训练数据及其局限性

人工智能的能力在很大程度上取决于训练数据的质量和性质。数学证明和高级问题通常以结构良好的格式出现在网上。学术论文、教科书和教育资源提供了数学推理的清晰示例。互联网包含了对数学概念、证明技术和问题解决策略的广泛讨论。这种丰富的语料库使人工智能系统能够学习高级的数学思维。

然而，基本的数学却面临着一个不同的问题。虽然基本的算术运算在网上经常出现，但它们很少带有详细的推理链，这些链条可以帮助人工智能理解潜在的过程。简单的计算通常被陈述为事实，而不是被解释为过程。训练数据包含计算结果，但不包含计算过程本身。这种理解上的基本差距表现为基本任务上的糟糕的性能。

对人工智能开发的影响

这种不均匀的智能模式对我们设计和使用人工智能系统的方式有着重要的影响。我们不能假设在复杂任务中的成功意味着在简单任务中的能力。一个能够证明数学定理的人工智能可能会在平衡支票簿时失败。一个能够编写计算机代码的人工智能可能会在基本的计数上挣扎。这种现实要求我们在实际应用中仔细考虑人工智能的能力和局限性。

这种现象还揭示了混合方法的重要性。我们可能需要为不同类型的任务开发专门的系统，而不是期望一个模型可以处理每个任务。例如，将符号计算用于算术与语言模型用于推理相结合，可以创建更可靠的解决方案。人工智能的未来可能在于协调多个专门的系统，而不是追求单一的通用智能。

前进的道路

认识到锯齿智能为我们提供了一个更清晰的方向来构建更强大的人工智能系统。研究人员正在开发方法来将计算工具集成到语言模型中，使它们能够将算术委托给计算器。新的训练策略专注于教授模型何时使用外部工具，而不是尝试内部化每个技能。这种方法反映了人类的智能，我们使用计算器进行计算，并将我们的精神努力保留用于更高层次的推理。

锯齿智能的悖论最终教会我们对人工智能的谦逊。这些系统既不是普遍优越的，也不是一致有限的。相反，它们表现出一种复杂的优势和劣势的混合，我们必须意识到这些优势和劣势，以便有效地使用和改进人工智能的能力。成功不仅需要扩展人工智能可以做什么，还需要解决其根本的差距。能够证明定理但在基本的加法上失败的机器表明，无论是人工智能还是人类智能，都是一种多面性的现象，不容易定义。

结论

人工智能在解决奥林匹克问题上取得成功，但在简单的数学问题上却失败，这表明智能并不是均匀发展的。这些系统在一个领域可能非常出色，但在另一个领域可能很弱。理解这种不均匀的模式对于我们设计和使用人工智能至关重要。我们可能需要结合不同的方法来发挥每个系统的优势。真正的进步将来自于构建在实践中可靠的人工智能，而不是假设它将在每个任务中都表现出色。