人工智能
从银牌到金牌:DeepMind 的 AI 如何征服数学奥林匹克

DeepMind 的人工智能在短短一年内就取得了数学推理方面的显著进步。继 2024 年国际数学奥林匹克 (IMO) 夺得银牌后,他们的人工智能系统又在 2025 年斩获金牌。这一快速进步凸显了人工智能在解决复杂抽象问题方面日益增强的能力,这些问题需要类似人类的创造力和洞察力。本文将深入探讨 DeepMind 如何实现这一转变,背后的技术和战略选择,以及这些进步的更广泛影响。
国际海事组织的意义
波长 XNUMXμm 的 国际数学奥林匹克成立于1959年的数学竞赛是全球公认的顶尖高中生数学竞赛。每年,来自世界各地的优秀学生都要面对六道涵盖代数、几何、数论和组合数学领域的难题。解决这些问题需要的不仅仅是计算能力;参赛者必须展现真正的数学创造力、严谨的逻辑思维以及构建优雅证明的能力。
对于人工智能而言,国际数学奥林匹克(IMO)代表着一项独特的挑战。尽管人工智能已经掌握了模式识别、数据分析,甚至围棋和国际象棋等复杂游戏,但奥林匹克数学要求创造性、抽象推理以及新思想的综合运用,而这些技能传统上被认为是人类智能的标志。因此,国际数学奥林匹克(IMO)已成为评估人工智能距离真正实现类人推理能力还有多远的天然试验台。
2024年的银牌突破
2024 年,DeepMind 介绍 两个解决 IMO 级别问题的 AI 系统:AlphaProof 和 AlphaGeometry 2。这两个系统都是“神经象征性的” 人工智能,将大型语言模型 (LLM) 的优势与符号逻辑的严谨性相结合。
AlphaProof 旨在证明数学陈述 精益,一种形式化的数学语言。它结合了 DeepMind 的大型语言模型 Gemini 和 零度,这是一款强化学习引擎,因其在棋盘游戏中的成功而闻名。在这个场景中,Gemini 的角色是将自然语言问题转化为 Lean 语言,并通过生成逻辑步骤来尝试证明。AlphaProof 接受了数百万个涵盖不同数学学科和难度的样本问题的训练。该系统通过尝试证明日益复杂的语句来提升自身能力,类似于 AlphaZero 通过与自己对弈来学习的方式。
AlphaGeometry 2 旨在解决几何问题。在这里,Gemini 的语言理解能力使人工智能能够预测有用的辅助结构,而符号推理引擎则负责逻辑推理。这种混合方法允许 阿尔法几何 解决超出传统机器推理范围的几何问题。
这些系统共同解决了 IMO 六道题目中的四道:两道代数题、一道数论题和一道几何题,总分 28 分,为 42 分。这一成绩具有里程碑意义,因为这是人工智能首次 达到 在国际海事组织(IMO)中获得了银牌。然而,这一成功很大程度上依赖于人类专家将问题转化为形式化的数学语言。他们还需要大量的计算资源,每个问题都需要数天的处理时间。
金牌背后的技术创新
DeepMind 从银牌到 一枚金牌 性能的提升得益于几项重大的技术改进。
1. 自然语言作为证明媒介
最重要的变化是从需要专家翻译成形式语言的系统转变为将自然语言作为证明的媒介。这一转变是通过增强版的 Gemini 实现的。 配备 深度思考能力。该模型并非将问题转化为精益思维,而是直接处理文本,生成非正式的草图,在内部形式化关键步骤,并生成精炼的英文证明。强化学习源于人类反馈(左高频) 用于奖励逻辑一致、简洁、有条理的解决方案。
Gemini Deep Think 与 Gemini 的公开版本主要有两点不同。首先,它为每个查询分配更长的上下文窗口和更多的计算令牌,这使得模型能够维护多页的思路链。其次,它使用并行推理,为不同的潜在解决方案生成数百个推测线程。然后,轻量级的监督器会借用以下概念对最有希望的路径进行排序和推广: 蒙特卡洛树搜索 但应用于文本。这种方法模仿了人类团队如何集思广益,摒弃无效的想法,最终找到优雅的解决方案。
2.训练和强化学习
训练 Gemini Deep Think 需要对模型进行微调,使其能够预测后续步骤而非最终答案。为此,我们编制了一个包含 100,000 万个高质量奥林匹克竞赛和本科生竞赛答案的语料库。该语料库主要收集自公共数学论坛、arXiv 预印本和大学习题集。人类导师会审阅训练示例,过滤掉不合逻辑或不完整的证明。强化学习有助于改进模型,使其能够生成简洁精确的证明。早期版本的证明过于冗长,但对冗余短语的惩罚有助于精简输出。
与传统的微调不同,后者通常难以应对稀疏奖励,因为反馈是二元的,证明要么正确,要么错误。DeepMind 实施了一个逐步奖励系统,每个经过验证的子引理都会对总分做出贡献。即使在完整证明不常见的情况下,这种奖励机制也能指导 Gemini。训练过程持续了三个月,耗费了大约 25 万个 TPU 小时。
3.大规模并行化
并行化在 DeepMind 从银牌晋级到金牌的过程中也发挥了关键作用。每个问题都会并行生成多个推理分支,当其他分支停滞时,资源会动态地转移到更有前景的路径上。这种动态调度对于具有巨大解空间的组合问题尤其有益。这种方法类似于人类在进行完整归纳推理之前先测试辅助不等式。虽然这项技术的计算成本很高,但使用 DeepMind 的 TPU v5 集群即可实现。
DeepMind 亮相 2025 年国际海事组织 (IMO)
为了维护比赛的公平性,DeepMind 在 IMO 比赛开始前三周就冻结了模型的权重,以防止官方题目泄露到训练集中。他们还过滤掉了包含此前未发表过的奥赛题目答案的数据。
比赛期间,Gemini Deep Think 以纯文本格式接收了六道官方题目,且不提供互联网连接。该系统运行在一个集群上,每个进程的计算能力模拟了一台标准笔记本电脑的计算能力。整个解题过程在不到三个小时内完成,完全符合时间要求。生成的证明未经任何修改就提交给了国际数学奥林匹克(IMO)协调员。
双子座深度思考在前五道题目上均获得满分。然而,最后一道题是一道颇具挑战性的组合数学难题,却难倒了人工智能和94%的人类参赛者。尽管如此,人工智能最终以35/42的总分夺得金牌。这一分数比去年的银牌成绩高出XNUMX分。观察人士后来称赞人工智能的证明“勤勉”且“完整”,并指出其遵循了人类参赛者应遵循的严谨论证方法。
对人工智能和数学的影响
DeepMind 的成就是人工智能和数学领域的一个重要里程碑。对于人工智能而言,掌握国际数学奥林匹克(IMO)是迈向通用人工智能(AGI)的一步,通用人工智能系统可以执行人类能够完成的任何智力任务。解决复杂的数学问题需要推理和理解,而推理和理解是通用智能的基本组成部分。这一成功表明,人工智能正在朝着更接近人类的认知能力迈进。
对于数学而言,像 Gemini Deep Think 这样的人工智能系统可以成为数学家的宝贵工具。它们可以帮助探索新领域、验证猜想,甚至发现新的定理。通过自动化繁琐的证明构建环节,人工智能解放了人类数学家,使他们能够专注于更高层次的概念性工作。此外,为这些人工智能系统开发的技术可以启发数学研究的新方法,而这些方法单靠人类的努力可能无法实现。
然而,人工智能在数学领域的进步也引发了人们对其在教育环境和竞赛中角色的质疑。随着人工智能能力的不断增强,关于其参与将如何改变数学教育和竞赛性质的争论也将不断涌现。
展望未来
赢得IMO金牌是一个重要的里程碑,但许多数学挑战对于当前的人工智能系统来说仍然遥不可及。然而,短短一年内从银牌到金牌的快速进步,凸显了人工智能创新和发展的加速步伐。如果这种速度持续下去,人工智能系统或许很快就能攻克一些数学界最著名的未解难题。虽然人工智能究竟会取代还是增强人类创造力的问题仍悬而未决,但2025年IMO的成绩清晰地表明,人工智能在逻辑推理方面取得了长足的进步。