人工智能
国际数学奥林匹克竞赛中的人工智能:AlphaProof 和 AlphaGeometry 2 如何取得银牌标准

数学推理是人类认知能力的一个重要方面,推动着科学发现和技术发展的进步。当我们努力开发与人类认知相匹配的通用人工智能时,为人工智能配备先进的数学推理能力至关重要。虽然目前的人工智能系统可以处理基本的数学问题,但它们在代数和几何等高级数学学科所需的复杂推理方面却举步维艰。然而,这种情况可能会改变,因为谷歌 DeepMind 已经 重大进展 提高人工智能系统的数学推理能力。这一突破是在 国际数学奥林匹克 (IMO)2024。IMO 成立于 1959 年,是历史最悠久、最负盛名的数学竞赛,它用代数、组合学、几何和数论等问题挑战世界各地的高中生。每年,年轻的数学家团队都会竞相解决六个非常具有挑战性的问题。今年,Google DeepMind 推出了两个 AI 系统:专注于形式数学推理的 AlphaProof 和专门解决几何问题的 AlphaGeometry 2。这两个 AI 系统成功解决了六个问题中的四个,表现堪比银牌得主。在本文中,我们将探讨这些系统如何解决数学问题。
AlphaProof:结合人工智能和形式语言进行数学定理证明
AlphaProof 是一个使用形式语言证明数学陈述的人工智能系统 精益。 它集成了 双子座,一个预先训练的语言模型, 零度,一种因掌握国际象棋、将棋和围棋而闻名的强化学习算法。
Gemini 模型将自然语言问题陈述转化为形式化问题陈述,从而创建一个具有不同难度级别的问题库。这有两个目的:将不精确的自然语言转换为精确的形式化语言,以验证数学证明;以及利用 Gemini 的预测能力生成具有形式化语言精度的可能解决方案列表。
当 AlphaProof 遇到问题时,它会生成潜在的解决方案,并在 Lean 中搜索证明步骤来验证或反驳它们。这本质上是一种神经符号方法,其中神经网络 Gemini 将自然语言指令翻译成符号形式语言 Lean 来证明或反驳该陈述。与 AlphaZero 的自对弈机制类似,系统通过与自己玩游戏来学习,AlphaProof 通过尝试证明数学陈述来训练自己。每次证明尝试都会完善 AlphaProof 的语言模型,成功的证明会增强模型解决更具挑战性问题的能力。
在国际数学奥林匹克 (IMO) 中,AlphaProof 通过证明或反证数百万道不同难度级别和数学主题的问题进行了训练。这种训练在比赛期间持续进行,AlphaProof 不断改进其解决方案,直到找到问题的完整答案。
AlphaGeometry 2:集成 LLM 和符号 AI 来解决几何问题
AlphaGeometry 2 是 阿尔法几何 系列,旨在以更高的精度和效率解决几何问题。AlphaGeometry 2 在其前身的基础上,采用了神经符号方法,将神经大型语言模型 (LLM) 与符号 AI 融合在一起。这种集成将基于规则的逻辑与神经网络的预测能力相结合,以识别辅助点,这对于解决几何问题至关重要。AlphaGeometry 中的 LLM 预测新的几何结构,而符号 AI 则应用形式逻辑来生成证明。
当遇到几何问题时,AlphaGeometry 的 LLM 会评估多种可能性,预测对解决问题至关重要的结构。这些预测是宝贵的线索,引导符号引擎进行准确的推理并更接近解决方案。这种创新方法使 AlphaGeometry 能够解决超出传统场景的复杂几何挑战。
AlphaGeometry 2 的一项关键增强功能是集成了 Gemini LLM。与前代相比,该模型从头开始训练,所用合成数据明显更多。这种广泛的训练使其能够处理更困难的几何问题,包括涉及物体运动和角度、比率或距离方程的问题。此外,AlphaGeometry 2 还配备了一个符号引擎,运行速度提高了两个数量级,使其能够以前所未有的速度探索替代解决方案。这些进步使 AlphaGeometry 2 成为解决复杂几何问题的强大工具,为该领域树立了新标准。
IMO 中的 AlphaProof 和 AlphaGeometry 2
今年的国际数学奥林匹克 (IMO) 测试了六道不同的题目:两道代数题、一道数论题、一道几何题和两道组合题。Google 研究人员 翻译 AlphaProof 和 AlphaGeometry 2 将这些问题转化为形式化数学语言。AlphaProof 解决了两个代数问题和一个数论问题,其中包括比赛中最难的问题,今年只有五名人类参赛者解决了这个问题。与此同时,AlphaGeometry 2 成功解决了几何问题,尽管它没有破解两个组合学挑战
IMO 的每道题满分为 42 分,最高分为 2 分。AlphaProof 和 AlphaGeometry 28 共获得 29 分,在他们解答的题目上获得了满分。这使他们位居银牌类别的榜首。今年的金牌门槛为 58 分,609 名参赛选手中有 XNUMX 人达到了这一标准。
下一步:用自然语言应对数学挑战
AlphaProof 和 AlphaGeometry 2 展示了人工智能在数学问题解决能力方面的显著进步。然而,这些系统仍然依赖人类专家将数学问题转化为形式语言进行处理。此外,目前还不清楚如何将这些专门的数学技能融入其他人工智能系统,例如探索假设、测试长期存在的问题的创新解决方案以及有效管理耗时的证明环节。
为了克服这些限制,谷歌研究人员正在开发基于 Gemini 及其最新研究的自然语言推理系统。这个新系统旨在提高解决问题的能力,而无需正式的语言翻译,并旨在与其他人工智能系统顺利集成。
底线
AlphaProof 和 AlphaGeometry 2 在国际数学奥林匹克竞赛中的表现是人工智能在解决复杂数学推理能力方面的一次显著飞跃。这两个系统都表现出了银牌级的表现,解决了六个难题中的四个,展示了形式证明和几何问题解决方面的重大进步。尽管取得了成就,但这些人工智能系统仍然依赖人类输入将问题转化为形式语言,并面临着与其他人工智能系统集成的挑战。未来的研究旨在进一步增强这些系统,可能整合自然语言推理以扩展其在更广泛的数学挑战中的能力。