思想领袖

大型语言模型在数学方面的失败以及如何解决

Published December 5, 2024

Updated April 27, 2026

Peter Relan, Chairman of MathGPT.ai

数学一直对人工智能模型构成重大挑战。掌握数学需要复杂的推理技能，对于人工智能来说，这项任务并非易事。这就产生了一个巨大的问题，考虑到数学能力在职业、个人和学术成功方面的重要性。

尽管他们具有卓越的能力，大型语言模型（LLMs）往往难以处理复杂的数学任务，例如需要高级推理技能的几何。这引出了一个关键问题：人工智能模型的数学能力有多少来自真正的推理，有多少来自简单的训练数据回忆？

苹果最近的研究发现，即使专注于小学数学问题，最先进的模型也不是完全由“推理”驱动的。

进一步来说，MathGPT.ai的研发团队对需要改进的代数到微积分级别的数学领域进行了新的研究。

该数据探讨了问题背景和语言的变化如何影响不同LLM（包括OpenAI最新的o1-preview和o1-mini模型）在不同数学问题上的表现。研究结果显示了一个令人担忧的趋势：当问题偏离LLM的训练数据中的原始问题时，准确率会持续下降，尤其是在小学数学以上的更具挑战性的数学基准测试中，表现急剧下降。

回忆与推理的困境

调查集中在三个关键因素上：

使用比小学数学更具挑战性的数学基准测试
探索与测试问题极为接近的“1-shot提示”
实施“n次尝试中最好的一个”策略，相当于在推理时进行多次尝试，以消除统计异常。

结果既令人着迷又令人担忧。问题变异的边界被推动，这表明随着数学方程变得更加复杂，人工智能模型的性能会持续下降。

MATH 数据集挑战

部署了MATH 数据集，它以其具有挑战性的高中级问题而闻名，而不是包含8,500个小学级语言多样化问题的Grade School Math 8K数据集。MATH数据集呈现了从预代数到数论的更具挑战性的高中级问题，以检查模型在不同难度级别上的表现。这种选择使MathGPT.ai能够更好地检查模型在不同难度级别上的表现。

在测试中，虽然数字值和最终答案保持不变，但我们改变了问题的语言、变量和背景。例如，“狗散步”的情景可能被转换为“洗碗机”的问题。这种方法有助于减轻MATH数据集的复杂性，同时仍然挑战模型的推理能力。

揭示结果

结果令人惊讶。即使是最先进的模型，当面临它们可能在训练数据中遇到的问题变体时，也会挣扎。例如，其o1-mini模型的准确率从原始问题的93.66%下降到最具挑战性的变体的88.54%。o1-preview模型也经历了类似的下降，从91.22%下降到82.93%——足以凸显它们的鲁棒性中的关键缺口。

这些发现与苹果的早期研究一致，并进一步表明，人工智能的数学推理局限性变得更加明显，问题变得更加复杂，需要更深入的理解，而不是模式识别。

前进的道路

当我们继续推动LLM推理的边界时，认识到其令人难以置信的潜力和当前的局限性至关重要。新的研究强调了继续创新开发的人工智能模型的必要性，使其能够超越模式识别，实现更强大和更普遍的解决问题的能力。

这是在高等教育中尤为重要的时期，人工智能正在被更广泛地用作课堂辅助工具，同时学校也继续看到数学成绩不佳的学生的高失败率，他们无法跟上课程的要求。

实现人工智能中的类人认知能力或一般智能，不仅需要技术进步，还需要对如何弥合回忆和真正推理之间的差距有细致的理解。

如果我们在这条道路上取得成功，我相信我们可以改变数百万学生甚至专业人士的生活，彻底改变他们的生活轨迹。

Peter Relan, Chairman of MathGPT.ai

Peter 是 MathGPT.ai 的董事长，他也是是一位经验丰富的科技企业家和导师，致力于开发能够改善人们生活的有影响力的解决方案。1992 年从斯坦福大学获得研究生学位后，他花了 30 年创立和支持各个领域的创业项目，包括游戏、物联网、软件、人工智能和气候创新。

作为 YouWeb Incubator 的创始人，他为初创公司提供资金和实践指导，取得了显著的成功。Peter 还在 The Tech、GotIt! 和 GotIt! AI 的董事会任职，担任 UCLA 气候管理研究所的顾问，并领导 Dharma Karma 基金会。

Unite.AI

大型语言模型在数学方面的失败以及如何解决

回忆与推理的困境

MATH 数据集挑战

揭示结果

前进的道路

You may like