思想领袖
大型语言模型在数学方面的失败及其解决方法
数学一直是人工智能模型面临的一大挑战。掌握数学需要复杂的推理能力,对于人工智能来说,这项任务并非易事。这就产生了一个巨大的问题,考虑到数学能力对于职业、个人和学业成功的重要性。
尽管他们具有卓越的能力,但大型语言模型(LLM)往往难以处理复杂的数学任务,例如几何,需要高级推理能力。这引出了一个关键问题:人工智能模型的数学能力有多少来自真正的推理,而不是简单地回忆训练数据?
苹果最近的研究发现,即使专注于小学数学应用题,最先进的模型也不是完全由“推理”驱动的。
进一步来说,MathGPT.ai的研发团队对需要改进的代数到微积分级别的数学领域进行了新的研究。
这项研究探讨了问题背景和语言的变化如何影响不同LLM(包括OpenAI最新的o1-preview和o1-mini模型)在不同数学问题上的表现。结果显示,模型的准确性在问题偏离训练数据中的原始问题时会明显下降,尤其是在小学数学以上的更具挑战性的数学基准测试中,表现急剧下降。
回忆与推理的困境
这项调查关注了三个关键因素:
- 使用比小学数学更具挑战性的数学基准测试
- 探索“1-shot提示”与测试问题极为接近的情况
- 实施“n次尝试中最好的结果”策略,有效地通过多次尝试同一问题来消除统计异常。
结果既令人着迷又令人担忧。问题变化的边界被推动,显示出人工智能模型的性能在数学方程变得更加复杂时会持续下降。
MATH数据集挑战
部署了MATH数据集,它以其具有挑战性的高中级问题而闻名,相比之下,Grade School Math 8K数据集包含8,500个语言多样的小学级问题。MATH数据集呈现出从预代数到数论的更具挑战性的高中级问题,以检查模型在不同难度级别下的表现。这一选择使MathGPT.ai能够更好地检查模型在不同难度级别下的表现。
在测试中,尽管数字值和最终答案保持不变,我们仍然改变了问题的语言、变量和背景。例如,“狗散步”的情景可能被转化为“洗碗机”问题。这种方法有助于减轻MATH数据集的增加复杂性,同时仍然挑战模型的推理能力。
揭示结果
结果令人惊讶。即使是最先进的模型,当面对它们可能在训练数据中遇到的问题变体时,也会挣扎。例如,o1-mini模型的准确率从原始问题的93.66%下降到最具挑战性的变体的88.54%。o1-preview模型也经历了类似的下降,从91.22%下降到82.93%——足以凸显它们在鲁棒性方面的关键差距。
这些发现与苹果的早期研究一致,表明人工智能的数学推理能力在问题变得更加复杂,需要更深入的理解而不是模式识别时,其局限性变得更加明显。
前进之路
随着我们继续推动LLM推理能力的边界,其至关重要的是要认识到其令人难以置信的潜力和当前的局限性。新的研究强调了继续创新开发能够超越模式识别、实现更强大和普遍的解决问题能力的AI模型的必要性。
这在高等教育领域尤其重要,因为AI正在被更广泛地用作课堂辅助工具,同时,学校也继续看到数学成绩不佳的学生的高失败率,他们无法跟上课程的要求。
实现类似人类的认知能力或通用智能需要不仅仅是技术进步,还需要对如何弥合回忆和真正推理之间的差距有细致的理解。
如果我们在这条道路上取得成功,我相信我们可以改变数百万学生甚至专业人士的生活,帮助他们开启一条完全新的轨迹。












