사상 리더

LLM이 수학에서 실패하는 이유와 그 해결책

Published December 5, 2024

Updated April 27, 2026

Peter Relan, Chairman of MathGPT.ai

수학은 항상 AI 모델에게 큰 도전을 제기해왔다. 수학을 마스터하는 것은 복잡한 추론 능력이 필요하며, 이는 AI에게 간단한 일이 아니다. 이는 수학적 능력이 전문적, 개인적, 학문적 성공에 중요함에도 불구하고 큰 문제를 야기한다.

그들의卓越한 능력에도 불구하고, 대규모 언어 모델(LLM)은 종종 기하학과 같은 복잡한 수학적 작업에서 어려움을 겪으며, 이는 고급 추론 능력이 필요하다. 이는 우리에게 중요한 질문을 던져준다. AI 모델의 수학적 능력은 실제 추론에서 얼마나 비롯되는가, 아니면 단순히 훈련 데이터의 회상에서 비롯되는가?

Apple의 최근 연구에 따르면, 심지어 초등학교 수학 단어 문제에 초점을 맞춘 경우에도, 가장 정교한 모델은 완전히 “추론”에 의해 구동되지 않는다.

이를一步 더 나아가면, MathGPT.ai의 연구 개발 팀은 미적분 수준의 수학에서 가장 개선이 필요한 영역에 대한 새로운 조명을 제공한다.

이 데이터는 문제의 맥락과 언어의 변이가 다양한 LLM에 대한 모델의 성능에 어떻게 영향을 미치는지 조사했다. 이는 OpenAI의 최신 o1-preview 및 o1-mini 모델을 포함한다. 연구 결과는 우려스러운 경향을 보여주었다. 정확도는 일관되게 훈련 데이터에 있는 원래 질문에서 벗어날수록 감소했으며, 초등학교 수학 수준 이상의 더 어려운 수학적 벤치마크에서 성능이 급격히 떨어졌다.

회상 대 추론의 딜레마

조사는 세 가지 주요 요인을 중점으로 했다.

초등 수학을 넘어서는 더 어려운 수학적 벤치마크 사용
테스트 문제와 매우 가까운 “1-shot prompt” 탐색
추론 시에 통계적 이상을 제거하기 위한 “best of n” 전략의 구현 – 효과적으로 동일한 문제에 대한 다수决정

결과는 매혹적이면서도 우려스러웠다. 문제 변이의 경계를 넓히면서, 수학적 방정식이 더 복잡해짐에 따라 AI 모델의 성능이 일관되게 감소하는 것을 보여주었다.

MATH 데이터셋 도전

중학교 수준의 어려운 문제로 알려진 MATH 데이터셋이 배치되었다. 이는 8,500개의 언어적으로 다양한 초등 수준 문제를 포함하는 Grade School Math 8K 데이터셋과는 반대이다. MATH 데이터셋은 미적분에 이르기까지 다양한 난이도 수준에서 모델의 성능을 조사하기 위해 사전 대수에서 수론에 이르는 더 어려운 중학교 수준的问题을 제시한다. 이 선택은 MathGPT.ai가 다양한 난이도 수준에서 모델의 성능을 더 잘 조사할 수 있도록 허용했다.

테스트에서, 숫자 값과 최종 답변은 변경되지 않았지만, 문제의 언어, 변수, 맥락을 변경했다. 예를 들어, “개의 산책” 시나리오는 “식기세척기” 문제로 변환될 수 있다. 이 방법은 MATH 데이터셋의 복잡성을 완화하면서도 모델의 추론 능력을 여전히 도전할 수 있도록 도왔다.

결과 공개

결과는 충격적이었다. 훈련 데이터에 포함된 문제의 변형에 직면했을 때, 심지어 가장 발전된 모델도 어려움을 겪었다. 예를 들어, o1-mini 모델의 정확도는 원래 질문에서 93.66%에서 가장 어려운 변형에서 88.54%로 떨어졌다. o1-preview 모델도 유사한 감소를 경험했으며, 91.22%에서 82.93%로 떨어졌다. 이는 그들의 강건성에 대한 중요한 격차를 강조하기에 충분한 정도의 급격한 감소였다.

이러한 발견은 Apple의 이전 연구와 일치하며, AI의 수학적 추론의 한계가 문제가 더 복잡해지고 더 깊은 이해가 필요할 때 더 명백해짐을 보여준다.

앞으로의 길

우리가 LLM 추론의 경계를 계속 밀어붙일 때, 이는 그들의 놀라운 잠재력과 현재의 한계를 모두 인정하는 것이 중요하다. 새로운 연구는 패턴 인식의 한계를 넘어서 더 강력하고 일반화된 문제 해결 능력을 달성할 수 있는 AI 모델을 개발하기 위한 혁신의 필요성을 강조한다.

이것은 특히 고등 교육에서 중요하다. 여기서 AI는 교실에서 교사의 보조 도구로 더 많이 사용되고 있으며, 수학 학생들이 준비가 되지 않아 과목을 실패하는 높은 실패율을 보이고 있다.

인간과 같은 인지 능력 또는 일반 지성을 AI에서 달성하는 것은 기술적인 발전만이 아니라 회상과 실제 추론 사이의 간격을 메우는 방법을 이해하는 것에도 필요하다.

이 길에서 성공할 경우, 수백만 명의 학생들과 전문가들의 삶을 완전히 새로운 궤도에 올려놓을 수 있을 것이라고 확신한다.

Unite.AI

LLM이 수학에서 실패하는 이유와 그 해결책

회상 대 추론의 딜레마

MATH 데이터셋 도전

결과 공개

앞으로의 길

You may like