Thought leaders

Het falen van LLM’s in wiskunde en hoe dit op te lossen

Published December 5, 2024

Updated April 27, 2026

Peter Relan, Chairman of MathGPT.ai

Wiskunde heeft altijd een grote uitdaging gevormd voor AI-modellen. Het beheersen van wiskunde vereist complexe redeneervaardigheden, en voor AI is deze taak allesbehalve eenvoudig. Dit creëert een enorm probleem, gezien het belang van wiskundige vaardigheden voor professioneel, persoonlijk en academisch succes.

Ondanks hun opmerkelijke capaciteiten hebben grote taalmodellen (LLM’s) vaak moeite met complexe wiskundige taken, zoals meetkunde, die geavanceerde redeneervaardigheden vereisen. Dit brengt ons bij de kritische vraag: hoeveel van de wiskundige capaciteiten van een AI-model komt voort uit echte redenering versus het enkel herinneren van trainingsgegevens?

Recente bevindingen van Apple laten zien dat zelfs wanneer ze zich richten op wiskundige problemen van het basisonderwijs, de meest geavanceerde modellen niet volledig worden aangedreven door “redenering”.

Het R&D-team van MathGPT.ai wierp nieuw licht op gebieden van algebra tot en met calculus-niveau wiskunde die de meeste verbetering behoeven.

Deze gegevens onderzochten hoe variaties in probleemcontext en taal de prestaties van modellen beïnvloeden over verschillende LLM’s, waaronder OpenAI’s laatste o1-preview- en o1-mini-modellen. De resultaten toonden een verontrustende trend: de nauwkeurigheid nam consistent af naarmate problemen afweken van de oorspronkelijke vragen in de trainingsgegevens van de LLM’s, met een scherpe daling in prestaties op moeilijkere wiskundige benchmarks boven het niveau van het basisonderwijs.

Het dilemma van herinnering versus redenering

Het onderzoek richtte zich op drie belangrijke factoren:

Het gebruik van moeilijkere wiskundige benchmarks dan die van het basisonderwijs
Het onderzoeken van een “1-shot prompt” met extreme nabijheid tot het testprobleem
Het implementeren van een “best of n”-strategie voor n pogingen tot hetzelfde probleem – effectief een meerderheidsstemming om statistische anomalieën te elimineren, op het moment van inferentie.

De resultaten waren zowel intrigerend als verontrustend. De grenzen van probleemvariatie werden opgerekt, wat een consistente daling in de prestaties van AI-modellen liet zien naarmate de wiskundige vergelijkingen complexer werden.

De MATH Dataset-uitdaging

De MATH-dataset werd ingezet, bekend om zijn moeilijke problemen van het middelbaar onderwijs, in tegenstelling tot de Grade School Math 8K-dataset, die 8.500 taalkundig diverse basisonderwijsproblemen bevat. De MATH-dataset presenteert moeilijkere problemen van het middelbaar onderwijs om de prestaties van modellen te onderzoeken over verschillende moeilijkheidsniveaus, van pre-algebra tot getaltheorie. Deze keuze stelde MathGPT.ai in staat om de prestaties van modellen beter te onderzoeken over verschillende moeilijkheidsniveaus.

Tijdens het testen bleven numerieke waarden en eindantwoorden ongewijzigd, maar varieerden we de taal, variabelen en context van de problemen. Bijvoorbeeld, een “hond die loopt”-scenario kan worden getransformeerd in een “vaatwasser”-probleem. Deze methode hielp om de toegenomen complexiteit van de MATH-dataset te mitigeren, terwijl de redeneervaardigheden van de modellen nog steeds werden uitgedaagd.

Opmerkelijke resultaten

De resultaten waren opvallend. Zelfs de meest geavanceerde modellen worstelden wanneer ze werden geconfronteerd met variaties van problemen die ze waarschijnlijk in hun trainingsgegevens hadden aangetroffen. Bijvoorbeeld, de nauwkeurigheid van het o1-mini-model daalde van 93,66% op oorspronkelijke vragen tot 88,54% op de meest moeilijke variatie. Het o1-preview-model ervoer een soortgelijke daling, van 91,22% tot 82,93% – een scherpe daling die kritieke hiaten in hun robuustheid benadrukte.

Deze bevindingen komen overeen met en bouwen voort op eerder onderzoek van Apple, waaruit blijkt dat de beperkingen in de wiskundige redenering van AI meer zichtbaar worden naarmate problemen complexer worden en een dieper begrip vereisen in plaats van patroonherkenning.

De weg vooruit

Terwijl we de grenzen van LLM-redenering blijven verleggen, is het cruciaal om zowel het ongelooflijke potentieel als de huidige beperkingen te erkennen. Nieuw onderzoek benadrukt de noodzaak van voortdurende innovatie bij de ontwikkeling van AI-modellen die in staat zijn om verder te gaan dan patroonherkenning om robuustere en generaliseerbare probleemoplossende vaardigheden te bereiken.

Dit komt op een kritiek moment, vooral in het hoger onderwijs, waar AI steeds vaker wordt gebruikt als hulpmiddel voor instructeurs in de klas, terwijl scholen nog steeds hoge mislukkingspercentages zien onder wiskundestudenten die niet zijn voorbereid op cursussen.

Het bereiken van menselijke cognitieve capaciteiten of algemene intelligentie in AI vereist niet alleen technologische vooruitgang, maar ook een genuanceerd begrip van hoe de kloof tussen herinnering en echte redenering te overbruggen.

Als we succesvol zijn op deze weg, ben ik ervan overtuigd dat we het leven van miljoenen studenten en zelfs professionals kunnen veranderen en hun leven op een geheel nieuwe koers kunnen zetten.

Unite.AI

Het falen van LLM’s in wiskunde en hoe dit op te lossen

Het dilemma van herinnering versus redenering

De MATH Dataset-uitdaging

Opmerkelijke resultaten

De weg vooruit

You may like