Tankeledere
Feilene til LLM-er i matematikk og hvordan løse dem
Matematikk har alltid vært en betydelig utfordring for AI-modeller. Mestring av matematikk krever komplekse resonneringsferdigheter, og for AI er dette oppgaven langt ifra enkel. Dette skaper et stort problem, gitt viktigheten av matematisk kompetanse for profesjonell, personlig og akademisk suksess.
Til tross for deres bemerkelsesverdige evner, har store språkmodeller (LLM-er) ofte problemer med komplekse matematiske oppgaver, som geometri, som krever avanserte resonneringsferdigheter. Dette bringer oss til den kritiske spørsmålet: hvor mye av en AI-modells matematiske evne stammer fra ekte resonnering vs. bare gjentakelse av treningdata?
Nylige funn fra Apple viser at selv når de fokuserer på grunnskolematematikk, er ikke selv de mest avanserte modellene fullstendig drevet av “resonnering.”
Ved å gå et skritt videre, kastet R&D-teamet hos MathGPT.ai nytt lys over områder av algebra til kalkulusnivå matematikk som krever mest forbedring.
Denne dataen utforsket hvordan variasjoner i problemkontekst og språk påvirkte modellprestasjonen over forskjellige LLM-er, inkludert OpenAI’s nyeste o1-preview og o1-mini-modeller. Funna avdekket en bekymringsverdig trend: nøyaktigheten falt jevnt som problemene avvik fra de opprinnelige spørsmålene tilgjengelig i LLM-ernes treningdata, med en skarp nedgang i prestasjonen på mer utfordrende matematiske benchmark over grunnskolenivå.
Gjentakelse vs. Resonnering-dilemmaet
Undersøkelsen fokuserte på tre nøkelfaktorer:
- Bruke mer utfordrende matematiske benchmark enn grunnskolematematikk
- Utforske en “1-shot prompt” med ekstrem nærhet til testproblemet
- Implementere en “best of n” strategi for n forsøk på samme problem – effektivt en flertallsavstemming for å eliminere statistiske anomali, på inferenstid.
Resultatene var både intrigerende og bekymringsverdige. Grensene for problemvariasjon ble presset, som viste en jevn nedgang i AI-modellprestasjonen når matematiske ligninger ble mer komplekse.
MATH Dataset-utfordringen
MATH datasettet MATH dataset ble deployert, kjent for sine utfordrende videregående skole-nivå problemer, i motsetning til Grade School Math 8K datasettet, som inneholder 8 500 språklig diverse grunnskoleproblemer. MATH datasettet presenterer mer utfordrende videregående skole-nivå spørsmål for å undersøke modellprestasjon over forskjellige vanskelighetsnivå, fra pre-algebra til tallteori. Dette valget tillot MathGPT.ai å bedre undersøke modellprestasjon over forskjellige vanskelighetsnivå.
Under testing, mens numeriske verdier og endelige svar forble uendret, varierte vi språket, variablene og konteksten av problemene. For eksempel kunne en “hundegåing” scenario bli transformert til et “vaskemaskin” problem. Denne metoden hjalp til å mildne den økte kompleksiteten av MATH datasettet mens den fortsatt utfordret modellens resonneringsferdigheter.
Apenbare resultater
Resultatene var slående. Selv de mest avanserte modellene kjempet når de ble konfrontert med variasjoner av problemer de sannsynligvis hadde møtt i deres treningdata. For eksempel falt o1-mini-modellens nøyaktighet fra 93,66% på opprinnelige spørsmål til 88,54% på den mest utfordrende variasjonen. O1-preview-modellen opplevde en lignende nedgang, fra 91,22% til 82,93% – en skarp nok nedgang til å understreke kritiske hull i deres robusthet.
Disse funnene stemmer overens med og bygger på Apples tidligere forskning, som viser at begrensningene i AI’s matematiske resonnering blir mer åpenbare når problemene vokser mer komplekse og krever dypere forståelse enn mønstergjenkjenning.
Vei fremover
Etter hvert som vi fortsetter å presse grensene for LLM-resonnering, er det kritisk å erkjenne både dens usedvanlige potensiale og nåværende begrensninger. Ny forskning understreker behovet for videre innovasjon i utvikling av AI-modeller som kan gå utenfor mønstergjenkjenning for å oppnå mer robuste og generaliserbare problemløsningsevner.
Dette skjer på et kritisk tidspunkt, spesielt i høyere utdanning, hvor AI brukes mer og mer som en lærerhjelp i klasserommet, samtidig som skolene fortsatt ser høye feilrater blant matematikkstudenter som ikke er forberedt på kursene.
Å oppnå menneske-lignende kognitive evner eller generell intelligens i AI krever ikke bare teknologiske fremgang, men også en nyansert forståelse av hvordan å brygge gapet mellom gjentakelse og ekte resonnering.
Hvis vi er suksessfulle på denne veien, er jeg sikker på at vi kan endre livene til millioner av studenter og selv fagfolk for å sette deres liv på en helt ny bane.










