Tankeledere
LLM’ers fiasko i matematik og hvordan man løser det
Matematik har altid udgjort en betydelig udfordring for AI-modeller. At mestre matematik kræver komplekse resonansfærdigheder, og for AI er dette ikke en ligegyldig opgave. Dette skaber et enormt problem, når man tager i betragtning den vigtighed, der tillægges matematisk dygtighed for professionel, personlig og akademisk succes.
Trods deres bemærkelsesværdige evner, kæmper store sprogmodeller (LLM) ofte med komplekse matematiske opgaver, såsom geometri, der kræver avancerede resonansfærdigheder. Dette bringer os til den kritiske spørgsmål: hvor meget af en AI-modells matematiske evne stammer fra ægte resonans i forhold til blot genkaldelse af træningsdata?
Seneste fund fra Apple viser, at selv når de fokuserer på grundskolemæssige matematikopgaver, er selv de mest avancerede modeller ikke fuldstændigt drevet af “resonans”.
Ved at tage dette ét skridt videre, har R&D-holdet på MathGPT.ai kastet nyt lys over områder inden for algebra til kalkylevel-matematik, der kræver den mest forbedring.
Denne data undersøgte, hvordan variationer i problemkontekst og sprog påvirker modelpræstationen på tværs af forskellige LLM, herunder OpenAI’s seneste o1-preview og o1-mini-modeller. Fundene afslørede en bekymrende tendens: nøjagtigheden faldt konsekvent, når problemerne afveg fra de oprindelige spørgsmål, der var tilgængelige i LLM’ernes træningsdata, med en præstation, der faldt steilt på mere udfordrende matematiske benchmarks over grundskolemæssig matematik niveau.
Genkaldelse vs. Resonans Dilemma
Undersøgelsen fokuserede på tre nøglefaktorer:
- At bruge mere udfordrende matematiske benchmarks end grundskolemæssig matematik
- At udforske en “1-shot prompt” med ekstrem nærhed til testproblemet
- At implementere en “best of n” strategi for n forsøg på samme problem – effektivt en flertalsafstemning for at eliminere statistiske anomalier ved slutningen af inferencen.
Resultaterne var både intrigerende og bekymrende. Grænserne for problemvariation blev presset, hvilket viste en konsekvent tilbagegang i AI-modellens præstation, da de matematiske ligninger blev mere komplekse.
MATH Dataset Udfordringen
MATH datasettet MATH dataset blev deployeret, kendt for sine udfordrende high school-niveau problemer, i modsætning til Grade School Math 8K datasettet, der indeholder 8.500 sprogligt diverse grundskolemæssige problemer. MATH datasettet præsenterer mere udfordrende high school niveau spørgsmål for at undersøge modelpræstation på tværs af varierende sværhedsgrader, fra pre-algebra til talteori. Dette valg gjorde det muligt for MathGPT.ai at bedre undersøge modelpræstation på tværs af varierende sværhedsgrader.
Under testen, mens numeriske værdier og endelige svar forblev uændrede, varierede vi sprog, variable og kontekst af problemerne. For eksempel kunne en “hund, der går” scenario være transformeret til et “opvaskemaskine” problem. Denne metode hjalp med at mildne den øgede kompleksitet af MATH datasettet, mens den stadig udfordrede modellens resonansfærdigheder.
Afslørende Resultater
Resultaterne var slående. Selv de mest avancerede modeller kæmpede, når de stod over for variationer af problemer, de sandsynligvis havde mødt i deres træningsdata. For eksempel faldt dets o1-mini modells nøjagtighed fra 93,66% på oprindelige spørgsmål til 88,54% på den mest udfordrende variation. O1-preview modellen oplevede en lignende tilbagegang, faldt fra 91,22% til 82,93% – en skarp nok tilbagegang til at højligte kritiske huller i deres robusthed.
Disse fund stemmer overens med og bygger på Apples tidligere forskning, som viser, at begrænsningerne i AI’s matematiske resonans bliver mere åbenlyse, når problemerne bliver mere komplekse og kræver en dybere forståelse end mønstergenkendelse.
Vejen Fremad
Da vi fortsætter med at presse grænserne for LLM resonans, er det afgørende at anerkende både dens utrolige potentiale og nuværende begrænsninger. Ny forskning understreger behovet for fortsat innovation i udviklingen af AI-modeller, der kan gå ud over mønstergenkendelse for at opnå mere robuste og generaliserbare problemløsningsevner.
Dette sker på et kritisk tidspunkt, især i højere uddannelse, hvor AI bruges mere intensivt som en lærerhjælp i klasselokalet, mens skolerne samtidig oplever høje fejlratere blandt matematikstuderende, der ikke er forberedt på kurserne.
At opnå menneske-lignende kognitive evner eller generel intelligens i AI kræver ikke kun teknologiske fremskridt, men også en nuanceret forståelse af, hvordan man kan brobygge mellem afstanden mellem genkaldelse og ægte resonans.
Hvis vi er succesfulde på denne vej, er jeg sikker på, at vi kan ændre livet for millioner af studerende og selv professionelle for at sætte deres liv på en helt ny bane.










