Vordenker

Das Versagen von LLMs in Mathematik und wie es gelöst werden kann

Published December 5, 2024

Updated April 27, 2026

Peter Relan, Chairman of MathGPT.ai

Mathematik hat immer eine große Herausforderung für KI-Modelle dargestellt. Das Beherrschen von Mathematik erfordert komplexe Denkfähigkeiten, und für KI ist diese Aufgabe alles andere als einfach. Das schafft ein riesiges Problem, wenn man bedenkt, wie wichtig mathematische Kompetenz für beruflichen, persönlichen und akademischen Erfolg ist.

Trotz ihrer bemerkenswerten Fähigkeiten haben große Sprachmodelle (LLMs) oft Schwierigkeiten mit komplexen mathematischen Aufgaben, wie Geometrie, die fortgeschrittene Denkfähigkeiten erfordern. Das bringt uns zu der kritischen Frage: Wie viel von der mathematischen Fähigkeit eines KI-Modells stammt aus echtem Denken vs. bloßer Erinnerung an Trainingsdaten?

Neue Erkenntnisse von Apple zeigen, dass sogar wenn sich die Modelle auf Rechenaufgaben der Grundschule konzentrieren, die fortschrittlichsten Modelle nicht vollständig von “Denken” angetrieben werden.

Wenn man dies einen Schritt weiterführt, wirft das R&D-Team von MathGPT.ai neues Licht auf Bereiche von Algebra bis zum Niveau von Infinitesimalkalkül, die die meisten Verbesserungen erfordern.

Diese Daten untersuchten, wie Variationen im Problemkontext und in der Sprache die Modellleistung über verschiedene LLMs hinweg beeinflussen, einschließlich der neuesten o1-Vorschau- und o1-Mini-Modelle von OpenAI. Die Ergebnisse zeigten einen besorgniserregenden Trend: Die Genauigkeit nahm konsistent ab, wenn die Probleme von den ursprünglichen Fragen in den Trainingsdaten der LLMs abwichen, und die Leistung fiel steil auf anspruchsvolleren mathematischen Benchmarks über dem Niveau der Grundschulmathematik ab.

Das Dilemma zwischen Erinnerung und Denken

Die Untersuchung konzentrierte sich auf drei Schlüsselfaktoren:

Die Verwendung anspruchsvollerer mathematischer Benchmarks als der Grundschulmathematik
Die Erforschung eines “1-Shot-Prompts” mit extremer Nähe zum Testproblem
Die Implementierung einer “Best-of-n”-Strategie für n Versuche desselben Problems – effektiv eine Mehrheitsabstimmung, um statistische Anomalien bei der Inferenz zu eliminieren.

Die Ergebnisse waren sowohl faszinierend als auch besorgniserregend. Die Grenzen der Problemvariation wurden ausgedehnt, was einen konsistenten Rückgang der KI-Modellleistung zeigte, wenn die mathematischen Gleichungen komplexer wurden.

Die MATH-Datensatz-Herausforderung

Der MATH-Datensatz wurde eingesetzt, der für seine anspruchsvollen Aufgaben der High-School-Ebene bekannt ist, im Gegensatz zum Datensatz “Grade School Math 8K”, der 8.500 sprachlich vielfältige elementare Probleme enthält. Der MATH-Datensatz präsentiert anspruchsvollere Aufgaben der High-School-Ebene, um die Modellleistung über verschiedene Schwierigkeitsgrade hinweg zu untersuchen, von Präalgebra bis zur Zahlentheorie. Diese Wahl ermöglichte es MathGPT.ai, die Modellleistung über verschiedene Schwierigkeitsgrade hinweg besser zu untersuchen.

Bei den Tests blieben die numerischen Werte und die endgültigen Antworten unverändert, während die Sprache, die Variablen und der Kontext der Probleme variiert wurden. Zum Beispiel könnte ein “Hundespaziergang”-Szenario in ein “Geschirrspüler”-Problem umgewandelt werden. Diese Methode half, die erhöhte Komplexität des MATH-Datensatzes zu mildern, während die Denkfähigkeiten der Modelle dennoch herausgefordert wurden.

Aufschlussreiche Ergebnisse

Die Ergebnisse waren verblüffend. Sogar die fortschrittlichsten Modelle kämpften, wenn sie mit Variationen von Problemen konfrontiert wurden, die sie wahrscheinlich in ihren Trainingsdaten getroffen hatten. Zum Beispiel sank die Genauigkeit des o1-Mini-Modells von 93,66 % bei ursprünglichen Fragen auf 88,54 % bei der anspruchsvollsten Variation. Das o1-Vorschau-Modell erlebte einen ähnlichen Rückgang, von 91,22 % auf 82,93 % – ein ausreichend steiler Abfall, um kritische Lücken in ihrer Robustheit zu unterstreichen.

Diese Ergebnisse stimmen mit und bauen auf Apples früherer Forschung auf, die zeigt, dass die Grenzen der mathematischen Denkfähigkeit von KI offensichtlicher werden, wenn die Probleme komplexer werden und ein tieferes Verständnis erfordern, anstatt Mustererkennung.

Der Weg nach vorne

Wenn wir die Grenzen der LLM-Denkfähigkeit weiter ausdehnen, ist es entscheidend, sowohl ihr enormes Potenzial als auch ihre aktuellen Grenzen zu erkennen. Neue Forschung unterstreicht die Notwendigkeit weiterer Innovationen bei der Entwicklung von KI-Modellen, die über die Mustererkennung hinausgehen und robuste und generalisierbare Problemlösungsfähigkeiten erlangen können.

Dies kommt zu einem kritischen Zeitpunkt, insbesondere in der höheren Bildung, wo KI immer mehr als Hilfsmittel für Lehrer im Klassenzimmer eingesetzt wird, während Schulen weiterhin hohe Versagensraten bei Mathematikschülern verzeichnen, die auf die Kurse nicht vorbereitet sind.

Das Erreichen menschlicher kognitiver Fähigkeiten oder allgemeiner Intelligenz in KI erfordert nicht nur technologische Fortschritte, sondern auch ein differenziertes Verständnis davon, wie die Lücke zwischen Erinnerung und echtem Denken überbrückt werden kann.

Wenn wir auf diesem Weg erfolgreich sind, bin ich zuversichtlich, dass wir das Leben von Millionen von Schülern und sogar von Fachleuten grundlegend verändern und ihre Lebenswege vollständig neu ausrichten können.

Unite.AI

Das Versagen von LLMs in Mathematik und wie es gelöst werden kann

Das Dilemma zwischen Erinnerung und Denken

Die MATH-Datensatz-Herausforderung

Aufschlussreiche Ergebnisse

Der Weg nach vorne

You may like