Künstliche Intelligenz

Von Silber zu Gold: Wie DeepMinds KI die Mathematik-Olympiade eroberte

Veröffentlicht Juli 24, 2025

Dr. Tehseen Zia

Die KI von DeepMind hat innerhalb nur eines Jahres bemerkenswerte Fortschritte im mathematischen Denken erzielt. Nach der Silbermedaille bei der Internationalen Mathematik-Olympiade (IMO) 2024 holte das KI-System 2025 die Goldmedaille. Dieser rasante Fortschritt unterstreicht die wachsenden Fähigkeiten künstlicher Intelligenz bei der Bewältigung komplexer, abstrakter Probleme, die menschenähnliche Kreativität und Einsicht erfordern. Dieser Artikel erläutert, wie DeepMind diese Transformation erreicht hat, welche technischen und strategischen Entscheidungen dahinterstecken und welche weiteren Auswirkungen diese Fortschritte haben.

Die Bedeutung der IMO

Die Internationale Mathematik-OlympiadeDer 1959 ins Leben gerufene Mathematikwettbewerb gilt weltweit als der wichtigste für Schüler. Jedes Jahr stellen sich Spitzenschüler aus aller Welt sechs anspruchsvollen Aufgaben aus Algebra, Geometrie, Zahlentheorie und Kombinatorik. Die Lösung dieser Aufgaben erfordert weit mehr als nur Berechnungen; die Teilnehmer müssen echte mathematische Kreativität, logisches Denken und die Fähigkeit zu eleganten Beweisen beweisen.

Für künstliche Intelligenz stellt die IMO eine einzigartige Herausforderung dar. Während KI Mustererkennung, Datenanalyse und sogar komplexe Spiele wie Go und Schach beherrscht, erfordert die Mathematik-Olympiade kreatives, abstraktes Denken und die Synthese neuer Ideen – Fähigkeiten, die traditionell als Kennzeichen menschlicher Intelligenz gelten. Daher ist die IMO zu einem natürlichen Testfeld geworden, um zu bewerten, wie nahe KI dem Erreichen wirklich menschenähnlicher Denkfähigkeiten kommt.

Der Silbermedaillen-Durchbruch von 2024

Im Jahr 2024 wird DeepMind eingeführt zwei KI-Systeme zur Lösung von Problemen auf IMO-Ebene: AlphaProof und AlphaGeometry 2. Beide Systeme sind Beispiele für „neurosymbolisch„KI, die die Stärken großer Sprachmodelle (LLMs) mit der Strenge der symbolischen Logik kombiniert.

AlphaProof wurde entwickelt, um mathematische Aussagen zu beweisen, indem Lehnen, eine formale mathematische Sprache. Es kombinierte Gemini, DeepMinds großes Sprachmodell, mit AlphaZero, eine Reinforcement-Learning-Engine, die für ihren Erfolg in Brettspielen bekannt ist. In diesem Kontext bestand die Aufgabe von Gemini darin, natürlichsprachliche Probleme in Lean zu übersetzen und durch die Generierung logischer Schritte Beweise zu erarbeiten. AlphaProof wurde anhand von Millionen von Beispielproblemen aus verschiedenen mathematischen Disziplinen und mit unterschiedlichen Schwierigkeitsgraden trainiert. Das System verbesserte sich selbst, indem es versuchte, immer komplexere Aussagen zu beweisen, ähnlich wie AlphaZero durch Spiele gegen sich selbst lernte.

AlphaGeometry 2 wurde entwickelt, um Geometrieprobleme zu lösen. Dabei ermöglichte Geminis Sprachverständnis der KI, hilfreiche Hilfskonstruktionen vorherzusagen, während eine symbolische Denkmaschine die logischen Schlussfolgerungen übernahm. Dieser hybride Ansatz ermöglichte AlphaGeometry um geometrische Probleme zu lösen, die weit über den Rahmen herkömmlicher maschineller Argumentation hinausgehen.

Zusammen lösten diese Systeme vier von sechs IMO-Problemen: zwei in Algebra, eines in Zahlentheorie und eines in Geometrie und erreichten dabei eine Punktzahl von 28 von 42. Diese Leistung war ein bedeutender Meilenstein, da es das erste Mal war, dass eine KI erreicht die Silbermedaille bei der IMO. Dieser Erfolg war jedoch stark von menschlichen Experten abhängig, die die Probleme in formale mathematische Sprachen übersetzten. Dies erforderte zudem enorme Rechenressourcen, die für jedes Problem mehrere Tage Bearbeitungszeit benötigten.

Technische Innovationen hinter der Goldmedaille

DeepMinds Übergang von einem Silber- zu eine Goldmedaille Die Leistung wurde durch mehrere bedeutende technische Verbesserungen vorangetrieben.

1. Natürliche Sprache als Medium für Beweise

Die bedeutendste Änderung war der Übergang von Systemen, die Expertenübersetzungen in formale Sprachen erforderten, hin zur Nutzung natürlicher Sprache als Medium für Beweise. Dieser Wandel wird durch eine verbesserte Version von Gemini erreicht. ausgestattet mit Deep Thinking-Fähigkeiten. Anstatt Probleme in Lean zu konvertieren, verarbeitet das Modell den Text direkt, erstellt informelle Skizzen, formalisiert intern kritische Schritte und erstellt einen verfeinerten englischen Beweis. Reinforcement Learning durch menschliches Feedback (RLHF) wurde verwendet, um logisch konsistente, kurze und gut präsentierte Lösungen zu belohnen.

Gemini Deep Think unterscheidet sich in zwei wesentlichen Punkten von der öffentlichen Version von Gemini. Erstens weist es längere Kontextfenster und mehr Rechentoken pro Abfrage zu, wodurch das Modell mehrseitige Denkketten verwalten kann. Zweitens nutzt es paralleles Denken, wobei Hunderte von spekulativen Threads für verschiedene mögliche Lösungen generiert werden. Ein leichtgewichtiger Supervisor bewertet und fördert dann die vielversprechendsten Pfade und übernimmt dabei Konzepte von Monte-Carlo-Baumsuche aber auf Text angewendet. Dieser Ansatz ahmt nach, wie menschliche Teams Brainstorming betreiben, unproduktive Ideen verwerfen und zu eleganten Lösungen gelangen.

2. Training und bestärkendes Lernen

Das Training von Gemini Deep Think umfasste die Feinabstimmung des Modells, um die nächsten Schritte statt endgültiger Antworten vorherzusagen. Zu diesem Zweck wurde ein Korpus von 100,000 hochwertigen Lösungen aus Olympiaden und Bachelor-Wettbewerben zusammengestellt. Das Korpus stammte hauptsächlich aus öffentlichen Mathematikforen, arXiv-Preprints und Universitätsaufgaben. Menschliche Mentoren überprüften die Trainingsbeispiele, um unlogische oder unvollständige Beweise herauszufiltern. Reinforcement Learning half dabei, das Modell zu verfeinern und es in Richtung prägnanter und präziser Beweise zu lenken. Frühe Versionen produzierten zu ausführliche Beweise, doch Strafen für redundante Formulierungen trugen dazu bei, die Ergebnisse zu reduzieren.

Im Gegensatz zur konventionellen Feinabstimmung, die oft mit spärlichen Belohnungen zu kämpfen hat, bei denen das Feedback binär ist, ist der Beweis entweder korrekt oder nicht. DeepMind implementierte ein schrittweises Belohnungssystem, bei dem jedes verifizierte Sublemma zur Gesamtpunktzahl beiträgt. Dieser Belohnungsmechanismus leitet den Gemini auch dann, wenn vollständige Beweise selten sind. Der Trainingsprozess dauerte drei Monate und umfasste rund 25 Millionen TPU-Stunden.

3. Massive Parallelisierung

Parallelisierung spielte auch eine entscheidende Rolle bei DeepMinds Aufstieg von Silber zu Gold. Jedes Problem generierte mehrere parallele Argumentationszweige, wobei Ressourcen dynamisch auf vielversprechendere Wege verlagert wurden, wenn andere ins Stocken gerieten. Diese dynamische Planung war besonders vorteilhaft für kombinatorische Probleme mit großen Lösungsräumen. Der Ansatz ähnelt dem Testen von Hilfsungleichungen durch Menschen, bevor sie eine vollständige Induktion durchführen. Obwohl diese Technik rechenintensiv war, war sie mit DeepMinds TPU v5-Clustern umsetzbar.

DeepMind auf der IMO 2025

Um die Integrität des Wettbewerbs zu wahren, fror DeepMind die Gewichte des Modells drei Wochen vor der IMO ein, um das Eindringen offizieller Probleme in den Trainingsdatensatz zu verhindern. Außerdem filterte das Team Daten heraus, die Lösungen für bisher unveröffentlichte Olympia-Fragen enthielten.

Während des Wettbewerbs erhielt Gemini Deep Think die sechs offiziellen Aufgaben im Klartext, ohne dass ein Internetzugang möglich war. Das System lief auf einem Cluster, der so konfiguriert war, dass er pro Prozess die Rechenleistung eines Standard-Laptops simulierte. Der gesamte Problemlösungsprozess wurde in weniger als drei Stunden abgeschlossen und lag damit deutlich innerhalb der vorgegebenen Zeitvorgaben. Die generierten Beweise wurden unverändert den IMO-Koordinatoren vorgelegt.

Gemini Deep Think erreichte bei den ersten fünf Aufgaben die volle Punktzahl. Die letzte Frage, ein anspruchsvolles Kombinatorik-Rätsel, stellte jedoch sowohl die KI als auch 94 % der menschlichen Teilnehmer vor ein Rätsel. Trotzdem erreichte die KI eine Gesamtpunktzahl von 35/42 und sicherte sich damit die Goldmedaille. Diese Punktzahl lag sieben Punkte über der Silbermedaille des Vorjahres. Beobachter beschrieben die Beweise der KI später als „sorgfältig“ und „vollständig“ und wiesen darauf hin, dass sie den strengen Begründungen folgten, die von menschlichen Teilnehmern erwartet werden.

Auswirkungen auf KI und Mathematik

DeepMinds Erfolg ist ein bedeutender Meilenstein sowohl für die KI als auch für die Mathematik. Für die KI ist die Beherrschung der IMO ein Schritt in Richtung künstlicher allgemeiner Intelligenz (AGI), bei der Systeme alle intellektuellen Aufgaben erfüllen können, die ein Mensch bewältigen kann. Das Lösen komplexer mathematischer Probleme erfordert logisches Denken und Verständnis – grundlegende Komponenten allgemeiner Intelligenz. Dieser Erfolg zeigt, dass die KI Fortschritte in Richtung menschenähnlicherer kognitiver Fähigkeiten macht.

Für die Mathematik können KI-Systeme wie Gemini Deep Think unschätzbare Werkzeuge sein. Sie unterstützen die Erforschung neuer Bereiche, die Überprüfung von Vermutungen und sogar die Entdeckung neuer Theoreme. Durch die Automatisierung der mühsameren Aspekte der Beweisführung gibt KI menschlichen Mathematikern den Freiraum, sich auf anspruchsvollere konzeptionelle Arbeit zu konzentrieren. Darüber hinaus könnten die für diese KI-Systeme entwickelten Techniken neue Methoden in der mathematischen Forschung inspirieren, die allein durch menschliches Engagement möglicherweise nicht möglich wären.

Der Fortschritt der KI in der Mathematik wirft jedoch auch Fragen zur Rolle der KI in Bildungskontexten und Wettbewerben auf. Da die Fähigkeiten der KI weiter wachsen, wird es Debatten darüber geben, wie ihr Einsatz die Art der mathematischen Ausbildung und des Wettbewerbs verändern könnte.

Ich freue mich auf

Der Gewinn der IMO-Goldmedaille ist ein bedeutender Meilenstein, doch viele mathematische Herausforderungen sind für aktuelle KI-Systeme noch unerreichbar. Der rasante Aufstieg von Silber zu Gold in nur einem Jahr unterstreicht jedoch das zunehmende Tempo von KI-Innovationen und -Entwicklungen. Wenn dieses Tempo anhält, könnten KI-Systeme bald einige der bekanntesten ungelösten Probleme der Mathematik lösen. Während die Frage, ob KI die menschliche Kreativität ersetzen oder verbessern wird, ungeklärt bleibt, ist die IMO 2025 ein klares Indiz dafür, dass künstliche Intelligenz im Bereich des logischen Denkens bedeutende Fortschritte gemacht hat.

Dr. Tehseen Zia

Dr. Tehseen Zia ist außerordentlicher Professor an der COMSATS-Universität Islamabad und hat einen Doktortitel in KI von der Technischen Universität Wien, Österreich. Er ist auf künstliche Intelligenz, maschinelles Lernen, Datenwissenschaft und Computer Vision spezialisiert und hat mit Veröffentlichungen in renommierten wissenschaftlichen Fachzeitschriften bedeutende Beiträge geleistet. Dr. Tehseen hat außerdem als Hauptforscher verschiedene Industrieprojekte geleitet und war als KI-Berater tätig.

Unite.AI

Von Silber zu Gold: Wie DeepMinds KI die Mathematik-Olympiade eroberte

Die Bedeutung der IMO

Der Silbermedaillen-Durchbruch von 2024

Technische Innovationen hinter der Goldmedaille

1. Natürliche Sprache als Medium für Beweise

2. Training und bestärkendes Lernen

3. Massive Parallelisierung

DeepMind auf der IMO 2025

Auswirkungen auf KI und Mathematik

Ich freue mich auf

Vielleicht gefällt dir