Künstliche Intelligenz

Wie Phi-4-Reasoning das KI-Denken neu definiert, indem es den Mythos „Größer ist besser“ in Frage stellt

Veröffentlicht May 27, 2025

Dr. Tehseen Zia

Microsofts jüngste Veröffentlichung von Phi-4-Argumentation stellt eine zentrale Annahme beim Aufbau schlussfolgerungsfähiger künstlicher Intelligenzsysteme in Frage. Seit der Einführung des Chain-of-Thinking-Verfahrens im Jahr 2022 glaubten Forscher, dass fortgeschrittenes Schlussfolgern sehr große Sprachmodelle mit Hunderten von Milliarden Parametern erfordert. Microsofts neues 14-Milliarden-Parameter-Modell Phi-4-Reasoning stellt diese Annahme jedoch in Frage. Durch die Verwendung eines datenzentrierten Ansatzes statt reiner Rechenleistung erreicht das Modell eine Leistung, die mit viel größeren Systemen vergleichbar ist. Dieser Durchbruch zeigt, dass ein datenzentrierter Ansatz für das Training von Schlussfolgerungsmodellen genauso effektiv sein kann wie für das Training herkömmlicher KI. Er eröffnet kleineren KI-Modellen die Möglichkeit, fortgeschrittenes Schlussfolgern zu erreichen, indem er die Art und Weise verändert, wie KI-Entwickler Schlussfolgerungsmodelle trainieren – weg vom Motto „größer ist besser“ hin zu „bessere Daten sind besser“.

Das traditionelle Argumentationsparadigma

Gedankenketten-Argumentation hat sich zum Standard für die Lösung komplexer Probleme in der künstlichen Intelligenz entwickelt. Diese Technik führt Sprachmodelle durch schrittweises Denken und zerlegt schwierige Probleme in kleinere, überschaubare Schritte. Sie ahmt menschliches Denken nach, indem sie die Modelle in natürlicher Sprache „laut denken“ lässt, bevor sie eine Antwort geben.

Diese Fähigkeit war jedoch mit einer wichtigen Einschränkung verbunden. Forscher gefunden Die Denkketten-Anregung funktionierte nur bei sehr großen Sprachmodellen gut. Die Denkfähigkeit schien direkt mit der Modellgröße verknüpft zu sein, wobei größere Modelle bei komplexen Denkaufgaben bessere Ergebnisse lieferten. Diese Erkenntnis führte zu einem Wettbewerb um die Entwicklung großer Denkmodelle, bei dem sich die Unternehmen darauf konzentrierten, ihre großen Sprachmodelle in leistungsstarke Denkmaschinen umzuwandeln.

Die Idee, Denkfähigkeiten in KI-Modelle zu integrieren, entstand vor allem aus der Beobachtung, dass große Sprachmodelle kontextbezogenes Lernen. Forscher beobachtet Wenn Modellen Beispiele gezeigt werden, wie sie Probleme schrittweise lösen können, lernen sie, diesem Muster auch bei neuen Problemen zu folgen. Dies führte zu der Annahme, dass größere Modelle, die mit großen Datenmengen trainiert wurden, von Natur aus ein fortgeschritteneres Denkvermögen entwickeln. Der starke Zusammenhang zwischen Modellgröße und Denkleistung wurde allgemein anerkannt. Teams investierten enorme Ressourcen in die Skalierung der Denkfähigkeiten mithilfe von Verstärkung lernen, da er glaubte, dass Rechenleistung der Schlüssel zu fortgeschrittenem Denken sei.

Den datenzentrierten Ansatz verstehen

Der Aufstieg von datenzentrierte KI stellt die „Größer ist besser“-Mentalität in Frage. Dieser Ansatz verlagert den Fokus von der Modellarchitektur auf die sorgfältige Entwicklung der Daten, die zum Trainieren von KI-Systemen verwendet werden. Anstatt Daten als festen Input zu behandeln, betrachtet die datenzentrierte Methodik sie als Material, das verbessert und optimiert werden kann, um die KI-Leistung zu steigern.

Andrew Ng, ein führender Experte auf diesem Gebiet, fördert Aufbau systematischer Engineering-Praktiken zur Verbesserung der Datenqualität, anstatt nur Code anzupassen oder Modelle zu skalieren. Diese Philosophie berücksichtigt, dass Datenqualität und -kuratierung oft wichtiger als die Modellgröße. Unternehmen, die diesen Ansatz verfolgen, zeigen, dass kleinere, gut trainierte Modelle größere übertreffen können, wenn sie mit hochwertigen, sorgfältig vorbereiteten Datensätzen trainiert werden.

Der datenzentrierte Ansatz stellt eine andere Frage: „Wie können wir unsere Daten verbessern?“, statt: „Wie können wir das Modell vergrößern?“ Das bedeutet, bessere Trainingsdatensätze zu erstellen, die Datenqualität zu verbessern und systematisches Data Engineering zu entwickeln. Bei der datenzentrierten KI liegt der Fokus darauf, zu verstehen, was Daten für bestimmte Aufgaben effektiv macht, und nicht nur darauf, mehr davon zu sammeln.

Dieser Ansatz hat sich als vielversprechend für das Training kleiner, aber leistungsstarker KI-Modelle mit kleinen Datensätzen und deutlich weniger Rechenleistung erwiesen. Die Phi-Modelle von Microsoft sind ein gutes Beispiel für das Training kleiner Sprachmodelle mit einem datenzentrierten Ansatz. Diese Modelle werden trainiert mit Lehrplan lernen Dies ist vor allem davon inspiriert, wie Kinder durch zunehmend schwierigere Beispiele lernen. Die Modelle werden zunächst an einfachen Beispielen trainiert, die dann schrittweise durch schwierigere ersetzt werden. Microsoft hat einen Datensatz aus Lehrbüchern erstellt, wie in seinem Artikel „Lehrbücher sind alles, was Sie brauchen.“ Das hat geholfen Phi-3 übertreffen Modelle wie Gemma und GPT 3.5 von Google bei Aufgaben wie Sprachverständnis, Allgemeinwissen, Mathematikproblemen in der Grundschule und der Beantwortung medizinischer Fragen.

Trotz des Erfolgs des datenzentrierten Ansatzes ist das logische Denken im Allgemeinen ein Merkmal großer KI-Modelle geblieben. Dies liegt daran, dass logisches Denken komplexe Muster und Wissen erfordert, die von groß angelegten Modellen leichter erfasst werden können. Diese Annahme wurde jedoch kürzlich durch die Entwicklung des Phi-4-Reasoning-Modells in Frage gestellt.

Die bahnbrechende Strategie des Phi-4-Arguments

Phi-4-Reasoning zeigt, wie ein datenzentrierter Ansatz zum Trainieren kleiner Reasoning-Modelle genutzt werden kann. Das Modell wurde durch überwachte Feinabstimmung des Phi-4-Basismodells anhand sorgfältig ausgewählter, lehrbarer Eingabeaufforderungen und Reasoning-Beispiele erstellt, die mit OpenAIs o3-mini generiert wurden. Der Fokus lag auf Qualität und Spezifität statt auf der Datensatzgröße. Das Modell wird mit rund 1.4 Millionen qualitativ hochwertigen Eingabeaufforderungen anstelle von Milliarden generischer Eingabeaufforderungen trainiert. Die Forscher filterten die Beispiele, um unterschiedliche Schwierigkeitsgrade und Reasoning-Typen abzudecken und so Vielfalt zu gewährleisten. Diese sorgfältige Kuratierung machte jedes Trainingsbeispiel zielgerichtet und vermittelte dem Modell spezifische Reasoning-Muster, anstatt nur das Datenvolumen zu erhöhen.

Beim überwachten Feintuning wird das Modell mit vollständigen Denkprozessdemonstrationen trainiert. Diese schrittweisen Denkketten halfen dem Modell, logische Argumente aufzubauen und Probleme systematisch zu lösen. Um die Denkfähigkeiten des Modells weiter zu verbessern, wird es durch Verstärkungslernen an rund 6,000 hochwertigen mathematischen Problemen mit verifizierten Lösungen weiter verfeinert. Dies zeigt, dass selbst geringe Mengen gezielten Verstärkungslernens das Denken deutlich verbessern können, wenn es auf gut kuratierte Daten angewendet wird.

Leistung, die alle Erwartungen übertrifft

Die Ergebnisse belegen, dass dieser datenzentrierte Ansatz funktioniert. Phi-4-Reasoning übertrifft deutlich größere Open-Weight-Modelle wie DeepSeek-R1-Distill-Lama-70B und entspricht fast dem vollen DeepSeek-R1, obwohl es viel kleiner ist. Beim AIME 2025-Test (einem Qualifikationstest für die US-Mathe-Olympiade) schlägt das Phi-4-Reasoning DeepSeek-R1 mit 671 Milliarden Parametern.

Diese Fortschritte gehen über die Mathematik hinaus und umfassen wissenschaftliche Problemlösungen, Codierung, Algorithmen, Planung und räumliche Aufgaben. Verbesserungen durch sorgfältige Datenpflege lassen sich gut auf allgemeine Benchmarks übertragen. Dies deutet darauf hin, dass diese Methode eher grundlegende Denkfähigkeiten als aufgabenspezifische Tricks fördert.

Phi-4-Reasoning stellt die Vorstellung in Frage, dass fortgeschrittenes Denken enorme Rechenleistung erfordert. Ein Modell mit 14 Milliarden Parametern kann die Leistung von Dutzenden größerer Modelle erreichen, wenn es mit sorgfältig kuratierten Daten trainiert wird. Diese Effizienz hat wichtige Konsequenzen für den Einsatz schlussfolgernder KI bei begrenzten Ressourcen.

Auswirkungen auf die KI-Entwicklung

Der Erfolg des Phi-4-Reasonings signalisiert einen Wandel in der Entwicklung von KI-Reasoning-Modellen. Anstatt sich hauptsächlich auf die Vergrößerung der Modelle zu konzentrieren, können Teams durch Investitionen in Datenqualität und -kuratierung bessere Ergebnisse erzielen. Dies macht fortgeschrittenes Reasoning auch für Unternehmen ohne große Rechenbudgets zugänglicher.

Die datenzentrierte Methode eröffnet zudem neue Forschungsansätze. Zukünftige Arbeiten können sich darauf konzentrieren, bessere Trainingsanregungen zu finden, umfassendere Demonstrationen des Schlussfolgerungsprozesses zu erstellen und zu verstehen, welche Daten das Schlussfolgerungsprozesses am besten unterstützen. Diese Ansätze könnten produktiver sein als der bloße Aufbau größerer Modelle.

Im weiteren Sinne kann dies zur Demokratisierung der KI beitragen. Wenn kleinere, mit kuratierten Daten trainierte Modelle mit großen Modellen mithalten können, wird fortschrittliche KI für mehr Entwickler und Organisationen verfügbar. Dies kann auch die KI-Einführung und Innovation in Bereichen beschleunigen, in denen sehr große Modelle nicht praktikabel sind.

Die Zukunft der Reasoning-Modelle

Phi-4-Reasoning setzt einen neuen Standard für die Entwicklung von Reasoning-Modellen. Zukünftige KI-Systeme werden wahrscheinlich eine Balance zwischen sorgfältiger Datenpflege und architektonischen Verbesserungen finden. Dieser Ansatz berücksichtigt, dass sowohl Datenqualität als auch Modelldesign wichtig sind. Eine Verbesserung der Daten könnte jedoch schnellere und kostengünstigere Fortschritte ermöglichen.

Dies ermöglicht auch spezialisierte, auf domänenspezifischen Daten trainierte Modelle. Statt universeller Giganten können Teams durch gezielte Datenkuratierung fokussierte Modelle entwickeln, die in bestimmten Bereichen herausragend sind. Dies schafft effizientere KI für spezifische Anwendungen.

Mit fortschreitender KI werden die Erkenntnisse aus dem Phi-4-Reasoning nicht nur das Training von Reasoning-Modellen, sondern auch die gesamte KI-Entwicklung beeinflussen. Der Erfolg der Datenkuratierung bei der Überwindung von Größenbeschränkungen deutet darauf hin, dass zukünftige Fortschritte in der Kombination von Modellinnovation und intelligentem Data Engineering liegen, anstatt nur größere Architekturen zu entwickeln.

Fazit

Microsofts Phi-4-Reasoning widerlegt die gängige Annahme, dass fortgeschrittenes KI-Reasoning sehr große Modelle benötigt. Anstatt auf größere Größen zu setzen, nutzt dieses Modell einen datenzentrierten Ansatz mit hochwertigen und sorgfältig ausgewählten Trainingsdaten. Phi-4-Reasoning verfügt zwar nur über 14 Milliarden Parameter, ist aber bei schwierigen Reasoning-Aufgaben genauso leistungsfähig wie deutlich größere Modelle. Dies zeigt, dass die Konzentration auf bessere Daten wichtiger ist als die bloße Vergrößerung der Modellgröße.

Diese neue Trainingsmethode macht KI mit fortgeschrittenem Denkvermögen effizienter und auch für Unternehmen verfügbar, die nicht über große Rechenressourcen verfügen. Der Erfolg des Phi-4-Reasonings weist in eine neue Richtung der KI-Entwicklung. Der Fokus liegt auf der Verbesserung der Datenqualität, intelligentem Training und sorgfältiger Entwicklung, anstatt nur Modelle zu vergrößern.

Dieser Ansatz kann dazu beitragen, die KI-Entwicklung zu beschleunigen, Kosten zu senken und mehr Menschen und Unternehmen die Nutzung leistungsstarker KI-Tools zu ermöglichen. Zukünftig wird KI wahrscheinlich durch die Kombination besserer Modelle mit besseren Daten wachsen und so fortschrittliche KI in vielen Spezialbereichen nützlich machen.

Dr. Tehseen Zia

Dr. Tehseen Zia ist außerordentlicher Professor an der COMSATS-Universität Islamabad und hat einen Doktortitel in KI von der Technischen Universität Wien, Österreich. Er ist auf künstliche Intelligenz, maschinelles Lernen, Datenwissenschaft und Computer Vision spezialisiert und hat mit Veröffentlichungen in renommierten wissenschaftlichen Fachzeitschriften bedeutende Beiträge geleistet. Dr. Tehseen hat außerdem als Hauptforscher verschiedene Industrieprojekte geleitet und war als KI-Berater tätig.