Künstliche Intelligenz
Test-Time-Skaling: Die geheime Zutat hinter der neuen Welle von PhD-Niveau-Reasoning-Modellen

Das Feld der künstlichen Intelligenz hat einen Punkt erreicht, an dem das bloße Hinzufügen von mehr Daten oder die Vergrößerung eines Modells nicht der beste Weg ist, um es intelligenter zu machen. In den letzten Jahren glaubten wir, dass wir, wenn wir größere neuronale Netze bauen und ihnen mehr von dem Internet füttern, sie schließlich intelligenter werden. Dieser Ansatz, bekannt als Skalierungsgesetze, funktionierte erstaunlich gut. Er gab uns Modelle, die Gedichte schreiben, Sprachen übersetzen und die Bar-Prüfung bestehen können. Diese Modelle hatten jedoch oft Schwierigkeiten mit tiefen logischen Überlegungen, komplexen mathematischen Problemen und mehrschrittigen wissenschaftlichen Problemen. Sie waren hervorragend darin, Muster zu erkennen, aber oft erfolglos bei Problemen, die mehrschrittiges Denken erfordern.
In letzter Zeit ist ein neuer Trend aufgetaucht, der die Art und Weise, wie wir über die Fähigkeiten von KI denken, verändert. Dieser Trend wird als Test-Time-Skaling bezeichnet. Anstatt sich nur darauf zu konzentrieren, wie viel ein Modell während seiner Trainingsphase lernt, konzentrieren sich Forscher nun darauf, wie viel das Modell “denkt”, wenn es tatsächlich eine Frage beantwortet. Diese Verschiebung ist die geheime Zutat hinter der neuesten Welle von Reasoning-Modellen, wie z.B. OpenAIs o1-Serie, die jetzt auf dem Niveau von PhD-Studenten in schwierigen Fächern wie Physik, Chemie und Biologie performen.
Der Wechsel von der Skalierung des Trainings zur Skalierung der Inferenz
Um zu verstehen, warum dies eine große Veränderung ist, müssen wir uns ansehen, wie KI bisher aufgebaut wurde. Traditionell wurde die “Intelligenz” eines Modells anhand seines Trainings bestimmt. Dies beinhaltete das Ausgeben von Monaten und Millionen von Dollar, um massive Mengen an Daten durch Tausende von GPUs zu jagen. Sobald das Training abgeschlossen war, war das Modell im Wesentlichen eingefroren. Wenn man es eine Frage stellte, würde es fast sofort eine Antwort liefern, basierend auf den Mustern, die es bereits gelernt hatte. Dies nennen wir Inferenz oder Test-Time.
Das Problem mit diesem traditionellen Ansatz ist, dass das Modell nur eine Chance hat, die richtige Antwort zu geben. Es verarbeitet den Prompt und generiert Token nacheinander, ohne die Möglichkeit, seine Logik zu “überdenken” oder zu “überprüfen”, bevor es antwortet. Test-Time-Skaling ändert diese Dynamik. Es ermöglicht dem Modell, während der Inferenzphase mehr Rechenleistung zu verwenden. Genau wie ein Mensch möglicherweise ein paar Sekunden braucht, um eine einfache Frage zu beantworten, aber mehrere Minuten oder Stunden, um ein komplexes Mathematikproblem zu lösen, werden KI-Modelle jetzt so konzipiert, dass sie ihre Anstrengung basierend auf der Schwierigkeit der Aufgabe skalieren.
Die Definition des Konzepts der Test-Time-Skaling
Test-Time-Skaling bezieht sich auf die Techniken, die es einem KI-Modell ermöglichen, zusätzliche Rechenressourcen zu verwenden, um eine Anfrage im Moment der Auslieferung zu verarbeiten. In einfachen Worten bedeutet es, dem Modell mehr “Denkzeit” zu geben. Es geht nicht darum, das Modell größer zu machen, sondern es bewusster zu machen. Wenn ein Modell Test-Time-Skaling verwendet, produziert es nicht einfach die erste Antwort, die ihm in den Sinn kommt. Stattdessen kann es möglicherweise verschiedene Pfade erkunden, Fehler in seiner eigenen Logik überprüfen und seine Antwort verfeinern, bevor der Benutzer sie sieht.
Dieses Konzept wird oft mit der Art und Weise verglichen, wie das menschliche Gehirn funktioniert. Psychologen sprechen oft über “System 1” und “System 2”-Denken. System 1 ist schnell, instinktiv und emotional. Es ist das, was Sie verwenden, wenn Sie ein Gesicht erkennen oder ein Auto auf einer vertrauten Straße fahren. System 2 ist langsamer, bewusster und logischer. Es ist das, was Sie verwenden, wenn Sie eine schwierige mathematische Gleichung lösen oder ein komplexes Projekt planen. Bis vor kurzem waren LLMs hauptsächlich System-1-Denker. Test-Time-Skaling ist die Brücke, die es ihnen ermöglicht, auf System-2-Denken zuzugreifen.
Die Mechanik des Denkprozesses
Es gibt mehrere Möglichkeiten, wie Forscher Test-Time-Skaling erreichen. Eine der häufigsten Methoden wird als Chain-of-Thought-(CoT)-Prompting bezeichnet, aber in diesen neuen Modellen ist es direkt in das System integriert und nicht etwas, worum der Benutzer bitten muss. Das Modell wird trainiert, ein Problem in kleinere, logische Schritte zu zerlegen. Indem es dies tut, kann das Modell jeden Teil der Lösung überprüfen, bevor es zum nächsten Schritt übergeht.
Eine weitere wichtige Technik beinhaltet Suchalgorithmen wie Monte-Carlo-Baum-Suche. Anstatt nur das nächste wahrscheinlichste Wort vorherzusagen, generiert das Modell mehrere mögliche Pfade für eine Antwort. Es bewertet diese Pfade und bestimmt, welcher wahrscheinlich zum richtigen Ergebnis führen wird. Wenn es auf eine Sackgasse stößt oder erkennt, dass ein vorheriger Schritt falsch war, kann es zurückgehen und einen anderen Ansatz versuchen. Diese “Vorausschau”-Fähigkeit ist sehr ähnlich wie bei einem Schach-Engine, der Tausende möglicher Züge auswertet, bevor er den besten wählt. Durch die Suche nach vielen Möglichkeiten während der Inferenzphase kann das Modell komplexere Probleme lösen als die, die direkt mit einem Standard-LLM gelöst werden können.
Warum PhD-Niveau-Reasoning mehr als nur Gedächtnis erfordert
Der Grund, warum dies so wichtig ist, liegt darin, dass hochrangiges Denken in Wissenschaft und Mathematik nicht allein durch Gedächtnis gelöst werden kann. In einer PhD-Prüfung in Physik kann man nicht einfach eine Tatsache wiederholen, die man in einem Lehrbuch gelesen hat. Man muss komplexe Prinzipien auf eine neue und einzigartige Situation anwenden. Standardmodelle halluzinieren oft in diesen Szenarien, weil sie versuchen, das nächste Wort basierend auf Wahrscheinlichkeit und nicht auf Logik vorherzusagen.
Test-Time-Skaling ermöglicht es dem Modell, mehr wie ein Forscher zu handeln. Es kann Hypothesen intern testen. Zum Beispiel kann ein Modell, wenn es aufgefordert wird, einen komplexen Code zu schreiben, die Logik in seiner versteckten Kette von Gedanken “ausführen”, einen potenziellen Bug identifizieren und ihn beheben, bevor es den endgültigen Code präsentiert. Diese Fähigkeit, sich selbst zu korrigieren, ist es, was es den neuen Modellen ermöglicht, hohe Punktzahlen in Benchmarks wie der American Invitational Mathematics Examination (AIME) oder der GPQA (einem schwierigen Wissenschaftstest, der von Experten entwickelt wurde) zu erzielen. Sie raten nicht einfach; sie überprüfen.
Der Effizienz-Kompromiss und die Rechenkosten
Während Test-Time-Skaling leistungsstark ist, kommt es mit einem erheblichen Kostenfaktor. Auf die alte Art und Weise war der teuerste Teil der KI das Training. Sobald das Modell bereit war, war es relativ billig und schnell, es auszuführen. Mit Test-Time-Skaling verschiebt sich die Kostenlast zur Anfrage des Benutzers. Da das Modell mehr Arbeit leistet, indem es mehrere Pfade generiert und seine eigene Arbeit überprüft, benötigt es mehr Zeit, um zu antworten, und erfordert mehr Hardware-Ressourcen.
Dies schafft eine neue Art von Ökonomie für KI. Wir bewegen uns in Richtung einer Situation, in der die “Kosten pro Abfrage” stark variieren können. Eine einfache Frage zum Wetter kann ein paar Cent kosten und eine Sekunde dauern. Eine tiefe wissenschaftliche Anfrage kann mehrere Dollar an Rechenzeit kosten und möglicherweise eine Stunde dauern. Dieser Kompromiss ist notwendig, um hochrangiges Denken zu erreichen, aber es bedeutet auch, dass Entwickler Wege finden müssen, um diese Modelle effizient zu machen, damit sie in Branchen wie Medizin oder Ingenieurwesen im großen Maßstab eingesetzt werden können.
Die Auswirkungen auf die Zukunft der künstlichen Intelligenz
Der Aufstieg von Test-Time-Skaling deutet darauf hin, dass wir möglicherweise in eine neue Ära der KI-Entwicklung eintreten. Jahrelang gab es die Sorge, dass wir schließlich auslaufen würden, wenn wir nach hochwertigen menschlichen Daten suchen, um Modelle zu trainieren. Wenn Modelle nur aus dem lernen, was Menschen bereits geschrieben haben, könnten sie ein Plateau erreichen. Test-Time-Skaling zeigt jedoch, dass Modelle ihre Leistung verbessern können, indem sie “härter” denken, und nicht nur, indem sie mehr lesen.
Dies öffnet die Tür für KI, um eigene Entdeckungen zu machen. Wenn ein Modell ein Problem durchdenken kann, das es noch nie zuvor gesehen hat, kann es möglicherweise neue Lösungen in Bereichen wie Materialwissenschaft, Arzneimittelentdeckung oder erneuerbare Energien finden. Es bewegt KI von einem hilfreichen Assistenten, der Text zusammenfasst, zu einem digitalen Mitarbeiter, der bei der Lösung der schwierigsten Probleme der Welt helfen kann. Wir sehen einen Wechsel von “generativer” KI zu “reasonierender” KI.
Das Fazit
Test-Time-Skaling erweist sich als das fehlende Glied in der Suche nach fortgeschrittener künstlicher Intelligenz. Indem wir Modelle ermöglichen, während der Inferenzphase mehr Rechenleistung zu verwenden, haben wir ein Leistungsniveau erreicht, das bisher als Jahre entfernt galt. Diese Modelle beginnen, eine Art von Logik zu demonstrieren, die viel näher an der menschlichen Intelligenz liegt als die einfache Mustererkennung der Vergangenheit.
Wenn wir voranschreiten, wird die Herausforderung darin bestehen, diese Techniken zu verfeinern. Wir müssen das Denken schneller und zugänglicher machen und das richtige Gleichgewicht zwischen “schnellem” und “langsamem” Denken finden. Die geheime Zutat ist nicht länger nur die Größe des Modells oder die Menge an Daten, die es gesehen hat. Die geheime Zutat ist, wie das Modell seine Zeit zum Denken nutzt. Für jeden, der den Fortschritt von KI verfolgt, ist klar, dass der Fokus verschoben wurde. Der Wettbewerb ist nicht länger nur darum, wer das größte Modell hat, sondern wer das Modell hat, das am besten denken kann. Diese Verschiebung wird wahrscheinlich das nächste Jahrzehnt der Innovation in diesem Bereich definieren.












