AGI
KI-Next-Scaling-Gesetz: Nicht mehr Daten, sondern bessere Weltmodelle

Seit Jahren folgt die KI-Industrie einer einfachen, brutalen Regel: Größer ist besser. Wir trainierten Modelle auf riesigen Datensätzen, erhöhten die Anzahl der Parameter und warfen immense Rechenleistung in das Problem. Diese Formel funktionierte die meiste Zeit. Von GPT-3 zu GPT-4 und von primitiven Chatbots zu Reasoning-Engines deutete das “Skalierungsgesetz” darauf hin, dass wir, wenn wir dem System einfach mehr Text füttern, es irgendwann intelligent machen würden.
Aber wir stoßen jetzt an eine Grenze. Das Internet ist endlich. Hochwertige öffentliche Daten werden knapp, und die Renditen, die durch die bloße Vergrößerung der Modelle erzielt werden, nehmen ab. Die führenden KI-Forscher argumentieren, dass der nächste große Sprung in der künstlichen Intelligenz nicht durch das Lesen von mehr Text allein kommen wird. Er wird durch das Verständnis der Realität hinter dem Text kommen. Diese Überzeugung signalisiert eine grundlegende Verschiebung in der Ausrichtung der KI, die Ära des Weltmodells einleitend.
Grenzen der Next-Token-Vorhersage
Um zu verstehen, warum wir einen neuen Ansatz benötigen, müssen wir zunächst sehen, was aktuelle KI-Systeme tatsächlich tun. Trotz ihrer beeindruckenden Fähigkeiten sind Modelle wie ChatGPT oder Claude fundamental statistische Maschinen. Sie vorhersagen das nächste Wort in einer Sequenz basierend auf der Wahrscheinlichkeit dessen, was zuvor kam. Sie verstehen nicht, dass ein fallen gelassenes Glas zersplittert; sie wissen einfach, dass in Millionen von Geschichten das Wort “zersplittern” oft dem Ausdruck “fallen gelassenes Glas” folgt.
Dieser Ansatz, bekannt als autoregressives Modellieren, hat einen kritischen Fehler. Er basiert vollständig auf Korrelation, nicht auf Kausalität. Wenn Sie ein LLM auf tausend Beschreibungen eines Autounfalls trainieren, lernt es die Sprache von Unfällen. Aber es lernt nie die Physik von Impuls, Reibung oder Zerbrechlichkeit. Es ist ein Zuschauer, kein Teilnehmer.
Diese Einschränkung wird zur “Datenwand“. Wir haben fast das gesamte öffentliche Internet abgegrast. Um mit der aktuellen Methode weiter zu skalieren, bräuchten wir exponentiell mehr Daten, als es gibt. Künstliche Daten (d. h. von KI generierter Text) bieten eine vorübergehende Lösung, führen aber oft zu “Modellkollaps“, bei dem das System seine eigenen Vorurteile und Fehler verstärkt. Wir können nicht durch bloßes Lesen von Text zu künstlicher allgemeiner Intelligenz (AGI) gelangen, da Text eine niedrige Bandbreite ist, die die Welt komprimiert. Er beschreibt die Realität, ist aber nicht die Realität selbst.
Warum Weltmodelle wichtig sind
KI-Führungskräfte wie Yann LeCun haben lange argumentiert, dass aktuelle KI-Systeme einen fundamentalen Aspekt der menschlichen Kognition fehlen, den sogar junge Kinder von Natur aus besitzen. Dies ist unsere Fähigkeit, ein internes Modell davon zu bewahren, wie die Welt funktioniert, das sie oft als Weltmodell bezeichnen. Ein Weltmodell vorhersagt nicht nur das nächste Wort; es baut eine interne mentale Karte davon auf, wie die physische Umgebung funktioniert. Wenn wir sehen, wie ein Ball hinter einem Sofa rollt, wissen wir, dass er noch da ist. Wir wissen, dass er auf der anderen Seite auftauchen wird, es sei denn, er wird gestoppt. Wir müssen kein Lehrbuch lesen, um dies zu verstehen; wir führen eine mentale Simulation basierend auf unserem internen “Weltmodell” von Physik und Objektkonstanz durch.
Um voranzukommen, muss die KI von statistischer Nachahmung zu dieser Art interner Simulation übergehen. Sie muss die zugrunde liegenden Ursachen von Ereignissen verstehen, nicht nur ihre textlichen Beschreibungen.
Die Joint Embedding Predictive Architecture (JEPA) ist ein prominentes Beispiel für diesen Paradigmenwechsel. Im Gegensatz zu LLMs, die versuchen, jedes einzelne Pixel oder Wort vorherzusagen (ein Prozess, der rechenintensiv und laut ist), vorhersagt JEPA abstrakte Repräsentationen. Es ignoriert unvorhersehbare Details wie die Bewegung einzelner Blätter auf einem Baum und konzentriert sich auf hochrangige Konzepte wie den Baum, den Wind und die Jahreszeit. Durch das Lernen, wie diese hochrangigen Zustände sich im Laufe der Zeit ändern, lernt die KI die Struktur der Welt, nicht die oberflächlichen Details.
Von Vorhersage zu Simulation
Wir sehen bereits die ersten Anzeichen dieses Übergangs in den Video-Generierungsmodellen. Als OpenAI Sora veröffentlichte, beschrieben sie es nicht nur als Video-Tool, sondern als “Welt-Simulator.”
Diese Unterscheidung ist entscheidend. Ein Standard-Video-Generator könnte ein Video einer Person erstellen, die geht, indem er vorhersagt, welche farbigen Pixel normalerweise nebeneinander liegen. Ein Welt-Simulator hingegen versucht, 3D-Konsistenz, Beleuchtung und Objektkonstanz über die Zeit hinweg aufrechtzuerhalten. Er “versteht”, dass, wenn die Person hinter einer Wand geht, sie nicht aus dem Dasein verschwinden sollte.
Obwohl aktuelle Video-Modelle noch weit von perfekt entfernt sind, repräsentieren sie das neue Trainingsfeld. Die physische Welt enthält wesentlich mehr Informationen als die textliche Welt. Eine einzelne Sekunde Video enthält Millionen von visuellen Datenpunkten über Physik, Licht und Interaktion. Durch das Trainieren von Modellen auf diese visuelle Realität können wir der KI den “gesunden Menschenverstand” beibringen, den LLMs derzeit fehlt.
Dies schafft ein neues Skalierungsgesetz. Erfolg wird nicht länger durch die Anzahl der Billionen von Token gemessen, die ein Modell gelesen hat. Er wird durch die Treue seiner Simulation und seine Fähigkeit gemessen, zukünftige Zustände der Umgebung vorherzusagen. Eine KI, die die Konsequenzen einer Handlung ohne deren Ausführung vorhersagen kann, ist eine KI, die planen, vernünftig handeln und sicher handeln kann.
Effizienz und der Weg zu AGI
Diese Verschiebung behandelt auch die untragbaren Energiekosten der aktuellen KI. LLMs sind ineffizient, weil sie jedes Detail vorhersagen müssen, um eine kohärente Ausgabe zu erzeugen. Ein Weltmodell ist effizienter, weil es selektiv ist. Genau wie ein menschlicher Fahrer sich auf die Straße konzentriert und das Muster der Wolken am Himmel ignoriert, konzentriert sich ein Weltmodell auf die relevanten kausalen Faktoren einer Aufgabe.
LeCun hat argumentiert, dass dieser Ansatz es Modellen ermöglicht, viel schneller zu lernen. Ein System wie V-JEPA (Video-Joint Embedding Predictive Architecture) hat gezeigt, dass es mit wesentlich weniger Trainingsiterationen als herkömmliche Methoden konvergieren kann. Durch das Lernen der “Form” der Daten anstelle des Memorierens der Daten selbst bauen Weltmodelle eine robustere Form von Intelligenz auf, die sich besser auf neue, unbekannte Situationen verallgemeinert.
Dies ist das fehlende Glied für AGI. Wahre Intelligenz erfordert Navigation. Sie erfordert, dass ein Agent auf ein Ziel schaut, verschiedene Pfade zur Erreichung dieses Ziels unter Verwendung seines internen Weltmodells simuliert und dann den Pfad mit der höchsten Erfolgswahrscheinlichkeit wählt. Text-Generatoren können dies nicht; sie können nur einen Plan schreiben, sie können die Einschränkungen seiner Ausführung nicht verstehen.
Das Fazit
Die KI-Industrie steht an einem Wendepunkt. Die Strategie des “einfach mehr Daten hinzufügens” erreicht ihr logisches Ende. Wir bewegen uns vom Zeitalter des Chatbots zum Zeitalter des Simulators.
Die nächste Generation der KI-Skalierung wird nicht darum gehen, das gesamte Internet zu lesen. Sie wird darum gehen, die Welt zu beobachten, ihre Regeln zu verstehen und eine interne Architektur aufzubauen, die der Realität entspricht. Dies ist nicht nur eine technische Aufwertung; es ist eine grundlegende Änderung dessen, was wir unter “Lernen” verstehen.
Für Unternehmen und Forscher muss der Fokus sich verschieben. Wir müssen aufhören, uns auf Parameterzahlen zu konzentrieren, und beginnen, zu bewerten, wie gut unsere Systeme Ursache und Wirkung verstehen. Die KI der Zukunft wird nicht nur erzählen, was passiert ist; sie wird zeigen, was passieren könnte, und warum. Das ist das Versprechen von Weltmodellen, und es ist der einzige Weg nach vorne.












