Vernetzen Sie sich mit uns

KĂĽnstliche allgemeine Intelligenz

Das nächste Skalierungsgesetz der KI: Nicht mehr Daten, sondern bessere Weltmodelle

mm

Jahrelang folgte die KI-Branche einer simplen, aber brutalen Regel: Größer ist besser. Wir trainierten Modelle mit riesigen Datensätzen, erhöhten die Anzahl der Parameter und setzten immense Rechenleistung ein. Diese Formel funktionierte meistens. Von GPT-3 bis GPT-4 und von einfachen Chatbots bis hin zu komplexen Schlussfolgerungsmaschinen – die „Skalierungsgesetz„sagte, dass die Maschine irgendwann intelligent werden würde, wenn wir ihr immer mehr Text zuführten.“

Aber wir sind jetzt Ich stoße gegen eine WandDas Internet hat endliche Ressourcen. Hochwertige öffentliche Daten gehen zur Neige, und der Nutzen einer einfachen Vergrößerung der Modelle nimmt ab. abnehmenderDie führenden KI-Forscher argumentieren Der nächste große Sprung in der künstlichen Intelligenz wird nicht allein durch das Lesen von mehr Text erzielt werden, sondern durch das Verständnis der Realität hinter dem Text. Diese Überzeugung signalisiert einen grundlegenden Wandel im Fokus der KI und läutet die Ära des Weltmodells ein.

Die Grenzen der Next-Token-Vorhersage

Um zu verstehen, warum wir einen neuen Ansatz benötigen, müssen wir uns zunächst ansehen, was aktuelle KI-Systeme tatsächlich leisten. Trotz ihrer beeindruckenden Fähigkeiten sind Modelle wie ChatGPT oder Claude im Grunde genommen… statistische WerkzeugeSie sagen das nächste Wort in einer Wortfolge voraus, basierend auf der Wahrscheinlichkeit des vorhergehenden Wortes. Sie verstehen nicht, dass ein fallengelassenes Glas zerbricht; sie wissen lediglich, dass in Millionen von Geschichten das Wort „zerbrechen“ oft auf die Wendung „fallengelassenes Glas“ folgt.

Dieser Ansatz, bekannt als autoregressive ModellierungDieses Modell hat einen entscheidenden Fehler: Es basiert ausschließlich auf Korrelation, nicht auf Kausalität. Trainiert man ein LLM mit tausend Beschreibungen von Autounfällen, lernt es zwar die Sprache der Unfälle, aber niemals die physikalischen Prinzipien von Impuls, Reibung oder Zerbrechlichkeit. Es bleibt Zuschauer, nicht Teilnehmer.

Diese Einschränkung wird zum „DatenwandWir haben das öffentliche Internet nahezu vollständig durchsucht. Um mit der aktuellen Methode weiter zu expandieren, bräuchten wir exponentiell mehr Daten, als vorhanden sind. Synthetische Daten (d. h. von KI generierter Text) bieten eine vorübergehende Lösung, führen aber oft zu …ModellzusammenbruchHierbei verstärkt das System seine eigenen Verzerrungen und Fehler. Wir können künstliche allgemeine Intelligenz (AGI) nicht allein durch Textanalyse erreichen, da Text lediglich eine komprimierte Darstellung der Welt mit geringer Bandbreite ist. Er beschreibt die Realität, ist aber nicht die Realität selbst.

Warum Weltmodelle wichtig sind

AI Führung Wissenschaftler wie Yann LeCun argumentieren seit Langem, dass es den heutigen KI-Systemen an einem fundamentalen Aspekt der menschlichen Kognition mangelt, den selbst kleine Kinder von Natur aus besitzen. Es handelt sich dabei um unsere Fähigkeit, ein inneres Modell der Funktionsweise der Welt aufrechtzuerhalten, das sie gemeinhin als … bezeichnen. WeltmodellEin Weltmodell sagt nicht nur das nächste Wort voraus; es erstellt eine innere mentale Karte der Funktionsweise der physikalischen Umgebung. Wenn wir einen Ball hinter ein Sofa rollen sehen, wissen wir, dass er noch da ist. Wir wissen, dass er auf der anderen Seite wieder auftaucht, solange er nicht gestoppt wird. Wir brauchen kein Lehrbuch, um das zu verstehen; wir führen eine mentale Simulation durch, basierend auf unserem inneren „Weltmodell“ der Physik und der Objektpermanenz.

Damit KI Fortschritte erzielen kann, muss sie von statistischer Imitation zu dieser Art interner Simulation ĂĽbergehen. Sie muss die zugrunde liegenden Ursachen von Ereignissen verstehen, nicht nur deren textuelle Beschreibungen.

Die Gemeinsame prädiktive Einbettungsarchitektur (JEPA) JEPA ist ein Paradebeispiel für diesen Paradigmenwechsel. Im Gegensatz zu LLMs, die versuchen, jedes einzelne Pixel oder Wort vorherzusagen (ein rechenintensiver und fehleranfälliger Prozess), sagt JEPA abstrakte Repräsentationen voraus. Es ignoriert unvorhersehbare Details wie die Bewegung einzelner Blätter an einem Baum und konzentriert sich auf übergeordnete Konzepte wie Baum, Wind und Jahreszeit. Indem KI lernt, vorherzusagen, wie sich diese übergeordneten Zustände im Laufe der Zeit verändern, erlernt sie die Struktur der Welt anstatt oberflächlicher Details.

Von der Vorhersage zur Simulation

Erste Anzeichen dieses Wandels zeigen sich bereits in den Modellen zur Videogenerierung. Als OpenAI Sora veröffentlichte, beschrieben sie es nicht nur als Videotool, sondern als „Weltsimulator"

Dieser Unterschied ist entscheidend. Ein herkömmlicher Videogenerator erstellt ein Video einer gehenden Person, indem er vorhersagt, welche farbigen Pixel üblicherweise nebeneinander liegen. Ein Weltsimulator hingegen versucht, die 3D-Konsistenz, die Beleuchtung und die Objektpermanenz über die Zeit aufrechtzuerhalten. Er „versteht“, dass die Person nicht verschwinden soll, wenn sie hinter einer Wand entlanggeht.

Obwohl aktuelle Videomodelle noch weit von Perfektion entfernt sind, stellen sie ein neues Übungsfeld dar. Die physische Welt enthält deutlich mehr Informationen als die textuelle Welt. Eine einzige Sekunde Videomaterial birgt Millionen visueller Datenpunkte zu Physik, Licht und Interaktion. Indem wir Modelle anhand dieser visuellen Realität trainieren, können wir der KI den „gesunden Menschenverstand“ beibringen, der LLMs derzeit noch fehlt.

Dies führt zu einem neuen Skalierungsgesetz. Erfolg wird nicht mehr daran gemessen, wie viele Billionen Token ein Modell verarbeitet hat, sondern an der Genauigkeit seiner Simulation und seiner Fähigkeit, zukünftige Zustände der Umgebung vorherzusagen. Eine KI, die die Folgen einer Handlung präzise simulieren kann, ohne diese Handlung selbst ausführen zu müssen, ist eine KI, die planen, argumentieren und sicher handeln kann.

Effizienz und der Weg zu AGI

Diese Umstellung befasst sich auch mit dem Nichtnachhaltigen Energiekosten Aktuelle KI-Systeme sind ineffizient. Logische Lernmodelle (LLMs) mĂĽssen jedes Detail vorhersagen, um ein konsistentes Ergebnis zu generieren. Ein Weltmodell ist effizienter, da es selektiv arbeitet. So wie sich ein menschlicher Fahrer auf die StraĂźe konzentriert und die Wolkenformationen am Himmel ignoriert, fokussiert sich ein Weltmodell auf die relevanten Einflussfaktoren einer Aufgabe.

LeCun argumentierte, dass dieser Ansatz es Modellen ermöglicht, viel schneller zu lernen. Ein System wie V-JEPA Die Video-Joint Embedding Predictive Architecture (VJEP) hat gezeigt, dass sie mit deutlich weniger Trainingsiterationen als herkömmliche Methoden zu einer Lösung konvergieren kann. Indem sie die „Struktur“ der Daten lernt, anstatt die Daten selbst zu speichern, entwickelt die World Model eine robustere Form von Intelligenz, die sich besser auf neue, unbekannte Situationen übertragen lässt.

Dies ist das fehlende Glied für AGI. Wahre Intelligenz erfordert Navigation. Sie benötigt einen Agenten, der ein Ziel betrachtet, mithilfe seines internen Weltmodells verschiedene Wege zu dessen Erreichung simuliert und dann den Weg mit der höchsten Erfolgswahrscheinlichkeit auswählt. Textgeneratoren können dies nicht; sie können lediglich einen Plan erstellen, aber die Einschränkungen seiner Umsetzung nicht verstehen.

Fazit

Die KI-Branche steht an einem Wendepunkt. Die Strategie, einfach immer mehr Daten hinzuzufügen, stößt an ihre Grenzen. Wir bewegen uns vom Zeitalter des Chatbots zum Zeitalter des Simulators.

Die nächste Generation der KI-Skalierung wird nicht darin bestehen, das gesamte Internet zu lesen. Vielmehr geht es darum, die Welt zu beobachten, ihre Regeln zu verstehen und eine interne Architektur zu entwickeln, die die Realität widerspiegelt. Dies ist nicht nur ein technisches Upgrade, sondern ein grundlegender Wandel in unserem Verständnis von „Lernen“.

Für Unternehmen und Forscher muss sich der Fokus verlagern. Wir müssen aufhören, uns in Parameterzahlen zu verlieren, und stattdessen bewerten, wie gut unsere Systeme Ursache und Wirkung verstehen. Die KI der Zukunft wird uns nicht nur sagen, was passiert ist, sondern auch zeigen, was passieren könnte und warum. Das ist das Versprechen von Weltmodellen, und es ist der einzige Weg in die Zukunft.

Dr. Tehseen Zia ist außerordentlicher Professor an der COMSATS-Universität Islamabad und hat einen Doktortitel in KI von der Technischen Universität Wien, Österreich. Er ist auf künstliche Intelligenz, maschinelles Lernen, Datenwissenschaft und Computer Vision spezialisiert und hat mit Veröffentlichungen in renommierten wissenschaftlichen Fachzeitschriften bedeutende Beiträge geleistet. Dr. Tehseen hat außerdem als Hauptforscher verschiedene Industrieprojekte geleitet und war als KI-Berater tätig.