Andersons Blickwinkel

Können AI-Welten wirklich physikalische Gesetze verstehen?

mm
Image produced by ChatGPT-4o, depicting diverse objects exhibiting aberrant physical properties. The prompt was developed conversationally

Die große Hoffnung für Vision-Language-AI-Modelle ist, dass sie eines Tages in der Lage sein werden, eine größere Autonomie und Vielseitigkeit zu entwickeln und Prinzipien physikalischer Gesetze in ähnlicher Weise zu integrieren, wie wir durch frühe Erfahrungen ein angeborenes Verständnis dieser Prinzipien entwickeln.

Beispielsweise entwickeln Kinder bei Ballspielen ein Verständnis für Bewegungskinetik und die Auswirkungen von Gewicht und Oberflächenbeschaffenheit auf die Traektorie. Ebenso vermitteln Interaktionen mit alltäglichen Szenarien wie Bädern, verschütteten Getränken, dem Ozean, Schwimmbädern und anderen verschiedenen flüssigen Körpern uns ein vielseitiges und skalierbares Verständnis für das Verhalten von Flüssigkeiten unter Schwerkraft.

Sogar die Postulate weniger häufiger Phänomene – wie Verbrennungen, Explosionen und architektonische Gewichtsverteilung unter Druck – werden unbewusst durch die Exposition gegenüber Fernsehprogrammen und Filmen oder sozialen Medien-Videos aufgenommen.

Wenn wir die Prinzipien hinter diesen Systemen auf akademischer Ebene studieren, passieren wir lediglich unsere intuitiven (aber uninformierten) mentalen Modelle davon nachträglich an.

Meister des Einzelnen

Derzeit sind die meisten AI-Modelle im Gegensatz dazu spezifischer und viele von ihnen werden entweder fein abgestimmt oder von Grund auf auf Bild- oder Video-Datensätzen trainiert, die für bestimmte Anwendungsfälle spezifisch sind, anstatt darauf ausgelegt zu sein, ein allgemeines Verständnis von Regeln zu entwickeln.

Andere können das Aussehen eines Verständnisses von physikalischen Gesetzen präsentieren; aber sie können tatsächlich Beispiele aus ihren Trainingsdaten reproduzieren, anstatt wirklich die Grundlagen von Bereichen wie Bewegungsphysik in einer Weise zu verstehen, die wirklich neue (und wissenschaftlich plausible) Darstellungen aus Benutzeranfragen produzieren kann.

Bei diesem empfindlichen Moment in der Produktivität und Kommerzialisierung von generativen AI-Systemen liegt es an uns und an der Prüfung durch Investoren, die kunstvoll gestaltete Marketing neuer AI-Modelle von der Realität ihrer Einschränkungen zu unterscheiden.

Eines der interessantesten Papiere im November, das von Bytedance Research geleitet wurde, beschäftigte sich mit diesem Problem und erforschte die Lücke zwischen den scheinbaren und tatsächlichen Fähigkeiten von “Allzweck”-generativen Modellen wie Sora.

Die Arbeit kam zu dem Schluss, dass generierte Ausgaben von Modellen dieser Art bei dem aktuellen Stand der Technik eher Beispiele aus ihren Trainingsdaten nachahmen als tatsächlich ein vollständiges Verständnis der zugrunde liegenden physikalischen Einschränkungen demonstrieren, die in der realen Welt operieren.

Das Papier besagt*:

‘[Diese] Modelle können leicht durch “täuschende” Beispiele aus dem Trainingsset beeinflusst werden, was sie dazu bringt, in einer “fallbasierten” Weise unter bestimmten Bedingungen zu verallgemeinern. Dieses Phänomen, das auch in großen Sprachmodellen beobachtet wurde, beschreibt die Tendenz eines Modells, auf ähnliche Trainingsfälle zu verweisen, wenn es neue Aufgaben löst.

‘Zum Beispiel könnte ein Video-Modell, das auf Daten von einem Hochgeschwindigkeitsball trainiert wurde, der in gleichförmiger linearer Bewegung ist, wenn die Daten durch horizontales Spiegeln der Videos augmentiert werden, was eine umgekehrte Bewegung einführt, ein Szenario generieren, in dem ein Langsamball seine Richtung nach den ersten Frames ändert, obwohl dieses Verhalten physikalisch nicht korrekt ist.’

Wir werden uns das Papier – betitelt Evaluating World Models with LLM for Decision Making – genauer ansehen. Aber zunächst betrachten wir den Hintergrund für diese scheinbaren Einschränkungen.

Erinnerung an die Vergangenheit

Ohne Verallgemeinerung ist ein trainiertes AI-Modell nicht mehr als ein teures Tabellenblatt von Verweisen auf Abschnitte seiner Trainingsdaten: Finde den entsprechenden Suchbegriff, und du kannst ein Beispiel dieser Daten aufrufen.

In diesem Szenario agiert das Modell effektiv als “neuronale Suchmaschine”, da es keine abstrakten oder “kreativen” Interpretationen der gewünschten Ausgabe produzieren kann, sondern stattdessen eine geringe Variation der Daten reproduziert, die es während des Trainingsprozesses gesehen hat.

Dies wird als Memorisation bezeichnet – ein umstrittenes Problem, das entsteht, weil wirklich flexible und interpretierbare AI-Modelle tendenziell an Details fehlen, während wirklich detaillierte Modelle an Originalität und Flexibilität fehlen.

Die Fähigkeit von Modellen, die von Memorisation betroffen sind, Trainingsdaten zu reproduzieren, ist ein potenzielles rechtliches Hindernis, in Fällen, in denen die Modellersteller nicht die unbeschränkten Rechte hatten, diese Daten zu verwenden; und in denen Vorteile aus diesen Daten durch eine wachsende Anzahl von Extraktionsmethoden demonstriert werden können.

Aufgrund von Memorisation können Spuren von nicht autorisierten Daten persistieren, daisy-chained, durch mehrere Trainings-Systeme, wie ein unauslöschlicher und ungewollter Wasserzeichen – sogar in Projekten, in denen der Machine-Learning-Praktiker sich bemüht hat, sicherzustellen, dass “sichere” Daten verwendet werden.

Welten-Modelle

Das zentrale Nutzungsthema mit Memorisation ist, dass es tendenziell die Illusion von Intelligenz vermittelt, oder suggeriert, dass das AI-Modell grundlegende Gesetze oder Domänen verallgemeinert hat, wo es tatsächlich der hohe Volumen an memorisierten Daten ist, der diese Illusion liefert (d. h. das Modell hat so viele potenzielle Datenbeispiele zur Auswahl, dass es für einen Menschen schwierig ist zu erkennen, ob es gelerntes Inhalt wiedergibt oder ob es ein wirklich abstrahiertes Verständnis der in der Generierung beteiligten Konzepte hat).

Dieses Problem hat Auswirkungen auf das wachsende Interesse an Welten-Modellen – die Aussicht auf hochdiverse und teuer trainierte AI-Systeme, die multiple bekannte Gesetze integrieren und reichhaltig erforschbar sind.

Welten-Modelle sind von besonderem Interesse im generativen Bild- und Video-Bereich. Im Jahr 2023 startete RunwayML eine Forschungsinitiative zur Entwicklung und Machbarkeit solcher Modelle; DeepMind hat kürzlich einen der Urheber des renommierten Sora-Generative-Video-Modells eingestellt, um an einem Modell dieser Art zu arbeiten; und Startups wie Higgsfield investieren erheblich in Welten-Modelle für Bild- und Video-Synthese.

Schwere Kombinationen

Eine der Versprechungen neuer Entwicklungen in generativen Video-AI-Systemen ist die Aussicht, dass sie grundlegende physikalische Gesetze lernen können, wie Bewegung, menschliche Kinematik (wie Gangmerkmale), Flüssigkeitsdynamik und andere bekannte physikalische Phänomene, die zumindest visuell für Menschen vertraut sind.

Wenn generative AI dieses Meilenstein erreichen könnte, könnte es in der Lage sein, hyperrealistische visuelle Effekte zu produzieren, die Explosionen, Überschwemmungen und plausible Kollisionsereignisse über mehrere Objekttypen hinweg darstellen.

Wenn das AI-System hingegen einfach auf Tausenden (oder Hunderttausenden) von Videos trainiert wurde, die solche Ereignisse darstellen, könnte es in der Lage sein, die Trainingsdaten sehr überzeugend zu reproduzieren, wenn es auf ein ähnliches Datenpunkt zum Benutzers Zielanfrage trainiert wurde; jedoch versagen, wenn die Anfrage zu viele Konzepte kombiniert, die in einer solchen Kombination nicht in den Daten repräsentiert sind.

Wenn ein neues generatives System in der Lage ist, virales Video-Inhalt zu generieren, der zwar beeindruckend ist, kann es einen falschen Eindruck von den Fähigkeiten und der Tiefe des Verständnisses des Systems erzeugen, da die Aufgabe, die es darstellt, keine echte Herausforderung für das System darstellt.

Beispielsweise könnte ein relativ häufiges und weit verbreitetes Ereignis wie ‘ein Gebäude wird abgerissen’ in mehreren Videos in einem Datensatz vorhanden sein, der zum Trainieren eines Modells verwendet wird, das ein gewisses Verständnis von Physik haben soll. Daher könnte das Modell dieses Konzept möglicherweise gut verallgemeinern und sogar wirklich neue Ausgaben innerhalb der Parameter produzieren, die aus den zahlreichen Videos gelernt wurden.

Dies ist ein in-distribution-Beispiel, bei dem der Datensatz viele nützliche Beispiele für das AI-System enthält, um daraus zu lernen.

Wenn man jedoch ein bizarreres oder spezielleres Beispiel wie ‘Der Eiffelturm wird von Außerirdischen zerstört’ anfordert, müsste das Modell diverse Domänen wie ‘metallurgische Eigenschaften’, ‘Eigenschaften von Explosionen’, ‘Schwerkraft’, ‘Windwiderstand’ – und ‘Außerirdische-Raumschiffe’ kombinieren.

Dies ist ein out-of-distribution-Beispiel (OOD), das so viele verknüpfte Konzepte kombiniert, dass das System wahrscheinlich entweder nicht in der Lage ist, ein überzeugendes Beispiel zu generieren, oder auf das nächste semantische Beispiel zurückgreift, das es trainiert hat – auch wenn dieses Beispiel nicht der Anfrage des Benutzers entspricht.

Abgesehen davon, dass das Modells Quelldatensatz Hollywood-Style-CGI-basierte VFX darstellte, die dasselbe oder ein ähnliches Ereignis darstellten, würde eine solche Darstellung absolut erfordern, dass es ein gut verallgemeinertes und flexibles Verständnis von physikalischen Gesetzen erreicht.

Physikalische Einschränkungen

Das neue Papier – eine Zusammenarbeit zwischen Bytedance, Tsinghua-Universität und Technion – legt nahe, dass Modelle wie Sora nicht wirklich deterministische physikalische Gesetze internalisieren, sondern dass das Skalieren der Daten (ein gängiger Ansatz in den letzten 18 Monaten) in den meisten Fällen keine echte Verbesserung in dieser Hinsicht bringt.

Das Papier erforscht nicht nur die Grenzen der Extrapolation spezifischer physikalischer Gesetze – wie das Verhalten von Objekten in Bewegung, wenn sie kollidieren oder wenn ihr Pfad blockiert ist – sondern auch die Fähigkeit eines Modells zur Kombinatorischen Verallgemeinerung – Fälle, in denen die Darstellungen zweier verschiedener physikalischer Prinzipien in eine einzige generative Ausgabe kombiniert werden.

Ein Videozusammenfassung des neuen Papiers. Quelle: https://x.com/bingyikang/status/1853635009611219019

Die drei physikalischen Gesetze, die von den Forschern für die Studie ausgewählt wurden, waren parabolische Bewegung; gleichförmige lineare Bewegung; und perfekt elastische Kollision.

Wie im oben eingebetteten Video zu sehen ist, zeigen die Ergebnisse, dass Modelle wie Sora nicht wirklich physikalische Gesetze internalisieren, sondern tendenziell Trainingsdaten reproduzieren.

Darüber hinaus fanden die Autoren heraus, dass Aspekte wie Farbe und Form so verknüpft sind, dass ein generierter Ball wahrscheinlich in ein Quadrat verwandelt wird, offensichtlich weil eine ähnliche Bewegung in einem Datensatz-Beispiel ein Quadrat und nicht einen Ball aufwies (siehe Beispiel im oben eingebetteten Video).

Das Papier, das bemerkenswert die Forschungsbranche in sozialen Medien involviert hat, kommt zu dem Schluss:

‘Unsere Studie legt nahe, dass Skalieren allein nicht ausreicht, um Video-Generations-Modelle zu fundamentalem physikalischen Gesetzen zu führen, trotz seiner Rolle im umfassenderen Erfolg von Sora…

‘…[Ergebnisse] deuten darauf hin, dass Skalieren allein das OOD-Problem nicht lösen kann, obwohl es die Leistung in anderen Szenarien verbessert.

‘Unsere detaillierte Analyse legt nahe, dass die Verallgemeinerung von Video-Modellen mehr auf dem Bezug ähnlicher Trainingsbeispiele als auf dem Lernen universeller Regeln basiert. Wir beobachteten eine Prioritätsreihenfolge von Farbe > Größe > Geschwindigkeit > Form in diesem “fallbasierten” Verhalten.

‘[Unsere] Studie legt nahe, dass naive Skalierung unzureichend ist, um Video-Generations-Modelle zu fundamentalem physikalischen Gesetzen zu führen.’

Als die Forschungsgruppe gefragt wurde, ob sie eine Lösung für das Problem gefunden habe, antwortete einer der Autoren des Papiers folgendes:

‘Leider nicht. Tatsächlich ist dies wahrscheinlich die Mission der gesamten AI-Gemeinschaft.’

Methode und Daten

Die Forscher verwendeten ein Variational Autoencoder (VAE) und DiT-Architekturen, um Video-Beispiele zu generieren. In dieser Einrichtung arbeiten die komprimierten latente Darstellungen, die von der VAE erzeugt werden, in Verbindung mit DiT’s Modellierung des Denoising-Prozesses.

Videos wurden über die Stable Diffusion V1.5-VAE trainiert. Das Schema blieb im Wesentlichen unverändert, mit nur endgültigen architektonischen Verbesserungen:

‘[Wir behalten] den größten Teil der ursprünglichen 2D-Konvolution, Gruppen-Normalisierung und Aufmerksamkeitsmechanismen auf den räumlichen Dimensionen bei.

‘Um diese Struktur in einen räumlich-zeitlichen Autoencoder zu erweitern, konvertieren wir die letzten paar 2D-Downsample-Blöcke des Encoders und die ersten paar 2D-Upsample-Blöcke des Decoders in 3D-Blöcke und verwenden mehrere zusätzliche 1D-Ebenen, um die zeitliche Modellierung zu verbessern.’

Um Video-Modellierung zu ermöglichen, wurde der modifizierte VAE gemeinsam mit HQ-Bild- und Video-Daten trainiert, wobei der 2D-Generative-Adversarial-Netzwerk-(GAN)-Komponente native zur SD1.5-Architektur für 3D erweitert wurde.

Das verwendete Bild-Datensatz war Stable Diffusions ursprüngliche Quelle, LAION-Aesthetics, mit Filterung, zusätzlich zu DataComp. Für Video-Daten wurde ein Teil aus dem Vimeo-90K, Panda-70m und HDVG-Datensätzen kuratiert.

Die Daten wurden für eine Million Schritte trainiert, wobei zufällige Größenanpassung und zufällige horizontale Spiegelung als Daten-Augmentations-Prozesse angewendet wurden.

Ausflippen

Wie oben erwähnt, kann der zufällige horizontale Spiegel-Daten-Augmentations-Prozess ein Nachteil bei der Ausbildung eines Systems sein, das authentische Bewegungen produzieren soll. Denn die Ausgabe des trainierten Modells kann beide Richtungen eines Objekts berücksichtigen und zufällige Umkehrungen verursachen, wenn es versucht, diese widersprüchlichen Daten zu verarbeiten (siehe oben eingebettetes Video).

Andererseits kann, wenn man horizontales Spiegeln ausschaltet, das Modell eher Ausgaben produzieren, die nur einer Richtung entsprechen, die aus den Trainingsdaten gelernt wurde.

Es gibt also keine einfache Lösung für das Problem, außer dass das System tatsächlich die Gesamtheit der Bewegungsmöglichkeiten aus beiden der ursprünglichen und gespiegelten Versionen assimiliert – eine Fähigkeit, die Kinder leicht entwickeln, aber die für AI-Modelle eine Herausforderung darstellt.

Tests

Für die erste Reihe von Experimenten formulierte die Forschungsgruppe einen 2D-Simulator, um Videos von Objektbewegungen und Kollisionen zu erstellen, die den Gesetzen der klassischen Mechanik entsprechen, was einen großen und kontrollierten Datensatz lieferte, der die Mehrdeutigkeiten von realen Videos ausschloss, für die Bewertung der Modelle. Der Box2D-Physik-Spiel-Engine wurde verwendet, um diese Videos zu erstellen.

Die drei grundlegenden Szenarien, die oben erwähnt wurden, waren der Schwerpunkt der Tests: gleichförmige lineare Bewegung, perfekt elastische Kollisionen und parabolische Bewegung.

Datensätze mit zunehmender Größe (von 30.000 bis drei Millionen Videos) wurden verwendet, um Modelle mit unterschiedlicher Größe und Komplexität (DiT-S bis DiT-L) zu trainieren, wobei die ersten drei Frames jedes Videos für die Bedingung verwendet wurden.

Details der verschiedenen Modelle, die in der ersten Reihe von Experimenten trainiert wurden. Quelle: https://arxiv.org/pdf/2411.02385

Details der verschiedenen Modelle, die in der ersten Reihe von Experimenten trainiert wurden. Quelle: https://arxiv.org/pdf/2411.02385

Die Forscher fanden heraus, dass die in-distribution (ID)-Ergebnisse gut mit zunehmenden Datenmengen skalierten, während die OOD-Generationen nicht verbessert wurden, was auf Mängel in der Verallgemeinerung hinweist.

Ergebnisse der ersten Runde von Tests.

Ergebnisse der ersten Runde von Tests.

Die Autoren bemerken:

‘Diese Ergebnisse legen nahe, dass Skalieren nicht in der Lage ist, in OOD-Szenarien zu verallgemeinern.’

Als nächstes testeten und trainierten die Forscher Systeme, die darauf ausgelegt waren, eine Fähigkeit zur kombinatorischen Verallgemeinerung zu zeigen, bei der zwei kontrastierende Bewegungen kombiniert werden, um (hoffentlich) eine kohärente Bewegung zu produzieren, die dem physikalischen Gesetz hinter jeder der getrennten Bewegungen treu bleibt.

Für diese Phase der Tests verwendeten die Autoren den PHYRE-Simulator, um eine 2D-Umgebung zu erstellen, die mehrere und vielfältig geformte Objekte in freiem Fall darstellt, die mit nhau kollidieren, in einer Vielzahl komplexer Interaktionen.

Bewertungsmetriken für diesen zweiten Test waren Fréchet-Video-Distanz (FVD); Strukturelle Ähnlichkeits-Index (SSIM); Peak-Signal-Rausch-Verhältnis (PSNR); Gelernte Wahrnehmungs-Ähnlichkeitsmetriken (LPIPS); und eine menschliche Studie (als “abnormal” in den Ergebnissen bezeichnet).

Drei Skalierungen von Trainings-Datensätzen wurden erstellt, bei 100.000 Videos, 0,6 Millionen Videos und 3-6 Millionen Videos. DiT-B- und DiT-XL-Modelle wurden verwendet, aufgrund der erhöhten Komplexität der Videos, wobei der erste Frame für die Bedingung verwendet wurde.

Die Modelle wurden für eine Million Schritte bei 256×256-Auflösung trainiert, mit 32 Frames pro Video.

Ergebnisse der zweiten Runde von Tests.

Ergebnisse der zweiten Runde von Tests.

Das Ergebnis dieses Tests legt nahe, dass die bloße Erhöhung des Datenvolumens ein unzureichender Ansatz ist:

Das Papier besagt:

‘Diese Ergebnisse legen nahe, dass sowohl Modellkapazität als auch Abdeckung des Kombinationsraums für kombinatorische Verallgemeinerung von entscheidender Bedeutung sind. Diese Erkenntnis impliziert, dass Skalierungsgesetze für Video-Generierung auf die Erhöhung der Kombinationsdiversität und nicht nur auf die Erhöhung des Datenvolumens ausgerichtet werden sollten.’

Schließlich führten die Forscher weitere Tests durch, um zu versuchen, zu bestimmen, ob ein Video-Generations-Modell tatsächlich physikalische Gesetze assimilieren kann oder ob es einfach Trainingsdaten memorisiert und reproduziert, wenn es auf neue Situationen trifft.

Hierbei untersuchten sie das Konzept der “fallbasierten” Verallgemeinerung, bei der Modelle tendenziell spezifische Trainingsbeispiele nachahmen, wenn sie mit neuen Situationen konfrontiert werden, sowie Beispiele für gleichförmige Bewegung – insbesondere, wie die Richtung der Bewegung in den Trainingsdaten die Vorhersagen des trainierten Modells beeinflusst.

Zwei Sätze von Trainingsdaten, für gleichförmige Bewegung und Kollision, wurden kuratiert, jeweils bestehend aus Videos von gleichförmiger Bewegung, die Geschwindigkeiten zwischen 2,5 und 4 Einheiten darstellen, wobei die ersten drei Frames für die Bedingung verwendet wurden. Latente Werte wie Geschwindigkeit wurden weggelassen, und nach dem Training wurde auf gesehene und nicht gesehene Szenarien getestet.

Unten sehen wir die Ergebnisse für den Test für gleichförmige Bewegungsgenerierung:

Ergebnisse für Tests für gleichförmige Bewegungsgenerierung, bei denen die 'Geschwindigkeit'-Variable während des Trainings weggelassen wird.

Ergebnisse für Tests für gleichförmige Bewegungsgenerierung, bei denen die ‘Geschwindigkeit’-Variable während des Trainings weggelassen wird.

Die Autoren stellen fest:

‘[Mit] einer großen Lücke im Trainingsset neigt das Modell dazu, Videos zu generieren, bei denen die Geschwindigkeit entweder hoch oder niedrig ist, um Trainingsdaten zu ähneln, wenn die ersten Frames mittlere Geschwindigkeiten zeigen.’

Für die Kollisions-Tests sind viel mehr Variablen beteiligt, und das Modell muss eine zweidimensionale nichtlineare Funktion lernen.

Kollision: Ergebnisse für die dritte und finale Runde von Tests.

Kollision: Ergebnisse für die dritte und finale Runde von Tests.

Die Autoren bemerken, dass die Anwesenheit von “täuschenden” Beispielen, wie umgekehrter Bewegung (d. h. ein Ball, der von einer Oberfläche abprallt und seine Richtung ändert), das Modell täuschen und dazu führen kann, physikalisch inkorrekte Vorhersagen zu generieren.

Schlussfolgerung

Wenn ein nicht-AI-Algorithmus (d. h. eine “gebackene”, prozedurale Methode) mathematische Regeln für das Verhalten physikalischer Phänomene wie Flüssigkeiten, Objekte unter Schwerkraft oder unter Druck enthält, gibt es eine Reihe unveränderlicher Konstanten, die für eine genaue Darstellung verfügbar sind.

Die Ergebnisse des neuen Papiers zeigen jedoch, dass keine äquivalente Beziehung oder intrinsisches Verständnis klassischer physikalischer Gesetze während des Trainings von generativen Modellen entwickelt wird und dass zunehmende Datenmengen das Problem nicht lösen, sondern eher verschleiern – weil eine größere Anzahl von Trainings-Videos für das System verfügbar ist, um sie bei der Inferenzzeit zu imitieren.

 

* Meine Umwandlung der inline-Zitate der Autoren in Hyperlinks.

Erstveröffentlicht am Dienstag, den 26. November 2024

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.