Andersons Blickwinkel

Aus den Augen, aus dem Sinn: Die Lösung des größten Problems bei der AI-Video-Generierung

mm
Detail from the first page of the March 2026 paper 'Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models'. Source - https://arxiv.org/pdf/2603.25716

Das größte Problem mit sogar den besten AI-Video-Generatoren ist, dass sie an chronischer Amnesie leiden – eine Herausforderung, die neue Forschung aus China jetzt angeht.

 

Das größte Problem mit sogar den besten und fortschrittlichsten AI-Video-Generierungssystemen ist, dass sie alle an chronischer Amnesie leiden: Wenn die Kamera von dem abwandert, was sie fokussiert, und dann zurückwandert, wird sie nie finden, was am Anfang da war – Charaktere werden verschwunden sein, ihr Aussehen und/oder ihre Bewegungsart geändert haben und der Hintergrund wird wahrscheinlich auch geändert haben.

Dies liegt daran, dass das diffusionbasierte Generierungssystem ein begrenztes, rollendes Fenster der Aufmerksamkeit hat und weil es immer nur mit dem beschäftigt ist, was es in diesem Moment sehen kann; in einer wahren Verkörperung von Solipsismus ist, was außerhalb des Rahmens ist, für die generative AI nicht existent – es wird buchstäblich aus dem Gedächtnis gelöscht.

Dies war nie ein Problem in traditioneller CGI, die immer auf ein Subjekt verweisen und es genau wiedergeben kann, einschließlich Aussehen und Bewegung, an jedem Punkt in einem gerenderten Video, an dem es wieder benötigt wird:

Traditionelle CGI-Netze und bitgemappte Texturen können immer in eine Renderung gezeichnet werden, was ein konsistentes Aussehen bietet – ein Trick, der in AI-Ansätzen viel schwieriger zu erreichen ist, weil es keine äquivalente 'flache Referenz' gibt.

Traditionelle CGI-Netze und bitgemappte Texturen können immer in eine Renderung gezeichnet werden, was ein konsistentes Aussehen bietet – ein Trick, der in AI-Ansätzen viel schwieriger zu erreichen ist, weil es keine äquivalente ‘flache Referenz’ gibt.

Dies liegt daran, dass CGI-Elemente wie das Netz und die Texturen (siehe Bild oben) sowie Bewegungsdateien und andere dynamische Verhaltensweisen diskret auf der Festplatte gespeichert werden können und jederzeit in eine Komposition eingefügt werden können.

Es gibt keine solche ‘flache Repository’ in generativer Video-AI; das nächste, was sie an Funktionalität erreichen kann, sind LoRAs – speziell trainierte Ergänzungsdateien, die auf Consumer-Geräten trainiert werden können und es ermöglichen, neue Charaktere und spezifische Kleidung in das Video zu ‘zwingen’:

Klicken Sie, um abzuspielen. Das Solipsismus-Problem der AI-Video-Generierung kann bis zu einem bestimmten Grad durch die Verwendung von LoRAs gemildert werden – aber die Ergebnisse können überwältigend sein.

Dies ist jedoch keine ideale Lösung. Einerseits sind LoRAs an eine exakte spezifische Version eines Grundmodells (wie Wan2+ oder Hunyuan Video) gebunden und müssen neu erstellt werden, wenn das Grundmodell geändert wird. Andererseits neigen LoRAs dazu, die Gewichte des Grundmodells zu verzerren, so dass die LoRA-Trainingsidentität auf alle Charaktere in einer Szene aufgezwungen wird. Darüber hinaus sind Feinabstimmungsmethoden dieser Art sehr empfindlich gegenüber schlecht kuratierten Datenmengen.

Genaue Wiederholungen

Jetzt bietet eine neue akademische/industrielle Zusammenarbeit aus China die erste bedeutende Lösung, die mir in über drei Jahren der Berichterstattung über dieses Problem bekannt ist. Die Methode verwendet, was die Forscher hybride Speicher nennen, um den außerhalb des Bildschirms befindlichen Charakter und seine direkte Umgebung aktiv und genau im latenten Raum des Modells zu halten, so dass, wenn unsere Perspektive zu ihnen zurückkehrt, der Effekt konsistent ist:

Klicken Sie, um abzuspielen. Von der Projektseite für das neue Papier, zwei Beispiele für AI-generierte (WAN)-Charaktere, die den Rahmen verlassen und genau wieder eintreten. Quelle 

Es sollte betont werden, dass dies nicht dasselbe ist wie die Erreichung von Charakterkonsistenz über verschiedene Aufnahmen hinweg – etwas, das vor einem Jahr behauptet wurde, in Runways Gen 4-Veröffentlichung erreicht zu haben, und das immer noch ein laufendes Verfolgen in der Forschungsliteratur ist.

Stattdessen ist hier gelöst, was kein kommerzielles oder experimentelles Framework, das ich gesehen habe, erreichen konnte – die visuell konsistente Wiedererscheinung des früheren Aussehens, der Bewegung und des Kontexts eines außerhalb des Bildschirms befindlichen Charakters:

Klicken Sie, um abzuspielen. Die anderen beiden Hauptbeispiele, die auf der Projektseite des neuen Vorhabens gegeben werden.

Offensichtlich können die hier wirksamen Prinzipien auch auf andere Bereiche wie Stadtexploration, POV-Fahren oder andere Arten von Nicht-Charakter-Renderings angewendet werden.

Es sollte auch betont werden, dass dieser neue Ansatz nicht das Problem löst oder anspricht, das Runway Gen4 und andere Closed-Source-Plattformen behaupten, angegangen zu haben, indem sie Charaktere über verschiedene Aufnahmen hinweg neu erstellen; stattdessen tut er, was keines von ihnen bisher erreicht hat – die Persistenz eines Charakters und seiner Umgebung im Speicher, ohne dass sie ständig für den Betrachter sichtbar bleiben müssen.

Die neue Arbeit umfasst ein spezielles Dataset, das durch Unreal Engine generiert wurde, sowie benutzerdefinierte Metriken für das Solipsismus-Problem* und ein maßgeschneidertes generatives Framework, das über WAN gebaut ist. In Tests gegen die wenigen analogen Systeme, die verfügbar sind, behaupten die Autoren Spitzenleistungen und kommentieren:

‘[Speicher]-Mechanismen haben sich als kritische Grenze bei der Weiterentwicklung von Weltmodellen erwiesen, da die Speicherkapazität die räumliche und zeitliche Konsistenz des generierten Inhalts diktiert.

‘Insbesondere ist es der kognitive Anker, der es dem Modell ermöglicht, den historischen Kontext während der Perspektivwechsel oder der langfristigen Extrapolation beizubehalten.

‘Ohne robusten Speicher zerfällt eine simulierte Welt schnell in unzusammenhängende, chaotische Frames.’

Das neue Papier trägt den Titel Aus den Augen, nicht aus dem Sinn: Hybride Speicher für dynamische Video-Weltmodelle und stammt von sieben Forschern aus der Huazhong-Universität für Wissenschaft und Technologie und dem Kling-Team bei Kuaishou Technology.

Methode

Der zentrale Bestandteil der neuen Arbeit ist hybride Speicher, die ‘Aus-Sicht-Extrapolation’ ermöglichen – die Aufrechterhaltung von Charakteren und ihren Kontexten, während der Betrachter ‘wegschaut’ (oder während der Charakter selbst den Rahmen verlässt). In diesem Szenario muss das Framework raumzeitliche Entkopplung durchführen, bei der es sich gleichzeitig auf die sichtbare Generation und die außerhalb des Rahmens existierende, nicht sichtbare Charakter konzentriert.

Beispiele für Kameraein- und -ausgangsbewegungen. In diesen Fällen ist es die Kamerabewegung, die den Charakter aus dem Rahmen treten lässt, aber in verschiedenen Beispielen können wir auch beobachten, wie der Charakter selbst sich vorübergehend außerhalb des Rahmens bewegt. Quelle - https://arxiv.org/pdf/2603.25716

Beispiele für Kameraein- und -ausgangsbewegungen. In diesen Fällen ist es die Kamerabewegung, die den Charakter aus dem Rahmen treten lässt, aber in verschiedenen Beispielen können wir auch beobachten, wie der Charakter selbst sich vorübergehend außerhalb des Rahmens bewegt. Quelle

Die Autoren bemerken, dass in diffusionsbasierten latenten Einbettungen die zu extrahierenden und zu verwendenden Funktionen stark verflochten sind mit anderen Funktionen und Eigenschaften; und dass der Versuch, sie zu extrahieren, oft dazu führt, dass das Subjekt ‘in den Hintergrund gefriert’. Deswegen entwickelten und kuratierten sie das HM-Welt-Dataset**, das speziell für die Ausbildung von hybrider Speicher konzipiert ist:

Aus dem Papier, Beispiele aus den vier Kategorien, die im HM-Welt-Dataset enthalten sind.

Aus dem Papier, Beispiele aus den vier Kategorien, die im HM-Welt-Dataset enthalten sind.

Die Sammlung ist entlang vier Dimensionen konstruiert: Subjekttrajektorien, Kameratrajektorien, Szenen und Subjekte.

Die synthetischen Daten im HM-Welt-Dataset umfassen 17 Szenen und 49 Subjekte, darunter Menschen mit unterschiedlichem Aussehen sowie Tiere verschiedener Arten. Kombinationen dieser werden über Unreal Engine in einer Szene platziert, jede mit einer eindeutigen Bewegungsanimation, und dann auf eine zufällig ausgewählte Traektorie gesetzt.

Die Autoren erklären, dass eine vielfältige Menge von Ein- und Ausgangsereignissen im Dataset dargestellt ist, mit 28 verschiedenen Kameratrajektorien, jede mit mehreren Startpunkten.

Die endgültige Sammlung umfasst 59.225 Video-Clips, jeder mit dem MiniCPM-V Multimodalen Großmodell (MLLM) annotiert.

Die Forscher betonen die statistischen Vorteile ihrer Sammlung gegenüber vorherigen Datasets WorldScore; Context-As-Memory; Multi-Cam-Video; und 360°-Bewegung:

Vergleich zwischen bestehenden Datasets und dem HM-Welt-Dataset, wobei 'Dynamisches Subjekt' die Anwesenheit von beweglichen Entitäten anzeigt, 'Subjekt Ein- und Ausgang' Clips anzeigt, die Subjekte zeigen, die den Rahmen verlassen und wieder betreten, und 'Subjekt-Pose' die Aufnahme von annotierten 3D-Posen bezeichnet.

Vergleich zwischen bestehenden Datasets und dem HM-Welt-Dataset, wobei ‘Dynamisches Subjekt’ die Anwesenheit von beweglichen Entitäten anzeigt, ‘Subjekt Ein- und Ausgang’ Clips anzeigt, die Subjekte zeigen, die den Rahmen verlassen und wieder betreten, und ‘Subjekt-Pose’ die Aufnahme von annotierten 3D-Posen bezeichnet.

Der weniger begangene Weg

Angenommen, es gibt mehrere vorherige Frames und einen bekannten Kamerapfad, besteht die Aufgabe darin, zukünftige Ansichten vorherzusagen, während die Perspektive des Betrachters sich ändert, und dabei Rechnung zu tragen, dass Subjekte unabhängig bewegen und den Rahmen vorübergehend verlassen können, bevor sie zurückkehren. Dies erfordert mehr als die Aufrechterhaltung eines stabilen Hintergrunds, da das Modell auch eine kohärente interne Aufzeichnung davon aufrechterhalten muss, wie jedes bewegliche Subjekt aussieht und sich verhält, auch während der Zeiten, in denen es nicht sichtbar ist.

Die Autoren’ Hybrid Dynamic Retrieval Attention (HyDRA)-Methode geht auf diese Herausforderung ein, indem sie einen dedizierten Speicherweg einführt, der dynamische Subjekte von der statischen Szene-Darstellung trennt, sie über die Zeit hinweg aufrechterhält und es ihnen ermöglicht, mit konsistentem Aussehen und Bewegung wieder zu erscheinen:

Konzeptionelles Schema für das HyDRA-Modell.

Konzeptionelles Schema für das HyDRA-Modell.

HyDRA ist auf Wan2.1-T2V-1.3B aufgebaut, wobei die Kern-Diffusions-Pipeline größtenteils intakt bleibt, während ein modifizierter Transformer-Block eingeführt wird, der dynamische Abruf-Aufmerksamkeit integriert. Dies ermöglicht es dem Modell, selektiv Bewegungs- und Aussehen-Hinweise aus vorherigen Frames abzurufen, anstatt auf feste oder lokale Kontexte zu vertrauen.

Dieser Prozess nutzt ein angepasstes Flow-Matching-Trainingsziel anstelle des Standard-Diffusionsverlusts.

Um Szenen mit Kamerabewegungen auszurichten, werden Kameratrajektorien als explizite Konditionierungssignale injiziert, wobei jede Frames-Pose durch Rotation und Translation definiert und dann in eine kompakte Darstellung umgewandelt wird, die erfasst, wie die Perspektive im Laufe der Zeit evolviert.

In Übereinstimmung mit dem vorherigen (Kling) ReCamMaster-Vorhaben wird das Ergebnis dann von einem Kamera-Encoder verarbeitet, der als Multi-Layer-Perceptron implementiert ist, dann broadcastet und zum Diffusions-Transformer-Funktionen hinzugefügt, was es dem Modell ermöglicht, konsistente Objekt-Platzierung aufrechtzuerhalten, während die Kamera sich bewegt.

Tokenisierung

Roh-Diffusions-Latenz mischen Subjekt-Bewegung, Aussehen und Hintergrund in eine einzige verflochtene Darstellung, und der Versuch, direkt aus diesem Raum abzurufen, birgt das Risiko, irrelevante Kontexte einzuführen oder bewegliche Subjekte ‘in den Hintergrund zu verschmelzen’.

HyDRA geht auf diese Herausforderung ein, indem es einen 3D-Convolution-basierten Memory-Tokenizer verwendet, der Raum und Zeit zusammen verarbeitet – anstatt die vollständige latente Geschichte voranzutreiben, komprimiert es diese in kompakte, bewegungs-bewusste Speichertoken, die das Aussehen und die Bewegung der Subjekte bewahren:

Überblick über HyDRA. Links, der Memory-Tokenizer wandelt vorherige Frames in kompakte, bewegungs-bewusste Speichertoken um; rechts, dynamische Abruf-Aufmerksamkeit bewertet die aktuelle Abfrage gegen diese Token, ruft die relevantesten ab und verwendet sie, um konsistentes Aussehen und Bewegung im generierten Frame wiederherzustellen.

Überblick über HyDRA. Links, der Memory-Tokenizer wandelt vorherige Frames in kompakte, bewegungs-bewusste Speichertoken um; rechts, dynamische Abruf-Aufmerksamkeit bewertet die aktuelle Abfrage gegen diese Token, ruft die relevantesten ab und verwendet sie, um konsistentes Aussehen und Bewegung im generierten Frame wiederherzustellen.

Diese Token bilden eine strukturierte hybride Speicher, die Rauschen filtert, während sie langfristige Dynamiken bewahrt. An das dynamische Abruf-Aufmerksamkeitsmodul weitergeleitet, ermöglichen diese es dem Modell, außerhalb des Rahmens befindliche Subjekte selektiv abzurufen, so dass sie mit konsistentem Aussehen, Bewegung und Kontext wieder erscheinen.

Dynamische Abruf-Aufmerksamkeit

HyDRAs duales Speichermechanismus verwendet auch dynamische Abruf-Aufmerksamkeit in einer unterschiedlichen, aber komplementären Rolle innerhalb des Frameworks.

Die Tokenisierung des Speichers komprimiert vorherige latente Darstellungen in strukturierte, bewegungs-bewusste Token, die dynamische Subjekte von statischem Szene-Inhalt trennen, wodurch die Verflochtenheit reduziert wird, die oft dazu führt, dass Subjekte ‘in den Hintergrund verschmelzen’. Diese Token bilden eine beständige Speicherbank anstelle einer vollständigen Frame-Geschichte.

Dynamische Abruf-Aufmerksamkeit operiert dann über diese Bank während der Generierung, bewertet die aktuelle Abfrage gegen gespeicherte Token und ruft selektiv diejenigen ab, die für die sich entwickelnde Szene am relevantesten sind. Dies ermöglicht es außerhalb des Rahmens befindlichen Subjekten, ihre latente Evolution fortzusetzen (d. h., weiterzulaufen, wenn man sie nicht sehen kann), und mit konsistenter Erscheinung und Bewegung wieder zu erscheinen, wenn sie in den Rahmen zurückkehren, anstatt zurückzusetzen oder zu degenerieren.

Daten und Tests

In Tests kodierten und downsamplten das auf Wan basierende HyDRA-System 77 Kontext-Frame, bevor es sie mit einem 3D-Variational-Autoencoder (VAE) parste, während der Memory-Tokenizer 3D-Konvolution mit einer Kerngröße von 2x4x4 verwendete.

Das Modell wurde auf HW-Welt für 10.000 Iterationen auf 32 (unbekannten) GPUs trainiert, bei einer Batch-Größe von 32.

Eine ungewöhnlich hohe Anzahl von Metriken wurde in den Tests verwendet: Neben dem üblichen Peak-Signal-Rausch-Verhältnis (PSNR), dem Struktur-Ähnlichkeits-Index (SSIM) und den gelernten Wahrnehmungs-Ähnlichkeitsmetriken (LPIPS) verwendeten die Autoren auch Subjekt-Konsistenz und Hintergrund-Konsistenz aus dem VBench-Suite, um Frame-Level-Kohärenz zu bewerten.

Zusätzlich entwickelten sie eine benutzerdefinierte Metrik mit dem Titel Dynamische Subjekt-Konsistenz (DSC), die Bounding-Boxen aus YOLO V11 verwendet, um ausgeschnittene Bereiche mit beweglichen Subjekten zu erstellen, aus denen semantische Funktionen extrahiert und ihre Ähnlichkeiten dann berechnet wurden.

HyDRA wurde gegen Diffusions-Forcing-Transformer (DFoT) und Context-As-Memory ausgespielt, gegen ein Baseline-Wan2.1-T2V-1.3B-Modell, das mit einem Kamera-Encoder (um die subjektive Perspektive gemeinsam mit allen Clips darzustellen) ausgestattet war. Alle Modelle wurden auf HW-Welt trainiert und WorldPlay wurde auch als Zero-Shot-Secondary-Test-Sammlung verwendet:

In den initialen quantitativen Vergleichen übertraf HyDRA alle Baseline-Modelle, indem es das PSNR von 18,696 auf 20,357 und das SSIM von 0,517 auf 0,606 erhöhte. Es erreichte auch die höchsten Kontext- und Ground-Truth-Dice-Scores, 0,827 und 0,849, mit Subjekt- und Hintergrund-Konsistenz, die 0,926 und 0,932 erreichten:

Ergebnisse des initialen quantitativen Vergleichs gegen vorherige Ansätze.

Ergebnisse des initialen quantitativen Vergleichs gegen vorherige Ansätze.

DFoT erreichte 17,693 PSNR und Context-as-Memory 18,921, wobei die Gewinne auf die Kombination von Speichertokenisierung und dynamischer Abruf-Aufmerksamkeit zurückzuführen sind:

Quantitativer Vergleich, bei dem HyDRA gegen den aktuellen Stand der Technik antritt.

Quantitativer Vergleich, bei dem HyDRA gegen den aktuellen Stand der Technik antritt.

In Bezug auf die Tests gegen WorldPlay erklären die Autoren:

‘Unsere Methode übertrifft WorldPlay in allen Metriken, mit einer bemerkenswerten PSNR-Lücke von 5,502. Obwohl WorldPlay aufgrund der Distributionslücke zwischen den Domänen und des Fehlens spezifischer Feinabstimmung eine niedrigere Leistung bei GT-referenzierten Metriken (z. B. PSNR von 14,855, DSCGT von 0,832) aufweist, zeigt es eine bemerkenswerte Robustheit bei kontext-referenzierten Metriken, indem es einen DSCctx von 0,822 erreicht.

‘Diese Beobachtung bestätigt nicht nur, dass umfassend trainierte Modelle eine faire hybride Konsistenz besitzen, sondern validiert auch indirekt die Rationalität unserer vorgeschlagenen DSC-Metriken bei der Reflektion der dynamischen Subjekt-Konsistenz.

‘Letztendlich unterstreichen diese beeindruckenden Ergebnisse die außergewöhnlichen Fähigkeiten unseres Modells, indem es seine Überlegenheit sogar gegenüber etablierten kommerziellen Modellen demonstriert.’

Das Papier bietet eine statische Darstellung der qualitativen Vergleiche, die für die Tests durchgeführt wurden:

Qualitativer Vergleich des Ein- und Ausgangs unter Kamerabewegung. Die Autoren behaupten, dass HyDRA die Subjekt-Identität, Pose und Bewegungskontinuität nach dem Verlassen und erneuten Betreten des Rahmens bewahrt, was dem Ground-Truth nahe kommt, während konkurrierende Methoden Drift, inkohärente Bewegung oder Subjekt-Abbau aufweisen, der in Rot hervorgehoben ist (konsistente Wiederherstellungen sind in Grün markiert).

Qualitativer Vergleich des Ein- und Ausgangs unter Kamerabewegung. Die Autoren behaupten, dass HyDRA die Subjekt-Identität, Pose und Bewegungskontinuität nach dem Verlassen und erneuten Betreten des Rahmens bewahrt, was dem Ground-Truth nahe kommt, während konkurrierende Methoden Drift, inkohärente Bewegung oder Subjekt-Abbau aufweisen, der in Rot hervorgehoben ist (konsistente Wiederherstellungen sind in Grün markiert).

Über diese Ergebnisse kommentieren die Autoren:

‘Im Falle komplexer Ein- und Ausgangsereignisse zeigen die Baseline und Context-as-Memory schwere Subjekt-Verzerrungen und Bewegungsinkohärenz. DFoT verliert die Subjekt-Integrität und führt zu einem vollständigen Verschwinden. Während WorldPlay es schafft, die Erscheinungskonsistenz des Subjekts zu bewahren, leidet es unter stockenden Bewegungen und unnatürlichen Aktionen.

‘Im Gegensatz dazu bewahrt unsere Methode die hybride Konsistenz auf, indem sie sowohl die Subjekt-Identität als auch die Bewegungskohärenz nach dem erneuten Betreten des Rahmens aufrechterhält.’

Weitere Ergebnisse können auf der Supplement-Seite in Video-Form betrachtet werden, von denen die ersten vier Beispiele (von uns) in das folgende Video zusammengestellt wurden:

Klicken Sie, um abzuspielen. Vier der sechs Testergebnisse, die auf der Projektseite vorgestellt werden. Quelle 

Schlussfolgerung

Während jeder Versuch, eines der größten Probleme der AI-Video-Generierung anzugehen, willkommen ist, scheint es mir unvermeidlich, dass die optimale Lösung für Ein- und Ausgangsprobleme dieser Art in der Form von unterschiedlichen Referenzmaterialien bestehen wird, die diskret bearbeitet und in einen Komponisten-Raum eingefügt werden können.

Dieses Geschäft, versuchen, eine Einbettung in einer ad-hoc- und auf-the-fly-Weise am Leben zu halten, scheint erschöpfend und bietet auch keinen klaren Weg nach vorne zur intra-shot-Konsistenz, die jetzt auf verschiedenen schwarzen Schacht-Portalen wie Runway angeboten wird. Wenn es sich herausstellt, dass ein Follow-up-Shot Zugriff auf den latenten Raum des vorherigen Schusses benötigt, warum nicht beide Instanzen eine separate, diskrete Charakter-Einbettung platzieren?

 

* Kein anderer hat es benannt, und die Diskussion ist ohne gemeinsame Begriffe schwierig.

** Derzeit als ‘demnächst verfügbar’ auf der Projektseite gemeldet.

Erstveröffentlicht am Freitag, dem 27. März 2026

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.