Andersons Blickwinkel

Bessere generative KI-Videos durch das Shuffeln von Frames während des Trainings

Published March 21, 2025

Updated April 26, 2026

Martin Anderson

Adobe Firefly, various prompts and edits.

Ein neues Paper, das diese Woche auf Arxiv veröffentlicht wurde, behandelt ein Problem, mit dem jeder, der Hunyuan Video oder Wan 2.1 AI-Video-Generatoren verwendet hat, bereits konfrontiert wurde: temporale Aberrationen, bei denen der generative Prozess dazu neigt, sich plötzlich zu beschleunigen, zu verbinden, auszulassen oder auf andere Weise wichtige Momente in einem generierten Video zu zerstören:

Click to play. Einige der temporalen Glitches, die den Benutzern der neuen Generation von generativen Video-Systemen vertraut sind, werden in dem neuen Paper hervorgehoben. Rechts im Video ist der milderte Effekt des neuen FluxFlow-Ansatzes zu sehen. Quelle: https://haroldchen19.github.io/FluxFlow/

Das oben angezeigte Video enthält Auszüge aus Beispieltest-Videos auf der (warnung: ziemlich chaotischen) Projekt-Website des Papers. Wir können mehrere zunehmend vertraute Probleme sehen, die durch die Methode der Autoren (abgebildet rechts im Video) behoben werden, die im Wesentlichen eine Daten-Vorverarbeitungstechnik ist, die auf jede generative Video-Architektur anwendbar ist.

Im ersten Beispiel, das “zwei Kinder, die mit einem Ball spielen” zeigt, generiert von CogVideoX, sehen wir (links im Kompilations-Video oben und im spezifischen Beispiel unten), dass die native Generierung schnell durch mehrere wesentliche Mikro-Bewegungen springt und die Aktivität der Kinder auf ein “Cartoon”-Niveau beschleunigt. Im Gegensatz dazu ergeben dieselben Daten und dieselbe Methode mit der neuen Vorverarbeitungstechnik, die als FluxFlow bezeichnet wird (rechts im Video unten), bessere Ergebnisse:

Click to play.

Im zweiten Beispiel (mit NOVA-0.6B) sehen wir, dass eine zentrale Bewegung, die einen Katzen involviert, auf einige Weise während des Trainings korrupt oder erheblich unterabgetastet wurde, sodass das generative System “gelähmt” wird und nicht in der Lage ist, das Subjekt zu bewegen:

Click to play.

Dieses Syndrom, bei dem die Bewegung oder das Subjekt “stecken bleibt”, ist eines der häufigsten Probleme von HV und Wan in den verschiedenen Bild- und Video-Synthese-Gruppen.

Einige dieser Probleme sind mit Video-Beschriftungsproblemen im Quelldatensatz verbunden, die wir diese Woche untersucht haben; aber die Autoren der neuen Arbeit konzentrieren sich auf die temporalen Eigenschaften der Trainingsdaten und machen einen überzeugenden Argument, dass die Behandlung der Herausforderungen aus dieser Perspektive nützliche Ergebnisse liefern kann.

Wie in dem früheren Artikel über Video-Beschriftung erwähnt, sind bestimmte Sportarten besonders schwierig zu destillieren, um wichtige Momente zu erhalten, was bedeutet, dass kritische Ereignisse (wie ein Slam-Dunk) nicht die notwendige Aufmerksamkeit während des Trainings erhalten:

Click to play.

Im obigen Beispiel weiß das generative System nicht, wie es zum nächsten Bewegungsstadium gelangen soll, und wechselt illogisch von einer Pose zur nächsten, wobei die Einstellung und Geometrie des Spielers geändert werden.

Diese sind große Bewegungen, die während des Trainings verloren gegangen sind – aber ebenso verletzlich sind viel kleinere, aber wichtige Bewegungen, wie das Flattern eines Schmetterlingsflügels:

Click to play.

Im Gegensatz zum Slam-Dunk ist das Flattern der Flügel nicht ein “seltenes” sondern ein persistierendes und monotonous Ereignis. Allerdings wird seine Konsistenz im Abtastprozess verloren, da die Bewegung so schnell ist, dass es sehr schwierig ist, sie zeitlich zu etablieren.

Diese sind nicht besonders neue Probleme, aber sie erhalten jetzt, da leistungsstarke generative Video-Modelle für Enthusiasten zur Verfügung stehen, umso mehr Aufmerksamkeit.

Die Gemeinschaften auf Reddit und Discord haben diese Probleme anfangs als “benutzerbezogen” behandelt. Dies ist eine verständliche Annahme, da die Systeme in Frage sehr neu und minimal dokumentiert sind. Daher haben verschiedene Experten diverse (und nicht immer effektive) Abhilfemaßnahmen für einige der hier dokumentierten Glitches vorgeschlagen, wie z.B. die Änderung der Einstellungen in verschiedenen Komponenten von ComfyUI-Workflows für Hunyuan Video (HV) und Wan 2.1.

In einigen Fällen produzieren HV und Wan anstelle von schnellen Bewegungen langsame Bewegungen. Vorschläge von Reddit und ChatGPT (die hauptsächlich auf Reddit basieren) umfassen die Änderung der Anzahl der Frames in der angeforderten Generierung oder die radikale Senkung der Bildfrequenz*.

Dies ist alles verzweifeltes Zeug; die aufkommende Wahrheit ist, dass wir noch nicht wissen, was die genaue Ursache oder die genaue Abhilfe für diese Probleme ist; offensichtlich ist es nicht sinnvoll, die Generierungseinstellungen zu quälen, um sie zu umgehen (besonders wenn dies die Ausgabqualität verschlechtert, z.B. mit einer zu niedrigen Bildfrequenz), und es ist gut zu sehen, dass die Forschungsszene diese aufkommenden Probleme so schnell angeht.

Sofern wir uns also diese Woche mit der Frage auseinandersetzen, wie die Beschriftung die Ausbildung beeinflusst, lassen Sie uns einen Blick auf das neue Paper über temporale Regularisierung werfen und welche Verbesserungen es dem aktuellen generativen Video-Szenario bieten könnte.

Die zentrale Idee ist ziemlich einfach und unauffällig, und dennoch ist das Paper ein bisschen aufgebläht, um die vorgeschriebenen acht Seiten zu erreichen, und wir werden diese Aufblähung bei Bedarf überspringen.

Der Fisch in der nativen Generierung des VideoCrafter-Frameworks ist statisch, während die FluxFlow-geänderte Version die erforderlichen Änderungen aufnimmt. Quelle: https://arxiv.org/pdf/2503.15417

Die neue Arbeit ist betitelt Temporal Regularization Makes Your Video Generator Stronger und stammt von acht Forschern aus Everlyn AI, Hong Kong University of Science and Technology (HKUST), der University of Central Florida (UCF) und The University of Hong Kong (HKU).

(zum Zeitpunkt des Schreibens gibt es einige Probleme mit der Begleit-Projekt-Website)

FluxFlow

Die zentrale Idee hinter FluxFlow, dem neuen Vorverarbeitungsschema der Autoren, ist es, die weit verbreiteten Probleme Flickering und temporale Inkonsistenz zu überwinden, indem Blöcke und Gruppen von Blöcken in der temporalen Frame-Reihenfolge während des Trainingsprozesses vertauscht werden:

Die zentrale Idee hinter FluxFlow ist es, Blöcke und Gruppen von Blöcken in unerwartete und nicht-temporale Positionen zu verschieben, als eine Form der Datenvergrößerung.

Das Paper erklärt:

‘[Artifacts] stammen aus einer grundlegenden Einschränkung: Trotz der Nutzung großer Datensätze verlassen sich aktuelle Modelle oft auf vereinfachte temporale Muster in den Trainingsdaten (z.B. feste Gehrichtungen oder repetitive Frame-Übergänge) anstatt vielfältige und plausible temporale Dynamiken zu erlernen.

‘Dieses Problem wird weiter verschlimmert durch den Mangel an expliziter temporaler Vergrößerung während des Trainings, was die Modelle anfällig für Überanpassung an zufällige temporale Korrelationen (z.B. “Frame #5 muss #4 folgen”) anstatt sich über diverse Bewegungsszenarien zu verallgemeinern.’

Die meisten Video-Generierungsmodelle, erklären die Autoren, borgen immer noch zu sehr von Bild-Synthese, indem sie sich auf räumliche Treue konzentrieren und die zeitliche Achse weitgehend ignorieren. Obwohl Techniken wie Beschneiden, Drehen und Farb-Jittern dazu beigetragen haben, die statische Bildqualität zu verbessern, sind sie keine adäquaten Lösungen, wenn sie auf Videos angewendet werden, bei denen die Illusion der Bewegung von konsistenten Übergängen zwischen Frames abhängt.

Die resultierenden Probleme umfassen flimmernde Texturen, jährende Schnitte zwischen Frames und repetitive oder übermäßig einfache Bewegungsmuster.

Click to play.

Das Paper argumentiert, dass einige Modelle – einschließlich Stable Video Diffusion und LlamaGen – mit zunehmend komplexeren Architekturen oder konstruierten Einschränkungen kompensieren, was jedoch einen Kostenaufwand in Bezug auf Rechenleistung und Flexibilität bedeutet.

Da temporale Datenvergrößerung bereits in Video-Verständnis-Aufgaben (in Frameworks wie FineCliper, SeFAR und SVFormer) nützlich war, ist es überraschend, dass diese Taktik in einem generativen Kontext selten angewendet wird.

Störendes Verhalten

Die Forscher behaupten, dass einfache, strukturierte Störungen in der temporalen Reihenfolge während des Trainings dazu beitragen, dass Modelle besser auf realistische, vielfältige Bewegungen generalisieren:

‘Durch das Training auf ungeordneten Sequenzen lernt der Generator, plausible Trajektoren zu wiederherstellen, was effektiv die temporale Entropie regularisiert. FLUXFLOW überbrückt die Lücke zwischen diskriminativer und generativer temporaler Vergrößerung und bietet eine Plug-and-Play-Verbesserungslösung für temporale Video-Generierung, während die Gesamtqualität verbessert wird.

‘Im Gegensatz zu bestehenden Methoden, die architektonische Änderungen einführen oder auf Nachbearbeitung angewiesen sind, operiert FLUXFLOW direkt auf der Datenebene und führt kontrollierte temporale Störungen während des Trainings ein.’

Click to play.

Frame-ebene Störungen, so die Autoren, führen feinkörnige Störungen innerhalb einer Sequenz ein. Diese Art von Störung ist nicht unähnlich Masking-Vergrößerung, bei der Abschnitte von Daten zufällig blockiert werden, um zu verhindern, dass das System überanpasst auf Datenpunkte und um eine bessere Verallgemeinerung zu fördern.

Tests

Obwohl die zentrale Idee hier nicht zu einem vollständigen Paper reicht, gibt es dennoch einen Testabschnitt, den wir uns ansehen können.

Die Autoren testeten auf vier Anfragen im Zusammenhang mit verbesserter temporaler Qualität bei gleichzeitiger Beibehaltung der räumlichen Treue; Fähigkeit, Bewegungs-/Optical-Flow-Dynamiken zu erlernen; Beibehaltung der temporalen Qualität bei extraterminaler Generierung; und Empfindlichkeit gegenüber wichtigen Hyperparametern.

Die Forscher wendeten FluxFlow auf drei generative Architekturen an: U-Net-basiert, in Form von VideoCrafter2; DiT-basiert, in Form von CogVideoX-2B; und AR-basiert, in Form von NOVA-0.6B.

Für einen fairen Vergleich feinjustierten sie die Basismodelle der Architekturen mit FluxFlow als zusätzliche Trainingsphase, für eine Epoche, auf dem OpenVidHD-0.4M-Datensatz.

Die Modelle wurden gegen zwei beliebte Benchmarks ausgewertet: UCF-101; und VBench.

Für UCF wurden die Fréchet Video Distance (FVD) und Inception Score (IS) Metriken verwendet. Für VBench konzentrierten sich die Forscher auf temporale Qualität, frame-weise Qualität und Gesamtqualität.

Quantitative anfängliche Auswertung von FluxFlow-Frame. “+ Original” zeigt das Training ohne FLUXFLOW, während “+ Num × 1” verschiedene FluxFlow-Frame-Konfigurationen zeigt. Die besten Ergebnisse sind schattiert; die zweitbesten sind für jedes Modell unterstrichen.

In Bezug auf diese Ergebnisse äußern die Autoren:

‘Sowohl FLUXFLOW-FRAME als auch FLUXFLOW-BLOCK verbessern die temporale Qualität erheblich, wie durch die Metriken in Tab. 1, 2 (d.h. FVD, Subject, Flicker, Motion und Dynamic) und qualitative Ergebnisse in [Bild unten] belegt.

‘Zum Beispiel wird die Bewegung des driftenden Autos in VC2, die Katze, die ihrem Schwanz nachjagt, in NOVA, und der Surfer, der auf einer Welle reitet, in CVX, mit FLUXFLOW deutlich flüssiger. Wichtig ist, dass diese temporalen Verbesserungen ohne Opferung der räumlichen Treue erreicht werden, wie durch die scharfen Details von Wasserspritzern, Rauchfahnen und Wellentexturen sowie räumliche und Gesamtfidelitätsmetriken belegt.’

Unten sehen wir Auswahlmöglichkeiten aus den qualitativen Ergebnissen, auf die die Autoren Bezug nehmen (siehe das Original-Paper für vollständige Ergebnisse und bessere Auflösung):

Auswahlmöglichkeiten aus den qualitativen Ergebnissen.

Das Paper legt nahe, dass sowohl frame-ebene als auch block-ebene Störungen die temporale Qualität verbessern, frame-ebene Methoden jedoch tendenziell besser abschneiden. Dies wird auf ihre feinere Granularität zurückgeführt, die präzisere temporale Anpassungen ermöglicht. Block-ebene Störungen können dagegen aufgrund eng gekoppelter räumlicher und temporaler Muster innerhalb von Blöcken Rauschen einführen, was ihre Wirksamkeit verringert.

Schlussfolgerung

Dieses Paper, zusammen mit der Bytedance-Tsinghua-Kollaboration zur Beschriftung, die diese Woche veröffentlicht wurde, hat mir klargemacht, dass die offensichtlichen Mängel in der neuen Generation von generativen Video-Modellen möglicherweise nicht auf Benutzerfehler, institutionelle Fehltritte oder Finanzierungsgrenzen zurückzuführen sind, sondern vielmehr auf eine Forschungspriorisierung, die verständlicherweise dringendere Herausforderungen wie temporale Kohärenz und Konsistenz über diese geringeren Bedenken gestellt hat.

Bis vor kurzem waren die Ergebnisse von frei verfügbaren und herunterladbaren generativen Video-Systemen so kompromittiert, dass keine große Anstrengung von der Enthusiastengemeinschaft unternommen wurde, um diese Probleme zu beheben (nicht zuletzt, weil die Probleme fundamental und nicht trivial zu lösen waren).

Jetzt, da wir so viel näher an das vorhergesagte Zeitalter rein AI-generierter photorealistischer Video-Ausgaben sind, ist es offensichtlich, dass sowohl die Forschungs- als auch die Casual-Gemeinschaft ein tieferes und produktiveres Interesse an der Lösung der verbleibenden Probleme haben; mit etwas Glück sind diese nicht unüberwindliche Hindernisse.

* Wans native Frame-Rate beträgt nur 16fps, und als Reaktion auf meine eigenen Probleme habe ich festgestellt, dass Foren vorgeschlagen haben, die Frame-Rate auf bis zu 12fps zu senken und dann FlowFrames oder andere AI-basierte Re-Fluss-Systeme zu verwenden, um die Lücken zwischen diesen wenigen Frames zu interpolieren.

Erstveröffentlichung am Freitag, dem 21. März 2025