Vernetzen Sie sich mit uns

Andersons Blickwinkel

Bessere generative KI-Videos durch Frame-Mix während des Trainings

mm
Adobe Firefly, verschiedene Eingabeaufforderungen und Bearbeitungen.

Ein neues Papier, das diese Woche bei Arxiv erscheint, befasst sich mit einem Problem, das jeder, der das Hunyuan-Video or Wan 2.1 KI-Videogeneratoren werden inzwischen auf Folgendes gestoßen sein: zeitliche Aberrationen, bei dem der generative Prozess dazu neigt, entscheidende Momente in einem generierten Video abrupt zu beschleunigen, zusammenzufassen, auszulassen oder anderweitig zu vermasseln:

Anklicken um abzuspielen. Einige der zeitlichen Störungen, die den Nutzern der neuen Welle generativer Videosysteme bekannt vorkommen, werden im neuen Artikel hervorgehoben. Rechts: die lindernde Wirkung des neuen FluxFlow-Ansatzes.  Quelle: https://haroldchen19.github.io/FluxFlow/

Das obige Video zeigt Ausschnitte aus Beispiel-Testvideos bei (Achtung: ziemlich chaotisch) Projektseite für das Papier. Wir können sehen, dass mehrere zunehmend bekannte Probleme durch die Methode der Autoren behoben werden (im Video rechts abgebildet), die im Grunde eine Datensatzvorverarbeitung Technik, die auf jede generative Videoarchitektur anwendbar ist.

Im ersten Beispiel mit „zwei Kindern, die mit einem Ball spielen“, generiert von CogVideoXsehen wir (links im Kompilationsvideo oben und im konkreten Beispiel unten), dass die native Generation schnell durch mehrere wesentliche Mikrobewegungen springt und die Aktivität der Kinder auf eine „Cartoon“-Niveau beschleunigt. Im Gegensatz dazu liefern derselbe Datensatz und die gleiche Methode bessere Ergebnisse mit der neuen Vorverarbeitungstechnik, genannt FluxFlow (rechts neben dem Bild im Video unten):

Anklicken um abzuspielen.

Im zweiten Beispiel (mit NOVA-0.6B) sehen wir, dass eine zentrale Bewegung, an der eine Katze beteiligt ist, in der Trainingsphase auf irgendeine Weise verfälscht oder deutlich unterabgetastet wurde, bis zu dem Punkt, an dem das generative System „gelähmt“ wird und nicht in der Lage ist, das Subjekt zu bewegen:

Anklicken um abzuspielen.

Dieses Syndrom, bei dem die Bewegung oder das Motiv „hängen bleibt“, ist eines der am häufigsten gemeldeten Ärgernisse bei HV und Wan in den verschiedenen Bild- und Videosynthesegruppen.

Einige dieser Probleme hängen mit Problemen bei der Videountertitelung im Quelldatensatz zusammen, die wir habe diese Woche einen Blick darauf geworfen; die Autoren der neuen Arbeit konzentrieren ihre Bemühungen jedoch stattdessen auf die zeitlichen Eigenschaften der Trainingsdaten und liefern überzeugende Argumente dafür, dass die Bewältigung der Herausforderungen aus dieser Perspektive nützliche Ergebnisse hervorbringen kann.

Wie bereits im vorherigen Artikel über Videountertitel erwähnt, Sport lassen sich besonders schwer auf Schlüsselmomente reduzieren, was bedeutet, dass kritische Ereignisse (wie etwa ein Slam-Dunk) beim Training nicht die nötige Aufmerksamkeit erhalten:

Anklicken um abzuspielen.

Im obigen Beispiel weiß das generative System nicht, wie es zur nächsten Bewegungsstufe gelangen soll, und wechselt unlogisch von einer Pose zur nächsten, wobei sich die Haltung und Geometrie des Spielers im Verlauf ändert.

Dabei handelt es sich um große Bewegungen, die beim Training verloren gegangen sind. Genauso anfällig sind jedoch auch viel kleinere, aber entscheidende Bewegungen, wie etwa der Flügelschlag eines Schmetterlings:

Anklicken um abzuspielen.  

Anders als beim Slam-Dunk handelt es sich beim Flügelschlag nicht um ein „seltenes“, sondern um ein anhaltendes und monotones Ereignis. Seine Konstanz geht jedoch bei der Abtastung verloren, da die Bewegung so schnell ist, dass sie zeitlich nur schwer zu erfassen ist.

Dies sind keine besonders neuen Probleme, sie erhalten jedoch jetzt größere Aufmerksamkeit, da Enthusiasten leistungsstarke generative Videomodelle zur lokalen Installation und kostenlosen Generierung zur Verfügung stehen.

Die Communities auf Reddit und Discord behandelten diese Probleme zunächst als „benutzerbezogen“. Dies ist eine verständliche Annahme, da die betreffenden Systeme sehr neu und nur unzureichend dokumentiert sind. Daher haben verschiedene Experten verschiedene (und nicht immer wirksame) Lösungen für einige der hier dokumentierten Störungen vorgeschlagen, beispielsweise die Änderung der Einstellungen in verschiedenen Komponenten verschiedener ComfyUI-Workflows für Hunyuan Video (HV) und Wan 2.1.

In manchen Fällen erzeugen HV und Wan statt schneller Bewegung langsam Bewegung. Vorschläge von Reddit und ChatGPT (die meist nutzt Reddit) umfassen Ändern der Anzahl der Frames in der gewünschten Generation oder durch radikale Reduzierung der Bildrate*.

Das ist alles hoffnungsloses Zeug. Die Wahrheit ist, dass wir weder die genaue Ursache noch die genaue Lösung dieser Probleme kennen. Die Generierungseinstellungen zu manipulieren, um diese Probleme zu umgehen (insbesondere, wenn dadurch die Ausgabequalität beeinträchtigt wird, beispielsweise durch eine zu niedrige FPS-Rate), ist offensichtlich nur eine Notlösung. Es ist gut zu sehen, dass sich die Forschung so schnell mit neu auftretenden Problemen befasst.

Neben dem Blick dieser Woche auf die Auswirkungen von Untertiteln auf das Training werfen wir einen Blick auf das neue Papier zur zeitlichen Regularisierung und darauf, welche Verbesserungen es für die aktuelle generative Video-Szene bieten könnte.

Die zentrale Idee ist eher einfach und oberflächlich, und das ist nicht weiter schlimm; trotzdem ist das Papier etwas aufgebläht, um auf die vorgeschriebenen acht Seiten zu kommen, und wir werden diese Aufblähung bei Bedarf überspringen.

Der Fisch in der nativen Generation des VideoCrafter-Frameworks ist statisch, während die mit FluxFlow modifizierte Version die erforderlichen Änderungen erfasst. Quelle: https://arxiv.org/pdf/2503.15417

Der Fisch in der nativen Generation des VideoCrafter-Frameworks ist statisch, während die mit FluxFlow veränderte Version die erforderlichen Änderungen erfasst. Quelle: https://arxiv.org/pdf/2503.15417

Die neue Arbeit ist betitelt Zeitliche Regularisierung macht Ihren Videogenerator stärkerund stammt von acht Forschern von Everlyn AI, der Hong Kong University of Science and Technology (HKUST), der University of Central Florida (UCF) und der University of Hong Kong (HKU).

(zum Zeitpunkt des Schreibens gibt es einige Probleme mit dem Begleitmaterial des Papiers Projektseite)

FluxFlow

Die zentrale Idee hinter FluxFlow, das neue Vortrainingsschema der Autoren, soll die weit verbreiteten Probleme überwinden Flimmern und zeitliche Inkonsistenz durch Mischen von Blöcken und Blockgruppen in der zeitlichen Rahmenreihenfolge, während die Quelldaten dem Trainingsprozess ausgesetzt werden:

Die zentrale Idee hinter FluxFlow besteht darin, Blöcke und Blockgruppen als eine Form der Datenerweiterung an unerwartete und zeitlich nicht festgelegte Positionen zu verschieben.

Die zentrale Idee hinter FluxFlow besteht darin, Blöcke und Blockgruppen als eine Form der Datenerweiterung an unerwartete und zeitlich nicht festgelegte Positionen zu verschieben.

In dem Papier wird erklärt:

„[Artefakte] resultieren aus einer grundlegenden Einschränkung: Obwohl sie große Datensätze nutzen, verlassen sich aktuelle Modelle oft auf vereinfachte zeitliche Muster in den Trainingsdaten (z. B. feste Gehrichtungen oder sich wiederholende Bildübergänge), anstatt vielfältige und plausible zeitliche Dynamiken zu erlernen.“

„Dieses Problem wird durch das Fehlen einer expliziten zeitlichen Erweiterung während des Trainings noch verschärft, wodurch die Modelle anfällig für eine Überanpassung an falsche zeitliche Korrelationen sind (z. B. „Frame Nr. 5 muss auf Nr. 4 folgen“), anstatt über verschiedene Bewegungsszenarien hinweg zu verallgemeinern.“

Die meisten Videogenerierungsmodelle, erklären die Autoren, orientieren sich noch zu stark an Image Synthese, wobei der Schwerpunkt auf räumlicher Wiedergabetreue liegt und die zeitliche Achse weitgehend ignoriert wird. Techniken wie Zuschneiden, Spiegeln und Farbjitter haben zwar zur Verbesserung der statischen Bildqualität beigetragen, sind aber für Videos keine adäquaten Lösungen, da die Bewegungsillusion auf konsistenten Übergängen zwischen den Bildern beruht.

Zu den daraus resultierenden Problemen zählen flackernde Texturen, abrupte Schnitte zwischen den Bildern und sich wiederholende oder zu einfache Bewegungsmuster.

Anklicken um abzuspielen.

Das Papier argumentiert, dass einige Modelle – darunter Stabile Videoverbreitung und LamaGen – Kompensieren Sie dies durch zunehmend komplexere Architekturen oder technische Einschränkungen. Dies geht jedoch auf Kosten der Rechenleistung und Flexibilität.

Da sich die zeitliche Datenerweiterung bereits in der Video- Verständnis Aufgaben (in Frameworks wie FineClipper, SeFAR und SVFormer) ist es überraschend, behaupten die Autoren, dass diese Taktik in einem generativen Kontext selten angewendet wird.

Störendes Verhalten

Die Forscher behaupten, dass einfache, strukturierte Unterbrechungen der zeitlichen Reihenfolge während des Trainings den Modellen dabei helfen, sich besser auf realistische, vielfältige Bewegungen übertragen zu lassen:

Durch Training mit ungeordneten Sequenzen lernt der Generator, plausible Trajektorien wiederherzustellen und so die zeitliche Entropie effektiv zu regulieren. FLUXFLOW schließt die Lücke zwischen diskriminativer und generativer zeitlicher Erweiterung und bietet eine Plug-and-Play-Verbesserungslösung für die zeitlich plausible Videogenerierung bei gleichzeitiger Verbesserung der Gesamtqualität.

„Im Gegensatz zu bestehenden Methoden, die Architekturänderungen einführen oder auf Nachbearbeitung angewiesen sind, arbeitet FLUXFLOW direkt auf Datenebene und führt während des Trainings kontrollierte zeitliche Störungen ein.“

Anklicken um abzuspielen.

Störungen auf Frame-Ebene, so die Autoren, führen zu feinkörnigen Störungen innerhalb einer Sequenz. Diese Art von Störung ist nicht unähnlich Maskierungserweiterung, bei der Datenabschnitte zufällig gesperrt werden, um zu verhindern, dass das System Überanpassung auf Datenpunkten und die Förderung besserer Verallgemeinerung.

Tests

Obwohl die zentrale Idee hier aufgrund ihrer Einfachheit nicht in eine vollständige Abhandlung mündet, gibt es dennoch einen Testabschnitt, den wir uns ansehen können.

Die Autoren testeten vier Abfragen im Zusammenhang mit verbesserter zeitlicher Qualität bei gleichzeitiger Beibehaltung der räumlichen Wiedergabetreue, der Fähigkeit zum Erlernen der Bewegungs-/optischen Flussdynamik, der Beibehaltung der zeitlichen Qualität bei der Extratermgenerierung und der Empfindlichkeit gegenüber wichtigen Hyperparametern.

Die Forscher wendeten FluxFlow auf drei generative Architekturen an: U-Net-basiert, in Form von VideoCrafter2; DiT-basiert in Form von CogVideoX-2B; und AR-basiert, in Form von NOVA-0.6B.

Für einen fairen Vergleich haben sie die Basismodelle der Architekturen mit FluxFlow als zusätzliche Trainingsphase verfeinert, zum Beispiel Epoche, Auf die OpenVidHD-0.4M Datensatz.

Die Modelle wurden anhand zweier gängiger Benchmarks bewertet: UCF-101eschriebenen Art und Weise; und VBench.

Für UCF ist die Fréchet Video Entfernung (FVD) und Inception-Score (IS)-Metriken wurden verwendet. Bei VBench konzentrierten sich die Forscher auf die zeitliche Qualität, die bildweise Qualität und die Gesamtqualität.

Quantitative Erstbewertung des FluxFlow-Frame.

Quantitative Erstbewertung des FluxFlow-Frames. „+ Original“ steht für Training ohne FLUXFLOW, „+ Num × 1“ für verschiedene FluxFlow-Frame-Konfigurationen. Die besten Ergebnisse sind schattiert, die zweitbesten für jedes Modell unterstrichen.

Zu diesen Ergebnissen erklären die Autoren:

„Sowohl FLUXFLOW-FRAME als auch FLUXFLOW-BLOCK verbessern die zeitliche Qualität erheblich, wie die Messwerte in den Tabellen 1 und 2 (d. h. FVD, Motiv, Flimmern, Bewegung und Dynamik) und die qualitativen Ergebnisse in [Bild unten] belegen.

„So werden beispielsweise die Bewegungen des driftenden Autos in VC2, der Katze, die in NOVA ihren Schwanz jagt, und des Surfers, der in CVX auf einer Welle reitet, mit FLUXFLOW deutlich flüssiger. Wichtig ist, dass diese zeitlichen Verbesserungen ohne Einbußen bei der räumlichen Wiedergabetreue erreicht werden, wie die scharfen Details von Wasserspritzern, Rauchfahnen und Wellentexturen sowie die räumlichen und allgemeinen Wiedergabetreuemetriken belegen.“

Nachfolgend sehen wir eine Auswahl der qualitativen Ergebnisse, auf die sich die Autoren beziehen (die vollständigen Ergebnisse und eine bessere Auflösung finden Sie im Originalartikel):

Auswahl aus den qualitativen Ergebnissen.

Auswahl aus den qualitativen Ergebnissen.

Die Studie legt nahe, dass sowohl Frame- als auch Block-Level-Perturbationen die zeitliche Qualität verbessern, Frame-Level-Methoden jedoch tendenziell leistungsfähiger sind. Dies ist auf ihre feinere Granularität zurückzuführen, die präzisere zeitliche Anpassungen ermöglicht. Block-Level-Perturbationen hingegen können aufgrund eng gekoppelter räumlicher und zeitlicher Muster innerhalb von Blöcken Rauschen verursachen und so ihre Effektivität verringern.

Fazit

Dieses Papier, zusammen mit dem Bytedance-Tsinghua Zusammenarbeit bei der Untertitelung Die in dieser Woche veröffentlichte Studie hat mir klar gemacht, dass die offensichtlichen Mängel der neuen Generation generativer Videomodelle möglicherweise nicht auf Benutzerfehler, institutionelle Fehltritte oder Finanzierungsbeschränkungen zurückzuführen sind, sondern vielmehr auf einen Forschungsschwerpunkt, der verständlicherweise dringlicheren Herausforderungen wie zeitlicher Kohärenz und Konsistenz Vorrang vor diesen weniger wichtigen Anliegen eingeräumt hat.

Bis vor Kurzem waren die Ergebnisse frei verfügbarer und herunterladbarer generativer Videosysteme so fehlerhaft, dass von Seiten der Enthusiasten-Community keine großen Anstrengungen unternommen wurden, um die Probleme zu beheben (nicht zuletzt, weil es sich um grundlegende Probleme handelte, die nicht ohne weiteres lösbar waren).

Da wir dem lange vorhergesagten Zeitalter der rein KI-generierten fotorealistischen Videoausgabe nun so viel näher gekommen sind, ist klar, dass sowohl die Forschungs- als auch die Freizeitcommunity ein stärkeres und produktiveres Interesse an der Lösung der verbleibenden Probleme haben; hoffentlich handelt es sich dabei nicht um unüberwindbare Hindernisse.

 

* Die native Bildrate von Wan beträgt mickrige 16fps, und als Reaktion auf meine eigenen Probleme stelle ich fest, dass in Foren vorgeschlagen wurde, die Bildrate auf bis zu 12fps zu senken und dann zu verwenden FlowFrames oder andere KI-basierte Reflow-Systeme, um die Lücken zwischen einer so geringen Anzahl von Frames zu interpolieren.

Erstveröffentlichung: Freitag, 21. März 2025

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai