Vernetzen Sie sich mit uns

Andersons Blickwinkel

KI-Video perfektioniert das Katzen-Selfie

mm
Ein Standbild aus einem Demovideo zur Veröffentlichung „Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models“ zeigt die Perspektive eines Katzen-Selfies, während im Hintergrund ein Hund Skateboard fährt. Quelle: https://vita-epfl.github.io/FVG/

KI-Videogeneratoren liefern oft Ergebnisse, die dem gewünschten Textinhalt nahekommen, ihn aber nicht vollständig umsetzen. Eine neue, übergeordnete Lösung macht jedoch den entscheidenden Unterschied.

 

Generative Videosysteme haben oft Schwierigkeiten, wirklich kreative oder ausgefallene Videos zu erstellen, und können die Erwartungen der Nutzer an die Texteingaben oft nicht erfüllen.

Ein Grund dafür ist Verschränkung – Die Tatsache, dass Bild- und Sprachmodelle Kompromisse hinsichtlich der Trainingsdauer mit ihren Quelldaten eingehen müssen. Bei zu kurzem Training sind die Konzepte zwar flexibel, aber nicht vollständig ausgereift; bei zu langem Training sind sie zwar korrekt, aber nicht mehr flexibel genug, um neue Kombinationen zu ermöglichen.

Das unten eingebettete Video veranschaulicht die Idee. Links sehen Sie einen Kompromiss, den viele KI-Systeme als Antwort auf eine anspruchsvolle Aufgabenstellung liefern (die Aufgabenstellung befindet sich in allen vier Beispielen oben im Video). Diese Aufgabenstellung verlangt eine zu fantastische Kombination von Elementen, um als reales Trainingsbeispiel gedient zu haben. Rechts sehen Sie eine KI-Ausgabe, die die Aufgabenstellung deutlich besser umsetzt.

Anklicken um abzuspielen (Kein Ton). Rechts sehen wir, wie das „faktorisierte“ WAN 2.2 die Anweisungen präzise umsetzt, im Gegensatz zu den unpräzisen Interpretationen des Standard-WAN 2.2 links. Die Original-Videodateien bieten eine höhere Auflösung und viele weitere Beispiele. Die hier gezeigten Versionen sind jedoch nicht auf der Projektseite verfügbar und wurden eigens für diesen Artikel zusammengestellt. Quelle

Nun ja, auch wenn wir der klatschenden Ente die menschlichen Hände verzeihen müssen (!), ist doch klar, dass die Beispiele auf der rechten Seite der ursprünglichen Textvorgabe viel besser entsprechen als die auf der linken Seite.

Interessanterweise handelt es sich bei beiden vorgestellten Architekturen im Wesentlichen um die gleich Architektur – die beliebte und sehr fähige Wan 2.2, eine chinesische Veröffentlichung, die in diesem Jahr in der Open-Source- und Hobbyisten-Community deutlich an Bedeutung gewonnen hat.

Der Unterschied besteht darin, dass die zweite generative Pipeline ist faktorisiertDies bedeutet in diesem Fall, dass ein großes Sprachmodell (LLM) verwendet wurde, um das erste (Ausgangs-)Bild des Videos neu zu interpretieren, damit es für das System wesentlich einfacher wird, das zu liefern, wonach der Benutzer fragt.

Diese „visuelle Verankerung“ beinhaltet das Einfügen eines aus dieser LLM-optimierten Eingabeaufforderung erstellten Bildes in die generative Pipeline als „Startbild“ und die Verwendung eines LoRA Interpretationsmodell zur Integration des „Eindringlings“-Frameworks in den Videoproduktionsprozess.

Die Ergebnisse hinsichtlich der prompten Genauigkeit sind bemerkenswert, insbesondere für eine Lösung, die recht elegant erscheint:

Anklicken um abzuspielen (Kein Ton). Weitere Beispiele für „faktorisierte“ Videogenerierungen, die sich strikt an das Skript halten. Die Originalvideodateien bieten eine bessere Auflösung und viele weitere Beispiele. Die hier gezeigten kuratierten Versionen sind jedoch nicht auf der Projektseite verfügbar und wurden eigens für diesen Artikel zusammengestellt.

Diese Lösung kommt in Form von neues Papier Faktorisierte Videogenerierung: Entkopplung von Szenenkonstruktion und zeitlicher Synthese in Text-zu-Video-Diffusionsmodellenund die dazugehörigen Videos Projekt-Website.

Während viele aktuelle Systeme versuchen, die Genauigkeit von Eingabeaufforderungen durch den Einsatz von Sprachmodellen zur Umformulierung vager oder unpräziser Texte zu verbessern, argumentiert die neue Arbeit, dass diese Strategie dennoch zum Scheitern führt, wenn das Modell Darstellung einer internen Szene ist fehlerhaft.

Selbst bei einer detailliert überarbeiteten Anweisung kommt es bei Text-zu-Video-Modellen häufig zu Fehlern in der Zusammensetzung wichtiger Elemente oder zur Erzeugung inkompatibler Anfangszustände, die die Logik der Animation stören. Solange das erste Bild nicht der Anweisung entspricht, lässt sich das resultierende Video nicht mehr retten, unabhängig von der Qualität des Bewegungsmodells.

In dem Papier heißt es*:

„[Text-zu-Video]-Modelle erzeugen häufig verteilungsverschobene Frames, erreichen aber dennoch [Bewertungsergebnisse], die mit I2V-Modellen vergleichbar sind, was darauf hindeutet, dass …“ Ihre Bewegungsmodellierung bleibt auch bei relativ geringer Szenentreue einigermaßen natürlich..

'[Bild-zu-Video]-Modelle weisen ein komplementäres Verhalten auf, hohe [Bewertungswerte] aufgrund genauer Ausgangsszenen und eine schwächere zeitliche Kohärenz, während I2V+Text beide Aspekte ausgleicht.

„Dieser Kontrast deutet auf einen … hin.“ Strukturelle Diskrepanz in aktuellen T2V-ModellenSzenenverankerung und zeitliche Synthese profitieren von unterschiedlichen induktiven Tendenzen, doch bestehende Architekturen versuchen, beides gleichzeitig innerhalb eines einzigen Modells zu erlernen.

Ein diagnostischer Vergleich der Generierungsmodi ergab, dass Modelle ohne explizite Szenenverankerung bei der Bewegung gut abschnitten, aber oft Kompromisse beim Szenenlayout eingingen, während bildkonditionierte Ansätze das gegenteilige Muster zeigten:

Ein Vergleich verschiedener Videogenerierungsmodi anhand zweier Datensätze zeigt, dass I2V+Text die beste Bildqualität (FID) und zeitliche Kohärenz (FVD) erzielt und damit den Vorteil der Trennung von Szenenkonstruktion und Bewegung verdeutlicht. Quelle: https://arxiv.org/pdf/2512.16371

Vergleich der Videogenerierungsmodi auf zwei Datensätzen, wobei sich zeigt, dass I2V+text die beste Bildqualität (FID) und zeitliche Kohärenz (FVD) erzielt, was den Vorteil der Trennung von Szenenkonstruktion und Bewegung unterstreicht. Quelle

Diese Ergebnisse deuten auf einen strukturellen Fehler hin, bei dem aktuelle Modelle versuchen, sowohl Szenenlayout als auch Animation gleichzeitig zu erlernen, obwohl die beiden Aufgaben unterschiedliche Arten von Animation erfordern. induktive Vorspannungund sollten besser getrennt behandelt werden.

Am interessantesten ist vielleicht, dass dieser „Trick“ potenziell auf lokale Installationen von Modellen wie Wan 2.1 und 2.2 sowie auf ähnliche Videodiffusionsmodelle wie beispielsweise angewendet werden kann. Hunyuan-VideoVergleicht man die Qualität von Hobbyprojekten mit kommerziellen Anbietern wie Kling und Runway, so zeigt sich, dass die meisten großen API-Anbieter Open-Source-Angebote wie WAN mit LoRas verbessern – und zwar offenbar mit Tricks, wie sie in der neuen Studie beschrieben werden. Dieser Ansatz könnte daher für die FOSS-Szene eine Aufholjagd bedeuten.

Die durchgeführten Tests des Verfahrens deuten darauf hin, dass dieser einfache und modulare Ansatz einen neuen Stand der Technik darstellt. T2V-CompBench-Benchmarkund verbessert dadurch alle getesteten Modelle signifikant. Die Autoren merken abschließend an, dass ihr System zwar die Wiedergabetreue radikal verbessert, aber das Problem nicht löst (und auch nicht lösen soll). Identitätsdrift, derzeit der Fluch der generativen KI-Forschung.

Das neue Papier stammt von vier Forschern der Ecole Polytechnique Fédérale de Lausanne (EPFL) in der Schweiz.

Methode und Daten

Die zentrale These der neuen Technik besteht darin, dass Text-zu-Video (T2V)-Diffusionsmodelle an Startbildern „verankert“ werden müssen, die tatsächlich zum gewünschten Textaufruf passen.

Um sicherzustellen, dass das Modell den Ausgangsrahmen beibehält, unterbricht die neue Methode die Standarddiffusionsprozess durch Einspritzen eines sauberen latent Das Bild des Ankerbildes zum Zeitpunkt null ersetzt einen der üblichen verrauschten Eingangssignale. Dieses ungewohnte Eingangssignal verwirrt das Modell zunächst, jedoch mit minimalem LoRA-Fehler. FeintuningEs lernt, das eingefügte Bild als festen visuellen Ankerpunkt und nicht als Teil der Rauschtrajektorie zu behandeln:

Zweistufiges Verfahren zur Verankerung der Text-zu-Video-Generierung mit einem visuellen Anker: Links wird das Modell mithilfe des ressourcenschonenden LoRA-Algorithmus feinabgestimmt, um ein eingefügtes sauberes latentes Element als feste Szenenbeschränkung zu behandeln. Rechts wird die Eingabeaufforderung in eine Bildunterschrift des ersten Frames aufgeteilt, die zur Generierung des Ankerbildes dient, das das Video steuert.

Ein zweistufiges Verfahren zur Verankerung der Text-zu-Video-Generierung mit einem visuellen Anker: Links wird das Modell mithilfe eines ressourcenschonenden LoRA-Algorithmus feinabgestimmt, um ein eingefügtes sauberes latentes Element als feste Szenenbeschränkung zu behandeln. Rechts wird die Eingabeaufforderung in eine Bildunterschrift des ersten Frames aufgeteilt, die zur Generierung des Ankerbildes verwendet wird, das das Video steuert.

Bei der Schlussfolgerung schreibt die Methode die Eingabeaufforderung um, um Folgendes zu beschreiben: nur das erste Bild, wobei ein LLM verwendet wird, um einen plausiblen initialen Szenenzustand zu extrahieren, der sich auf Layout und Erscheinungsbild konzentriert.

Diese umformulierte Eingabeaufforderung wird an einen Bildgenerator übergeben, der einen Kandidaten-Ankerframe erzeugt (der optional vom Benutzer verfeinert werden kann). Der ausgewählte Frame wird in eine latente Variable kodiert und in den Diffusionsprozess eingefügt, indem der erste Zeitschritt ersetzt wird. Dadurch kann das Modell den Rest des Videos generieren. während der Verankerung in der Ausgangsszene – ein Prozess, der ohne Änderungen an der zugrunde liegenden Architektur funktioniert.

Das Verfahren wurde getestet, indem LoRAs erstellt wurden für Wan2.2-14B, Wan2.1-1B und CogVideo1.5-5BDie LoRA-Schulung wurde an einem Rang von 256, an 5000 zufällig ausgewählten Clips aus dem UltraVideo Sammlung.

Das Training umfasste 6000 Schritte und benötigte 48 GPU-Stunden. Für Wan-1B und CogVideo-5B wurden 96 GPU-Stunden benötigt, für Wan-14B 96. Die Autoren weisen darauf hin, dass Wan-5B nativ die Verarbeitung von reinem Text und Text-Bild-Konditionierung unterstützt (die in diesem Fall den älteren Frameworks aufgezwungen werden) und daher keine Feinabstimmung erforderlich war.

Tests

In den für den Prozess durchgeführten Experimenten wurde jede Texteingabeaufforderung zunächst verfeinert mithilfe von Qwen2.5-7B-Anweisung, welches das Ergebnis nutzte, um eine detaillierte Bildunterschrift mit einer Beschreibung der gesamten Szene zu generieren. Diese wurde dann an QwenImage, dessen Aufgabe es war, den „magischen Rahmen“ zu generieren, der in den Diffusionsprozess eingefügt werden sollte.

Zu den Benchmarks, die zur Bewertung des Systems herangezogen wurden, gehörte das bereits erwähnte T2V-CompBench, mit dem das Kompositionsverständnis getestet wurde, indem bewertet wurde, wie gut Modelle Objekte, Attribute und Aktionen innerhalb einer zusammenhängenden Szene bewahrten; und VBench 2.0zur Bewertung des umfassenderen Denkens und der Konsistenz über 18 Kennzahlen hinweg, gruppiert in Kreativität, gesundes Menschenverstand, Steuerbarkeit, menschliche Treue und Physik:

In allen sieben Bewertungskategorien von T2V-CompBench übertraf die faktorisierte T2V-Methode sowohl die Standard- als auch die Upsampling-T2V-Baselines für jedes getestete Modell, mit Leistungssteigerungen von bis zu 53.25 %. Die Varianten mit den höchsten Punktzahlen erreichten oder übertrafen häufig den proprietären PixVerse-V3-Benchmark.

In allen sieben Bewertungskategorien von T2V-CompBench übertraf die faktorisierte T2V-Methode sowohl die Standard- als auch die Upsampling-T2V-Baselines für jedes getestete Modell, mit Leistungssteigerungen von bis zu 53.25 %. Die Varianten mit den höchsten Punktzahlen erreichten oder übertrafen häufig den proprietären PixVerse-V3-Benchmark.

Bezüglich dieser ersten Testrunde geben die Autoren Folgendes an*:

„Bei allen Modellen verbessert das Hinzufügen eines Ankerbildes die Kompositionsleistung durchweg. Alle kleineren Factorized-Modelle (CogVideo 5B, Wan 5B und Wan 1B) übertreffen das größere Modell Wan 14B T2V.“

'Unser faktorisiertes Wan 5B übertrifft auch das kommerzielle PixVerse-V3-Baseline-Modell, welches das beste bisher gemeldete Modell im Benchmark ist. Dies beweist, dass die visuelle Verankerung das Verständnis von Szene und Handlung auch bei Modellen mit geringerer Kapazität erheblich verbessert.

„Innerhalb jeder Modellfamilie übertrifft die faktorisierte Version das Originalmodell. Insbesondere erreicht unser ressourcenschonendes, ankerbasiertes LoRA on WAN 14B eine vergleichbare Leistung wie seine vortrainierte I2V 14B-Variante (0.661 gegenüber 0.666), obwohl kein vollständiges Nachtraining erforderlich ist.“

Als nächstes folgte die VBench2.0-Runde:

Der faktorisierte T2V-Ansatz verbesserte die Leistung von VBench 2.0 durchweg in Bezug auf Komposition, gesundes Menschenverstand, Steuerbarkeit und Physik, wobei einige Verbesserungen 60 % überstiegen – obwohl die menschliche Wiedergabetreue unter dem proprietären Veo 3-Baseline blieb.

Der faktorisierte T2V-Ansatz verbesserte die Leistung von VBench 2.0 durchweg in Bezug auf Komposition, gesundes Menschenverstand, Steuerbarkeit und Physik, wobei einige Verbesserungen 60 % überstiegen – obwohl die menschliche Wiedergabetreue unter dem proprietären Veo 3-Baseline blieb.

Über alle Architekturen hinweg verbesserte der faktorisierte Ansatz die Ergebnisse in jeder VBench-Kategorie außer menschliche TreueDie Leistung sank trotz sofortigem Upsampling leicht. WAN 5B übertraf das größere WAN 14B und bestätigte damit frühere Ergebnisse des T2V-CompBench, wonach die visuelle Erdung einen größeren Einfluss hatte als die Skalierung.

Während die Verbesserungen bei VBench durchgängig waren, fielen sie geringer aus als die bei T2V-CompBench beobachteten. Die Autoren führen dies auf das strengere binäre Bewertungssystem von VBench zurück.

Für die qualitativen Tests liefert die Studie statische Bilder. Wir verweisen jedoch auf die in diesem Artikel eingebetteten zusammengesetzten Videos, um einen besseren Eindruck zu erhalten. Dabei ist zu beachten, dass die Quellvideos zahlreicher und vielfältiger sind und zudem eine höhere Auflösung und mehr Details aufweisen. [Link zu den Videos] .Hinsichtlich der qualitativen Ergebnisse heißt es in der Studie:

„Verankerte Videos weisen durchweg eine präzisere Szenenkomposition, eine stärkere Verknüpfung von Objekten und Attributen sowie einen klareren zeitlichen Ablauf auf.“

Die faktorisierte Methode blieb auch dann stabil, als die Anzahl der Diffusionsschritte von 50 auf 15 reduziert wurde, und zeigte auf T2V-CompBench nahezu keinen Leistungsverlust. Im Gegensatz dazu verschlechterten sich sowohl die textbasierte als auch die hochskalierte Vergleichsmethode unter denselben Bedingungen deutlich.

Obwohl eine Reduzierung der Schritte die Geschwindigkeit theoretisch verdreifachen könnte, beschleunigte sich die gesamte Generierungspipeline in der Praxis aufgrund der Fixkosten für die Ankerbildgenerierung nur um das 2.1-Fache. Dennoch zeigten die Ergebnisse, dass die Verankerung nicht nur die Probenqualität verbesserte, sondern auch zur Stabilisierung des Diffusionsprozesses beitrug und so eine schnellere und effizientere Generierung ohne Genauigkeitsverlust ermöglichte.

Auf der Projektwebsite finden Sie Beispiele für Upsampling im Vergleich zu neuen Methodengenerationen, von denen wir hier einige (niedriger auflösende) bearbeitete Beispiele anbieten:

Anklicken um abzuspielen (Kein Ton). Hochgerechnete Ausgangsquellen im Vergleich zum faktorisierten Ansatz der Autoren.

Die Autoren folgern:

Unsere Ergebnisse deuten darauf hin, dass eine verbesserte Verankerung, und nicht nur eine erhöhte Kapazität, ebenso wichtig sein könnte. Jüngste Fortschritte bei der Verbreitung von T2V basierten stark auf der Vergrößerung der Modellgröße und der Trainingsdaten, doch selbst große Modelle haben oft Schwierigkeiten, allein aus Text eine kohärente Ausgangsszene abzuleiten.

„Dies steht im Gegensatz zur Bilddiffusion, bei der die Skalierung relativ einfach ist; bei Videomodellen muss jede architektonische Verbesserung über eine zusätzliche zeitliche Dimension hinweg erfolgen, was die Skalierung wesentlich ressourcenintensiver macht.“

„Unsere Ergebnisse deuten darauf hin, dass eine verbesserte Verankerung die Skalierung ergänzen kann, indem sie einen anderen Engpass angeht: die korrekte Szene vor Beginn der Bewegungssynthese zu etablieren.“

„Durch die Aufteilung der Videogenerierung in Szenenkomposition und zeitliche Modellierung können wir mehrere häufige Fehlerquellen minimieren, ohne wesentlich größere Modelle zu benötigen. Wir betrachten dies als ein ergänzendes Designprinzip, das zukünftige Architekturen hin zu einer zuverlässigeren und strukturierteren Videosynthese leiten kann.“

Fazit

Obwohl die Probleme der Verschränkung sehr real sind und möglicherweise spezielle Lösungen erfordern (wie z. B. verbesserte Kuratierung und Verteilungsbewertungen vor dem Training), war es eine Offenbarung zu sehen, wie die Faktorisierung mehrere hartnäckige und festgefahrene Konzept-Prompt-Orchestrierungen in viel genauere Darstellungen "entwirrte" - mit nur einer moderaten Schicht LoRA-Konditionierung und dem Eingreifen eines merklich verbesserten Start-/Seed-Bildes.

Die Kluft bei den Ressourcen zwischen lokalen Hobbyisten-Inferenzlösungen und kommerziellen Lösungen ist möglicherweise nicht ganz so enorm wie angenommen, da fast alle Anbieter bestrebt sind, ihren beträchtlichen GPU-Ressourcenaufwand gegenüber den Verbrauchern zu rechtfertigen.

Anekdotisch betrachtet scheinen viele der aktuellen Anbieter generativer Videos auf Markenversionen und generell verbesserte Versionen chinesischer Open-Source-Software-Modelle zurückzugreifen. Der Hauptvorteil dieser Zwischenhändlersysteme liegt offenbar darin, dass sie sich die Mühe gemacht haben, LoRA-Modelle zu trainieren, oder – mit höherem Aufwand und etwas größerem Nutzen – die Modellgewichte vollständig feinabgestimmt haben.††.

Solche Erkenntnisse könnten dazu beitragen, diese Kluft weiter zu verringern, insbesondere im Hinblick auf die Veröffentlichungssituation, in der die Chinesen entschlossen zu sein scheinen (nicht unbedingt aus altruistischen oder idealistischen Gründen), die Gen-KI zu demokratisieren, während westliche Wirtschaftsinteressen es vielleicht vorziehen würden, dass die zunehmende Modellgröße und die Regulierung letztendlich alle wirklich guten Modelle hinter APIs und mehreren Ebenen von Inhaltsfiltern verbergen.

 

* Hervorhebungen der Autoren, nicht meine.

In der Arbeit wird nicht angegeben, welche GPU ausgewählt wurde oder wie viele verwendet wurden.

†† Die LoRA-Route ist jedoch wahrscheinlicher, sowohl aus wirtschaftlichen Gründen als auch, weil die vollen Gewichte, anstatt quantisiert Gewichte werden nicht immer zur Verfügung gestellt.

Erstveröffentlichung Freitag, 19. Dezember 2025

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai