Vernetzen Sie sich mit uns

KĂŒnstliche Intelligenz

DynamiCrafter: Animieren von Open-Domain-Bildern mit Videodiffusions-Priors

mm
DynamiCrafter: Animieren von Open-Domain-Bildern mit Videodiffusions-Priors

Computer Vision ist heute eines der spannendsten und am besten erforschten Gebiete innerhalb der KI-Community, und trotz der schnellen Weiterentwicklung der Computer-Vision-Modelle ist die Bildanimation eine seit langem bestehende Herausforderung, die Entwickler noch immer beschĂ€ftigt. Noch heute haben Bildanimations-Frameworks Schwierigkeiten, Standbilder in ihre jeweiligen Video-GegenstĂŒcke umzuwandeln, die eine natĂŒrliche Dynamik aufweisen und gleichzeitig das ursprĂŒngliche Erscheinungsbild der Bilder bewahren. Traditionell konzentrieren sich Bildanimations-Frameworks hauptsĂ€chlich auf die Animation natĂŒrlicher Szenen mit domĂ€nenspezifischen Bewegungen wie menschlichen Haaren oder Körperbewegungen oder stochastischen Dynamiken wie FlĂŒssigkeiten und Wolken. Obwohl dieser Ansatz bis zu einem gewissen Grad funktioniert, schrĂ€nkt er die Anwendbarkeit dieser Animationsframeworks auf allgemeinere visuelle Inhalte ein. 

DarĂŒber hinaus konzentrieren sich herkömmliche BildanimationsansĂ€tze hauptsĂ€chlich auf die Synthese oszillierender und stochastischer Bewegungen oder auf die Anpassung an bestimmte Objektkategorien. Ein bemerkenswerter Fehler dieses Ansatzes sind jedoch die starken Annahmen, die diesen Methoden auferlegt werden, was letztendlich ihre Anwendbarkeit insbesondere in allgemeinen Szenarien wie der Open-Domain-Bildanimation einschrĂ€nkt. In den letzten Jahren, T2V- oder Text-to-Video-Modelle haben bemerkenswerte Erfolge bei der Erstellung lebendiger und abwechslungsreicher Videos mithilfe von Textaufforderungen gezeigt, und diese Demonstration von T2V-Modellen bildet die Grundlage fĂŒr das DynamiCrafter-Framework. 

Das DynamiCrafter-Framework ist ein Versuch, die aktuellen EinschrĂ€nkungen von Bildanimationsmodellen zu ĂŒberwinden und ihre Anwendbarkeit auf generische Szenarien mit Open-World-Bildern zu erweitern. Das DynamiCrafter-Framework versucht, dynamische Inhalte fĂŒr Open-Domain-Bilder zu synthetisieren und diese in animierte Videos umzuwandeln. Die SchlĂŒsselidee von DynamiCrafter besteht darin, das Bild als Orientierungshilfe in den generativen Prozess einzubeziehen, um zu versuchen, die BewegungsprioritĂ€t der bereits vorhandenen Text-zu-Video-Diffusionsmodelle zu nutzen. FĂŒr ein bestimmtes Bild implementiert das DynamiCrafter-Modell zunĂ€chst einen Abfragetransformator, der das Bild in einen textausgerichteten Rich-Context-Darstellungsraum projiziert und es dem Videomodell erleichtert, den Bildinhalt auf kompatible Weise zu verarbeiten. Allerdings hat das DynamiCrafter-Modell immer noch Schwierigkeiten, einige visuelle Details in den resultierenden Videos beizubehalten. Dieses Problem ĂŒberwindet das DynamiCrafter-Modell, indem es das vollstĂ€ndige Bild dem Diffusionsmodell zufĂŒhrt, indem es das Bild mit dem anfĂ€nglichen Rauschen verkettet und so das Modell durch ein prĂ€ziseres Bild ergĂ€nzt Information. 

Ziel dieses Artikels ist es, das DynamiCrafter-Framework eingehend zu behandeln. Wir untersuchen den Mechanismus, die Methodik und die Architektur des Frameworks sowie seinen Vergleich mit modernsten Bild- und Videogenerierungs-Frameworks. Also lasst uns anfangen. 

DynamiCrafter: Open-Domain-Bildanimation

Das Animieren eines Standbilds bietet dem Publikum oft ein fesselndes visuelles Erlebnis, da es das Standbild zum Leben zu erwecken scheint. Im Laufe der Jahre haben zahlreiche Frameworks verschiedene Methoden zur Animation von Standbildern untersucht. Erste Animations-Frameworks implementierten auf physikalischer Simulation basierende AnsĂ€tze, die sich auf die Simulation der Bewegung bestimmter Objekte konzentrierten. Aufgrund der unabhĂ€ngigen Modellierung jeder Objektkategorie waren diese AnsĂ€tze jedoch weder effektiv noch generalisierbar. Um realistischere Bewegungen nachzubilden, entstanden referenzbasierte Methoden, die Bewegungs- oder Erscheinungsinformationen aus Referenzsignalen wie Videos in den Syntheseprozess ĂŒbertrugen. Obwohl referenzbasierte AnsĂ€tze im Vergleich zu simulationsbasierten AnsĂ€tzen bessere Ergebnisse mit besserer zeitlicher KohĂ€renz lieferten, benötigten sie zusĂ€tzliche Anleitungen, die ihre praktischen Anwendungen einschrĂ€nkten. 

In den letzten Jahren konzentriert sich ein Großteil der Animationsframeworks hauptsĂ€chlich auf die Animation natĂŒrlicher Szenen mit stochastischen, domĂ€nenspezifischen oder oszillierenden Bewegungen. Obwohl der von diesen Frameworks implementierte Ansatz bis zu einem gewissen Grad funktioniert, sind die Ergebnisse, die diese Frameworks erzielen, nicht zufriedenstellend und bieten erheblichen Raum fĂŒr Verbesserungen. Die bemerkenswerten Ergebnisse, die in den letzten Jahren mit generativen Text-zu-Video-Modellen erzielt wurden, haben die Entwickler des DynamiCrafter-Frameworks dazu inspiriert, die leistungsstarken generativen FĂ€higkeiten von Text-zu-Video-Modellen fĂŒr Bildanimationen zu nutzen. 

Die wichtigste Grundlage des DynamiCrafter-Frameworks besteht darin, ein bedingtes Bild einzubinden, um den Videogenerierungsprozess zu steuern Text-zu-Video-Diffusionsmodelle. Das ultimative Ziel der Bildanimation bleibt jedoch immer noch nicht trivial, da bei der Bildanimation sowohl die Bewahrung von Details als auch das VerstĂ€ndnis visueller ZusammenhĂ€nge erforderlich ist, die fĂŒr die Erzeugung von Dynamik unerlĂ€sslich sind. Allerdings haben multimodale steuerbare Videodiffusionsmodelle wie VideoComposer versucht, die Videogenerierung mit visueller FĂŒhrung durch ein Bild zu ermöglichen. Diese AnsĂ€tze eignen sich jedoch nicht fĂŒr die Bildanimation, da sie aufgrund ihrer weniger umfassenden Bildinjektionsmechanismen entweder zu abrupten zeitlichen Änderungen oder zu einer geringen visuellen KonformitĂ€t mit dem Eingabebild fĂŒhren. Um dieser HĂŒrde entgegenzuwirken, schlĂ€gt das DyaniCrafter-Framework einen Dual-Stream-Injection-Ansatz vor, der aus visueller DetailfĂŒhrung und textorientierter Kontextdarstellung besteht. Der Dual-Stream-Injection-Ansatz ermöglicht es dem DynamiCrafter-Framework, sicherzustellen, dass das Videodiffusionsmodell detailgetreue dynamische Inhalte auf komplementĂ€re Weise synthetisiert. 

FĂŒr ein bestimmtes Bild projiziert das DynamiCrafter-Framework das Bild zunĂ€chst mithilfe eines speziell entwickelten Kontextlernnetzwerks in den textorientierten Kontextdarstellungsraum. Genauer gesagt besteht der Kontextdarstellungsraum aus einem lernbaren Abfragetransformator, um seine Anpassung an die Diffusionsmodelle weiter zu fördern, und einem vorab trainierten CLIP-Bildkodierer, um textausgerichtete Bildmerkmale zu extrahieren. Das Modell verwendet dann die umfangreichen Kontextfunktionen unter Verwendung von Queraufmerksamkeitsebenen, und das Modell verwendet Gated Fusion, um diese Textmerkmale mit den Queraufmerksamkeitsebenen zu kombinieren. Allerdings tauscht dieser Ansatz die erlernten Kontextdarstellungen mit textorientierten visuellen Details aus, was das semantische VerstĂ€ndnis des Bildkontexts erleichtert und die Synthese vernĂŒnftiger und lebendiger Dynamiken ermöglicht. Um zusĂ€tzliche visuelle Details zu ergĂ€nzen, verknĂŒpft das Framework außerdem das vollstĂ€ndige Bild mit dem anfĂ€nglichen Rauschen zum Diffusionsmodell. Dadurch garantiert der vom DynamiCrafter-Framework implementierte Dual-Injection-Ansatz visuelle KonformitĂ€t sowie plausible dynamische Inhalte zum Eingabebild. 

Im weiteren Verlauf haben Diffusionsmodelle oder DMs eine bemerkenswerte Leistung und generative LeistungsfĂ€higkeit bei der T2I- oder Text-to-Image-Generierung gezeigt. Um den Erfolg von T2I-Modellen auf die Videoerzeugung zu ĂŒbertragen, werden VDM- oder Videodiffusionsmodelle vorgeschlagen, die eine raumzeitfaktorisierte U-New-Architektur im Pixelraum verwenden, um Videos mit niedriger Auflösung zu modellieren. Die Übertragung der Erkenntnisse aus T2I-Frameworks auf T2V-Frameworks wird dazu beitragen, die Schulungskosten zu senken. Obwohl VDM- oder Videodiffusionsmodelle in der Lage sind, qualitativ hochwertige Videos zu generieren, akzeptieren sie nur Textaufforderungen als einzige semantische Anleitung, die möglicherweise nicht die wahren Absichten eines Benutzers widerspiegeln oder vage sein könnten. Die Ergebnisse der meisten VDM-Modelle stimmen jedoch selten mit dem Eingabebild ĂŒberein und weisen das Problem der unrealistischen zeitlichen Variation auf. Der DynamiCrafter-Ansatz basiert auf textkonditionierten Videodiffusionsmodellen, die ihren reichen dynamischen Prior fĂŒr die Animation von Open-Domain-Bildern nutzen. Dies geschieht durch die Einbindung maßgeschneiderter Designs fĂŒr ein besseres semantisches VerstĂ€ndnis und eine KonformitĂ€t mit dem Eingabebild. 

DynamiCrafter: Methode und Architektur

FĂŒr ein bestimmtes Standbild versucht das DyanmiCrafter-Framework, es zu animieren Bild zum Video also einen kurzen Videoclip produzieren. Der Videoclip ĂŒbernimmt den visuellen Inhalt des Bildes und weist eine natĂŒrliche Dynamik auf. Es besteht jedoch die Möglichkeit, dass das Bild an einer beliebigen Stelle der resultierenden Bildsequenz erscheint. Das Erscheinen eines Bildes an einem beliebigen Ort ist eine besondere Herausforderung, die bei bildkonditionierten Videogenerierungsaufgaben mit hohen Anforderungen an die visuelle KonformitĂ€t beobachtet wird. Das DynamiCrafter-Framework ĂŒberwindet diese Herausforderung, indem es die generativen PrioritĂ€ten vorab trainierter Videodiffusionsmodelle nutzt. 

Bilddynamik durch Videodiffusion Prior

Normalerweise ist bekannt, dass Open-Domain-Text-zu-Video-Diffusionsmodelle eine dynamische visuelle Inhaltsmodellierung der Konditionierung von Textbeschreibungen anzeigen. Um ein Standbild mit generativen PrioritĂ€ten von Text zu Video zu animieren, sollten die Frameworks zunĂ€chst die visuellen Informationen umfassend in den Videogenerierungsprozess einspeisen. DarĂŒber hinaus sollte das T2V-Modell fĂŒr die dynamische Synthese das Bild zum VerstĂ€ndnis des Kontexts verarbeiten und gleichzeitig in der Lage sein, die visuellen Details in den generierten Videos beizubehalten. 

Textausgerichtete Kontextdarstellung

Um die Videogenerierung mit Bildkontext zu steuern, versucht das DynamiCrafter-Framework, das Bild in einen ausgerichteten Einbettungsraum zu projizieren, damit das Videomodell die Bildinformationen auf kompatible Weise verwenden kann. Anschließend verwendet das DynamiCrafter-Framework den Bild-Encoder, um Bildmerkmale aus dem Eingabebild zu extrahieren, da die Texteinbettungen mithilfe eines vorab trainierten CLIP-Text-Encoders generiert werden. Obwohl nun die globalen semantischen Token des CLIP-Bildencoders an den Bildunterschriften ausgerichtet sind, stellt er in erster Linie den visuellen Inhalt auf der semantischen Ebene dar und kann daher nicht den vollen Umfang des Bildes erfassen. Das DynamiCrafter-Framework implementiert vollstĂ€ndige visuelle Token aus der letzten Ebene des CLIP-Encoders, um vollstĂ€ndigere Informationen zu extrahieren, da diese visuellen Token eine hohe Wiedergabetreue bei bedingten Bildgenerierungsaufgaben aufweisen. DarĂŒber hinaus nutzt das Framework Kontext- und Texteinbettungen, um mit den U-Net-Zwischenfunktionen ĂŒber die dualen Cross-Attention-Layer zu interagieren. Das Design dieser Komponente ermöglicht es dem Modell, Bildbedingungen schichtabhĂ€ngig zu absorbieren. Da die Zwischenschichten der U-Net-Architektur außerdem stĂ€rker mit Objektposen oder -formen verknĂŒpft sind, wird erwartet, dass die Bildmerkmale das Erscheinungsbild der Videos ĂŒberwiegend beeinflussen, insbesondere da die beiden Endschichten stĂ€rker mit dem Erscheinungsbild verknĂŒpft sind. 

Visuelle DetailfĂŒhrung

Das DyanmiCrafter-Framework verwendet eine umfassende, informative Kontextdarstellung, die es dem Videodiffusionsmodell in seiner Architektur ermöglicht, Videos zu erzeugen, die dem Eingabebild sehr Ă€hnlich sind. Wie in der folgenden Abbildung dargestellt, kann der generierte Inhalt jedoch einige Abweichungen aufweisen, da der vorab trainierte CLIP-Encoder nur begrenzt in der Lage ist, die Eingabeinformationen vollstĂ€ndig beizubehalten, da er fĂŒr die Ausrichtung von Sprache und visuellen Merkmalen konzipiert wurde. 

Um die visuelle KonformitĂ€t zu verbessern, schlĂ€gt das DynamiCrafter-Framework vor, das Videodiffusionsmodell mit zusĂ€tzlichen visuellen Details zu versehen, die aus dem Eingabebild extrahiert werden. Um dies zu erreichen, verkettet das DyanmiCrafter-Modell das bedingte Bild mit dem anfĂ€nglichen Rauschen pro Frame und leitet sie als Anleitung an die entrauschende U-Net-Komponente weiter. 

Trainingsparadigma

Das DynamiCrafter-Framework integriert das bedingte Bild ĂŒber zwei komplementĂ€re Streams, die eine wichtige Rolle bei der DetailfĂŒhrung und Kontextkontrolle spielen. Um dies zu ermöglichen, verwendet das DynamiCrafter-Modell einen dreistufigen Trainingsprozess

  1. Im ersten Schritt trainiert das Modell das Bildkontextdarstellungsnetzwerk. 
  2. Im zweiten Schritt passt das Modell das Bildkontextdarstellungsnetzwerk an das Text-to-Video-Modell an. 
  3. Im dritten und letzten Schritt optimiert das Modell das Bildkontextdarstellungsnetzwerk gemeinsam mit der Komponente „Visual Detail Guidance“. 

Um Bildinformationen fĂŒr die KompatibilitĂ€t mit dem Text-to-Video-Modell (T2V) anzupassen, schlĂ€gt das DynamiCrafter-Framework die Entwicklung eines Kontextdarstellungsnetzwerks P vor, das darauf ausgelegt ist, textausgerichtete visuelle Details aus dem gegebenen Bild zu erfassen. Da P fĂŒr die Konvergenz viele Optimierungsschritte erfordert, besteht der Ansatz des Frameworks darin, es zunĂ€chst mithilfe eines einfacheren Text-to-Image-Modells (T2I) zu trainieren. Diese Strategie ermöglicht es dem Kontextdarstellungsnetzwerk, sich auf das Lernen ĂŒber den Bildkontext zu konzentrieren, bevor es durch gemeinsames Training mit P und den rĂ€umlichen Schichten (im Gegensatz zu den zeitlichen Schichten) des T2V-Modells in das T2V-Modell integriert wird. 

Um die T2V-KompatibilitĂ€t sicherzustellen, fĂŒgt das DyanmiCrafter-Framework das Eingabebild mit Einzelbildrauschen zusammen und optimiert anschließend sowohl P als auch die rĂ€umlichen Ebenen des Visual Discrimination Model (VDM). Diese Methode wurde gewĂ€hlt, um die IntegritĂ€t der vorhandenen zeitlichen Erkenntnisse des T2V-Modells zu wahren, ohne die negativen Auswirkungen einer dichten BildzusammenfĂŒhrung, die die Leistung beeintrĂ€chtigen und von unserem Hauptziel abweichen könnte. DarĂŒber hinaus verwendet das Framework die Strategie, ein Videobild zufĂ€llig als Bildbedingung auszuwĂ€hlen, um zwei Ziele zu erreichen: (i) zu vermeiden, dass das Netzwerk ein vorhersehbares Muster entwickelt, das das zusammengefĂŒhrte Bild direkt mit einer bestimmten Einzelbildposition verknĂŒpft, und (ii) eine anpassungsfĂ€higere Kontextdarstellung zu fördern, indem die Bereitstellung allzu starrer Informationen fĂŒr ein bestimmtes Einzelbild vermieden wird. 

DynamiCrafter: Experimente und Ergebnisse

Das DynamiCrafter-Framework trainiert zunĂ€chst das Kontextdarstellungsnetzwerk und die Bild-Cross-Attention-Layer auf stabile Diffusion. Das Framework ersetzt dann das Stable Diffusion Komponente mit VideoCrafter und verfeinert das Kontextdarstellungsnetzwerk und die rĂ€umlichen Ebenen zur Anpassung sowie mit Bildverkettung weiter. Bei der Inferenz ĂŒbernimmt das Framework den DDIM-Sampler mit klassifikatorfreier FĂŒhrung mit mehreren Bedingungen. Um die zeitliche KohĂ€renz und QualitĂ€t der sowohl im zeitlichen als auch im rĂ€umlichen Bereich synthetisierten Videos zu bewerten, meldet das Framework außerdem FVD oder Frechet Video Distance sowie KVD oder Kernel Video Distance und bewertet die Zero-Shot-Leistung bei allen Methoden der MSR-VTT- und UCF-101-Benchmarks. Um die WahrnehmungskonformitĂ€t zwischen den generierten Ergebnissen und dem Eingabebild zu untersuchen, fĂŒhrt das Framework PIC oder Perceptual Input Conformity ein und ĂŒbernimmt die Wahrnehmungsdistanzmetrik DreamSim als Funktion der Distanz. 

Die folgende Abbildung zeigt den visuellen Vergleich generierter animierter Inhalte mit unterschiedlichen Stilen und Inhalten. 

Wie man bei all den verschiedenen Methoden beobachten kann, hĂ€lt sich das DynamiCrafter-Framework gut an die Eingabebildbedingungen und generiert zeitlich kohĂ€rente Videos. Die folgende Tabelle enthĂ€lt die Statistiken einer Benutzerstudie mit 49 Teilnehmern zur PrĂ€ferenzrate fĂŒr zeitliche KohĂ€renz (TC) und BewegungsqualitĂ€t (MC) sowie die Auswahlrate fĂŒr visuelle KonformitĂ€t mit dem Eingabebild. (IC). Wie man beobachten kann, ist das DynamiCrafter-Framework in der Lage, bestehende Methoden deutlich zu ĂŒbertreffen. 

Die folgende Abbildung zeigt die mit der Dual-Stream-Injektionsmethode und dem Trainingsparadigma erzielten Ergebnisse. 

Fazit

In diesem Artikel haben wir ĂŒber DynamiCrafter gesprochen, einen Versuch, die aktuellen EinschrĂ€nkungen von Bildanimationsmodellen zu ĂŒberwinden und ihre Anwendbarkeit auf generische Szenarien mit Open-World-Bildern zu erweitern. Das DynamiCrafter-Framework versucht, dynamische Inhalte fĂŒr Open-Domain-Bilder zu synthetisieren und diese in animierte Videos umzuwandeln. Die SchlĂŒsselidee von DynamiCrafter besteht darin, das Bild als Orientierungshilfe in den generativen Prozess einzubeziehen, um zu versuchen, die BewegungsprioritĂ€t der bereits vorhandenen Text-zu-Video-Diffusionsmodelle zu nutzen. FĂŒr ein bestimmtes Bild implementiert das DynamiCrafter-Modell zunĂ€chst einen Abfragetransformator, der das Bild in einen textausgerichteten Rich-Context-Darstellungsraum projiziert und es dem Videomodell erleichtert, den Bildinhalt auf kompatible Weise zu verarbeiten. Allerdings hat das DynamiCrafter-Modell immer noch Schwierigkeiten, einige visuelle Details in den resultierenden Videos beizubehalten. Dieses Problem ĂŒberwindet das DynamiCrafter-Modell, indem es das vollstĂ€ndige Bild dem Diffusionsmodell zufĂŒhrt, indem es das Bild mit dem anfĂ€nglichen Rauschen verkettet und so das Modell durch ein prĂ€ziseres Bild ergĂ€nzt Information. 

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen VerstĂ€ndnis fĂŒr KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.