Stummel DynamiCrafter: Animieren von Open-Domain-Bildern mit Videodiffusions-Priors – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

DynamiCrafter: Animieren von Open-Domain-Bildern mit Videodiffusions-Priors

mm

Veröffentlicht

 on

DynamiCrafter: Animieren von Open-Domain-Bildern mit Videodiffusions-Priors

Computer Vision ist heute eines der spannendsten und am besten erforschten Gebiete innerhalb der KI-Community, und trotz der schnellen Weiterentwicklung der Computer-Vision-Modelle ist die Bildanimation eine seit langem bestehende Herausforderung, die Entwickler noch immer beschäftigt. Noch heute haben Bildanimations-Frameworks Schwierigkeiten, Standbilder in ihre jeweiligen Video-Gegenstücke umzuwandeln, die eine natürliche Dynamik aufweisen und gleichzeitig das ursprüngliche Erscheinungsbild der Bilder bewahren. Traditionell konzentrieren sich Bildanimations-Frameworks hauptsächlich auf die Animation natürlicher Szenen mit domänenspezifischen Bewegungen wie menschlichen Haaren oder Körperbewegungen oder stochastischen Dynamiken wie Flüssigkeiten und Wolken. Obwohl dieser Ansatz bis zu einem gewissen Grad funktioniert, schränkt er die Anwendbarkeit dieser Animationsframeworks auf allgemeinere visuelle Inhalte ein. 

Darüber hinaus konzentrieren sich herkömmliche Bildanimationsansätze hauptsächlich auf die Synthese oszillierender und stochastischer Bewegungen oder auf die Anpassung an bestimmte Objektkategorien. Ein bemerkenswerter Fehler dieses Ansatzes sind jedoch die starken Annahmen, die diesen Methoden auferlegt werden, was letztendlich ihre Anwendbarkeit insbesondere in allgemeinen Szenarien wie der Open-Domain-Bildanimation einschränkt. In den letzten Jahren, T2V- oder Text-to-Video-Modelle haben bemerkenswerte Erfolge bei der Erstellung lebendiger und abwechslungsreicher Videos mithilfe von Textaufforderungen gezeigt, und diese Demonstration von T2V-Modellen bildet die Grundlage für das DynamiCrafter-Framework. 

Das DynamiCrafter-Framework ist ein Versuch, die aktuellen Einschränkungen von Bildanimationsmodellen zu überwinden und ihre Anwendbarkeit auf generische Szenarien mit Open-World-Bildern zu erweitern. Das DynamiCrafter-Framework versucht, dynamische Inhalte für Open-Domain-Bilder zu synthetisieren und diese in animierte Videos umzuwandeln. Die Schlüsselidee von DynamiCrafter besteht darin, das Bild als Orientierungshilfe in den generativen Prozess einzubeziehen, um zu versuchen, die Bewegungspriorität der bereits vorhandenen Text-zu-Video-Diffusionsmodelle zu nutzen. Für ein bestimmtes Bild implementiert das DynamiCrafter-Modell zunächst einen Abfragetransformator, der das Bild in einen textausgerichteten Rich-Context-Darstellungsraum projiziert und es dem Videomodell erleichtert, den Bildinhalt auf kompatible Weise zu verarbeiten. Allerdings hat das DynamiCrafter-Modell immer noch Schwierigkeiten, einige visuelle Details in den resultierenden Videos beizubehalten. Dieses Problem überwindet das DynamiCrafter-Modell, indem es das vollständige Bild dem Diffusionsmodell zuführt, indem es das Bild mit dem anfänglichen Rauschen verkettet und so das Modell durch ein präziseres Bild ergänzt Information. 

Ziel dieses Artikels ist es, das DynamiCrafter-Framework eingehend zu behandeln. Wir untersuchen den Mechanismus, die Methodik und die Architektur des Frameworks sowie seinen Vergleich mit modernsten Bild- und Videogenerierungs-Frameworks. Also lasst uns anfangen. 

DynamiCrafter: Open-Domain-Bildanimation

Das Animieren eines Standbilds bietet dem Publikum oft ein fesselndes visuelles Erlebnis, da es das Standbild zum Leben zu erwecken scheint. Im Laufe der Jahre haben zahlreiche Frameworks verschiedene Methoden zur Animation von Standbildern untersucht. Erste Animations-Frameworks implementierten auf physikalischer Simulation basierende Ansätze, die sich auf die Simulation der Bewegung bestimmter Objekte konzentrierten. Aufgrund der unabhängigen Modellierung jeder Objektkategorie waren diese Ansätze jedoch weder effektiv noch generalisierbar. Um realistischere Bewegungen nachzubilden, entstanden referenzbasierte Methoden, die Bewegungs- oder Erscheinungsinformationen aus Referenzsignalen wie Videos in den Syntheseprozess übertrugen. Obwohl referenzbasierte Ansätze im Vergleich zu simulationsbasierten Ansätzen bessere Ergebnisse mit besserer zeitlicher Kohärenz lieferten, benötigten sie zusätzliche Anleitungen, die ihre praktischen Anwendungen einschränkten. 

In den letzten Jahren konzentriert sich ein Großteil der Animationsframeworks hauptsächlich auf die Animation natürlicher Szenen mit stochastischen, domänenspezifischen oder oszillierenden Bewegungen. Obwohl der von diesen Frameworks implementierte Ansatz bis zu einem gewissen Grad funktioniert, sind die Ergebnisse, die diese Frameworks erzielen, nicht zufriedenstellend und bieten erheblichen Raum für Verbesserungen. Die bemerkenswerten Ergebnisse, die in den letzten Jahren mit generativen Text-zu-Video-Modellen erzielt wurden, haben die Entwickler des DynamiCrafter-Frameworks dazu inspiriert, die leistungsstarken generativen Fähigkeiten von Text-zu-Video-Modellen für Bildanimationen zu nutzen. 

Die wichtigste Grundlage des DynamiCrafter-Frameworks besteht darin, ein bedingtes Bild einzubinden, um den Videogenerierungsprozess zu steuern Text-zu-Video-Diffusionsmodelle. Das ultimative Ziel der Bildanimation bleibt jedoch immer noch nicht trivial, da bei der Bildanimation sowohl die Bewahrung von Details als auch das Verständnis visueller Zusammenhänge erforderlich ist, die für die Erzeugung von Dynamik unerlässlich sind. Allerdings haben multimodale steuerbare Videodiffusionsmodelle wie VideoComposer versucht, die Videogenerierung mit visueller Führung durch ein Bild zu ermöglichen. Diese Ansätze eignen sich jedoch nicht für die Bildanimation, da sie aufgrund ihrer weniger umfassenden Bildinjektionsmechanismen entweder zu abrupten zeitlichen Änderungen oder zu einer geringen visuellen Konformität mit dem Eingabebild führen. Um dieser Hürde entgegenzuwirken, schlägt das DyaniCrafter-Framework einen Dual-Stream-Injection-Ansatz vor, der aus visueller Detailführung und textorientierter Kontextdarstellung besteht. Der Dual-Stream-Injection-Ansatz ermöglicht es dem DynamiCrafter-Framework, sicherzustellen, dass das Videodiffusionsmodell detailgetreue dynamische Inhalte auf komplementäre Weise synthetisiert. 

Für ein bestimmtes Bild projiziert das DynamiCrafter-Framework das Bild zunächst mithilfe eines speziell entwickelten Kontextlernnetzwerks in den textorientierten Kontextdarstellungsraum. Genauer gesagt besteht der Kontextdarstellungsraum aus einem lernbaren Abfragetransformator, um seine Anpassung an die Diffusionsmodelle weiter zu fördern, und einem vorab trainierten CLIP-Bildkodierer, um textausgerichtete Bildmerkmale zu extrahieren. Das Modell verwendet dann die umfangreichen Kontextfunktionen unter Verwendung von Queraufmerksamkeitsebenen, und das Modell verwendet Gated Fusion, um diese Textmerkmale mit den Queraufmerksamkeitsebenen zu kombinieren. Allerdings tauscht dieser Ansatz die erlernten Kontextdarstellungen mit textorientierten visuellen Details aus, was das semantische Verständnis des Bildkontexts erleichtert und die Synthese vernünftiger und lebendiger Dynamiken ermöglicht. Um zusätzliche visuelle Details zu ergänzen, verknüpft das Framework außerdem das vollständige Bild mit dem anfänglichen Rauschen zum Diffusionsmodell. Dadurch garantiert der vom DynamiCrafter-Framework implementierte Dual-Injection-Ansatz visuelle Konformität sowie plausible dynamische Inhalte zum Eingabebild. 

Im weiteren Verlauf haben Diffusionsmodelle oder DMs eine bemerkenswerte Leistung und generative Leistungsfähigkeit bei der T2I- oder Text-to-Image-Generierung gezeigt. Um den Erfolg von T2I-Modellen auf die Videoerzeugung zu übertragen, werden VDM- oder Videodiffusionsmodelle vorgeschlagen, die eine raumzeitfaktorisierte U-New-Architektur im Pixelraum verwenden, um Videos mit niedriger Auflösung zu modellieren. Die Übertragung der Erkenntnisse aus T2I-Frameworks auf T2V-Frameworks wird dazu beitragen, die Schulungskosten zu senken. Obwohl VDM- oder Videodiffusionsmodelle in der Lage sind, qualitativ hochwertige Videos zu generieren, akzeptieren sie nur Textaufforderungen als einzige semantische Anleitung, die möglicherweise nicht die wahren Absichten eines Benutzers widerspiegeln oder vage sein könnten. Die Ergebnisse der meisten VDM-Modelle stimmen jedoch selten mit dem Eingabebild überein und weisen das Problem der unrealistischen zeitlichen Variation auf. Der DynamiCrafter-Ansatz basiert auf textkonditionierten Videodiffusionsmodellen, die ihren reichen dynamischen Prior für die Animation von Open-Domain-Bildern nutzen. Dies geschieht durch die Einbindung maßgeschneiderter Designs für ein besseres semantisches Verständnis und eine Konformität mit dem Eingabebild. 

DynamiCrafter: Methode und Architektur

Für ein bestimmtes Standbild versucht das DyanmiCrafter-Framework, es zu animieren Bild zum Video also einen kurzen Videoclip produzieren. Der Videoclip übernimmt den visuellen Inhalt des Bildes und weist eine natürliche Dynamik auf. Es besteht jedoch die Möglichkeit, dass das Bild an einer beliebigen Stelle der resultierenden Bildsequenz erscheint. Das Erscheinen eines Bildes an einem beliebigen Ort ist eine besondere Herausforderung, die bei bildkonditionierten Videogenerierungsaufgaben mit hohen Anforderungen an die visuelle Konformität beobachtet wird. Das DynamiCrafter-Framework überwindet diese Herausforderung, indem es die generativen Prioritäten vorab trainierter Videodiffusionsmodelle nutzt. 

Bilddynamik durch Videodiffusion Prior

Normalerweise ist bekannt, dass Open-Domain-Text-zu-Video-Diffusionsmodelle eine dynamische visuelle Inhaltsmodellierung der Konditionierung von Textbeschreibungen anzeigen. Um ein Standbild mit generativen Prioritäten von Text zu Video zu animieren, sollten die Frameworks zunächst die visuellen Informationen umfassend in den Videogenerierungsprozess einspeisen. Darüber hinaus sollte das T2V-Modell für die dynamische Synthese das Bild zum Verständnis des Kontexts verarbeiten und gleichzeitig in der Lage sein, die visuellen Details in den generierten Videos beizubehalten. 

Textausgerichtete Kontextdarstellung

Um die Videogenerierung mit Bildkontext zu steuern, versucht das DynamiCrafter-Framework, das Bild in einen ausgerichteten Einbettungsraum zu projizieren, damit das Videomodell die Bildinformationen auf kompatible Weise verwenden kann. Anschließend verwendet das DynamiCrafter-Framework den Bild-Encoder, um Bildmerkmale aus dem Eingabebild zu extrahieren, da die Texteinbettungen mithilfe eines vorab trainierten CLIP-Text-Encoders generiert werden. Obwohl nun die globalen semantischen Token des CLIP-Bildencoders an den Bildunterschriften ausgerichtet sind, stellt er in erster Linie den visuellen Inhalt auf der semantischen Ebene dar und kann daher nicht den vollen Umfang des Bildes erfassen. Das DynamiCrafter-Framework implementiert vollständige visuelle Token aus der letzten Ebene des CLIP-Encoders, um vollständigere Informationen zu extrahieren, da diese visuellen Token eine hohe Wiedergabetreue bei bedingten Bildgenerierungsaufgaben aufweisen. Darüber hinaus nutzt das Framework Kontext- und Texteinbettungen, um mit den U-Net-Zwischenfunktionen über die dualen Cross-Attention-Layer zu interagieren. Das Design dieser Komponente ermöglicht es dem Modell, Bildbedingungen schichtabhängig zu absorbieren. Da die Zwischenschichten der U-Net-Architektur außerdem stärker mit Objektposen oder -formen verknüpft sind, wird erwartet, dass die Bildmerkmale das Erscheinungsbild der Videos überwiegend beeinflussen, insbesondere da die beiden Endschichten stärker mit dem Erscheinungsbild verknüpft sind. 

Visuelle Detailführung

Das DyanmiCrafter-Framework verwendet eine umfassende, informative Kontextdarstellung, die es dem Videodiffusionsmodell in seiner Architektur ermöglicht, Videos zu erzeugen, die dem Eingabebild sehr ähnlich sind. Wie in der folgenden Abbildung dargestellt, kann der generierte Inhalt jedoch einige Abweichungen aufweisen, da der vorab trainierte CLIP-Encoder nur begrenzt in der Lage ist, die Eingabeinformationen vollständig beizubehalten, da er für die Ausrichtung von Sprache und visuellen Merkmalen konzipiert wurde. 

Um die visuelle Konformität zu verbessern, schlägt das DynamiCrafter-Framework vor, das Videodiffusionsmodell mit zusätzlichen visuellen Details zu versehen, die aus dem Eingabebild extrahiert werden. Um dies zu erreichen, verkettet das DyanmiCrafter-Modell das bedingte Bild mit dem anfänglichen Rauschen pro Frame und leitet sie als Anleitung an die entrauschende U-Net-Komponente weiter. 

Trainingsparadigma

Das DynamiCrafter-Framework integriert das bedingte Bild über zwei komplementäre Streams, die eine wichtige Rolle bei der Detailführung und Kontextkontrolle spielen. Um dies zu ermöglichen, verwendet das DynamiCrafter-Modell einen dreistufigen Trainingsprozess

  1. Im ersten Schritt trainiert das Modell das Bildkontextdarstellungsnetzwerk. 
  2. Im zweiten Schritt passt das Modell das Bildkontextdarstellungsnetzwerk an das Text-to-Video-Modell an. 
  3. Im dritten und letzten Schritt optimiert das Modell das Bildkontextdarstellungsnetzwerk gemeinsam mit der Komponente „Visual Detail Guidance“. 

Um Bildinformationen für die Kompatibilität mit dem Text-to-Video-Modell (T2V) anzupassen, schlägt das DynamiCrafter-Framework die Entwicklung eines Kontextdarstellungsnetzwerks P vor, das darauf ausgelegt ist, textausgerichtete visuelle Details aus dem gegebenen Bild zu erfassen. Da P für die Konvergenz viele Optimierungsschritte erfordert, besteht der Ansatz des Frameworks darin, es zunächst mithilfe eines einfacheren Text-to-Image-Modells (T2I) zu trainieren. Diese Strategie ermöglicht es dem Kontextdarstellungsnetzwerk, sich auf das Lernen über den Bildkontext zu konzentrieren, bevor es durch gemeinsames Training mit P und den räumlichen Schichten (im Gegensatz zu den zeitlichen Schichten) des T2V-Modells in das T2V-Modell integriert wird. 

Um die T2V-Kompatibilität sicherzustellen, führt das DyanmiCrafter-Framework das Eingabebild mit dem Rauschen pro Frame zusammen und optimiert anschließend sowohl P als auch die räumlichen Schichten des Visual Discrimination Model (VDM). Diese Methode wurde gewählt, um die Integrität der vorhandenen zeitlichen Erkenntnisse des T2V-Modells ohne die nachteiligen Auswirkungen der Zusammenführung dichter Bilder aufrechtzuerhalten, die die Leistung beeinträchtigen und von unserem Hauptziel abweichen könnten. Darüber hinaus verwendet das Framework eine Strategie der zufälligen Auswahl eines Videobilds als Bildbedingung, um zwei Ziele zu erreichen: (i) um zu verhindern, dass das Netzwerk ein vorhersehbares Muster entwickelt, das das zusammengeführte Bild direkt mit einer bestimmten Bildposition verknüpft, und (ii) um fördern eine anpassungsfähigere Kontextdarstellung, indem sie die Bereitstellung übermäßig starrer Informationen für einen bestimmten Frame verhindern. 

DynamiCrafter: Experimente und Ergebnisse

Das DynamiCrafter-Framework trainiert zunächst das Kontextdarstellungsnetzwerk und die Bild-Cross-Attention-Layer auf stabile Diffusion. Das Framework ersetzt dann das Stable Diffusion Komponente mit VideoCrafter und verfeinert das Kontextdarstellungsnetzwerk und die räumlichen Ebenen zur Anpassung sowie mit Bildverkettung weiter. Bei der Inferenz übernimmt das Framework den DDIM-Sampler mit klassifikatorfreier Führung mit mehreren Bedingungen. Um die zeitliche Kohärenz und Qualität der sowohl im zeitlichen als auch im räumlichen Bereich synthetisierten Videos zu bewerten, meldet das Framework außerdem FVD oder Frechet Video Distance sowie KVD oder Kernel Video Distance und bewertet die Zero-Shot-Leistung bei allen Methoden der MSR-VTT- und UCF-101-Benchmarks. Um die Wahrnehmungskonformität zwischen den generierten Ergebnissen und dem Eingabebild zu untersuchen, führt das Framework PIC oder Perceptual Input Conformity ein und übernimmt die Wahrnehmungsdistanzmetrik DreamSim als Funktion der Distanz. 

Die folgende Abbildung zeigt den visuellen Vergleich generierter animierter Inhalte mit unterschiedlichen Stilen und Inhalten. 

Wie man bei all den verschiedenen Methoden beobachten kann, hält sich das DynamiCrafter-Framework gut an die Eingabebildbedingungen und generiert zeitlich kohärente Videos. Die folgende Tabelle enthält die Statistiken einer Benutzerstudie mit 49 Teilnehmern zur Präferenzrate für zeitliche Kohärenz (TC) und Bewegungsqualität (MC) sowie die Auswahlrate für visuelle Konformität mit dem Eingabebild. (IC). Wie man beobachten kann, ist das DynamiCrafter-Framework in der Lage, bestehende Methoden deutlich zu übertreffen. 

Die folgende Abbildung zeigt die mit der Dual-Stream-Injektionsmethode und dem Trainingsparadigma erzielten Ergebnisse. 

Abschließende Überlegungen

In diesem Artikel haben wir über DynamiCrafter gesprochen, einen Versuch, die aktuellen Einschränkungen von Bildanimationsmodellen zu überwinden und ihre Anwendbarkeit auf generische Szenarien mit Open-World-Bildern zu erweitern. Das DynamiCrafter-Framework versucht, dynamische Inhalte für Open-Domain-Bilder zu synthetisieren und diese in animierte Videos umzuwandeln. Die Schlüsselidee von DynamiCrafter besteht darin, das Bild als Orientierungshilfe in den generativen Prozess einzubeziehen, um zu versuchen, die Bewegungspriorität der bereits vorhandenen Text-zu-Video-Diffusionsmodelle zu nutzen. Für ein bestimmtes Bild implementiert das DynamiCrafter-Modell zunächst einen Abfragetransformator, der das Bild in einen textausgerichteten Rich-Context-Darstellungsraum projiziert und es dem Videomodell erleichtert, den Bildinhalt auf kompatible Weise zu verarbeiten. Allerdings hat das DynamiCrafter-Modell immer noch Schwierigkeiten, einige visuelle Details in den resultierenden Videos beizubehalten. Dieses Problem überwindet das DynamiCrafter-Modell, indem es das vollständige Bild dem Diffusionsmodell zuführt, indem es das Bild mit dem anfänglichen Rauschen verkettet und so das Modell durch ein präziseres Bild ergänzt Information. 

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.