Künstliche Intelligenz

CameraCtrl: Aktivieren der Kamerasteuerung für die Text-zu-Video-Generierung

Veröffentlicht

3 Wochen her

23. Mai 2024

Aktuelle Frameworks, die eine Text-zu-Video- oder T2V-Generierung versuchen, nutzen Diffusionsmodelle, um ihrem Trainingsprozess Stabilität zu verleihen, und das Videodiffusionsmodell, einer der Pioniere bei Text-zu-Video-Generierungs-Frameworks, erweitert eine 2D-Bilddiffusionsarchitektur, um dies zu berücksichtigen Videodaten und trainieren Sie das Modell von Grund auf gemeinsam für Video und Bild. Darauf aufbauend und um einen leistungsstarken vorab trainierten Bildgenerator wie Stable Diffusion zu implementieren, erweitern neuere Arbeiten ihre 2D-Architektur, indem sie zeitliche Schichten zwischen den vorab trainierten 2D-Schichten verschachteln und das neue Modell anhand bisher unbekannter großer Datensätze verfeinern. Trotz ihres Ansatzes stehen Text-zu-Video-Diffusionsmodelle vor einer erheblichen Herausforderung, da die Mehrdeutigkeit der ausschließlich zur Generierung des Videobeispiels verwendeten Textbeschreibungen oft dazu führt, dass das Text-zu-Video-Modell eine schwächere Kontrolle über die Generierung hat. Um dieser Einschränkung zu begegnen, bieten einige Modelle eine verbesserte Führung, während andere mit präzisen Signalen arbeiten, um die Szene oder menschliche Bewegungen in den synthetisierten Videos präzise zu steuern. Andererseits gibt es einige Text-zu-Video-Frameworks, die Bilder als Steuersignal für den Videogenerator verwenden, was entweder zu einer genauen Modellierung der zeitlichen Beziehung oder zu einer hohen Videoqualität führt.

Man kann mit Sicherheit sagen, dass die Steuerbarkeit bei der Generierung von Bildern und Videos eine entscheidende Rolle spielt, da sie es Benutzern ermöglicht, die gewünschten Inhalte zu erstellen. Bestehende Frameworks übersehen jedoch häufig die präzise Steuerung der Kamerahaltung, die als filmische Sprache dient, um dem Modell die tieferen narrativen Nuancen besser zum Ausdruck zu bringen. Um die aktuellen Einschränkungen der Steuerbarkeit anzugehen, werden wir in diesem Artikel über CameraCtrl sprechen, eine neuartige Idee, die versucht, eine genaue Steuerung der Kameraposition für Text-zu-Video-Modelle zu ermöglichen. Nachdem die Flugbahn der Kamera genau parametrisiert wurde, trainiert das Modell ein Plug-and-Play-Kameramodul auf einem Text-zu-Video-Modell und lässt die anderen Komponenten unberührt. Darüber hinaus führt das CameraCtrl-Modell auch eine umfassende Studie über die Wirkung verschiedener Datensätze durch und legt nahe, dass Videos mit ähnlichem Erscheinungsbild und unterschiedlicher Kameraverteilung die allgemeine Steuerbarkeit und Generalisierungsfähigkeiten des Modells verbessern können. Experimente, die durchgeführt wurden, um die Leistung des CameraCtrl-Modells bei realen Aufgaben zu analysieren, zeigen die Effizienz des Frameworks bei der Erzielung einer präzisen und domänenadaptiven Kamerasteuerung und ebnen einen Weg für die Suche nach einer maßgeschneiderten und dynamischen Videogenerierung aus Kameraposition und Texteingaben.

Ziel dieses Artikels ist es, das CameraCtrl-Framework eingehend zu behandeln. Wir untersuchen den Mechanismus, die Methodik und die Architektur des Frameworks sowie seinen Vergleich mit modernen Frameworks. Also lasst uns anfangen.

CameraCtrl: Kamerasteuerung für die T2V-Generierung

Die jüngste Entwicklung und Weiterentwicklung von Diffusionsmodellen hat die textgesteuerte Videogenerierung in den letzten Jahren erheblich vorangetrieben und die Arbeitsabläufe bei der Inhaltsgestaltung revolutioniert. Die Steuerbarkeit spielt in praktischen Videogenerierungsanwendungen eine wichtige Rolle, da sie es Benutzern ermöglicht, die generierten Ergebnisse an ihre Bedürfnisse und Anforderungen anzupassen. Durch die hohe Steuerbarkeit ist das Modell in der Lage, den Realismus, die Qualität und die Benutzerfreundlichkeit der von ihm generierten Videos zu verbessern, und obwohl Modelle häufig Text- und Bildeingaben verwenden, um die Gesamtsteuerbarkeit zu verbessern, mangelt es ihnen oft an präziser Kontrolle über Bewegung und Inhalt . Um dieser Einschränkung zu begegnen, haben einige Frameworks vorgeschlagen, Steuersignale wie Posenskelett, optischer Fluss und andere multimodale Signale zu nutzen, um eine genauere Steuerung zur Steuerung der Videoerzeugung zu ermöglichen. Eine weitere Einschränkung bestehender Frameworks besteht darin, dass es ihnen an präziser Kontrolle über die Stimulierung oder Anpassung von Kamerapunkten bei der Videogenerierung mangelt, da die Fähigkeit zur Steuerung der Kamera von entscheidender Bedeutung ist, da sie nicht nur den Realismus der generierten Videos erhöht, sondern durch die Möglichkeit benutzerdefinierter Blickwinkel auch verbessert die Benutzereinbindung, eine Funktion, die bei der Spieleentwicklung, Augmented Reality und Virtual Reality von wesentlicher Bedeutung ist. Darüber hinaus ermöglicht die geschickte Steuerung von Kamerabewegungen den Machern, Charakterbeziehungen hervorzuheben, Emotionen hervorzuheben und den Fokus der Zielgruppe zu lenken, was in der Film- und Werbebranche von großer Bedeutung ist.

Um diese Einschränkungen anzugehen und zu überwinden, wurde das CameraCtrl-Framework entwickelt, ein erlernbares und präzises Plug-and-Play-Kameramodul mit der Möglichkeit, die Blickwinkel der Kamera für die Videogenerierung zu steuern. Die Integration einer benutzerdefinierten Kamera in eine bestehende Text-zu-Video-Modellpipeline ist jedoch leichter gesagt als getan und zwingt das CameraCtrl-Framework dazu, nach Möglichkeiten zu suchen, wie die Kamera effektiv dargestellt und in die Modellarchitektur integriert werden kann. Aus dem gleichen Grund verwendet das CameraCtrl-Framework Plucker-Einbettungen als primäre Form von Kameraparametern, und der Grund für die Entscheidung für Plucker-Einbettungen kann auf ihre Fähigkeit zurückgeführt werden, geometrische Beschreibungen der Kamerapositionsinformationen zu kodieren. Um die Generalisierbarkeit und Anwendbarkeit des CameraCtrl-Modells nach dem Training sicherzustellen, führt das Modell außerdem ein Kamerasteuerungsmodell ein, das nur Plucker-Einbettungen als Eingabe akzeptiert. Um sicherzustellen, dass das Kamerasteuerungsmodell effektiv trainiert wird, führen das Framework und seine Entwickler eine umfassende Studie durch, um zu untersuchen, wie sich unterschiedliche Trainingsdaten von synthetischen bis hin zu realistischen Daten auf das Framework auswirken. Die experimentellen Ergebnisse zeigen, dass die Implementierung von Daten mit unterschiedlicher Kamerapositionsverteilung und einem ähnlichen Erscheinungsbild wie das ursprüngliche Basismodell den besten Kompromiss zwischen Kontrollierbarkeit und Generalisierbarkeit erzielt. Die Entwickler des CameraCtrl-Frameworks haben das Modell auf dem AnimateDiff-Framework implementiert und ermöglichen so eine präzise Steuerung der Videogenerierung über verschiedene personalisierte hinweg und demonstrieren so seine Vielseitigkeit und Nützlichkeit in einem breiten Spektrum von Videoerstellungskontexten.

Das AnimateDiff-Framework übernimmt das Effiziente LoRA Feinabstimmungsansatz, um die Gewichte des Modells für verschiedene Arten von Aufnahmen zu ermitteln. Das Direct-a-video-Framework schlägt die Implementierung eines Kamera-Embedders vor, um die Pose der Kameras während des Prozesses der Videogenerierung zu steuern, setzt jedoch nur drei Kameraparameter voraus, wodurch die Steuerungsfähigkeit der Kamera auf die meisten Grundtypen beschränkt wird. Andererseits entwerfen Frameworks wie MotionCtrl einen Bewegungscontroller, der mehr als drei Eingabeparameter akzeptiert und in der Lage ist, Videos mit komplexeren Kameraposen zu produzieren. Allerdings beeinträchtigt die Notwendigkeit, Teile der generierten Videos zu verfeinern, die Generalisierbarkeit des Modells. Darüber hinaus integrieren einige Frameworks zusätzliche strukturelle Steuersignale wie Tiefenkarten in den Prozess, um die Steuerbarkeit sowohl für die Bild- als auch für die Textgenerierung zu verbessern. Typischerweise speist das Modell diese Steuersignale in einen zusätzlichen Encoder ein und speist die Signale dann mithilfe verschiedener Operationen in einen Generator ein.

CameraCtrl: Modellarchitektur

Bevor wir einen Blick auf die Architektur und das Trainingsparadigma für den Kamera-Encoder werfen können, ist es wichtig, dass wir verschiedene Kameradarstellungen verstehen. Normalerweise bezieht sich eine Kameraposition auf intrinsische und extrinsische Parameter, und eine der einfachen Möglichkeiten, einen Videogenerator von der Kameraposition abhängig zu machen, besteht darin, Rohwerte zu den Kameraparametern in den Generator einzuspeisen. Die Implementierung eines solchen Ansatzes verbessert jedoch aus mehreren Gründen möglicherweise nicht die genaue Kamerasteuerung. Erstens: Während die Rotationsmatrix durch die Orthogonalität eingeschränkt ist, ist der Translationsvektor in der Regel in seiner Größe nicht eingeschränkt und führt zu einer Nichtübereinstimmung im Lernprozess, die sich auf die Konsistenz der Steuerung auswirken kann. Zweitens kann die direkte Verwendung von Rohkameraparametern es für das Modell schwierig machen, diese Werte mit Bildpixeln zu korrelieren, was zu einer geringeren Kontrolle über visuelle Details führt. Um diese Einschränkungen zu vermeiden, wählt das CameraCtrl-Framework Plucker-Einbettungen als Darstellung für die Kamerapose, da die Plucker-Einbettungen geometrische Darstellungen jedes Pixels des Videobilds enthalten und eine ausführlichere Beschreibung der Kamerapositionsinformationen liefern können.

Kamerasteuerbarkeit in Videogeneratoren

Da das Modell die Trajektorie der Kamera in eine Plucker-Einbettungssequenz, also räumliche Karten, parametrisiert, hat das Modell die Wahl, ein Encodermodell zum Extrahieren der Kameramerkmale zu verwenden und die Kameramerkmale dann in Videogeneratoren zu fusionieren. Ähnlich zu Text zum Bild Adapter führt das CameraCtrl-Modell einen Kamera-Encoder ein, der speziell für Videos entwickelt wurde. Der Kamera-Encoder enthält nach jedem Faltungsblock ein zeitliches Aufmerksamkeitsmodell, das es ihm ermöglicht, die zeitlichen Beziehungen der Kameraposen im gesamten Videoclip zu erfassen. Wie im folgenden Bild gezeigt, akzeptiert der Kamera-Encoder nur Plucker-Einbettungseingaben und liefert Multiskalenfunktionen. Nach Erhalt der Multiskalen-Kamerafunktionen zielt das CameraCtrl-Modell darauf ab, diese Funktionen nahtlos in die U-Net-Architektur des Text-zu-Video-Modells zu integrieren, und bestimmt die Ebenen, die zur effektiven Integration der Kamerainformationen verwendet werden sollten. Da die meisten vorhandenen Frameworks außerdem eine U-Net-ähnliche Architektur verwenden, die sowohl die zeitliche als auch die räumliche Aufmerksamkeitsschicht enthält, fügt das CameraCtrl-Modell die Kameradarstellungen in den zeitlichen Aufmerksamkeitsblock ein, eine Entscheidung, die durch die Fähigkeit der zeitlichen Aufmerksamkeit gestützt wird Ebenen, um zeitliche Beziehungen zu erfassen und sich an der inhärenten zufälligen und sequentiellen Natur einer Kamerabahn mit den räumlichen Aufmerksamkeitsebenen auszurichten, die die einzelnen Bilder abbilden.

Kameraverteilungen lernen

Das Training der Kamera-Encoder-Komponente innerhalb des CameraCtrl-Frameworks auf einem Videogenerator erfordert eine große Menge gut beschrifteter und kommentierter Videos, wobei das Modell in der Lage ist, die Kameratrajektorie mithilfe der Struktur aus Bewegung oder des SfM-Ansatzes zu ermitteln. Das CameraCtrl-Framework versucht, den Datensatz auszuwählen, dessen Erscheinungsbild den Trainingsdaten des Basistext-Videomodells möglichst genau entspricht, und eine möglichst breite Kamerapositionsverteilung zu erreichen. Proben in dem mit virtuellen Engines generierten Datensatz weisen eine unterschiedliche Kameraverteilung auf, da Entwickler die Flexibilität haben, die Parameter der Kamera während der Rendering-Phase zu steuern, obwohl es im Vergleich zu Datensätzen mit realen Proben eine Verteilungslücke gibt. Bei der Arbeit mit Datensätzen, die reale Proben enthalten, ist die Verteilung der Kamera normalerweise eng, und in solchen Fällen muss das Framework ein Gleichgewicht zwischen der Vielfalt verschiedener Kamerabahnen und der Komplexität der einzelnen Kamerabahnen finden. Die Komplexität der einzelnen Kameratrajektorien stellt sicher, dass das Modell lernt, komplexe Trajektorien während des Trainingsprozesses zu steuern, während die Vielfalt zwischen verschiedenen Kameratrajektorien sicherstellt, dass das Modell nicht zu stark an bestimmte feste Muster anpasst. Um den Trainingsprozess des Kamera-Encoders zu überwachen, schlägt das CameraCtrl-Framework außerdem die Kameraausrichtungsmetrik vor, um die Steuerungsqualität der Kamera zu messen, indem der Fehler zwischen der Kameratrajektorie der generierten Proben und den Eingabekamerabedingungen quantifiziert wird.

CameraCtrl: Experimente und Ergebnisse

Das CameraCtrl-Framework implementiert das AnimateDiff-Modell als sein Basis-Text-zu-Video-Modell und ein Hauptgrund dafür ist, dass die Trainingsstrategie des AnimateDiff-Modells die Integration seines Bewegungsmoduls in Text-zu-Bild-Basismodelle oder Text-zu-Bild-LoRAs ermöglicht, um Videos zu unterstützen Generation über verschiedene Genres und Domänen hinweg. Das Modell verwendet den Adam-Optimierer, um das Modell mit einer konstanten Lernrate von 1e-4 zu trainieren. Darüber hinaus soll sichergestellt werden, dass das Modell die Videogenerierungsfunktionen des Originals nicht beeinträchtigt Text-zu-Video-Modell Negativ ist, dass das CameraCtrl-Framework die FID- oder Frechet-Inception-Distance-Metrik verwendet, um die Darstellungsqualität des Videos zu bewerten, und die Qualität des generierten Videos vor und nach der Einbindung des Kameramoduls vergleicht.

Um seine Leistung zu bewerten, wird das CameraCtrl-Framework im Vergleich zu zwei vorhandenen Kamerasteuerungs-Frameworks bewertet: MotionCtrl und AnimateDiff. Da das AnimateDiff-Framework jedoch nur acht grundlegende Kameratrajektorien unterstützt, ist der Vergleich zwischen CameraCtrl und AnimateDiff auf drei grundlegende Trajektorien beschränkt. Andererseits wählt das Framework für den Vergleich mit MotionCtrl zusätzlich zu den Basiskameratrajektorien über tausend zufällige Kameratrajektorien aus dem vorhandenen Datensatz aus, generiert mithilfe dieser Trajektorien Videos und wertet sie mithilfe der TransErr- und RotErr-Metriken aus.

Wie zu beobachten ist, übertrifft das CameraCtrl-Framework das AnimateDiff-Framework bei der grundlegenden Flugbahn und liefert im Vergleich zum MotionCtrl-Framework bei der komplexen Flugbahnmetrik bessere Ergebnisse.

Darüber hinaus zeigt die folgende Abbildung die Auswirkung der Kamera-Encoder-Architektur auf die Gesamtqualität der generierten Samples. Zeile a bis Zeile d stellen die Ergebnisse dar, die mit dem in der Architektur implementierten Kamera-Encoder generiert wurden: ControlNet, ControlNet mit zeitlicher Aufmerksamkeit, T2I-Adapter bzw. T2I-Adapter mit zeitlicher Aufmerksamkeit.

In der folgenden Abbildung ersetzen die ersten beiden das Video, das mit einer Kombination aus dem RGB-Encoder des SparseCtrl-Frameworks und der im CameraCtrl-Framework verwendeten Methode generiert wurde.

Abschließende Überlegungen

In diesem Artikel haben wir über CameraCtrl gesprochen, eine neuartige Idee, die versucht, eine genaue Steuerung der Kameraposition für Text-zu-Video-Modelle zu ermöglichen. Nachdem die Flugbahn der Kamera genau parametrisiert wurde, trainiert das Modell ein Plug-and-Play-Kameramodul auf einem Text-zu-Video-Modell und lässt die anderen Komponenten unberührt. Darüber hinaus führt das CameraCtrl-Modell auch eine umfassende Studie über die Wirkung verschiedener Datensätze durch und legt nahe, dass Videos mit ähnlichem Erscheinungsbild und unterschiedlicher Kameraverteilung die allgemeine Steuerbarkeit und Generalisierungsfähigkeiten des Modells verbessern können. Experimente, die durchgeführt wurden, um die Leistung des CameraCtrl-Modells bei realen Aufgaben zu analysieren, zeigen die Effizienz des Frameworks bei der Erzielung einer präzisen und domänenadaptiven Kamerasteuerung und ebnen einen Weg für die Suche nach einer maßgeschneiderten und dynamischen Videogenerierung aus Kameraposition und Texteingaben.

Als nächstes

MambaOut: Brauchen wir Mamba wirklich zum Sehen?

Verpassen Sie nicht

Was ist mit dem Humane AI Pin schief gelaufen?

Kunal Kejriwal

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.