Künstliche Intelligenz

AnimateLCM: Beschleunigung der Animation von personalisierten Diffusionsmodellen

mm
AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

Im Laufe der letzten Jahre haben Diffusionsmodelle enorme Erfolge und Anerkennung für die Bild- und Videogenerierungsaufgaben erzielt. Videodiffusionsmodelle im Besonderen haben aufgrund ihrer Fähigkeit, Videos mit hoher Kohärenz und Fidelität zu produzieren, erhebliche Aufmerksamkeit erhalten. Diese Modelle generieren hochwertige Videos, indem sie einen iterativen Denoising-Prozess in ihrer Architektur verwenden, der allmählich hochdimensionales Gauß-Rauschen in reale Daten umwandelt.

Stable Diffusion ist eines der repräsentativsten Modelle für bildgenerierende Aufgaben und basiert auf einem Variational AutoEncoder (VAE), um zwischen dem realen Bild und den heruntergesampleten latenten Merkmalen zu kartieren. Dies ermöglicht dem Modell, die generativen Kosten zu reduzieren, während der Cross-Attention-Mechanismus in seiner Architektur die textkonditionierte Bildgenerierung erleichtert. In jüngster Zeit hat das Stable-Diffusion-Framework die Grundlage für mehrere Steck-und-Spiel-Adapter geschaffen, um innovative und effektive Bild- oder Videogenerierung zu ermöglichen. Allerdings macht der iterative generative Prozess, der von der Mehrheit der Videodiffusionsmodelle verwendet wird, den Bildgenerierungsprozess zeitaufwändig und vergleichsweise teuer, was seine Anwendungen einschränkt.

In diesem Artikel werden wir über AnimateLCM sprechen, ein personalisiertes Diffusionsmodell mit Adaptern, das darauf abzielt, hochwertige Videos mit minimalen Schritten und Rechenkosten zu generieren. Das AnimateLCM-Framework ist vom Konsistenzmodell inspiriert, das die Sampling-Geschwindigkeit mit minimalen Schritten durch Destillation vorgebildeter Bild-Diffusionsmodelle beschleunigt. Darüber hinaus ermöglicht die erfolgreiche Erweiterung des Konsistenzmodells, das Latent-Konsistenz-Modell (LCM), die konditionale Bildgenerierung. Anstatt die Konsistenzlernen direkt auf dem rohen Video-Datensatz durchzuführen, schlägt das AnimateLCM-Framework vor, eine entkoppelte Konsistenzlernstrategie zu verwenden. Diese Strategie entkoppelt die Destillation von Bewegungs- und Bildgenerierungsprioritäten, wodurch das Modell die visuelle Qualität des generierten Inhalts verbessern und gleichzeitig die TrainingsEffizienz steigern kann. Darüber hinaus schlägt das AnimateLCM-Modell vor, Adapter von Grund auf zu trainieren oder vorhandene Adapter anzupassen, um sie an das destillierte Video-Konsistenzmodell anzupassen. Dies ermöglicht die Kombination von Steck-und-Spiel-Adaptern in der Familie der stabilen Diffusionsmodelle, um verschiedene Funktionen ohne Beeinträchtigung der Stichprobenrate zu erreichen.

Dieser Artikel zielt darauf ab, das AnimateLCM-Framework in die Tiefe zu beleuchten. Wir erforschen den Mechanismus, die Methodik und die Architektur des Frameworks sowie seinen Vergleich mit state-of-the-art-Bild- und Videogenerierungsframeworks. Also, los geht’s.

AnimateLCM : Animation von personalisierten Diffusionsmodellen

Diffusionsmodelle sind aufgrund ihrer Effizienz und Fähigkeiten bei generativen Aufgaben das Framework der Wahl für Bild- und Videogenerierungsaufgaben. Die Mehrheit der Diffusionsmodelle basiert auf einem iterativen Denoising-Prozess für die Bildgenerierung, der ein hochdimensionales Gauß-Rauschen allmählich in reale Daten umwandelt. Obwohl die Methode somewhat zufriedenstellende Ergebnisse liefert, verlangsamt der iterative Prozess und die Anzahl der iterierenden Stichproben den Generierungsprozess und erhöht auch die Rechenanforderungen der Diffusionsmodelle, die viel langsamer sind als andere generative Frameworks wie GAN oder Generative Adversarial Networks. In den letzten Jahren wurden Konsistenzmodelle oder CMs als Alternative zu iterativen Diffusionsmodellen vorgeschlagen, um den Generierungsprozess zu beschleunigen, während die Rechenanforderungen konstant bleiben.

Der Höhepunkt der Konsistenzmodelle ist, dass sie Konsistenzabbildungen lernen, die die Selbstkonsistenz der Trajektoren beibehalten, die durch die vorgebildeten Diffusionsmodelle eingeführt werden. Der Lernprozess der Konsistenzmodelle ermöglicht es, hochwertige Bilder mit minimalen Schritten zu generieren und eliminiert die Notwendigkeit von rechenintensiven Iterationen. Darüber hinaus kann das Latent-Konsistenz-Modell oder LCM, das auf dem stabilen Diffusionsframework basiert, in die Web-Benutzeroberfläche mit den vorhandenen Adaptern integriert werden, um eine Vielzahl von zusätzlichen Funktionen wie Echtzeit-Bild-zu-Bild-Übersetzung zu erreichen. Im Vergleich dazu liefern die vorhandenen Video-Diffusionsmodelle akzeptable Ergebnisse, aber es gibt noch Fortschritte zu machen, insbesondere im Bereich der Video-Stichproben-Beschleunigung, was aufgrund der hohen Videogenerierungs-Rechenkosten von großer Bedeutung ist.

Das führt uns zu AnimateLCM, einem Framework für die Generierung von hochwertigen Videos, das nur eine minimale Anzahl von Schritten für die Videogenerierung benötigt. Das AnimateLCM-Framework basiert auf dem Latent-Konsistenz-Modell und behandelt den umgekehrten Diffusionsprozess als Lösung der CFG- oder Classifier-Free-Guidance-erweiterten Wahrscheinlichkeitsfluss, und trainiert das Modell, die Lösung solcher Wahrscheinlichkeitsflüsse direkt im latenten Raum vorherzusagen. Allerdings schlägt das AnimateLCM-Framework vor, anstelle der Durchführung des Konsistenzlernens direkt auf dem rohen Video-Datensatz, der hohe Trainings- und Rechenressourcen erfordert und oft zu schlechter Qualität führt, eine entkoppelte Konsistenzlernstrategie zu verwenden.

Das AnimateLCM-Framework führt zunächst die Konsistenzdestillation durch, um das Bild-basierte Diffusionsmodell in ein Bild-Konsistenzmodell umzuwandeln, und führt dann eine 3D-Inflation auf das Bild-Konsistenzmodell und das Bild-Diffusionsmodell durch, um 3D-Merkmale zu berücksichtigen. Schließlich erhält das AnimateLCM-Framework das Video-Konsistenzmodell durch die Durchführung der Konsistenzdestillation auf Video-Daten. Darüber hinaus schlägt das AnimateLCM-Modell vor, eine Initialisierungsstrategie zu verwenden, um potenzielle Merkmalskorruption aufgrund des Diffusionsprozesses zu vermeiden. Da das AnimateLCM-Framework auf dem stabilen Diffusionsframework basiert, kann es die räumlichen Gewichte seines trainierten Video-Konsistenzmodells durch die öffentlich verfügbaren personalisierten Bild-Diffusionsgewichte ersetzen, um innovative Generierungsergebnisse zu erzielen.

Darüber hinaus schlägt das AnimateLCM-Framework vor, eine effektive Beschleunigungsstrategie für die Adapter zu verwenden, die nicht die Trainierung spezifischer Lehrmodelle erfordert.

Die Beiträge des AnimateLCM-Frameworks können wie folgt zusammengefasst werden: Das vorgeschlagene AnimateLCM-Framework zielt darauf ab, hochwertige, schnelle und hochwertige Videogenerierung zu erreichen, und schlägt zu diesem Zweck eine entkoppelte Destillationsstrategie vor, die die Bewegungs- und Bildgenerierungsprioritäten entkoppelt, was zu besserer Generierungsqualität und verbesserter TrainingsEffizienz führt.

InstantID : Methodik und Architektur

Im Kern basiert das InstantID-Framework auf Diffusionsmodellen und Sampling-Geschwindigkeitsstrategien. Diffusionsmodelle, auch bekannt als score-basierte generative Modelle, haben bemerkenswerte Bildgenerierungsfähigkeiten demonstriert. Unter der Anleitung der Score-Richtung implementiert die iterative Sampling-Strategie, die von Diffusionsmodellen verwendet wird, den Denoising-Prozess, der das rauschbehaftete Daten allmählich reinigt. Die Effizienz der Diffusionsmodelle ist einer der Hauptgründe, warum sie von der Mehrheit der Video-Diffusionsmodelle durch die Trainierung auf zusätzlichen temporalen Schichten verwendet werden.

Weiterhin basiert das InstantID-Framework auf dem stabilen Diffusionsmodell, das es dem InstantID-Framework ermöglicht, relevante Konzepte anzuwenden. Das Modell behandelt den diskreten Vorwärts-Diffusionsprozess als kontinuierlichen Zeit-Varianz-erhaltenden SDE. Darüber hinaus ist das stabile Diffusionsmodell eine Erweiterung des DDPM- oder Denoising-Diffusion-Probabilistic-Modells, bei dem der Trainingsdatenpunkt allmählich durch eine diskrete Markov-Kette mit einem Perturbationskern gestört wird, der es ermöglicht, die Verteilung der rauschbehafteten Daten bei verschiedenen Zeitschritten zu folgen.

Um hochwertige Videogenerierung mit minimalen Schritten zu erreichen, zähmt das AnimateLCM-Framework die stabilen Diffusionsmodelle, um die Selbstkonsistenz-Eigenschaft zu beibehalten. Die Gesamttrainingsstruktur des AnimateLCM-Frameworks besteht aus einer entkoppelten Konsistenzlernstrategie für teacher-freie Anpassung und effektive Konsistenzlernen.

Übergang von Diffusionsmodellen zu Konsistenzmodellen

Das AnimateLCM-Framework führt seine eigene Anpassung des stabilen Diffusionsmodells oder DM an das Konsistenzmodell oder CM durch, basierend auf dem Design des Latent-Konsistenz-Modells oder LCM. Es ist wichtig zu beachten, dass die stabilen Diffusionsmodelle typischerweise das Rauschen vorhersagen, das den Stichproben hinzugefügt wird, während sie wesentliche Sigma-Diffusionsmodelle sind. Dies steht im Gegensatz zu Konsistenzmodellen, die darauf abzielen, die Lösung der PF-ODE-Trajektorie direkt vorherzusagen. Darüber hinaus verwenden die stabilen Diffusionsmodelle mit bestimmten Parametern eine classifier-freie Guidance-Strategie, um hochwertige Bilder zu generieren. Das AnimateLCM-Framework verwendet jedoch einen classifier-freien Guidance-augmentierten ODE-Löser, um die benachbarten Paare in den gleichen Trajektoren zu sampeln, was zu besserer Effizienz und verbesserter Qualität führt.

Entkoppelte Konsistenzlernen

Für den Prozess der Konsistenzdestillation haben die Entwickler beobachtet, dass die für die Trainierung verwendeten Daten die Qualität der endgültigen Generierung der Konsistenzmodelle stark beeinflussen. Allerdings besteht das Hauptproblem mit den derzeit öffentlich verfügbaren Datensätzen darin, dass sie oft Wasserzeichen-Daten enthalten, von schlechter Qualität sind oder übermäßig kurze oder mehrdeutige Untertitel haben. Darüber hinaus ist die Trainierung des Modells direkt auf großen Video-Datensätzen rechenintensiv und zeitaufwändig, was es für die Mehrheit der Forscher zu einer nicht durchführbaren Option macht.

Angesichts der Verfügbarkeit von gefilterten hochwertigen Datensätzen schlägt das AnimateLCM-Framework vor, die Destillation von Bewegungs- und Bildgenerierungsprioritäten zu entkoppeln. Um spezifischer zu sein, führt das AnimateLCM-Framework zunächst die Destillation der stabilen Diffusionsmodelle in Bild-Konsistenzmodelle mit gefilterten hochwertigen Bild-Text-Datensätzen mit besserer Auflösung durch. Das Framework trainiert dann die leichten LoRA-Gewichte auf den Schichten des stabilen Diffusionsmodells, wodurch die Gewichte des stabilen Diffusionsmodells eingefroren werden. Sobald das Modell die LoRA-Gewichte angepasst hat, fungiert es als vielseitiges Beschleunigungsmodul und hat seine Kompatibilität mit anderen personalisierten Modellen in der stabilen Diffusionsgemeinschaft demonstriert. Für die Inferenz kombiniert das AnimateLCM-Framework die Gewichte von LoRA mit den ursprünglichen Gewichten, ohne die Inferenzgeschwindigkeit zu beeinträchtigen.

Es ist wichtig zu erkennen, dass die räumlichen LoRA-Gewichte so konzipiert sind, dass sie den Sampling-Prozess ohne Berücksichtigung der zeitlichen Modellierung beschleunigen, und die temporalen Module durch Standard-Diffusionstechniken entwickelt werden, ihre direkte Integration jedoch die Darstellung am Anfang der Trainierung beeinträchtigen kann. Durch empirische Forschung hat das AnimateLCM-Framework einen erfolgreichen Initialisierungsansatz identifiziert, der nicht nur die Konsistenzpriors aus den räumlichen LoRA-Gewichten nutzt, sondern auch die nachteiligen Auswirkungen ihrer direkten Kombination mildert.

Lehrer-freie Anpassung

Stabile Diffusionsmodelle und Steck-und-Spiel-Adapter gehen oft Hand in Hand. Allerdings wurde beobachtet, dass die Steck-und-Spiel-Adapter, obwohl sie funktionieren, die Kontrolle über die Details verlieren, selbst wenn die Mehrheit dieser Adapter mit Bild-Diffusionsmodellen trainiert wird. Um dieses Problem zu umgehen, wählt das AnimateLCM-Framework die lehrer-freie Anpassung, eine einfache, aber effektive Strategie, die entweder die vorhandenen Adapter für bessere Kompatibilität anpasst oder die Adapter von Grund auf trainiert. Dieser Ansatz ermöglicht es dem AnimateLCM-Framework, die kontrollierbare Videogenerierung und Bild-zu-Video-Generierung mit minimalen Schritten ohne die Notwendigkeit von Lehrmodellen zu erreichen.

AnimateLCM: Experimente und Ergebnisse

Das AnimateLCM-Framework verwendet ein Stable-Diffusion-v1-5 als Basismodell und implementiert den DDIM-ODE-Löser für Trainingszwecke. Das Framework verwendet auch das Stable-Diffusion-v1-5 mit offenen Bewegungsgewichten als Lehr-Video-Diffusionsmodell, wobei die Experimente auf dem WebVid2M-Datensatz ohne zusätzliche oder erweiterte Daten durchgeführt werden. Darüber hinaus verwendet das Framework den TikTok-Datensatz mit BLIP-Untertiteln für kontrollierbare Videogenerierung.

Qualitative Ergebnisse

Die folgende Abbildung zeigt die Ergebnisse der vierstufigen Generierungsmethode, die vom AnimateLCM-Framework in der Text-zu-Video-Generierung, Bild-zu-Video-Generierung und kontrollierbaren Videogenerierung implementiert wird.

Wie zu sehen ist, sind die Ergebnisse, die von jedem von ihnen geliefert werden, zufriedenstellend, und die generierten Ergebnisse demonstrieren die Fähigkeit des AnimateLCM-Frameworks, die Konsistenz-Eigenschaft auch bei variierenden Inferenzschritten beizubehalten, wobei Bewegung und Stil beibehalten werden.

Quantitative Ergebnisse

Die folgende Abbildung zeigt die quantitativen Ergebnisse und den Vergleich des AnimateLCM-Frameworks mit den State-of-the-Art-Methoden DDIM und DPM++.

Wie zu sehen ist, übertrifft das AnimateLCM-Framework die vorhandenen Methoden um einen erheblichen Betrag, insbesondere im Bereich der niedrigen Schritte (1-4 Schritte). Darüber hinaus werden die AnimateLCM-Metriken in diesem Vergleich ohne die Verwendung der CFG- oder Classifier-Free-Guidance bewertet, was es dem Framework ermöglicht, fast 50% der Inferenzzeit und des Inferenz-Speicherbedarfs zu sparen. Um seine Leistung weiter zu validieren, werden die räumlichen Gewichte innerhalb des AnimateLCM-Frameworks durch ein öffentlich verfügbares personalisiertes realistisches Modell ersetzt, das eine gute Balance zwischen Fidelität und Vielfalt schafft und die Leistung weiter verbessert.

Abschließende Gedanken

In diesem Artikel haben wir über AnimateLCM gesprochen, ein personalisiertes Diffusionsmodell mit Adaptern, das darauf abzielt, hochwertige Videos mit minimalen Schritten und Rechenkosten zu generieren. Das AnimateLCM-Framework ist vom Konsistenzmodell inspiriert, das die Sampling-Geschwindigkeit mit minimalen Schritten durch Destillation vorgebildeter Bild-Diffusionsmodelle beschleunigt, und der erfolgreichen Erweiterung des Konsistenzmodells, dem Latent-Konsistenz-Modell oder LCM, das die konditionale Bildgenerierung ermöglicht. Anstatt die Konsistenzlernen direkt auf dem rohen Video-Datensatz durchzuführen, schlägt das AnimateLCM-Framework vor, eine entkoppelte Konsistenzlernstrategie zu verwenden, die die Bewegungs- und Bildgenerierungsprioritäten entkoppelt, wodurch das Modell die visuelle Qualität des generierten Inhalts verbessern und gleichzeitig die TrainingsEffizienz steigern kann.

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.