Kunstmatige intelligentie

AnimateLCM: Animatie van gepersonaliseerde diffusiemodellen

Gepubliceerd op 19 maart 2024

Bijgewerkt op 22 mei 2026

Door

Kunal Kejriwal

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

De afgelopen jaren hebben diffusiemodellen een enorme succes behaald en erkenning gekregen voor beeld- en videogeneratietaken. Videodiffusiemodellen in het bijzonder hebben veel aandacht gekregen vanwege hun vermogen om video’s met hoge coherentie en geloofwaardigheid te produceren. Deze modellen genereren hoge kwaliteit video’s door een iteratief denoisingproces in hun architectuur te gebruiken dat langzaam hoogdimensionale Gaussische ruis in echte gegevens omzet.

Stable Diffusion is een van de meest representatieve modellen voor beeldgeneratietaken, afhankelijk van een Variational AutoEncoder (VAE) om tussen het echte beeld en de gedownsamplede latent functies te kaarten. Dit stelt het model in staat om de generatieve kosten te verlagen, terwijl de cross-attention-mechanisme in zijn architectuur tekst-geconditioneerde beeldgeneratie faciliteert. Onlangs heeft het Stable Diffusion-framework de basis gelegd voor verschillende plug-and-play-adapters om meer innovatieve en effectieve beeld- of videogeneratie te bereiken. Echter, het iteratieve generatieve proces dat door de meeste videodiffusiemodellen wordt gebruikt, maakt het beeldgeneratieproces tijdrovend en relatief duur, waardoor het zijn toepassingen beperkt.

In dit artikel zullen we het hebben over AnimateLCM, een gepersonaliseerd diffusiemodel met adapters dat gericht is op het genereren van hoge kwaliteit video’s met minimale stappen en rekenkundige kosten. Het AnimateLCM-framework is geïnspireerd door het Consistency Model, dat de sampling versnelt met minimale stappen door vooraf getrainde beeld diffusiemodellen te destilleren. Bovendien faciliteert de succesvolle uitbreiding van het Consistency Model, het Latent Consistency Model (LCM), conditionele beeldgeneratie. In plaats van direct consistentie te leren op de ruwe videodataset, stelt het AnimateLCM-framework voor om een gedecoupeerde consistentie leerstrategie te gebruiken. Deze strategie decoupeert de destillatie van bewegingsgeneratieprioriteiten en beeldgeneratieprioriteiten, waardoor het model de visuele kwaliteit van de gegenereerde inhoud kan verbeteren en de trainings-efficiëntie tegelijkertijd kan verbeteren. Bovendien stelt het AnimateLCM-model voor om adapters van scratch te trainen of bestaande adapters aan te passen aan zijn gedestilleerde videoconsistentiemodel. Dit faciliteert de combinatie van plug-and-play-adapters in de familie van stabiele diffusiemodellen om verschillende functies te bereiken zonder de samplesnelheid te schaden.

Dit artikel heeft als doel het AnimateLCM-framework in detail te behandelen. We onderzoeken de mechanisme, de methodologie en de architectuur van het framework, evenals zijn vergelijking met state-of-the-art beeld- en videogeneratieframeworks. Laten we dus beginnen.

AnimateLCM: Animatie van gepersonaliseerde diffusiemodellen

Diffusiemodellen zijn het framework van keuze geweest voor beeld- en videogeneratietaken vanwege hun efficiëntie en capaciteiten op generatieve taken. De meeste diffusiemodellen vertrouwen op een iteratief denoisingproces voor beeldgeneratie dat een hoogdimensionale Gaussische ruis langzaam in echte gegevens omzet. Hoewel de methode enigszins bevredigende resultaten oplevert, vertraagt het iteratieve proces en het aantal itererende samples de generatieproces en voegt het ook toe aan de rekenkundige eisen van diffusiemodellen die veel langzamer zijn dan andere generatieve frameworks zoals GAN of Generatieve Adversarial Networks. In de afgelopen jaren zijn Consistency Modellen of CM’s voorgesteld als een alternatief voor iteratieve diffusiemodellen om de generatieproces te versnellen terwijl de rekenkundige eisen constant blijven.

Het hoogtepunt van consistentiemodellen is dat ze consistentiekaarten leren die de zelfconsistentie van trajecten die door de vooraf getrainde diffusiemodellen worden geïntroduceerd, in stand houden. Het leerproces van Consistency Modellen stelt het in staat om hoge kwaliteit beelden te genereren met minimale stappen en elimineert ook de noodzaak voor computationeel intensieve iteraties. Bovendien kan het Latent Consistency Model of LCM, dat is gebouwd op het stabiele diffusieframework, worden geïntegreerd in de webgebruikersinterface met de bestaande adapters om een reeks aanvullende functionaliteiten te bereiken, zoals real-time beeld-naar-beeld-vertaling. In vergelijking, hoewel de bestaande videodiffusiemodellen aanvaardbare resultaten opleveren, moet er nog vooruitgang worden geboekt in het veld van videostapversnelling, en is dit van groot belang vanwege de hoge videogeneratiekosten.

Dat leidt ons naar AnimateLCM, een framework voor het genereren van hoge kwaliteit video’s met een minimale aantal stappen. Volgend op het Latent Consistency Model, behandelt het AnimateLCM-framework het omgekeerde diffusieproces als het oplossen van CFG of Classifier Free Guidance verhoogde waarschijnlijkheidsstroom, en traint het model om de oplossing van dergelijke waarschijnlijkheidsstromen direct in de latent ruimte te voorspellen. Echter, in plaats van consistentie te leren op de ruwe videodataset, stelt het AnimateLCM-framework voor om een gedecoupeerde consistentie leerstrategie te gebruiken. Deze strategie decoupeert de destillatie van bewegingsgeneratieprioriteiten en beeldgeneratieprioriteiten.

Het AnimateLCM-framework voert eerst de consistentie destillatie uit om het beeld diffusiemodel aan te passen aan het beeldconsistentiemodel, en voert vervolgens 3D-inflatie uit op zowel het beeldconsistentie- als het beeld diffusiemodel om 3D-functies te accommoderen. Uiteindelijk verkrijgt het AnimateLCM-framework het videoconsistentiemodel door consistentie destillatie uit te voeren op videodata. Bovendien, om potentieel functiecorruptie als gevolg van het diffusieproces te verlichten, stelt het AnimateLCM-framework voor om een initialisatie strategie te gebruiken. Aangezien het AnimateLCM-framework is gebouwd op het Stable Diffusion-framework, kan het de ruimtelijke gewichten van zijn getrainde videoconsistentiemodel vervangen door openbaar beschikbare gepersonaliseerde beeld diffusiegewichten om innovatieve generatie resultaten te bereiken.

Bovendien, om specifieke adapters van scratch te trainen of om openbaar beschikbare adapters beter aan te passen, stelt het AnimateLCM-framework een effectieve versnellingsstrategie voor voor de adapters die geen specifieke lerarenmodellen vereisen.

De bijdragen van het AnimateLCM-framework kunnen heel goed worden samengevat als: Het voorgestelde AnimateLCM-framework heeft als doel om hoge kwaliteit, snelle en hoge geloofwaardigheid videogeneratie te bereiken, en om dit te bereiken, stelt het AnimateLCM-framework een gedecoupeerde destillatiestrategie voor die de beweging en beeldgeneratieprioriteiten decoupeert, waardoor een betere generatiekwaliteit en verbeterde trainings-efficiëntie ontstaat.

InstantID: Methodologie en Architectuur

In zijn kern, haalt het InstantID-framework zware inspiratie uit diffusiemodellen en sampling snelheidsstrategieën. Diffusiemodellen, ook bekend als score-gebaseerde generatieve modellen, hebben opmerkelijke beeldgeneratie capaciteiten gedemonstreerd. Onder de leiding van score richting, implementeert het iteratieve sampling strategie van diffusiemodellen de ruis-vervuilde data langzaam. De efficiëntie van diffusiemodellen is een van de belangrijkste redenen waarom ze worden gebruikt door de meeste videodiffusiemodellen door training op toegevoegde temporele lagen. Aan de andere kant, helpen sampling snelheid en sampling versnellingsstrategieën om de trage generatiesnelheden in diffusiemodellen aan te pakken. De destillatie-gebaseerde versnellingsmethode stemt de oorspronkelijke diffusiegewichten af met een verfijnde architectuur of planner om de generatiesnelheid te verbeteren.

Verder, is het InstantID-framework gebouwd op het stabiele diffusiemodel dat het InstantID-framework in staat stelt om relevante noties toe te passen. Het model behandelt het discrete voorwaartse diffusieproces als een continue-tijd Variance Preserving SDE. Bovendien is het stabiele diffusiemodel een uitbreiding van DDPM of Denoising Diffusion Probabilistic Model, waarin het trainingsdatapunt langzaam wordt verstoord door de discrete Markov-keten met een perturbatiekern, waardoor de distributie van ruisgegevens op verschillende tijdstappen de distributie volgt.

Om hoge kwaliteit videogeneratie met een minimale aantal stappen te bereiken, temt het AnimateLCM-framework de stabiele diffusie-gebaseerde videomodellen om de zelfconsistentie eigenschap te volgen. De algehele trainingsstructuur van het AnimateLCM-framework bestaat uit een gedecoupeerde consistentie leerstrategie voor leraarvrije adaptatie en effectieve consistentie leren.

Overgang van Diffusiemodellen naar Consistentiemodellen

Het AnimateLCM-framework introduceert zijn eigen adaptatie van het Stable Diffusion Model of DM naar het Consistency Model of CM volgend op het ontwerp van het Latent Consistency Model of LCM. Het is de moeite waard om op te merken dat, hoewel de stabiele diffusiemodellen typisch de ruis voorspellen die aan de samples wordt toegevoegd, ze essentiële sigma-diffusiemodellen zijn. Dit is in contrast met consistentiemodellen die ernaar streven om de oplossing van de PF-ODE-trajectorie direct te voorspellen. Bovendien, in stabiele diffusiemodellen met bepaalde parameters, is het essentieel voor het model om een classifier-free guidance-strategie te gebruiken om hoge kwaliteit beelden te genereren. Het AnimateLCM-framework gebruikt echter een classifier-free guidance-verhoogde ODE-oplosser om de aangrenzende paren in dezelfde trajecten te bemonsteren, waardoor een betere efficiëntie en verbeterde kwaliteit ontstaat.

Gedecoupeerde Consistentie Leren

Voor het proces van consistentie destillatie, hebben ontwikkelaars opgemerkt dat de gegevens die voor training worden gebruikt, de kwaliteit van de uiteindelijke generatie van de consistentiemodellen sterk beïnvloeden. Echter, het belangrijkste probleem met openbaar beschikbare datasets op dit moment is dat ze vaak bestaan uit watermerkgegevens, of zijn van lage kwaliteit, en kunnen te korte of dubbelzinnige onderschriften bevatten. Bovendien, is het trainen van het model direct op grote-resolutievideo’s computationeel duur en tijdrovend, waardoor het geen haalbare optie is voor de meeste onderzoekers.

Gegeven de beschikbaarheid van gefilterde hoge kwaliteit datasets, stelt het AnimateLCM-framework voor om de destillatie van de bewegingsprioriteiten en beeldgeneratieprioriteiten te decoupen. Om specifieker te zijn, voert het AnimateLCM-framework eerst de stabiele diffusiemodellen in beeldconsistentiemodellen met gefilterde hoge kwaliteit beeldtekstdatasets met betere resolutie. Het framework traint vervolgens de lichte LoRA-gewichten op de lagen van het stabiele diffusiemodel, waardoor de gewichten van het stabiele diffusiemodel worden bevroren. Zodra het model de LoRA-gewichten heeft afgestemd, fungeert het als een veelzijdig versnellingsmodule en heeft het zijn compatibiliteit met andere gepersonaliseerde modellen in de stabiele diffusiegemeenschappen gedemonstreerd. Voor inferentie, combineert het AnimateLCM-framework de gewichten van de LoRA met de oorspronkelijke gewichten zonder de inferentiesnelheid te corrumperen.

Het is belangrijk om te erkennen dat, terwijl de ruimtelijke LoRA-gewichten zijn ontworpen om het bemonsteringsproces te versnellen zonder rekening te houden met temporele modellering, en temporele modules zijn ontwikkeld door middel van standaard diffusietechnieken, hun directe integratie de representatie aan het begin van de training tends te corrumperen. Dit presenteert significante uitdagingen in het effectief en efficiënt combineren ervan met minimale conflicten. Door middel van empirisch onderzoek, heeft het AnimateLCM-framework een succesvolle initialisatiebenadering geïdentificeerd die niet alleen de consistentieprioriteiten van de ruimtelijke LoRA-gewichten gebruikt, maar ook de nadelige effecten van hun directe combinatie mitigeert.

Aan het begin van de consistentie training, worden de vooraf getrainde ruimtelijke LoRA-gewichten exclusief geïntegreerd in het online consistentie model, waardoor het doelconsistentie model wordt gespaard van invoeging. Deze strategie zorgt ervoor dat het doelmodel, dat fungeert als de educatieve gids voor het online model, geen foutieve voorspellingen genereert die het leerproces van het online model nadelig kunnen beïnvloeden. Gedurende de trainingsperiode, worden de LoRA-gewichten progressief geïntegreerd in het doelconsistentie model via een exponentieel gemiddelde (EMA) proces, waardoor het optimale gewichtsevenwicht wordt bereikt na verschillende iteraties.

Leraarvrije Adaptatie

Stabiele diffusiemodellen en plug-and-play-adapters gaan vaak hand in hand. Echter, is het opgemerkt dat, hoewel de plug-and-play-adapters tot op zekere hoogte werken, ze de controle over details verliezen, zelfs wanneer de meeste van deze adapters zijn getraind met beeld diffusiemodellen. Om dit probleem te counteren, kiest het AnimateLCM-framework voor leraarvrije adaptatie, een eenvoudige maar effectieve strategie die bestaande adapters voor betere compatibiliteit accommodate of adapters van scratch traint. De benadering stelt het AnimateLCM-framework in staat om controleerbare videogeneratie en beeld-naar-video-generatie te bereiken met een minimale aantal stappen zonder leraarmodellen te vereisen.

AnimateLCM: Experimenten en Resultaten

Het AnimateLCM-framework gebruikt een Stable Diffusion v1-5 als basismodel en implementeert de DDIM ODE-oplosser voor trainingsdoeleinden. Het framework gebruikt ook de Stable Diffusion v1-5 met openbaar beschikbare bewegingsgewichten als de leraarvideo diffusiemodel, met experimenten die worden uitgevoerd op de WebVid2M-dataset zonder aanvullende of aangevulde gegevens. Bovendien, gebruikt het framework de TikTok-dataset met BLIP-onderschriften voor controleerbare videogeneratie.

Kwalitatieve Resultaten

De volgende figuur toont de resultaten van de vierstaps generatiemethode die door het AnimateLCM-framework wordt geïmplementeerd in tekst-naar-video-generatie, beeld-naar-video-generatie en controleerbare videogeneratie.

Zoals te zien is, zijn de resultaten die door elk van hen worden geleverd, bevredigend, met gegenereerde resultaten die de mogelijkheid van het AnimateLCM-framework aantonen om de consistentie-eigenschap te volgen, zelfs met variabele inferentiestappen, waardoor een gelijkaardige beweging en stijl wordt behouden.

Kwantitatieve Resultaten

De volgende figuur toont de kwantitatieve resultaten en vergelijking van het AnimateLCM-framework met state-of-the-art DDIM en DPM++-methoden.

Zoals te zien is, overtreft het AnimateLCM-framework de bestaande methoden met een significante marge, vooral in het lage stapregime dat varieert van 1 tot 4 stappen. Bovendien, zijn de AnimateLCM-metrics die in deze vergelijking worden weergegeven, geëvalueerd zonder het gebruik van CFG of classifier-free guidance, waardoor het framework ongeveer 50% van de inferentietijd en inferentiepiekgeheugenkosten kan besparen. Bovendien, om zijn prestaties verder te valideren, worden de ruimtelijke gewichten binnen het AnimateLCM-framework vervangen door een openbaar beschikbaar gepersonaliseerd realistisch model dat een goede balans tussen geloofwaardigheid en diversiteit biedt, waardoor de prestaties verder worden verbeterd.

Slotgedachten

In dit artikel hebben we het over AnimateLCM gehad, een gepersonaliseerd diffusiemodel met adapters dat gericht is op het genereren van hoge kwaliteit video’s met minimale stappen en rekenkundige kosten. Het AnimateLCM-framework is geïnspireerd door het Consistency Model dat de sampling versnelt met minimale stappen door vooraf getrainde beeld diffusiemodellen te destilleren, en de succesvolle uitbreiding van het Consistency Model, het Latent Consistency Model of LCM, dat conditionele beeldgeneratie faciliteert. In plaats van consistentie te leren op de ruwe videodataset, stelt het AnimateLCM-framework voor om een gedecoupeerde consistentie leerstrategie te gebruiken die de destillatie van bewegingsgeneratieprioriteiten en beeldgeneratieprioriteiten decoupeert, waardoor het model de visuele kwaliteit van de gegenereerde inhoud kan verbeteren en de trainings-efficiëntie tegelijkertijd kan verbeteren.

Kunal Kejriwal

Een ingenieur van beroep, een schrijver van hart. Kunal is een technisch schrijver met een diepe liefde en begrip voor AI en ML, toegewijd aan het vereenvoudigen van complexe concepten in deze gebieden door middel van zijn boeiende en informatieve documentatie.