Kunstig intelligens

AnimateLCM: Animasjon av Personlige Diffusjonsmodeller

Publisert 19. mars 2024

Oppdatert 22. mai 2026

Kunal Kejriwal

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

De siste årene har diffusjonsmodeller oppnådd massiv suksess og anerkjennelse for bilde- og videogenerering. Videodiffusjonsmodeller har i særlig grad fått mye oppmerksomhet på grunn av deres evne til å produsere videoer med høy kohensjon og trofasthet. Disse modellene genererer høykvalitetsvideoer ved å bruke en iterativ støynedningsprosess i deres arkitektur som gradvis transformerer høydimensjonal støy til virkelig data.

Stable Diffusion er en av de mest representative modellene for bildegenerering, og den baserer seg på en Variational AutoEncoder (VAE) for å kartlegge mellom det virkelige bildet og nedsamplede latente egenskaper. Dette gjør det mulig for modellen å redusere genereringskostnader, og cross-attention-mekanismen i dens arkitektur muliggjør tekstbasert bildegenerering. Mer nylig har Stable Diffusion-rammen bygget grunnlaget for flere plug-and-play-adaptere for å oppnå mer innovative og effektive bilde- eller videogenerering. Imidlertid gjør den iterative genereringsprosessen som brukes av de fleste videodiffusjonsmodellene at bildegenereringsprosessen er tidskrevende og relativt kostbar, noe som begrenser dens anvendelighet.

I denne artikkelen skal vi snakke om AnimateLCM, en personlig diffusjonsmodell med adaptere som har som mål å generere høykvalitetsvideoer med minimalt antall steg og beregningskostnader. AnimateLCM-rammen er inspirert av Konsistensmodellen, som akselererer sampling med minimalt antall steg ved å destillere forhånds trenede bilde-diffusjonsmodeller. Videre har den suksessfulle utvidelsen av Konsistensmodellen, Latent Konsistensmodellen (LCM), muliggjort betinget bildegenerering. I stedet for å utføre konsistenslæring direkte på det rå videodatasettet, foreslår AnimateLCM-rammen å bruke en dekket konsistenslæringsstrategi. Denne strategien dekker destillasjonen av bevegelsesgenereringspriorer og bildegenereringspriorer, noe som gjør det mulig for modellen å forbedre den visuelle kvaliteten på det genererte innholdet og forbedre trenings-effektiviteten samtidig. I tillegg foreslår AnimateLCM-modellen å trene adaptere fra scratch eller tilpasse eksisterende adaptere til dens destillerte video-konsistensmodell. Dette muliggjør kombinasjonen av plug-and-play-adaptere i familien av stabile diffusjonsmodeller for å oppnå forskjellige funksjoner uten å skade sampelhastigheten.

… (resten av artikkelen)

AnimateLCM: Animasjon av Personlige Diffusjonsmodeller

Diffusjonsmodeller har vært det foretrukne rammeverket for bilde- og videogenerering på grunn av deres effektivitet og evner på genereringsoppgaver. De fleste diffusjonsmodellene baserer seg på en iterativ støynedningsprosess for bildegenerering som transformerer høydimensjonal støy til virkelig data gradvis. Selv om metoden leverer noenlunde tilfredsstillende resultater, så sakter den iterative prosessen og antallet itererende eksemplarer ned genereringsprosessen og legger til beregningskravene til diffusjonsmodellene, som er mye langsommere enn andre genereringsrammeverk som GAN eller Generative Adversarial Networks. I de siste årene har Konsistensmodeller eller CM-er blitt foreslått som et alternativ til iterative diffusjonsmodeller for å akselerere genereringsprosessen mens beregningskravene holdes konstant.

… (resten av artikkelen)

InstantID: Metodologi og Arkitektur

I kjernen av seg, trekker InstantID-rammen tungt inspirasjon fra diffusjonsmodeller og sampelhastighetsstrategier. Diffusjonsmodeller, også kjent som score-baserte genereringsmodeller, har demonstrert bemerkelsesverdige bildegenererings-evner. Under ledelse av score-retning, den iterative sampelstrategien implementert av diffusjonsmodellene fjerner støy-forurenset data gradvis. Effektiviteten til diffusjonsmodellene er en av de viktigste grunnene til at de brukes av de fleste videodiffusjonsmodellene ved å trene på lagt til tidslag. På den andre siden, hjelper sampelhastighets- og sampelakselereringsstrategier å takle de langsommere genereringshastighetene i diffusjonsmodellene. Destillasjonsbasert akselereringsmetode finjusterer de opprinnelige diffusjonsvektene med en raffinert arkitektur eller scheduler for å forbedre genereringshastigheten.

… (resten av artikkelen)

Overgang fra Diffusjonsmodeller til Konsistensmodeller

AnimateLCM-rammen introduserer sin egen tilpasning av Stable Diffusion Model eller DM til Konsistensmodellen eller CM, etter designen av Latent Konsistensmodellen eller LCM. Det er verdt å merke seg at selv om stabile diffusjonsmodeller vanligvis forutsier støyen som er lagt til eksemplene, er de essensielle sigma-diffusjonsmodeller. Dette er i kontrast med konsistensmodeller som har som mål å forutsi løsningen på PF-ODE-trafikken direkte. Videre, i stabile diffusjonsmodeller med visse parametre, er det essensielt for modellen å bruke en klassifikator-fri veiledningstrategi for å generere høykvalitetsbilder. AnimateLCM-rammen bruker imidlertid en klassifikator-fri veiledning-augmentert ODE-løser for å sampel adjacent par i samme trajektorier, noe som resulterer i bedre effektivitet og forbedret kvalitet.

… (resten av artikkelen)

Decoupled Konsistenslæring

For prosessen med konsistensdestillasjon, har utviklere observert at dataene som brukes til trening sterkt påvirker kvaliteten på den endelige genereringen av konsistensmodellene. Imidlertid er det største problemet med offentlig tilgjengelige datasett for tiden at de ofte består av vannmerket data eller er av lav kvalitet, og kan inneholde for korte eller tvetydige beskrivelser. Videre, å trene modellen direkte på stor-oppløselige videoer er beregningskrevende og tidskrevende, noe som gjør det til en ikke-gjennomførbar løsning for de fleste forskere.

… (resten av artikkelen)

Lærer-fri Tilpasning

Stabile Diffusjonsmodeller og plug-and-play-adaptere går ofte hånd i hånd. Imidlertid har det blitt observert at selv om plug-and-play-adaptere fungerer til en viss grad, tenderer de til å miste kontroll over detaljene, selv når de fleste av disse adapterne er trenet med bilde-diffusjonsmodeller. For å motvirke dette problemet, velger AnimateLCM-rammen lærer-fri tilpasning, en enkel men effektiv strategi som enten tilpasser eksisterende adaptere for bedre kompatibilitet eller trener adaptere fra grunnen av. Tilnærmingen gjør det mulig for AnimateLCM-rammen å oppnå kontrollerbar videogenerering og bilde-til-video-generering med minimalt antall steg uten å kreve lærermodeller.

… (resten av artikkelen)

AnimateLCM: Eksperimenter og Resultater

AnimateLCM-rammen bruker Stable Diffusion v1-5 som basismodell, og implementerer DDIM ODE-løseren for treningsformål. Rammen bruker også Stable Diffusion v1-5 med åpne kilde-bevegelsesvekt som lærer-video-diffusjonsmodell, med eksperimenter som utføres på WebVid2M-datasettet uten noen ekstra eller augmenterte data. Videre bruker rammen TikTok-datasettet med BLIP-beskrivelser for kontrollerbar videogenerering.

… (resten av artikkelen)

Kvantitative Resultater

Følgende figur illustrerer de kvantitative resultater og sammenligningen av AnimateLCM-rammen med state-of-the-art DDIM- og DPM++-metodene.

… (resten av artikkelen)

Slutt tanker

I denne artikkelen har vi snakket om AnimateLCM, en personlig diffusjonsmodell med adaptere som har som mål å generere høykvalitetsvideoer med minimalt antall steg og beregningskostnader. AnimateLCM-rammen er inspirert av Konsistensmodellen som akselererer sampling med minimalt antall steg ved å destillere forhånds trenede bilde-diffusjonsmodeller, og den suksessfulle utvidelsen av Konsistensmodellen, Latent Konsistensmodellen eller LCM, som muliggjør betinget bildegenerering. I stedet for å utføre konsistenslæring direkte på det rå videodatasettet, foreslår AnimateLCM-rammen å bruke en dekket konsistenslæringsstrategi som dekker destillasjonen av bevegelsesgenereringspriorer og bildegenereringspriorer, noe som gjør det mulig for modellen å forbedre den visuelle kvaliteten på det genererte innholdet og forbedre trenings-effektiviteten samtidig.

Kunal Kejriwal

En ingeniør av yrke, en forfatter av hjerte. Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse av AI og ML, dedikert til å forenkle komplekse konsepter i disse feltene gjennom sin engasjerende og informerende dokumentasjon.