stub DynamiCrafter: Animering av bilder med åpent domene med videospredningsforløp - Unite.AI
Kontakt med oss

Kunstig intelligens

DynamiCrafter: Animering av bilder med åpent domene med videospredningsforløp

mm

Publisert

 on

DynamiCrafter: Animering av bilder med åpent domene med videospredningsforløp

Datasyn er et av de mest spennende og godt undersøkte feltene i AI-fellesskapet i dag, og til tross for den raske forbedringen av datasynsmodellene, er bildeanimasjon en langvarig utfordring som fortsatt plager utviklere. Selv i dag sliter rammeverk for bildeanimasjon med å konvertere stillbilder til sine respektive video-motstykker som viser naturlig dynamikk samtidig som bildenes originale utseende bevares. Tradisjonelt fokuserer rammeverk for bildeanimasjon først og fremst på å animere naturlige scener med domenespesifikke bevegelser som menneskehår eller kroppsbevegelser, eller stokastisk dynamikk som væsker og skyer. Selv om denne tilnærmingen fungerer til en viss grad, begrenser den anvendeligheten av disse animasjonsrammene til mer generisk visuelt innhold. 

Videre konsentrerer konvensjonelle tilnærminger til bildeanimasjon seg først og fremst om å syntetisere oscillerende og stokastiske bevegelser, eller på å tilpasse for spesifikke objektkategorier. En bemerkelsesverdig feil med tilnærmingen er imidlertid de sterke forutsetningene som pålegges disse metodene som til slutt begrenser deres anvendelighet, spesielt på tvers av generelle scenarier som bildeanimasjon med åpent domene. I løpet av de siste årene, T2V eller tekst til video-modeller har vist bemerkelsesverdig suksess med å generere levende og mangfoldige videoer ved hjelp av tekstlige spørsmål, og denne demonstrasjonen av T2V-modeller er det som danner grunnlaget for DynamiCrafter-rammeverket. 

DynamiCrafter-rammeverket er et forsøk på å overvinne de nåværende begrensningene til bildeanimasjonsmodeller og utvide deres anvendelighet til generiske scenarier som involverer bilder i åpen verden. DynamiCrafter-rammeverket forsøker å syntetisere dynamisk innhold for bilder med åpne domene, og konvertere dem til animerte videoer. Nøkkelideen bak DynamiCrafter er å inkorporere bildet som veiledning i den generative prosessen i et forsøk på å utnytte bevegelsen før de allerede eksisterende tekst-til-video-diffusjonsmodellene. For et gitt bilde implementerer DynamiCrafter-modellen først en spørringstransformator som projiserer bildet inn i et tekstjustert rik kontekstrepresentasjonsrom, noe som gjør det lettere for videomodellen å fordøye bildeinnholdet på en kompatibel måte. DynamiCrafter-modellen sliter imidlertid fortsatt med å bevare noen visuelle detaljer i de resulterende videoene, et problem som DynamiCrafter-modellen overvinner ved å mate hele bildet til diffusjonsmodellen ved å sette sammen bildet med de første støyene, og derfor supplere modellen med mer presist bilde informasjon. 

Denne artikkelen tar sikte på å dekke DynamiCrafter-rammeverket i dybden, og vi utforsker mekanismen, metodikken, arkitekturen til rammeverket sammen med dets sammenligning med toppmoderne bilde- og videogenereringsrammeverk. Så la oss komme i gang. 

DynamiCrafter : Animasjon av bilder med åpent domene

Å animere et stillbilde gir ofte en engasjerende visuell opplevelse for publikum ettersom det ser ut til å bringe stillbildet til live. Gjennom årene har en rekke rammeverk utforsket ulike metoder for å animere stillbilder. Innledende animasjonsrammeverk implementerte fysiske simuleringsbaserte tilnærminger som fokuserte på å simulere bevegelsen til spesifikke objekter. På grunn av den uavhengige modelleringen av hver objektkategori var imidlertid disse tilnærmingene verken effektive eller de hadde generaliserbarhet. For å gjenskape mer realistiske bevegelser, dukket det opp referansebaserte metoder som overførte bevegelses- eller utseendeinformasjon fra referansesignaler som videoer til synteseprosessen. Selv om referansebaserte tilnærminger ga bedre resultater med bedre tidsmessig koherens sammenlignet med simuleringsbaserte tilnærminger, trengte de ytterligere veiledning som begrenset deres praktiske anvendelser. 

De siste årene har et flertall av animasjonsrammeverk primært fokusert på å animere naturlige scener med stokastiske, domenespesifikke eller oscillerende bevegelser. Selv om tilnærmingen implementert av disse rammeverkene fungerer til en viss grad, er resultatene disse rammeverkene genererer ikke tilfredsstillende, med betydelige rom for forbedring. De bemerkelsesverdige resultatene som er oppnådd av tekst til video-generative modeller de siste årene har inspirert utviklerne av DynamiCrafter-rammeverket til å utnytte de kraftige generative egenskapene til tekst til video-modeller for bildeanimasjon. 

Nøkkelgrunnlaget for DynamiCrafter-rammeverket er å inkorporere et betinget bilde i et forsøk på å styre videogenereringsprosessen til Tekst til video-diffusjonsmodeller. Imidlertid forblir det endelige målet med bildeanimasjon fortsatt ikke-trivielt siden bildeanimasjon krever bevaring av detaljer i tillegg til å forstå visuelle kontekster som er avgjørende for å skape dynamikk. Imidlertid har multimodale kontrollerbare videodiffusjonsmodeller som VideoComposer forsøkt å aktivere videogenerering med visuell veiledning fra et bilde. Imidlertid er disse tilnærmingene ikke egnet for bildeanimasjon siden de enten resulterer i brå temporale endringer eller lav visuell samsvar med inndatabildet på grunn av deres mindre omfattende bildeinjeksjonsmekanismer. For å motvirke denne hindringen, foreslår DyaniCrafter-rammeverket en dual-stream injeksjonsmetode, bestående av visuell detaljveiledning og tekstjustert kontekstrepresentasjon. Dual-stream injection-tilnærmingen lar DynamiCrafter-rammeverket sikre at videodiffusjonsmodellen syntetiserer detaljbevart dynamisk innhold på en komplementær måte. 

For et gitt bilde projiserer DynamiCrafter-rammeverket først bildet inn i det tekstjusterte kontekstrepresentasjonsrommet ved hjelp av et spesialdesignet kontekstlæringsnettverk. For å være mer spesifikk, består kontekstrepresentasjonsrommet av en lærebar spørringstransformator for ytterligere å fremme tilpasningen til diffusjonsmodellene, og en forhåndsopplært CLIP-bildekoder for å trekke ut tekstjusterte bildefunksjoner. Modellen bruker deretter de rike kontekstfunksjonene ved å bruke kryssoppmerksomhetslag, og modellen bruker gated fusion for å kombinere disse tekstfunksjonene med kryssoppmerksomhetslagene. Imidlertid bytter denne tilnærmingen de lærte kontekstrepresentasjonene med tekstjusterte visuelle detaljer som letter semantisk forståelse av bildekonteksten, slik at fornuftig og levende dynamikk kan syntetiseres. Videre, i et forsøk på å supplere ytterligere visuelle detaljer, setter rammeverket sammen hele bildet med den første støyen til diffusjonsmodellen. Som et resultat garanterer dual-injection-tilnærmingen implementert av DynamiCrafter-rammeverket visuell samsvar så vel som plausibelt dynamisk innhold til inndatabildet. 

På vei videre har diffusjonsmodeller eller DM-er vist bemerkelsesverdig ytelse og generativ dyktighet i T2I- eller tekst til bilde-generering. For å gjenskape suksessen til T2I-modeller til videogenerering, foreslås VDM- eller Videodiffusjonsmodeller som bruker en rom-tid-faktorisert U-New-arkitektur i pikselplass for å modellere lavoppløselige videoer. Å overføre læringen fra T2I-rammeverk til T2V-rammeverk vil bidra til å redusere opplæringskostnadene. Selv om VDM- eller Videodiffusjonsmodeller har muligheten til å generere videoer av høy kvalitet, godtar de bare tekstmeldinger som den eneste semantiske veiledningen som kanskje ikke gjenspeiler brukerens sanne intensjoner eller kan være vage. Imidlertid følger resultatene av et flertall av VDM-modeller sjelden til inngangsbildet og lider av det urealistiske tidsvariasjonsproblemet. DynamiCrafter-tilnærmingen er bygget på tekstkondisjonerte videodiffusjonsmodeller som utnytter deres rike dynamikk for å animere bilder med åpent domene. Det gjør det ved å inkludere skreddersydde design for bedre semantisk forståelse og samsvar med inndatabildet. 

DynamiCrafter: Metode og arkitektur

For et gitt stillbilde forsøker DyanmiCrafter-rammeverket å animere bilde til video dvs. produsere en kort videosnutt. Videoklippet arver det visuelle innholdet fra bildet, og viser naturlig dynamikk. Det er imidlertid en mulighet for at bildet kan vises på den vilkårlige plasseringen av den resulterende rammesekvensen. Utseendet til et bilde på et vilkårlig sted er en spesiell type utfordring som observeres i bildekondisjonerte videogenereringsoppgaver med høye krav til visuell samsvar. DynamiCrafter-rammeverket overvinner denne utfordringen ved å bruke de generative forutsetningene til forhåndstrente videodiffusjonsmodeller. 

Bildedynamikk fra Videodiffusjon Prior

Vanligvis er åpen-domene tekst-til-video-diffusjonsmodeller kjent for å vise dynamisk visuelt innhold modellert kondisjonering på tekstbeskrivelser. For å animere et stillbilde med tekst til video-generative priors, bør rammeverket først injisere den visuelle informasjonen i videogenereringsprosessen på en omfattende måte. Videre, for dynamisk syntese, bør T2V-modellen fordøye bildet for kontekstforståelse, mens den også skal kunne bevare de visuelle detaljene i de genererte videoene. 

Tekstjustert kontekstrepresentasjon

For å veilede videogenerering med bildekontekst, forsøker DynamiCrafter-rammeverket å projisere bildet inn i et justert innebyggingsrom som lar videomodellen bruke bildeinformasjonen på en kompatibel måte. Etter dette bruker DynamiCrafter-rammeverket bildekoderen for å trekke ut bildefunksjoner fra inngangsbildet siden tekstinnbyggingene genereres ved hjelp av en forhåndsopplært CLIP-tekstkoder. Nå, selv om de globale semantiske symbolene fra CLIP-bildekoderen er justert med bildetekstene, representerer det først og fremst det visuelle innholdet på semantisk nivå, og klarer dermed ikke å fange hele omfanget av bildet. DynamiCrafter-rammeverket implementerer fulle visuelle tokens fra det siste laget av CLIP-koderen for å trekke ut mer fullstendig informasjon siden disse visuelle tokens demonstrerer høy-fidelitet i betingede bildegenereringsoppgaver. Videre bruker rammeverket kontekst- og tekstinnbygginger for å samhandle med U-Nets mellomfunksjoner ved å bruke de doble kryssoppmerksomhetslagene. Utformingen av denne komponenten letter modellens evne til å absorbere bildeforhold på en lagavhengig måte. Videre, siden de mellomliggende lagene i U-Net-arkitekturen assosieres mer med objektposisjoner eller former, forventes det at bildefunksjonene hovedsakelig vil påvirke utseendet til videoene, spesielt siden to-endelagene er mer knyttet til utseendet. 

Visuell detaljveiledning

DyanmiCrafter-rammeverket bruker rik-informativ kontekstrepresentasjon som lar videodiffusjonsmodellen i sin arkitektur produsere videoer som ligner inndatabildet tett. Som vist i bildet nedenfor, kan det genererte innholdet imidlertid vise noen avvik på grunn av den begrensede muligheten til den forhåndstrente CLIP-koderen til å bevare inndatainformasjonen fullstendig, siden den er designet for å justere språk og visuelle funksjoner. 

For å forbedre visuell konformitet foreslår DynamiCrafter-rammeverket å gi videodiffusjonsmodellen ytterligere visuelle detaljer hentet fra inngangsbildet. For å oppnå dette setter DyanmiCrafter-modellen sammen det betingede bildet med startstøy per bilde og mater dem til den denoising U-Net-komponenten som veiledning. 

Treningsparadigme

DynamiCrafter-rammeverket integrerer det betingede bildet gjennom to komplementære strømmer som spiller en betydelig rolle i detaljveiledning og kontekstkontroll. For å lette det samme, benytter DynamiCrafter-modellen en tre-trinns opplæringsprosess

  1. I det første trinnet trener modellen bildekontekstrepresentasjonsnettverket. 
  2. I det andre trinnet tilpasser modellen bildekontekstrepresentasjonsnettverket til tekst til video-modellen. 
  3. I det tredje og siste trinnet finjusterer modellen bildekontekstrepresentasjonsnettverket sammen med Visual Detail Guidance-komponenten. 

For å tilpasse bildeinformasjon for kompatibilitet med Text-to-Video (T2V)-modellen, foreslår DynamiCrafter-rammeverket å utvikle et kontekstrepresentasjonsnettverk, P, designet for å fange tekstjusterte visuelle detaljer fra det gitte bildet. I erkjennelse av at P krever mange optimaliseringstrinn for konvergens, innebærer rammeverkets tilnærming til å begynne med å trene det ved å bruke en enklere tekst-til-bilde (T2I) modell. Denne strategien lar kontekstrepresentasjonsnettverket konsentrere seg om å lære om bildekonteksten før det integreres med T2V-modellen gjennom felles trening med P og de romlige lagene, i motsetning til de tidsmessige lagene, i T2V-modellen. 

For å sikre T2V-kompatibilitet, slår DyanmiCrafter-rammeverket sammen inndatabildet med per-frame-støy, og fortsetter å finjustere både P og Visual Discrimination Models (VDM) romlige lag. Denne metoden er valgt for å opprettholde integriteten til T2V-modellens eksisterende tidsmessige innsikt uten de negative effektene av tett bildesammenslåing, som kan kompromittere ytelsen og avvike fra vårt primære mål. Videre bruker rammeverket en strategi for tilfeldig å velge en videoramme som bildebetingelse for å oppnå to mål: (i) å unngå at nettverket utvikler et forutsigbart mønster som direkte assosierer det sammenslåtte bildet med en spesifikk rammeplassering, og (ii) til oppmuntre til en mer tilpasningsdyktig kontekstrepresentasjon ved å forhindre levering av altfor rigid informasjon for en bestemt ramme. 

DynamiCrafter: Eksperimenter og resultater

DynamiCrafter-rammeverket trener først kontekstrepresentasjonsnettverket og bildekryssoppmerksomhetslagene på Stable Diffusion. Rammen erstatter da Stabil diffusjon komponent med VideoCrafter og finjusterer kontekstrepresentasjonsnettverket og romlige lag for tilpasning, og med bildesammenkobling. Ved slutning, tar rammeverket i bruk DDIM-sampleren med flertilstandsklassifiseringsfri veiledning. Videre, for å evaluere den tidsmessige sammenhengen og kvaliteten til videoene syntetisert i både det tidsmessige og romlige domenet, rapporterer rammeverket FVD eller Frechet Video Distance, samt KVD eller Kernel Video Distance, og evaluerer nullskuddsytelsen på alle metodene av MSR-VTT og UCF-101 benchmarks. For å undersøke den perseptuelle overensstemmelsen mellom de genererte resultatene og inndatabildet, introduserer rammeverket PIC eller Perceptual Input Conformity, og tar i bruk den perseptuelle avstandsmetrikken DreamSim som funksjonen av avstand. 

Følgende figur viser den visuelle sammenligningen av generert animert innhold med forskjellige stiler og innhold. 

Som det kan observeres, blant alle de forskjellige metodene, holder DynamiCrafter-rammeverket seg godt til inputbildetilstanden, og genererer tidsmessig sammenhengende videoer. Følgende tabell inneholder statistikken fra en brukerstudie med 49 deltakere av preferansefrekvensen for Temporal Coherence (TC) og Motion Quality (MC) sammen med utvalgsraten for visuell samsvar med inndatabildet. (IC). Som det kan observeres, er DynamiCrafter-rammeverket i stand til å utkonkurrere eksisterende metoder med en betydelig margin. 

Følgende figur viser resultatene oppnådd ved bruk av dual-stream injeksjonsmetoden og treningsparadigmet. 

Final Thoughts

I denne artikkelen har vi snakket om DynamiCrafter, et forsøk på å overvinne de nåværende begrensningene til bildeanimasjonsmodeller og utvide deres anvendelighet til generiske scenarier som involverer bilder i åpen verden. DynamiCrafter-rammeverket forsøker å syntetisere dynamisk innhold for bilder med åpne domene, og konvertere dem til animerte videoer. Nøkkelideen bak DynamiCrafter er å inkorporere bildet som veiledning i den generative prosessen i et forsøk på å utnytte bevegelsen før de allerede eksisterende tekst-til-video-diffusjonsmodellene. For et gitt bilde implementerer DynamiCrafter-modellen først en spørringstransformator som projiserer bildet inn i et tekstjustert rik kontekstrepresentasjonsrom, noe som gjør det lettere for videomodellen å fordøye bildeinnholdet på en kompatibel måte. DynamiCrafter-modellen sliter imidlertid fortsatt med å bevare noen visuelle detaljer i de resulterende videoene, et problem som DynamiCrafter-modellen overvinner ved å mate hele bildet til diffusjonsmodellen ved å sette sammen bildet med de første støyene, og derfor supplere modellen med mer presist bilde informasjon. 

"En ingeniør av yrke, en forfatter utenat". Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse for AI og ML, dedikert til å forenkle komplekse konsepter på disse feltene gjennom sin engasjerende og informative dokumentasjon.