škrbina DynamiCrafter: Animiranje slik odprte domene s predhodnimi programi Video Diffusion - Unite.AI
Povežite se z nami

Umetna inteligenca

DynamiCrafter: Animiranje slik odprte domene s predhodnimi programi Video Diffusion

mm

objavljeno

 on

DynamiCrafter: Animiranje slik odprte domene s predhodnimi programi Video Diffusion

Računalniški vid je eno najbolj vznemirljivih in dobro raziskanih področij v skupnosti AI danes in kljub hitri izboljšavi modelov računalniškega vida je dolgoletni izziv, ki še vedno povzroča težave razvijalcem, animacija slik. Celo danes se okviri za slikovno animacijo trudijo pretvoriti fotografije v ustrezne videoposnetke, ki prikazujejo naravno dinamiko in hkrati ohranjajo prvotni videz slik. Tradicionalno se okviri slikovne animacije osredotočajo predvsem na animiranje naravnih prizorov z gibi, specifičnimi za področje, kot so človeški lasje ali gibi telesa, ali stohastično dinamiko, kot so tekočine in oblaki. Čeprav ta pristop deluje do določene mere, omejuje uporabnost teh okvirov animacije na bolj splošno vizualno vsebino. 

Poleg tega se konvencionalni pristopi k animaciji slik osredotočajo predvsem na sintetiziranje nihajočih in stohastičnih gibanj ali na prilagajanje specifičnim kategorijam predmetov. Vendar pa je opazna pomanjkljivost pristopa močne predpostavke, ki so naložene tem metodam, kar na koncu omejuje njihovo uporabnost, zlasti v splošnih scenarijih, kot je slikovna animacija odprte domene. V zadnjih nekaj letih, Modeli T2V ali Text to Video so pokazali izjemen uspeh pri ustvarjanju živih in raznolikih videoposnetkov z uporabo besedilnih pozivov in ta predstavitev modelov T2V je tisto, kar tvori temelj za okvir DynamiCrafter. 

Ogrodje DynamiCrafter je poskus preseči trenutne omejitve modelov slikovne animacije in razširiti njihovo uporabnost na generične scenarije, ki vključujejo slike odprtega sveta. Ogrodje DynamiCrafter poskuša sintetizirati dinamično vsebino za slike odprte domene in jih pretvoriti v animirane videoposnetke. Ključna ideja v ozadju DynamiCrafterja je vključitev slike kot vodila v generativni proces v poskusu uporabe gibanja pred že obstoječim modelom razširjanja besedila v video. Za dano sliko model DynamiCrafter najprej implementira pretvornik poizvedb, ki projicira sliko v z besedilom poravnan prostor bogate kontekstualne predstavitve, kar video modelu olajša prebavo slikovne vsebine na združljiv način. Vendar pa se model DynamiCrafter še vedno trudi ohraniti nekatere vizualne podrobnosti v nastalih videoposnetkih, težavo, ki jo model DynamiCrafter premaga tako, da poda celotno sliko difuzijskemu modelu tako, da združi sliko z začetnimi šumi, zato model dopolni z natančnejšo sliko. informacije. 

Namen tega članka je poglobljeno obravnavati ogrodje DynamiCrafter in raziskati mehanizem, metodologijo, arhitekturo ogrodja skupaj z njegovo primerjavo z najsodobnejšimi ogrodji za generiranje slik in videa. Pa začnimo. 

DynamiCrafter : Animacija slik odprte domene

Animiranje mirujoče slike pogosto ponuja privlačno vizualno izkušnjo za občinstvo, saj se zdi, da oživi mirujočo sliko. Skozi leta so številna ogrodja raziskovala različne metode animiranja mirujočih slik. Začetna ogrodja animacije so izvajala pristope, ki so temeljili na fizični simulaciji in so bili osredotočeni na simulacijo gibanja določenih predmetov. Vendar zaradi neodvisnega modeliranja vsake kategorije objektov ti pristopi niso bili niti učinkoviti niti posplošljivi. Za posnemanje bolj realističnih gibov so se pojavile metode, ki temeljijo na referenci, ki so prenesle informacije o gibanju ali videzu iz referenčnih signalov, kot so videoposnetki, v proces sinteze. Čeprav so referenčni pristopi dali boljše rezultate z boljšo časovno skladnostjo v primerjavi s pristopi, ki temeljijo na simulacijah, so potrebovali dodatna navodila, ki so omejila njihovo praktično uporabo. 

V zadnjih letih se večina animacijskih okvirov osredotoča predvsem na animiranje naravnih prizorov s stohastičnimi, domensko specifičnimi ali nihajočimi gibi. Čeprav pristop, ki ga izvajajo ta ogrodja, deluje do določene mere, rezultati, ki jih ustvarjajo ta ogrodja, niso zadovoljivi in ​​obstaja precej prostora za izboljšave. Izjemni rezultati, doseženi z generativnimi modeli besedila v video v zadnjih nekaj letih, so navdihnili razvijalce ogrodja DynamiCrafter, da izkoristijo zmogljive generativne zmogljivosti modelov besedila v video za slikovno animacijo. 

Ključni temelj ogrodja DynamiCrafter je vključitev pogojne slike v poskus upravljanja procesa generiranja videa Modeli razširjanja besedila v video. Vendar pa končni cilj slikovne animacije še vedno ostaja netrivialen, saj slikovna animacija zahteva ohranjanje podrobnosti in razumevanje vizualnih kontekstov, ki so bistveni za ustvarjanje dinamike. Vendar pa so večmodalni nadzorovani modeli video difuzije, kot je VideoComposer, poskušali omogočiti generiranje videa z vizualnim vodenjem iz slike. Vendar pa ti pristopi niso primerni za slikovno animacijo, saj povzročijo nenadne časovne spremembe ali nizko vizualno skladnost z vhodno sliko zaradi svojih manj celovitih mehanizmov vbrizgavanja slike. Da bi preprečil to oviro, okvir DyaniCrafter predlaga pristop vbrizgavanja z dvojnim tokom, ki ga sestavljajo vizualno vodenje podrobnosti in predstavitev konteksta, poravnanega z besedilom. Pristop vbrizgavanja dvojnega toka omogoča ogrodju DynamiCrafter, da zagotovi, da model video difuzije sintetizira dinamično vsebino, ohranjeno s podrobnostmi, na komplementaren način. 

Za določeno sliko ogrodje DynamiCrafter najprej projicira sliko v prostor za predstavitev konteksta, poravnanega z besedilom, s pomočjo posebej zasnovanega omrežja za učenje konteksta. Natančneje, prostor za predstavitev konteksta je sestavljen iz učljivega transformatorja poizvedb za nadaljnje spodbujanje njegove prilagoditve difuzijskim modelom in vnaprej usposobljenega slikovnega kodirnika CLIP za ekstrahiranje funkcij slike, poravnane z besedilom. Model nato uporabi funkcije bogatega konteksta s plastmi navzkrižne pozornosti, model pa uporabi zaprto fuzijo za združevanje teh funkcij besedila s plastmi navzkrižne pozornosti. Vendar pa ta pristop zamenja naučene predstavitve konteksta z vizualnimi podrobnostmi, poravnanimi z besedilom, kar olajša semantično razumevanje konteksta slike, kar omogoča sintetiziranje razumne in žive dinamike. Poleg tega okvir v poskusu dopolnitve dodatnih vizualnih podrobnosti združi celotno sliko z začetnim šumom v difuzijski model. Posledično pristop dvojnega vbrizgavanja, ki ga izvaja ogrodje DynamiCrafter, zagotavlja vizualno skladnost in verodostojno dinamično vsebino vhodne slike. 

Če nadaljujemo, so difuzijski modeli ali DM pokazali izjemno zmogljivost in generativno zmogljivost pri ustvarjanju T2I ali besedila v sliko. Za posnemanje uspeha modelov T2I pri ustvarjanju videa so predlagani modeli VDM ali video difuzije, ki uporabljajo prostorsko-časovno faktorizirano arhitekturo U-New v prostoru slikovnih pik za modeliranje videoposnetkov nizke ločljivosti. Prenos naučenega iz ogrodij T2I v ogrodja T2V bo pomagal zmanjšati stroške usposabljanja. Čeprav imajo modeli VDM ali Video Diffusion Models možnost ustvarjanja visokokakovostnih videoposnetkov, sprejemajo le besedilne pozive kot edino semantično vodilo, ki morda ne odraža uporabnikovih resničnih namenov ali je lahko nejasno. Vendar se rezultati večine modelov VDM le redko držijo vhodne slike in trpijo zaradi težave s časovno nerealno variacijo. Pristop DynamiCrafter temelji na modelih video difuzije, pogojenih z besedilom, ki izkoriščajo svojo bogato dinamiko pred animiranjem slik odprte domene. To doseže z vključitvijo prilagojenih modelov za boljše semantično razumevanje in skladnost z vhodno sliko. 

DynamiCrafter: Metoda in arhitektura

Za določeno sliko poskuša okvir DyanmiCrafter animirati sliko v video ustvarite kratek video posnetek. Videoposnetek podeduje vizualno vsebino slike in kaže naravno dinamiko. Vendar pa obstaja možnost, da se slika pojavi na poljubnem mestu nastalega zaporedja okvirjev. Videz slike na poljubni lokaciji je posebna vrsta izziva, ki ga opažamo pri nalogah generiranja videa, pogojenega s sliko, z visokimi zahtevami glede vizualne skladnosti. Ogrodje DynamiCrafter premaga ta izziv z uporabo generativnih predhodnikov vnaprej usposobljenih modelov video difuzije. 

Dinamika slike iz programa Video Diffusion Prior

Običajno je znano, da modeli razširjanja besedila v video z odprto domeno prikazujejo dinamično vizualno vsebino, modelirano pogojeno z besedilnimi opisi. Za animiranje mirujoče slike z generativnimi predhodnimi nastavitvami besedila v video morajo ogrodja najprej na celovit način vnesti vizualne informacije v proces generiranja videa. Poleg tega mora model T2V za dinamično sintezo prebaviti sliko za razumevanje konteksta, hkrati pa mora imeti možnost ohraniti vizualne podrobnosti v ustvarjenih videoposnetkih. 

Besedilno poravnana predstavitev konteksta

Za usmerjanje generiranja videa s kontekstom slike poskuša ogrodje DynamiCrafter projicirati sliko v poravnan vdelani prostor, ki video modelu omogoča uporabo informacij o sliki na združljiv način. Po tem ogrodje DynamiCrafter uporablja slikovni kodirnik za ekstrahiranje slikovnih funkcij iz vhodne slike, saj so vdelave besedila ustvarjene s predhodno usposobljenim kodirnikom besedila CLIP. Zdaj, čeprav so globalni semantični žetoni iz kodirnika slik CLIP poravnani z napisi slik, predstavlja predvsem vizualno vsebino na semantični ravni in tako ne uspe zajeti celotnega obsega slike. Ogrodje DynamiCrafter implementira celotne vizualne žetone iz zadnje plasti kodirnika CLIP, da izvleče popolnejše informacije, saj ti vizualni žetoni izkazujejo visoko natančnost pri nalogah generiranja pogojne slike. Poleg tega okvir uporablja vdelave konteksta in besedila za interakcijo z vmesnimi funkcijami U-Net z uporabo dvojnih plasti navzkrižne pozornosti. Zasnova te komponente omogoča modelu, da absorbira pogoje slike na način, ki je odvisen od plasti. Poleg tega, ker so vmesne plasti arhitekture U-Net bolj povezane s pozami ali oblikami predmetov, se pričakuje, da bodo značilnosti slike vplivale predvsem na videz videoposnetkov, zlasti ker sta dvokončna sloja bolj povezana z videzom. 

Vizualno podrobno vodenje

Ogrodje DyanmiCrafter uporablja predstavitev konteksta z bogatimi informacijami, ki omogoča modelu video difuzije v svoji arhitekturi, da ustvari videoposnetke, ki so zelo podobni vhodni sliki. Vendar, kot je prikazano na naslednji sliki, lahko ustvarjena vsebina prikaže nekaj neskladij zaradi omejene zmožnosti vnaprej usposobljenega kodirnika CLIP, da popolnoma ohrani vhodne informacije, saj je bil zasnovan tako, da uskladi jezik in vizualne funkcije. 

Za izboljšanje vizualne skladnosti ogrodje DynamiCrafter predlaga, da se modelu video difuzije zagotovijo dodatne vizualne podrobnosti, pridobljene iz vhodne slike. Da bi to dosegel, model DyanmiCrafter združi pogojno sliko z začetnim šumom na okvir in jih posreduje komponenti U-Net za odstranjevanje šumov kot vodilo. 

Paradigma usposabljanja

Ogrodje DynamiCrafter združuje pogojno sliko prek dveh komplementarnih tokov, ki igrata pomembno vlogo pri podrobnem vodenju in nadzoru konteksta. Da bi to olajšal, model DynamiCrafter uporablja tristopenjski proces usposabljanja

  1. V prvem koraku model usposablja mrežo za predstavitev konteksta slike. 
  2. V drugem koraku model prilagodi omrežje za predstavitev konteksta slike modelu Besedilo v video. 
  3. V tretjem in zadnjem koraku model natančno prilagodi mrežo predstavitve slikovnega konteksta skupaj s komponento Visual Detail Guidance. 

Za prilagoditev informacij o sliki za združljivost z modelom Text-to-Video (T2V) ogrodje DynamiCrafter predlaga razvoj omrežja za predstavitev konteksta, P, zasnovanega za zajemanje z besedilom poravnanih vizualnih podrobnosti iz dane slike. Ob zavedanju, da P za konvergenco zahteva veliko optimizacijskih korakov, pristop ogrodja vključuje prvotno usposabljanje z uporabo enostavnejšega modela Text-to-Image (T2I). Ta strategija omogoča kontekstualni predstavitveni mreži, da se osredotoči na učenje o slikovnem kontekstu, preden ga integrira z modelom T2V s skupnim usposabljanjem s P in prostorskimi plastmi, v nasprotju s časovnimi plastmi modela T2V. 

Za zagotovitev združljivosti T2V ogrodje DyanmiCrafter združi vhodno sliko s šumom posameznega okvirja in nadaljuje s fino nastavitvijo prostorskih plasti P in modela vizualne diskriminacije (VDM). Ta metoda je izbrana za ohranitev celovitosti obstoječih časovnih vpogledov modela T2V brez škodljivih učinkov gostega združevanja slik, ki bi lahko ogrozilo delovanje in se oddaljilo od našega primarnega cilja. Poleg tega ogrodje uporablja strategijo naključnega izbiranja video okvirja kot pogoja slike za dosego dveh ciljev: (i) preprečiti, da bi omrežje razvilo predvidljiv vzorec, ki neposredno povezuje združeno sliko z določeno lokacijo okvirja, in (ii) spodbujajo bolj prilagodljivo predstavitev konteksta s preprečevanjem zagotavljanja preveč togih informacij za kateri koli določen okvir. 

DynamiCrafter : Poskusi in rezultati

Ogrodje DynamiCrafter najprej usposablja omrežje za predstavitev konteksta in plasti navzkrižne pozornosti slike na Stable Diffusion. Okvir nato nadomesti Stabilna difuzija komponento z VideoCrafterjem in dodatno fino prilagodi mrežo predstavitve konteksta in prostorske plasti za prilagajanje ter z združevanjem slik. Pri sklepanju okvir sprejme vzorčevalnik DDIM z vodenjem brez klasifikatorjev z več pogoji. Poleg tega za ovrednotenje časovne koherence in kakovosti videoposnetkov, sintetiziranih v časovni in prostorski domeni, ogrodje poroča o FVD ali Frechet Video Distance, kot tudi o KVD ali Kernel Video Distance, in ocenjuje zmogljivost zero-shot pri vseh metodah. meril uspešnosti MSR-VTT in UCF-101. Za raziskovanje zaznavne skladnosti med ustvarjenimi rezultati in vhodno sliko ogrodje uvede PIC ali zaznavno vhodno skladnost in sprejme metriko zaznavne razdalje DreamSim kot funkcijo razdalje. 

Naslednja slika prikazuje vizualno primerjavo ustvarjene animirane vsebine z različnimi slogi in vsebino. 

Kot lahko opazimo, se med vsemi različnimi metodami ogrodje DynamiCrafter dobro drži pogojev vhodne slike in ustvarja časovno koherentne videoposnetke. Naslednja tabela vsebuje statistične podatke iz uporabniške študije z 49 udeleženci glede stopnje preference za časovno koherenco (TC) in kakovost gibanja (MC) skupaj z izbirno stopnjo za vizualno skladnost z vhodno sliko. (IC). Kot lahko opazimo, je ogrodje DynamiCrafter sposobno precej prekašati obstoječe metode. 

Naslednja slika prikazuje rezultate, dosežene z uporabo metode dvotočnega vbrizgavanja in paradigme usposabljanja. 

Končna thoughts

V tem članku smo govorili o DynamiCrafterju, poskusu preseči trenutne omejitve modelov slikovne animacije in razširiti njihovo uporabnost na generične scenarije, ki vključujejo slike odprtega sveta. Ogrodje DynamiCrafter poskuša sintetizirati dinamično vsebino za slike odprte domene in jih pretvoriti v animirane videoposnetke. Ključna ideja za DynamiCrafter je vključitev slike kot vodila v generativni proces v poskusu uporabe gibanja pred že obstoječim modelom razpršitve besedila v video. Za dano sliko model DynamiCrafter najprej implementira pretvornik poizvedb, ki projicira sliko v z besedilom poravnan prostor bogate kontekstualne predstavitve, kar video modelu olajša prebavo vsebine slike na združljiv način. Vendar pa se model DynamiCrafter še vedno trudi ohraniti nekatere vizualne podrobnosti v nastalih videoposnetkih, težavo, ki jo model DynamiCrafter premaga tako, da vnese celotno sliko v difuzijski model tako, da združi sliko z začetnimi šumi, zato model dopolni z natančnejšo sliko. informacije. 

"Po poklicu inženir, po srcu pisatelj". Kunal je tehnični pisec z globoko ljubeznijo in razumevanjem umetne inteligence in strojnega upravljanja, ki je predan poenostavljanju zapletenih konceptov na teh področjih s svojo privlačno in informativno dokumentacijo.