škrbina DynamiCrafter: Animiranje slika otvorene domene s prethodnim video difuzijskim programima - Unite.AI
Povežite se s nama

Umjetna inteligencija

DynamiCrafter: Animiranje slika otvorene domene s prethodnim postavkama video difuzije

mm

Objavljeno

 on

DynamiCrafter: Animiranje slika otvorene domene s prethodnim postavkama video difuzije

Računalni vid jedno je od najuzbudljivijih i najistraživanijih područja unutar AI zajednice danas, a unatoč brzom poboljšanju modela računalnog vida, dugogodišnji izazov koji još uvijek muči programere je animacija slika. Čak i danas, okviri za slikovnu animaciju bore se za pretvaranje nepokretnih slika u odgovarajuće video zapise koji prikazuju prirodnu dinamiku, a istovremeno čuvaju izvorni izgled slika. Tradicionalno, okviri za animaciju slika usredotočuju se primarno na animiranje prirodnih scena s pokretima specifičnim za domenu poput pokreta ljudske kose ili tijela ili stohastičke dinamike poput tekućina i oblaka. Iako ovaj pristup funkcionira do određene mjere, on ograničava primjenjivost ovih okvira animacije na općenitiji vizualni sadržaj. 

Nadalje, konvencionalni pristupi animaciji slike koncentriraju se primarno na sintetiziranje oscilirajućih i stohastičkih gibanja ili na prilagodbu za specifične kategorije objekata. Međutim, primjetan nedostatak pristupa su jake pretpostavke koje su nametnute ovim metodama što u konačnici ograničava njihovu primjenjivost, posebno u općim scenarijima kao što je animacija slike otvorene domene. U proteklih nekoliko godina, T2V ili Text to Video modeli pokazali su izvanredan uspjeh u stvaranju živopisnih i raznolikih videozapisa koristeći tekstualne upute, a ova demonstracija T2V modela je ono što čini temelj za okvir DynamiCrafter. 

Okvir DynamiCrafter pokušaj je prevladavanja trenutnih ograničenja modela slikovne animacije i proširenja njihove primjenjivosti na generičke scenarije koji uključuju slike otvorenog svijeta. Okvir DynamiCrafter pokušava sintetizirati dinamički sadržaj za slike otvorene domene, pretvarajući ih u animirane videozapise. Ključna ideja iza DynamiCraftera je uključiti sliku kao smjernicu u generativni proces u pokušaju da se iskoristi kretanje prije već postojećeg teksta u modele difuzije videa. Za danu sliku, DynamiCrafter model najprije implementira transformator upita koji projicira sliku u tekstualno poravnat prostor reprezentacije bogatog konteksta, olakšavajući video modelu da probavi sadržaj slike na kompatibilan način. Međutim, model DynamiCrafter i dalje se bori da očuva neke vizualne detalje u rezultirajućim videozapisima, problem koji model DynamiCrafter prevladava unosom pune slike u model difuzije ulančavanjem slike s početnim šumovima, stoga nadopunjavajući model preciznijom slikom informacija. 

Ovaj članak ima za cilj detaljno pokriti okvir DynamiCrafter, a mi istražujemo mehanizam, metodologiju, arhitekturu okvira zajedno s njegovom usporedbom s najsuvremenijim okvirima za generiranje slika i videa. Pa krenimo. 

DynamiCrafter : Animacija slika otvorene domene

Animiranje nepokretne slike često nudi privlačno vizualno iskustvo za publiku jer se čini da oživljava nepokretnu sliku. Tijekom godina brojni okviri istraživali su različite metode animiranja nepokretnih slika. Početni okviri animacije implementirali su pristupe temeljene na fizičkoj simulaciji koji su bili usmjereni na simulaciju kretanja određenih objekata. Međutim, zbog neovisnog modeliranja svake kategorije objekata, ti pristupi nisu bili učinkoviti niti su imali mogućnost generalizacije. Kako bi se replicirali realističniji pokreti, pojavile su se metode temeljene na referencama koje prenose informacije o kretanju ili izgledu iz referentnih signala poput videozapisa u proces sinteze. Iako su pristupi temeljeni na referencama dali bolje rezultate s boljom vremenskom koherentnošću u usporedbi s pristupima temeljenim na simulaciji, trebale su im dodatne smjernice koje su ograničavale njihovu praktičnu primjenu. 

Posljednjih se godina većina animacijskih okvira usredotočuje primarno na animiranje prirodnih scena sa stohastičkim, domenskim ili oscilirajućim pokretima. Iako pristup implementiran ovim okvirima funkcionira u određenoj mjeri, rezultati koje ovi okviri generiraju nisu zadovoljavajući, a postoji značajan prostor za poboljšanje. Izvanredni rezultati postignuti generativnim modelima Text to Video u proteklih nekoliko godina nadahnuli su programere okvira DynamiCrafter da iskoriste moćne generativne mogućnosti modela Text to Video za slikovnu animaciju. 

Ključni temelj okvira DynamiCrafter je uključivanje uvjetne slike u pokušaju upravljanja procesom generiranja videozapisa Modeli difuzije teksta u video. Međutim, krajnji cilj slikovne animacije i dalje ostaje netrivijalan budući da slikovna animacija zahtijeva očuvanje detalja kao i razumijevanje vizualnih konteksta bitnih za stvaranje dinamike. Međutim, multi-modalni kontrolirani modeli difuzije videa kao što je VideoComposer pokušali su omogućiti generiranje videa uz vizualno vodstvo iz slike. Međutim, ovi pristupi nisu prikladni za animaciju slike jer ili rezultiraju naglim vremenskim promjenama ili slabom vizualnom usklađenošću s ulaznom slikom zbog svojih manje sveobuhvatnih mehanizama ubrizgavanja slike. Kako bi se suprotstavio ovoj prepreci, okvir DyaniCrafter predlaže pristup ubrizgavanja dvostrukog toka, koji se sastoji od vizualnog detaljnog navođenja i prikaza konteksta usklađenog s tekstom. Pristup ubrizgavanja dvostrukog toka omogućuje okviru DynamiCrafter da osigura da model video difuzije sintetizira dinamički sadržaj s očuvanim detaljima na komplementaran način. 

Za danu sliku, okvir DynamiCrafter najprije projicira sliku u tekstualno poravnati prostor prikaza konteksta pomoću posebno dizajnirane mreže za učenje konteksta. Da budemo precizniji, prostor za predstavljanje konteksta sastoji se od transformatora upita koji se može naučiti kako bi se dodatno promicala njegova prilagodba modelima difuzije i prethodno obučenog enkodera slike CLIP za izdvajanje značajki slike poravnate s tekstom. Model zatim koristi značajke bogatog konteksta koristeći slojeve unakrsne pozornosti, a model koristi zatvorenu fuziju za kombiniranje ovih značajki teksta sa slojevima unakrsne pažnje. Međutim, ovaj pristup mijenja naučene prikaze konteksta s vizualnim detaljima usklađenim s tekstom koji olakšavaju semantičko razumijevanje konteksta slike omogućujući sintetiziranje razumne i živopisne dinamike. Nadalje, u pokušaju da dopuni dodatne vizualne detalje, okvir spaja punu sliku s početnim šumom u model difuzije. Kao rezultat toga, pristup dvostrukog ubrizgavanja koji implementira okvir DynamiCrafter jamči vizualnu usklađenost kao i uvjerljiv dinamički sadržaj s ulaznom slikom. 

Dalje, difuzijski modeli ili DM pokazali su izvanredne performanse i generativnu snagu u T2I ili generiranju teksta u sliku. Kako bi se ponovio uspjeh T2I modela u videogeneraciji, predlažu se VDM ili Video Diffusion modeli koji koriste prostorno-vremensku faktoriziranu U-New arhitekturu u prostoru piksela za modeliranje videa niske rezolucije. Prijenos učenja okvira T2I u okvire T2V pomoći će u smanjenju troškova obuke. Iako VDM ili Video Diffusion modeli imaju mogućnost generiranja visokokvalitetnih videozapisa, oni prihvaćaju samo tekstualne upite kao jedinu semantičku smjernicu koja možda ne odražava stvarne namjere korisnika ili može biti nejasna. Međutim, rezultati većine VDM modela rijetko se pridržavaju ulazne slike i pate od problema s nerealnim vremenskim varijacijama. Pristup DynamiCrafter izgrađen je na tekstualno uvjetovanim videodifuzijskim modelima koji iskorištavaju svoj bogati dinamički prethodnik za animiranje slika otvorene domene. To čini ugradnjom prilagođenih dizajna za bolje semantičko razumijevanje i usklađenost s ulaznom slikom. 

DynamiCrafter: Metoda i arhitektura

Za danu nepokretnu sliku, okvir DyanmiCrafter pokušava animirati slike u video tj. proizvesti kratki video isječak. Video isječak nasljeđuje vizualni sadržaj slike i pokazuje prirodnu dinamiku. Međutim, postoji mogućnost da se slika pojavi na proizvoljnom mjestu rezultirajućeg niza okvira. Pojavljivanje slike na proizvoljnoj lokaciji posebna je vrsta izazova uočenog u zadacima generiranja video zapisa uvjetovanih slikom s visokim zahtjevima vizualne usklađenosti. Okvir DynamiCrafter nadilazi ovaj izazov korištenjem generativnih prethodnika unaprijed obučenih modela video difuzije. 

Dinamika slike od Video Diffusion Prior

Obično je poznato da modeli difuzije teksta otvorene domene u video prikazuju dinamički vizualni sadržaj modeliran uvjetovano tekstualnim opisima. Za animiranje nepokretne slike s prethodnim generiranjem teksta u video, okviri bi prvo trebali ubrizgati vizualne informacije u proces generiranja videa na sveobuhvatan način. Nadalje, za dinamičku sintezu, T2V model bi trebao probaviti sliku za razumijevanje konteksta, dok bi također trebao moći sačuvati vizualne detalje u generiranim videozapisima. 

Predstavljanje konteksta poravnatog teksta

Kako bi vodio generiranje videozapisa sa slikovnim kontekstom, okvir DynamiCrafter pokušava projicirati sliku u usklađeni prostor za ugradnju omogućujući video modelu da koristi informacije o slici na kompatibilan način. Nakon toga, okvir DynamiCrafter koristi slikovni koder za izdvajanje značajki slike iz ulazne slike budući da se tekstualni umetci generiraju korištenjem prethodno obučenog CLIP tekstualnog kodera. Sada, iako su globalni semantički tokeni iz kodera slike CLIP usklađeni s opisima slika, on primarno predstavlja vizualni sadržaj na semantičkoj razini, stoga ne uspijeva uhvatiti puni opseg slike. Okvir DynamiCrafter implementira potpune vizualne tokene iz zadnjeg sloja CLIP kodera za izdvajanje potpunijih informacija budući da ti vizualni tokeni pokazuju visoku vjernost u zadacima generiranja uvjetne slike. Nadalje, okvir koristi ugradnje konteksta i teksta za interakciju s međuznačajkama U-Neta pomoću dvostrukih slojeva unakrsne pažnje. Dizajn ove komponente olakšava sposobnost modela da apsorbira uvjete slike na način ovisan o sloju. Nadalje, budući da se međuslojevi U-Net arhitekture više povezuju s pozama ili oblicima objekta, očekuje se da će značajke slike utjecati na izgled videozapisa pretežno jer su dva krajnja sloja više povezana s izgledom. 

Vizualno detaljno vođenje

Okvir DyanmiCrafter koristi prikaz konteksta s bogatim informacijama koji omogućuje modelu videodifuzije u svojoj arhitekturi da proizvede videozapise koji vrlo nalikuju ulaznoj slici. Međutim, kao što je prikazano na sljedećoj slici, generirani sadržaj mogao bi prikazati neke nedosljednosti zbog ograničene mogućnosti prethodno obučenog CLIP kodera da potpuno sačuva ulazne informacije, budući da je dizajniran za usklađivanje jezika i vizualnih značajki. 

Kako bi se poboljšala vizualna usklađenost, okvir DynamiCrafter predlaže da se modelu video difuzije osiguraju dodatni vizualni detalji izvučeni iz ulazne slike. Da bi se to postiglo, model DyanmiCrafter povezuje uvjetnu sliku s početnim šumom po okviru i šalje ih U-Net komponenti za uklanjanje šuma kao smjernicu. 

Paradigma treninga

Okvir DynamiCrafter integrira uvjetnu sliku kroz dva komplementarna toka koji igraju značajnu ulogu u detaljnom usmjeravanju i kontroli konteksta. Kako bi se to olakšalo, model DynamiCrafter koristi proces obuke u tri koraka

  1. U prvom koraku, model trenira mrežu reprezentacije konteksta slike. 
  2. U drugom koraku, model prilagođava mrežu prikaza konteksta slike modelu Text to Video. 
  3. U trećem i posljednjem koraku, model fino podešava mrežu prikaza konteksta slike zajedno s komponentom Visual Detail Guidance. 

Za prilagodbu slikovnih informacija radi kompatibilnosti s modelom Text-to-Video (T2V), okvir DynamiCrafter predlaže razvoj mreže predstavljanja konteksta, P, dizajnirane za snimanje vizualnih detalja usklađenih s tekstom iz dane slike. Prepoznajući da P zahtijeva mnoge korake optimizacije za konvergenciju, pristup okvira uključuje početnu obuku korištenjem jednostavnijeg modela Text-to-Image (T2I). Ova strategija omogućuje mreži predstavljanja konteksta da se usredotoči na učenje o kontekstu slike prije nego što ga integrira s T2V modelom kroz zajedničku obuku s P i prostornim slojevima, za razliku od vremenskih slojeva, T2V modela. 

Kako bi se osigurala kompatibilnost s T2V, okvir DyanmiCrafter spaja ulaznu sliku s šumom po okviru, nastavljajući fino podešavati prostorne slojeve i P i Visual Discrimination Model (VDM). Ova je metoda odabrana kako bi se održao integritet postojećih vremenskih uvida T2V modela bez štetnih učinaka gustog spajanja slika, što bi moglo ugroziti izvedbu i odstupiti od našeg primarnog cilja. Štoviše, okvir koristi strategiju nasumičnog odabira video okvira kao uvjeta slike kako bi se postigla dva cilja: (i) izbjeći da mreža razvije predvidljivi obrazac koji izravno povezuje spojenu sliku s određenom lokacijom okvira, i (ii) da potiču prilagodljivije predstavljanje konteksta sprječavanjem pružanja pretjerano krutih informacija za bilo koji određeni okvir. 

DynamiCrafter : Eksperimenti i rezultati

Okvir DynamiCrafter prvo trenira mrežu predstavljanja konteksta i slojeve unakrsne pozornosti slike na stabilnoj difuziji. Okvir tada zamjenjuje Stabilna difuzija komponentu s VideoCrafterom i dodatno fino podešava mrežu predstavljanja konteksta i prostorne slojeve za prilagodbu i ulančavanje slika. U zaključku, okvir usvaja DDIM uzorkivač s više uvjeta bez klasifikatora. Nadalje, za procjenu vremenske koherentnosti i kvalitete videozapisa sintetiziranih u vremenskoj i prostornoj domeni, okvir prijavljuje FVD ili Frechetovu video udaljenost, kao i KVD ili kernel video udaljenost, te ocjenjuje izvedbu zero-shot na svim metodama MSR-VTT i UCF-101 referentnih vrijednosti. Kako bi se istražila perceptivna usklađenost između generiranih rezultata i ulazne slike, okvir uvodi PIC ili Perceptual Input Conformity i usvaja metriku percepcijske udaljenosti DreamSim kao funkciju udaljenosti. 

Sljedeća slika prikazuje vizualnu usporedbu generiranog animiranog sadržaja s različitim stilovima i sadržajem. 

Kao što se može primijetiti, među svim različitim metodama, okvir DynamiCrafter dobro se pridržava uvjeta ulazne slike i generira vremenski koherentne videozapise. Sljedeća tablica sadrži statističke podatke iz korisničke studije s 49 sudionika o stopi preferencija za vremensku koherenciju (TC) i kvalitetu pokreta (MC) zajedno sa stopom odabira za vizualnu usklađenost s ulaznom slikom. (IC). Kao što se može primijetiti, okvir DynamiCrafter može znatno nadmašiti postojeće metode. 

Sljedeća slika prikazuje rezultate postignute korištenjem metode ubrizgavanja dvostrukog toka i paradigme treninga. 

Final Misli

U ovom smo članku govorili o DynamiCrafteru, pokušaju prevladavanja trenutnih ograničenja modela slikovne animacije i proširenja njihove primjenjivosti na generičke scenarije koji uključuju slike otvorenog svijeta. Okvir DynamiCrafter pokušava sintetizirati dinamički sadržaj za slike otvorene domene, pretvarajući ih u animirane videozapise. Ključna ideja iza DynamiCraftera je uključiti sliku kao smjernicu u generativni proces u pokušaju da se iskoristi kretanje prije već postojećeg teksta u modele difuzije videa. Za danu sliku, DynamiCrafter model najprije implementira transformator upita koji projicira sliku u tekstualno poravnat prostor reprezentacije bogatog konteksta, olakšavajući video modelu da probavi sadržaj slike na kompatibilan način. Međutim, model DynamiCrafter i dalje se bori da očuva neke vizualne detalje u rezultirajućim videozapisima, problem koji model DynamiCrafter prevladava unosom pune slike u model difuzije ulančavanjem slike s početnim šumovima, stoga nadopunjavajući model preciznijom slikom informacija. 

"Inženjer po struci, književnik po duši". Kunal je tehnički pisac s dubokom ljubavlju i razumijevanjem AI i ML, posvećen pojednostavljenju složenih koncepata u tim poljima kroz svoju zanimljivu i informativnu dokumentaciju.