Umjetna inteligencija

CameraCtrl: Omogućivanje kontrole kamere za generiranje teksta u video

Objavljeno

Prije 3 tjedana

Neka 23, 2024

Nedavni okviri koji pokušavaju generirati tekst u video ili T2V koriste difuzijske modele kako bi dodali stabilnost u svoj proces obuke, a Video Diffusion Model, jedan od pionira u okvirima za generiranje teksta u video, proširuje arhitekturu difuzije 2D slike u pokušaju da se prilagodi videopodatke i obučite model na video i slici zajedno od nule. Nadovezujući se na isto, i kako bi se implementirao moćan unaprijed obučeni generator slike kao što je Stable Diffusion, nedavni radovi napuhuju svoju 2D arhitekturu ispreplitanjem vremenskih slojeva između unaprijed obučenih 2D slojeva i fino podešavaju novi model na neviđeno velikim skupovima podataka. Unatoč njihovom pristupu, modeli difuzije teksta u video suočeni su sa značajnim izazovom budući da dvosmislenost isključivo korištenih tekstualnih opisa za generiranje video uzorka često rezultira slabijom kontrolom modela teksta u video nad generiranjem. Kako bi se uhvatilo u koštac s tim ograničenjem, neki modeli pružaju poboljšane smjernice, dok neki drugi rade s preciznim signalima za preciznu kontrolu scene ili ljudskih pokreta u sintetiziranim videozapisima. S druge strane, postoji nekoliko okvira tekst-video koji prihvaćaju slike kao kontrolni signal za video generator, što rezultira ili točnim modeliranjem vremenskog odnosa ili visokom kvalitetom videa.

Sa sigurnošću bi se moglo reći da upravljivost igra ključnu ulogu u zadacima generiranja slika i videa jer omogućuje korisnicima stvaranje sadržaja koji žele. Međutim, postojeći okviri često zanemaruju preciznu kontrolu poze kamere koja služi kao filmski jezik za bolje izražavanje dubljih narativnih nijansi modelu. Kako bismo riješili trenutna ograničenja upravljivosti, u ovom ćemo članku govoriti o CameraCtrl-u, novoj ideji koja pokušava omogućiti točnu kontrolu položaja kamere za modele teksta u video. Nakon precizne parametrizacije putanje kamere, model trenira plug and play modul kamere na tekstualnom video modelu, a ostale komponente ostavlja netaknutima. Nadalje, model CameraCtrl također provodi sveobuhvatnu studiju o učinku različitih skupova podataka i sugerira da videozapisi sa sličnim izgledom i raznolikom distribucijom kamere mogu poboljšati ukupnu sposobnost upravljanja i generalizacije modela. Eksperimenti provedeni kako bi se analizirala izvedba modela CameraCtrl na zadacima u stvarnom svijetu ukazuju na učinkovitost okvira u postizanju precizne i domenski prilagodljive kontrole kamere, urezujući put naprijed za potragu za prilagođenim i dinamičnim videogeneriranjem iz položaja kamere i tekstualnih unosa.

Ovaj članak ima za cilj detaljno pokriti okvir CameraCtrl, a mi istražujemo mehanizam, metodologiju, arhitekturu okvira zajedno s njegovom usporedbom s najsuvremenijim okvirima. Pa počnimo.

CameraCtrl : Kontrola kamere za T2V generaciju

Nedavni razvoj i napredak modela difuzije posljednjih je godina značajno unaprijedio generiranje videozapisa vođenog tekstom i revolucionirao tijekove rada dizajna sadržaja. Upravljivost igra značajnu ulogu u praktičnim aplikacijama za generiranje videa jer omogućuje korisnicima prilagodbu generiranih rezultata prema njihovim potrebama i zahtjevima. S visokom upravljivošću, model može poboljšati realističnost, kvalitetu i upotrebljivost videozapisa koje je generirao, a dok se modeli obično koriste unosom teksta i slika za poboljšanje ukupne upravljivosti, često im nedostaje precizna kontrola nad kretanjem i sadržajem . Kako bi se uhvatilo u koštac s ovim ograničenjem, neki su okviri predložili da se iskoriste kontrolni signali kao što su kostur poze, optički tok i drugi multimodalni signali kako bi se omogućila točnija kontrola za usmjeravanje videogeneracije. Još jedno ograničenje s kojim se suočavaju postojeći okviri jest nedostatak precizne kontrole nad stimuliranjem ili podešavanjem točaka kamere u generiranju videozapisa budući da je sposobnost upravljanja kamerom ključna budući da ne samo da poboljšava realističnost generiranih videozapisa, već dopuštajući prilagođene točke gledišta, također poboljšava angažman korisnika, značajku koja je neophodna u razvoju igara, proširenoj stvarnosti i virtualnoj stvarnosti. Nadalje, vješto upravljanje pokretima kamere omogućuje kreatorima da istaknu odnose likova, naglase emocije i usmjere fokus ciljne publike, što je od velike važnosti u filmskoj i reklamnoj industriji.

Kako bi se uhvatio u koštac s tim ograničenjima i prevladao ih, okvir CameraCtrl, prilagodljiv i precizan plug and play modul kamere s mogućnošću upravljanja točkama gledišta kamere za generiranje videozapisa. Međutim, integracija prilagođene kamere u postojeći cjevovod modela teksta u video lakši je zadatak nego učiniti, što tjera okvir CameraCtrl da traži načine kako učinkovito predstaviti i ubaciti kameru u arhitekturu modela. Na istoj bilješci, okvir CameraCtrl prihvaća ugradnje pluckera kao primarni oblik parametara kamere, a razlog za odabir ugrađivanja pluckera može se pripisati njihovoj sposobnosti kodiranja geometrijskih opisa informacija o položaju kamere. Nadalje, kako bi se osigurala generalizacija i primjenjivost modela CameraCtrl nakon obuke, model uvodi model upravljanja kamerom koji prihvaća samo plucker ugradnje kao ulaz. Kako bi se osiguralo da se model kontrole kamere učinkovito obučava, okvir i njegovi programeri provode sveobuhvatnu studiju kako bi istražili kako različiti podaci o obuci utječu na okvir od sintetičkih do realnih podataka. Eksperimentalni rezultati pokazuju da implementacija podataka s distribucijom različitih poza kamere i izgledom sličnim izvornom osnovnom modelu postiže najbolji kompromis između upravljivosti i mogućnosti generalizacije. Programeri okvira CameraCtrl implementirali su model povrh okvira AnimateDiff, čime su omogućili preciznu kontrolu u generiranju videozapisa u različitim personaliziranim, demonstrirajući njegovu svestranost i korisnost u širokom rasponu konteksta stvaranja videozapisa.

Okvir AnimateDiff usvaja učinkovito LoRA pristup finog podešavanja za dobivanje težine modela za različite vrste snimaka. Okvir Direct-a-video predlaže implementaciju ugrađivača kamere za kontrolu položaja kamera tijekom procesa generiranja videa, ali uvjetuje samo tri parametra kamere, ograničavajući sposobnost upravljanja kamerom na većinu osnovnih vrsta. S druge strane, okviri uključujući MotionCtrl dizajniraju kontroler pokreta koji prihvaća više od tri ulazna parametra i može proizvesti videozapise sa složenijim položajima kamere. Međutim, potreba za finim podešavanjem dijelova generiranih videozapisa otežava mogućnost generalizacije modela. Nadalje, neki okviri uključuju dodatne strukturne kontrolne signale kao što su karte dubine u proces kako bi se poboljšala mogućnost kontrole za generiranje slike i teksta. Tipično, model dovodi te upravljačke signale u dodatni koder, a zatim ubrizgava signale u generator pomoću različitih operacija.

CameraCtrl: Arhitektura modela

Prije nego što možemo pogledati arhitekturu i paradigmu obuke za koder kamere, od vitalnog je značaja za nas razumjeti različite prikaze kamere. Tipično, poza kamere odnosi se na unutarnje i vanjske parametre, a jedan od izravnih izbora za dopuštanje uvjeta videogeneratora na pozu kamere je unošenje sirovih vrijednosti u vezi s parametrima kamere u generator. Međutim, implementacija takvog pristupa možda neće poboljšati točnu kontrolu kamere iz nekoliko razloga. Prvo, dok je matrica rotacije ograničena ortogonalnošću, vektor translacije je tipično nenapregnut u veličini i dovodi do neusklađenosti u procesu učenja koja može utjecati na dosljednost kontrole. Drugo, izravno korištenje neobrađenih parametara kamere može otežati modelu povezivanje ovih vrijednosti s pikselima slike, što rezultira smanjenom kontrolom nad vizualnim detaljima. Kako bi se izbjegla ova ograničenja, okvir CameraCtrl odabire ugradnje pluckera kao prikaz za pozu kamere budući da ugradnje pluckera imaju geometrijske prikaze svakog piksela video okvira i mogu pružiti detaljniji opis informacija o položaju kamere.

Upravljivost kamere u video generatorima

Budući da model parametrira putanju kamere u sekvencu ugrađivanja pluckera, tj. prostorne mape, model ima izbor koristiti model kodera za izdvajanje značajki kamere, a zatim stopiti značajke kamere u video generatore. Slično tekst u sliku adaptera, model CameraCtrl uvodi koder kamere dizajniran posebno za videozapise. Koder kamere uključuje temporalni model pažnje nakon svakog konvolucijskog bloka, što mu omogućuje snimanje vremenskih odnosa poza kamere kroz cijeli videoisječak. Kao što je prikazano na sljedećoj slici, koder kamere prihvaća samo unos plucker ugradnje i pruža značajke u više razmjera. Nakon dobivanja značajki kamere u više razmjera, CameraCtrl model ima za cilj neprimjetno integrirati ove značajke u U-net arhitekturu modela teksta u video i određuje slojeve koji bi se trebali koristiti za učinkovito uključivanje informacija kamere. Nadalje, budući da većina postojećih okvira usvaja arhitekturu sličnu U-Netu koja sadrži slojeve vremenske i prostorne pažnje, model CameraCtrl ubacuje prikaze kamere u blok temporalne pažnje, što je odluka koja je podržana sposobnošću temporalne pažnje slojeva za hvatanje vremenskih odnosa, usklađivanje s inherentnom ležernom i sekvencijalnom prirodom putanje kamere sa slojevima prostorne pažnje koji prikazuju pojedinačne kadrove.

Učenje distribucije fotoaparata

Uvježbavanje komponente kodera kamere unutar okvira CameraCtrl na videogeneratoru zahtijeva veliku količinu dobro označenih i komentiranih videozapisa s modelom koji može dobiti putanju kamere korištenjem strukture iz pokreta ili SfM pristupa. Okvir CameraCtrl pokušava odabrati skup podataka s izgledom koji se usko podudara s podacima o obuci osnovnog teksta i videomodela i ima što je moguće širu distribuciju položaja kamere. Uzorci u skupu podataka generirani korištenjem virtualnih motora pokazuju raznoliku distribuciju kamere budući da programeri imaju fleksibilnost u kontroli parametara kamere tijekom faze renderiranja, iako ona pati od distribucijskog jaza u usporedbi sa skupovima podataka koji sadrže uzorke iz stvarnog svijeta. Kada se radi sa skupovima podataka koji sadrže uzorke iz stvarnog svijeta, distribucija kamere obično je uska, au takvim slučajevima okvir treba pronaći ravnotežu između raznolikosti između različitih putanja kamere i složenosti putanje pojedine kamere. Složenost pojedinačnih putanja kamere osigurava da model nauči kontrolirati složene putanje tijekom procesa obuke, dok raznolikost između različitih putanja kamere osigurava da se model ne prilagođava određenim fiksnim obrascima. Nadalje, za praćenje procesa obuke kodera kamere, okvir CameraCtrl predlaže metriku poravnanja kamere za mjerenje kvalitete kontrole kamere kvantificiranjem pogreške između putanje kamere generiranih uzoraka i ulaznih uvjeta kamere.

CameraCtrl : Eksperimenti i rezultati

Okvir CameraCtrl implementira model AnimateDiff kao svoj osnovni model teksta u video, a glavni razlog za to je taj što strategija obuke modela AnimateDiff omogućuje integraciju njegovog modula kretanja s osnovnim modelima teksta u sliku ili LoRA-ima teksta u sliku za prilagodbu videa generacije u različitim žanrovima i domenama. Model koristi Adamov optimizator za obuku modela s konstantnom stopom učenja od 1e-4. Nadalje, kako bi se osiguralo da model ne utječe na mogućnosti generiranja videozapisa izvornika tekst u video model negativno, okvir CameraCtrl koristi metriku FID ili Frechet početne udaljenosti za procjenu kvalitete izgleda videa i uspoređuje kvalitetu generiranog videa prije i nakon uključivanja modula kamere.

Kako bi se procijenila njegova izvedba, CameraCtrl okvir se procjenjuje u odnosu na dva postojeća okvira za kontrolu kamere: MotionCtrl i AnimateDiff. Međutim, budući da okvir AnimateDiff ima podršku za samo osam osnovnih putanja kamere, usporedba između CameraCtrl i AnimateDiff ograničena je na tri osnovne putanje. S druge strane, za usporedbu s MotionCtrl-om, okvir odabire više od tisuću nasumičnih putanja kamere iz postojećeg skupa podataka uz osnovne putanje kamere, generira videozapise koristeći te putanje i procjenjuje ih pomoću metrike TransErr i RotErr.

Kao što se može primijetiti, okvir CameraCtrl nadmašuje okvir AnimateDiff u osnovnoj putanji i daje bolje rezultate u usporedbi s okvirom MotionCtrl na metrici složene putanje.

Nadalje, sljedeća slika pokazuje učinak arhitekture kodera kamere na ukupnu kvalitetu generiranih uzoraka. Redovi od a do reda d predstavljaju rezultate generirane koderom kamere implementiranim u arhitekturu: ControlNet, ControlNet s vremenskom pažnjom, T2I adapter i T2I adapter s vremenskom pažnjom.

Na sljedećoj slici prva dva uklanjaju video zapis generiran kombinacijom RGB kodera okvira SparseCtrl i metode korištene u okviru CameraCtrl.

Final Misli

U ovom smo članku govorili o CameraCtrl-u, novoj ideji koja pokušava omogućiti točnu kontrolu položaja kamere za modele teksta u video. Nakon precizne parametrizacije putanje kamere, model trenira plug and play modul kamere na tekstualnom video modelu, a ostale komponente ostavlja netaknutima. Nadalje, model CameraCtrl također provodi sveobuhvatnu studiju o učinku različitih skupova podataka i sugerira da videozapisi sa sličnim izgledom i raznolikom distribucijom kamere mogu poboljšati ukupnu sposobnost upravljanja i generalizacije modela. Eksperimenti provedeni kako bi se analizirala izvedba modela CameraCtrl na zadacima u stvarnom svijetu ukazuju na učinkovitost okvira u postizanju precizne i domenski prilagodljive kontrole kamere, urezujući put naprijed za potragu za prilagođenim i dinamičnim videogeneriranjem iz položaja kamere i tekstualnih unosa.

Srodne teme:CameraCtrl t2v modeli tekst u sliku tekst u video modele generator teksta u video video difuzija

Sljedeći

MambaOut: Trebamo li stvarno Mambu za vid?

Ne propustite

Što je pošlo po zlu s humanom AI pinom?

Kunal Kejriwal

"Inženjer po struci, književnik po duši". Kunal je tehnički pisac s dubokom ljubavlju i razumijevanjem AI i ML, posvećen pojednostavljenju složenih koncepata u tim poljima kroz svoju zanimljivu i informativnu dokumentaciju.