Tekoäly

CameraCtrl: Ota kameran hallinta käyttöön tekstistä videoksi luomista varten

Julkaistu

3 viikkoa sitten

Voi 23, 2024

Viimeaikaiset puitteet, joissa yritetään tehdä tekstistä videoksi tai T2V-sukupolviksi, hyödyntävät diffuusiomalleja lisätäkseen vakautta harjoitusprosessiinsa, ja Video Diffusion Model, joka on yksi tekstin ja videon luomisen kehysten pioneereista, laajentaa 2D-kuvan diffuusioarkkitehtuuria yrittääkseen mukautua. videodataa ja kouluttaa mallia videon ja kuvan käyttöön yhdessä alusta alkaen. Saman pohjalta ja tehokkaan valmiiksi koulutetun kuvageneraattorin, kuten Stable Diffusion, käyttöönottamiseksi viimeaikaiset työt paisuttavat 2D-arkkitehtuuriaan lomittamalla esiopetettujen 2D-kerrosten väliin ajallisia kerroksia ja hienosäätämällä uutta mallia ennennäkemättömillä suurilla tietojoukoilla. Lähestymistavastaan huolimatta tekstistä videoon - diffuusiomallit kohtaavat merkittävän haasteen, koska videonäytteen luomiseen käytettyjen tekstikuvausten moniselitteisyys johtaa usein siihen, että tekstistä videoksi -mallilla on heikompi ohjaus sukupolven suhteen. Tämän rajoituksen poistamiseksi jotkin mallit tarjoavat tehostettua ohjausta, kun taas toiset toimivat tarkkojen signaalien avulla ohjatakseen tarkasti kohtausta tai ihmisen liikkeitä syntetisoiduissa videoissa. Toisaalta on olemassa muutamia tekstistä videoon -kehystä, jotka ottavat kuvia ohjaussignaalina videogeneraattorille, mikä johtaa joko tarkaan ajallisen suhteen mallinnukseen tai korkeaan videon laatuun.

Olisi turvallista sanoa, että ohjattavuus on ratkaisevassa roolissa kuvien ja videoiden luontitehtävissä, koska sen avulla käyttäjät voivat luoda haluamaansa sisältöä. Olemassa olevissa viitekehyksessä kuitenkin usein unohdetaan kamera-asennon tarkka hallinta, joka toimii elokuvallisena kielenä ilmaistakseen paremmin mallin syvempiä narratiivisia vivahteita. Nykyisten ohjattavuuden rajoitusten poistamiseksi tässä artikkelissa puhumme CameraCtrlista, uudesta ideasta, joka yrittää mahdollistaa tarkan kameran asennon ohjauksen teksti-videomalleille. Parametrisoituaan kameran liikeradan tarkasti malli kouluttaa plug and play -kameramoduulin tekstistä videomalliin ja jättää muut komponentit koskemattomiksi. Lisäksi CameraCtrl-malli tekee myös kattavan tutkimuksen erilaisten tietojoukkojen vaikutuksista ja ehdottaa, että videot, joilla on samankaltainen ulkoasu ja vaihteleva kamerajakauma, voivat parantaa mallin yleistä ohjattavuutta ja yleistyskykyä. Kokeet, jotka on suoritettu analysoimaan CameraCtrl-mallin suorituskykyä tosielämän tehtävissä, osoittavat kehyksen tehokkuuden saavuttaa tarkka ja verkkoalueeseen mukautuva kameran ohjaus, mikä luo tien eteenpäin räätälöidyn ja dynaamisen videon luomiseen kameran asennosta ja tekstisyötteistä.

Tämän artikkelin tarkoituksena on kattaa CameraCtrl-kehys perusteellisesti, ja tutkimme mekanismia, metodologiaa, kehyksen arkkitehtuuria sekä sen vertailua uusimpien kehysten kanssa. Joten aloitetaan.

CameraCtrl: Kameran ohjaus T2V-sukupolvelle

Diffuusiomallien viimeaikainen kehitys ja edistyminen ovat edenneet tekstiohjatun videon luomista merkittävästi viime vuosina ja mullistaneet sisällön suunnittelun työnkulkuja. Hallittavuudella on merkittävä rooli käytännön videontuotantosovelluksissa, koska sen avulla käyttäjät voivat mukauttaa luotuja tuloksia tarpeidensa ja vaatimustensa mukaan. Korkean ohjattavuuden ansiosta malli pystyy parantamaan luomiensa videoiden realistisuutta, laatua ja käytettävyyttä, ja vaikka mallit käyttävät yleisesti teksti- ja kuvasyötteitä yleisen ohjattavuuden parantamiseksi, niiltä puuttuu usein tarkka liikkeen ja sisällön hallinta. . Tämän rajoituksen poistamiseksi jotkin kehykset ovat ehdottaneet ohjaussignaalien, kuten poseerausrungon, optisen virtauksen ja muiden multimodaalisten signaalien, hyödyntämistä tarkemman ohjauksen mahdollistamiseksi videon luomisen ohjaamiseksi. Toinen olemassa olevien kehysten kohtaama rajoitus on se, että niiltä puuttuu tarkka valvonta kamerapisteiden stimuloinnissa tai säätämisessä videon luonnissa, koska kyky hallita kameraa on ratkaisevan tärkeä, koska se ei ainoastaan lisää luotujen videoiden realistisuutta, vaan sallimalla mukautetut näkökulmat, se myös parantaa käyttäjien sitoutumista, ominaisuus, joka on olennainen pelikehityksessä, lisätyssä todellisuudessa ja virtuaalitodellisuudessa. Lisäksi kameran liikkeiden taitava hallinta antaa tekijöille mahdollisuuden korostaa hahmosuhteita, korostaa tunteita ja ohjata kohdeyleisön keskittymistä, mikä on erittäin tärkeää elokuva- ja mainosteollisuudessa.

Näiden rajoitusten ratkaisemiseksi ja ylittämiseksi CameraCtrl-kehys, opittava ja tarkka plug and play -kameramoduuli, jolla on mahdollisuus ohjata kameran näkökulmia videon luomista varten. Räätälöidyn kameran integrointi olemassa olevaan teksti-video-malliputkeen on kuitenkin helpommin sanottu kuin tehty tehtävä, mikä pakottaa CameraCtrl-kehyksen etsimään tapoja esittää ja lisätä kamera malliarkkitehtuuriin tehokkaasti. Samoin CameraCtrl-kehys hyväksyy plucker-upotukset kameran parametrien ensisijaisena muotona, ja plucker-upotusten valinnan syynä voidaan pitää niiden kykyä koodata geometrisia kuvauksia kameran asennon tiedoista. Lisäksi CameraCtrl-mallin jälkeisen harjoittelun yleistettävyyden ja sovellettavuuden varmistamiseksi malli esittelee kameran ohjausmallin, joka hyväksyy syötteenä vain plucker-upotukset. Varmistaakseen kameran ohjausmallin tehokkaan koulutuksen kehys ja sen kehittäjät tekevät kattavan tutkimuksen selvittääkseen, kuinka erilaiset harjoitustiedot vaikuttavat kehykseen synteettisestä realistiseen dataan. Kokeelliset tulokset osoittavat, että toteuttamalla dataa monipuolisella kameran asennon jakautumisella ja ulkonäöltään samankaltaisella alkuperäisen perusmallin kanssa saavutetaan paras kompromissi hallittavuuden ja yleistettävyyden välillä. CameraCtrl-kehyksen kehittäjät ovat ottaneet mallin käyttöön AnimateDiff-kehyksen päälle, mikä mahdollistaa tarkan ohjauksen videoiden luonnissa eri henkilökohtaisten kehysten välillä, mikä osoittaa sen monipuolisuuden ja hyödyllisyyden monenlaisissa videonluontikonteksteissa.

AnimateDiff-kehys omaksuu tehokkaan LoRA hienosäätömenetelmä mallin painojen saamiseksi erityyppisille otoksille. Direct-a-video-kehys ehdottaa kameran upotuslaitteen käyttöönottoa kameroiden asennon ohjaamiseksi videon luonnin aikana, mutta se ehtona on vain kolme kameraparametria, mikä rajoittaa kameran ohjauskyvyn useimpiin perustyyppeihin. Toisaalta MotionCtrl sisältävät kehykset suunnittelevat liikeohjaimen, joka hyväksyy enemmän kuin kolme syöttöparametria ja pystyy tuottamaan videoita monimutkaisemmilla kameran asennoilla. Tarve hienosäätää luotujen videoiden osia kuitenkin haittaa mallin yleistettävyyttä. Lisäksi joissakin kehyksissä on lisärakenteellisia ohjaussignaaleja, kuten syvyyskarttoja, prosessiin, mikä parantaa sekä kuvan että tekstin luomisen ohjattavuutta. Tyypillisesti malli syöttää nämä ohjaussignaalit ylimääräiseen kooderiin ja ruiskuttaa sitten signaalit generaattoriin käyttämällä erilaisia toimintoja.

CameraCtrl: Malliarkkitehtuuri

Ennen kuin voimme tarkastella kamerakooderin arkkitehtuuria ja koulutusparadigmaa, meidän on elintärkeää ymmärtää erilaisia kameran esityksiä. Tyypillisesti kameran asento viittaa sisäisiin ja ulkoisiin parametreihin, ja yksi yksinkertaisista vaihtoehdoista antaa videogeneraattorin tilan kameran asennossa on syöttää kameran parametreihin liittyvät raaka-arvot generaattoriin. Tällaisen lähestymistavan käyttöönotto ei kuitenkaan ehkä paranna tarkkaa kameran ohjausta muutamista syistä. Ensinnäkin, vaikka rotaatiomatriisia rajoittaa ortogonaalisuus, käännösvektori on tyypillisesti jännittämätön suuruudeltaan ja johtaa oppimisprosessin yhteensopimattomuuteen, joka voi vaikuttaa ohjauksen johdonmukaisuuteen. Toiseksi, käyttämällä kameran raakaparametreja suoraan, mallin voi olla vaikeaa korreloida näitä arvoja kuvan pikselien kanssa, mikä johtaa visuaalisten yksityiskohtien hallinnan heikkenemiseen. Näiden rajoitusten välttämiseksi CameraCtrl-kehys valitsee plucker-upotukset kameran asennon esitykseksi, koska plucker-upotuksissa on geometriset esitykset jokaisesta videokehyksen pikselistä, ja ne voivat tarjota tarkemman kuvauksen kameran asentotiedoista.

Kameran ohjattavuus videogeneraattoreissa

Koska malli parametroi kameran liikeradan plucker upotussekvenssiksi eli spatiaalisiksi kartoiksi, mallilla on mahdollisuus käyttää enkooderimallia kameran ominaisuuksien poimimiseen ja sitten sulauttaa kameran ominaisuudet videogeneraattoreihin. Samanlainen kuin tekstistä kuvaksi sovitin, CameraCtrl-malli esittelee kamerakooderin, joka on suunniteltu erityisesti videoille. Kamerakooderi sisältää temporaalisen huomiomallin jokaisen konvoluutiolohkon jälkeen, jolloin se voi kaapata kameran asentojen ajalliset suhteet koko videoleikkeen ajan. Kuten seuraavasta kuvasta käy ilmi, kamerakooderi hyväksyy vain plucker upotussyötteen ja tarjoaa monimuotoisia ominaisuuksia. Saatuaan usean mittakaavan kameran ominaisuudet CameraCtrl-malli pyrkii integroimaan nämä ominaisuudet saumattomasti tekstistä videoksi -mallin U-verkko-arkkitehtuuriin ja määrittää tasot, joita tulisi käyttää kameratietojen sisällyttämiseen tehokkaasti. Lisäksi, koska suurin osa olemassa olevista kehyksistä omaksuu U-Netin kaltaisen arkkitehtuurin, joka sisältää sekä ajallisen että spatiaalisen huomion kerroksen, CameraCtrl-malli ruiskuttaa kameraesitykset ajallisen huomion lohkoon, mikä on päätös, jota tukee ajallisen huomion kyky. kerroksia vangitsemaan ajallisia suhteita, jotka vastaavat kameran liikeradan luontaista satunnaista ja peräkkäistä luonnetta yksittäisiä kehyksiä kuvaavien avaruudellisten huomiokerrosten kanssa.

Kamerajakelun oppiminen

Kameran kooderikomponentin kouluttaminen CameraCtrl-kehyksen sisällä videogeneraattorilla vaatii suuren määrän hyvin merkittyjä ja huomautettuja videoita, joiden malli pystyy saamaan kameran liikeradan käyttämällä rakennetta liikkeestä tai SfM-lähestymistavasta. CameraCtrl-kehys yrittää valita tietojoukon ulkoasuilla, jotka vastaavat tiiviisti perustekstin harjoitustietoja videomalliin, ja kameran asennon jakauma on mahdollisimman laaja. Virtuaalisilla moottoreilla luoduissa tietojoukossa olevilla näytteillä on monipuolinen kamerajakauma, koska kehittäjillä on joustavuus hallita kameran parametreja renderöintivaiheen aikana, vaikka se kärsiikin jakautumisaukosta verrattuna reaalimaailman näytteitä sisältäviin tietokokonaisuuksiin. Reaalimaailman näytteitä sisältävien tietojoukkojen kanssa työskenneltäessä kameran jakauma on yleensä kapea, ja tällaisissa tapauksissa viitekehyksen on löydettävä tasapaino kameran eri liikeradan monimuotoisuuden ja yksittäisen kameran liikeradan monimutkaisuuden välillä. Yksittäisen kameran liikeradan monimutkaisuus varmistaa, että malli oppii hallitsemaan monimutkaisia lentoratoja koulutusprosessin aikana, kun taas kameran eri liikeradan monimuotoisuus varmistaa, että malli ei sovi liiaksi tiettyihin kiinteisiin kuvioihin. Lisäksi kamerakooderin koulutusprosessin seuraamiseksi CameraCtrl-kehys ehdottaa kameran kohdistusmetriikkaa kameran ohjauslaadun mittaamiseksi kvantitoimalla generoitujen näytteiden kameran liikeradan ja tulokameran olosuhteiden välisen virheen.

CameraCtrl : Kokeilut ja tulokset

CameraCtrl-kehys toteuttaa AnimateDiff-mallin perusteksti-videomallina, ja suurin syy tähän on se, että AnimateDiff-mallin koulutusstrategia mahdollistaa sen liikemoduulin integroinnin tekstistä kuvaksi -perusmallien tai tekstistä kuvaksi -LoRA-mallien kanssa videon sovittamiseksi. sukupolvi eri genreillä ja aloilla. Malli käyttää Adam Optimizer -työkalua mallin kouluttamiseen jatkuvalla oppimisnopeudella 1e-4. Lisäksi sen varmistamiseksi, että malli ei vaikuta alkuperäisen videon tuotantokykyyn tekstistä videomalliin negatiivisesti CameraCtrl-kehys käyttää FID- tai Frechet Inception Distance -mittaria videon ulkoasun laadun arvioimiseen ja vertaa luodun videon laatua ennen kameramoduulin sisällyttämistä ja sen jälkeen.

Sen suorituskyvyn arvioimiseksi CameraCtrl-kehystä arvioidaan kahteen olemassa olevaan kameran ohjauskehykseen: MotionCtrl ja AnimateDiff. Koska AnimateDiff-kehys tukee kuitenkin vain kahdeksaa peruskameran liikerataa, CameraCtrl:n ja AnimateDiffin vertailu on rajoitettu kolmeen perusrataan. Toisaalta MotionCtrl-vertailua varten kehys valitsee yli tuhat satunnaista kamerarataa olemassa olevasta tietojoukosta peruskameroiden liikeratojen lisäksi, luo videoita näiden lentoratojen avulla ja arvioi ne TransErr- ja RotErr-mittareiden avulla.

Kuten voidaan havaita, CameraCtrl-kehys ylittää AnimateDiff-kehyksen perusradalla ja tarjoaa parempia tuloksia verrattuna MotionCtrl-kehykseen monimutkaisen lentoradan metriikassa.

Lisäksi seuraava kuva havainnollistaa kamerakooderin arkkitehtuurin vaikutusta generoitujen näytteiden yleiseen laatuun. Rivit a - Rivit d edustavat tuloksia, jotka on luotu arkkitehtuuriin toteutetuilla kamerakooderilla: ControlNet, ControlNet ajallisesti huomioivalla, T2I-sovitin ja T2I-sovitin ajallisesti huomioivalla vastaavasti.

Seuraavassa kuvassa kaksi ensimmäistä korvaavat SparseCtrl-kehyksen RGB-kooderin ja CameraCtrl-kehyksessä käytetyn menetelmän yhdistelmällä luodun videon.

Loppuajatukset

Tässä artikkelissa olemme puhuneet CameraCtrlista, uudesta ideasta, joka yrittää mahdollistaa tarkan kameran asennon ohjauksen teksti-videomalleille. Parametrisoituaan kameran liikeradan tarkasti malli kouluttaa plug and play -kameramoduulin tekstistä videomalliin ja jättää muut komponentit koskemattomiksi. Lisäksi CameraCtrl-malli tekee myös kattavan tutkimuksen erilaisten tietojoukkojen vaikutuksista ja ehdottaa, että videot, joilla on samankaltainen ulkoasu ja vaihteleva kamerajakauma, voivat parantaa mallin yleistä ohjattavuutta ja yleistyskykyä. Kokeet, jotka on suoritettu analysoimaan CameraCtrl-mallin suorituskykyä tosielämän tehtävissä, osoittavat kehyksen tehokkuuden saavuttaa tarkka ja verkkoalueeseen mukautuva kameran ohjaus, mikä luo tien eteenpäin räätälöidyn ja dynaamisen videon luomiseen kameran asennosta ja tekstisyötteistä.

Seuraavaksi

MambaOut: Tarvitsemmeko todella Mambaa Visionille?

Älä missaa

Mikä meni pieleen humane AI Pin -nastassa?

Kunal Kejriwal

"Ammatiltaan insinööri, sydämeltään kirjailija". Kunal on tekninen kirjoittaja, jolla on syvä rakkaus ja ymmärrys tekoälystä ja ML:stä. Hän on omistautunut yksinkertaistamaan monimutkaisia käsitteitä näillä aloilla kiinnostavan ja informatiivisen dokumentaationsa avulla.