tynkä DynamiCrafter: Avoimen verkkotunnuksen kuvien animointi videon diffuusiopriorsoilla - Unite.AI
Liity verkostomme!

Tekoäly

DynamiCrafter: Animoi avoimen verkkotunnuksen kuvia videon diffuusiopriors

mm

Julkaistu

 on

DynamiCrafter: Animoi avoimen verkkotunnuksen kuvia videon diffuusiopriors

Tietokoneen visio on yksi tämän päivän AI-yhteisön jännittävimmistä ja tutkituimmista aloista, ja tietokonenäkömallien nopeasta kehittymisestä huolimatta kuvaanimaatio on pitkäaikainen haaste, joka edelleen vaivaa kehittäjiä. Vielä nykyäänkin kuvaanimaatiokehyksillä on vaikeuksia muuntaa still-kuvia vastaaviksi videovastineiksi, jotka näyttävät luonnollisen dynamiikan säilyttäen samalla kuvien alkuperäisen ulkonäön. Perinteisesti kuvaanimaatiokehykset keskittyvät ensisijaisesti luonnollisten kohtausten animoimiseen toimialuekohtaisilla liikkeillä, kuten hiusten tai kehon liikkeillä, tai stokastisilla dynamiikalla, kuten nesteillä ja pilvillä. Vaikka tämä lähestymistapa toimii jossain määrin, se rajoittaa näiden animaatiokehysten sovellettavuutta yleisempään visuaaliseen sisältöön. 

Lisäksi perinteiset kuvaanimaatiolähestymistavat keskittyvät ensisijaisesti värähtelevien ja stokastisten liikkeiden syntetisoimiseen tai mukauttamiseen tiettyjä kohdeluokkia varten. Huomattava puute lähestymistavassa on kuitenkin vahvat oletukset, joita näille menetelmille määrätään, mikä viime kädessä rajoittaa niiden sovellettavuutta erityisesti yleisissä skenaarioissa, kuten avoimen verkkotunnuksen kuvaanimaatioissa. Viimeisten vuosien aikana, T2V- tai Text to Video -mallit ovat osoittaneet huomattavaa menestystä elävien ja monipuolisten videoiden luomisessa tekstikehotteiden avulla, ja tämä T2V-mallien esittely muodostaa perustan DynamiCrafter-kehykselle. 

DynamiCrafter-kehys on yritys voittaa kuvaanimaatiomallien nykyiset rajoitukset ja laajentaa niiden soveltuvuutta yleisiin skenaarioihin, joissa on mukana avoimen maailman kuvia. DynamiCrafter-kehys yrittää syntetisoida dynaamista sisältöä avoimen verkkotunnuksen kuville ja muuntaa ne animoiduiksi videoiksi. DynamiCrafterin keskeisenä ideana on sisällyttää kuva ohjauksena generatiiviseen prosessiin, jotta voidaan hyödyntää jo olemassa olevan tekstin ja videon diffuusiomallien liikettä. Tietylle kuvalle DynamiCrafter-malli toteuttaa ensin kyselymuuntajan, joka heijastaa kuvan tekstiin kohdistettuun rikkaan kontekstin esitystilaan, mikä helpottaa videomallin sulattamista kuvasisällöstä yhteensopivalla tavalla. DynamiCrafter-mallilla on kuitenkin edelleen vaikeuksia säilyttää joitain visuaalisia yksityiskohtia tuloksena olevissa videoissa. Ongelma, jonka DynamiCrafter-malli ratkaisee syöttämällä koko kuvan diffuusiomalliin yhdistämällä kuvan alkuperäisiin kohinoihin, jolloin mallia täydennetään tarkemmalla kuvalla. tiedot. 

Tämän artikkelin tarkoituksena on kattaa DynamiCrafter-kehys perusteellisesti, ja tutkimme mekanismia, metodologiaa, kehyksen arkkitehtuuria sekä sen vertailua uusimpien kuvien ja videoiden luontikehysten kanssa. Joten aloitetaan. 

DynamiCrafter: Open-Domain Images Animation

Pysäytyskuvan animointi tarjoaa usein katsojalle mukaansatempaavan visuaalisen kokemuksen, koska se näyttää herättävän still-kuvan eloon. Vuosien varrella lukuisat viitekehykset ovat tutkineet erilaisia ​​still-kuvien animointimenetelmiä. Alkuperäiset animaatiokehykset toteuttivat fyysisiin simulaatioihin perustuvia lähestymistapoja, jotka keskittyivät tiettyjen objektien liikkeen simulointiin. Kunkin kohdeluokan riippumattoman mallintamisen vuoksi nämä lähestymistavat eivät kuitenkaan olleet tehokkaita eivätkä yleistettävissä. Todellisempien liikkeiden replikoimiseksi syntyi referenssipohjaisia ​​menetelmiä, jotka siirsivät liike- tai ulkonäkötiedot referenssisignaaleista, kuten videoista, synteesiprosessiin. Vaikka referenssipohjaiset lähestymistavat tuottivat parempia tuloksia paremmalla ajallisella koherenssilla verrattuna simulaatioon perustuviin lähestymistapoihin, ne tarvitsivat lisäopastusta, joka rajoitti niiden käytännön sovelluksia. 

Viime vuosina suurin osa animaatiokehyksistä keskittyy ensisijaisesti luonnollisten kohtausten animointiin stokastisilla, aluekohtaisilla tai värähtelevillä liikkeillä. Vaikka näiden viitekehysten toteuttama lähestymistapa toimii jossain määrin, näiden viitekehysten tuottamat tulokset eivät ole tyydyttäviä, vaan niissä on paljon parantamisen varaa. Tekstistä videoon -generatiivisten mallien viime vuosina saavuttamat merkittävät tulokset ovat inspiroineet DynamiCrafter-kehyksen kehittäjiä hyödyntämään Text to Video -mallien tehokkaita luomisominaisuuksia kuvaanimaatiossa. 

DynamiCrafter-kehyksen keskeinen perusta on sisällyttää ehdollinen kuva, jolla yritetään ohjata videon luontiprosessia. Tekstistä videoon diffuusiomallit. Kuvaanimoinnin perimmäinen tavoite on kuitenkin edelleen ei-triviaali, sillä kuvaanimaatio vaatii yksityiskohtien säilyttämistä sekä dynamiikan luomisen kannalta olennaisten visuaalisten kontekstien ymmärtämistä. Multimodaaliset ohjattavat videon diffuusiomallit, kuten VideoComposer, ovat kuitenkin yrittäneet mahdollistaa videon luomisen kuvan visuaalisella ohjauksella. Nämä lähestymistavat eivät kuitenkaan sovellu kuvaanimaatioon, koska ne johtavat joko äkillisiin ajallisiin muutoksiin tai heikosti visuaaliseen yhdenmukaisuuteen syöttökuvan kanssa johtuen niiden vähemmän kattavista kuvan injektiomekanismeista. Tämän esteen torjumiseksi DyaniCrafter-kehys ehdottaa kaksivirtaista injektiomenetelmää, joka koostuu visuaalisista yksityiskohtien ohjauksesta ja tekstin mukaisesta kontekstin esityksestä. Dual-stream-injektiomenetelmä mahdollistaa DynamiCrafter-kehyksen varmistamisen, että videon diffuusiomalli syntetisoi yksityiskohtaisesti säilytetyn dynaamisen sisällön toisiaan täydentävällä tavalla. 

Tietylle kuvalle DynamiCrafter-kehys heijastaa ensin kuvan tekstiin kohdistettuun kontekstin esitystilaan käyttämällä erityisesti suunniteltua kontekstin oppimisverkkoa. Tarkemmin sanottuna kontekstin esitystila koostuu opittavasta kyselymuuntajasta, joka edistää sen mukautumista diffuusiomalleihin, ja valmiiksi koulutetusta CLIP-kuvakooderista tekstiin kohdistettujen kuvaominaisuuksien poimimiseksi. Malli käyttää sitten monipuolisia kontekstiominaisuuksia käyttämällä ristiin huomioivia kerroksia, ja malli käyttää aidattua fuusiota yhdistääkseen nämä tekstiominaisuudet ristiin huomioiviin kerroksiin. Tämä lähestymistapa kuitenkin vaihtaa opitut kontekstiesitykset tekstiin kohdistetuilla visuaalisilla yksityiskohdilla, mikä helpottaa kuvakontekstin semanttista ymmärtämistä mahdollistaen järkevän ja elävän dynamiikan syntetisoinnin. Lisäksi yritettäessä täydentää visuaalisia lisäyksityiskohtia kehys yhdistää koko kuvan alkuperäiseen kohinaan diffuusiomalliin. Tuloksena DynamiCrafter-kehyksen toteuttama kaksoisruiske-lähestymistapa takaa visuaalisen yhdenmukaisuuden sekä uskottavan dynaamisen sisällön syöttökuvalle. 

Diffuusiomallit tai DM:t ovat osoittaneet huomattavaa suorituskykyä ja luovaa suorituskykyä T2I- tai tekstistä kuvaksi -luonnissa. T2I-mallien menestyksen jäljittelemiseksi videon luomiseksi ehdotetaan VDM- tai Video Diffusion -malleja, jotka käyttävät avaruus-aikakertoimista U-New-arkkitehtuuria pikseliavaruudessa matalaresoluutioisten videoiden mallintamiseen. T2I-kehysten oppimisen siirtäminen T2V-kehyksiin auttaa vähentämään koulutuskustannuksia. Vaikka VDM- tai Video Diffusion -mallit pystyvät luomaan korkealaatuisia videoita, ne hyväksyvät vain tekstikehotteet ainoana semanttisena ohjeena, joka ei välttämättä vastaa käyttäjän todellista tarkoitusta tai saattaa olla epämääräistä. Useimpien VDM-mallien tulokset noudattavat kuitenkin harvoin syöttökuvaa ja kärsivät epärealistisesta ajallisen vaihtelun ongelmasta. DynamiCrafter-lähestymistapa perustuu tekstimuotoisiin videodiffuusiomalleihin, jotka hyödyntävät rikasta dynamiikkaa ennen avoimen verkkotunnuksen kuvien animointia. Se tekee sen sisällyttämällä räätälöityjä malleja, jotka parantavat semanttista ymmärrystä ja yhdenmukaisuutta syöttökuvan kanssa. 

DynamiCrafter: menetelmä ja arkkitehtuuri

Tietylle still-kuvalle DyanmiCrafter-kehys yrittää animoida kuvan kuvasta videoon eli tuottaa lyhyt videoleike. Videoleike perii visuaalisen sisällön kuvasta ja esittelee luonnollista dynamiikkaa. On kuitenkin mahdollista, että kuva saattaa esiintyä tuloksena olevan kehyssarjan mielivaltaisessa paikassa. Kuvan esiintyminen mielivaltaisessa paikassa on erityinen haaste, joka havaitaan kuvaehdollisissa videoiden generointitehtävissä, joissa on korkeat visuaaliset yhdenmukaisuusvaatimukset. DynamiCrafter-kehys voittaa tämän haasteen hyödyntämällä esikoulutettujen videon diffuusiomallien generatiivisia prioriteetteja. 

Kuvadynamiikka Video Diffusion Aiemmasta

Yleensä avoimen verkkotunnuksen tekstistä videoon diffuusiomallien tiedetään näyttävän dynaamisen visuaalisen sisällön mallinnetun ehdoin tekstin kuvauksissa. Animoidaksesi still-kuvan tekstistä videoon -generatiivisilla priorisoinneilla kehysten tulee ensin syöttää visuaalinen informaatio videon luontiprosessiin kattavasti. Lisäksi dynaamista synteesiä varten T2V-mallin tulisi sulattaa kuva kontekstin ymmärtämiseksi, samalla kun sen pitäisi pystyä säilyttämään luotujen videoiden visuaaliset yksityiskohdat. 

Tekstitasattu kontekstiesitys

Ohjatakseen videon luomista kuvakontekstin kanssa DynamiCrafter-kehys yrittää heijastaa kuvan tasaiseen upotustilaan, jolloin videomalli voi käyttää kuvatietoja yhteensopivalla tavalla. Tämän jälkeen DynamiCrafter-kehys käyttää kuvaenkooderia poimimaan kuvaominaisuuksia syöttökuvasta, koska tekstin upotukset luodaan käyttämällä esikoulutettua CLIP-tekstikooderia. Vaikka CLIP-kuvaenkooderin globaalit semanttiset tunnukset on kohdistettu kuvien kuvatekstien kanssa, se edustaa ensisijaisesti visuaalista sisältöä semanttisella tasolla, joten se ei pysty kaappaamaan kuvan koko laajuutta. DynamiCrafter-kehys toteuttaa täydelliset visuaaliset tunnukset CLIP-kooderin viimeisestä kerroksesta täydellisemmän tiedon poimimiseksi, koska nämä visuaaliset tunnukset osoittavat korkean tarkkuuden ehdollisten kuvien luontitehtävissä. Lisäksi kehys käyttää kontekstin ja tekstin upotuksia ollakseen vuorovaikutuksessa U-Netin väliominaisuuksien kanssa käyttämällä kahta ristiin huomioivaa kerrosta. Tämän komponentin suunnittelu helpottaa mallin kykyä absorboida kuvaolosuhteet kerrosriippuvaisella tavalla. Lisäksi, koska U-Net-arkkitehtuurin välikerrokset assosioituvat enemmän esineiden asentoihin tai muotoihin, on odotettavissa, että kuvan ominaisuudet vaikuttavat videoiden ulkonäköön pääasiassa, varsinkin kun kaksipäälliset kerrokset liittyvät enemmän ulkonäköön. 

Visuaaliset yksityiskohdat

DyanmiCrafter-kehys käyttää runsaasti informatiivista kontekstiesitystä, joka mahdollistaa videon diffuusiomallin arkkitehtuurissaan tuottaa videoita, jotka muistuttavat läheisesti syöttökuvaa. Kuitenkin, kuten seuraavassa kuvassa osoitetaan, luodussa sisällössä saattaa esiintyä eroja, koska valmiiksi koulutettu CLIP-kooderi ei pysty säilyttämään syötetyt tiedot kokonaan, koska se on suunniteltu kohdistamaan kieli ja visuaaliset ominaisuudet. 

Visuaalisen yhdenmukaisuuden parantamiseksi DynamiCrafter-kehys ehdottaa videon diffuusiomallin tarjoamista visuaalisilla lisäyksityiskohdilla, jotka on poimittu syöttökuvasta. Tämän saavuttamiseksi DyanmiCrafter-malli ketjuttaa ehdollisen kuvan kehyskohtaiseen alkukohinaan ja syöttää ne kohinanvaimennuskomponenttiin ohjeena. 

Koulutusparadigma

DynamiCrafter-kehys integroi ehdollisen kuvan kahden toisiaan täydentävän virran kautta, joilla on merkittävä rooli yksityiskohtaisessa ohjauksessa ja kontekstin hallinnassa. Tämän helpottamiseksi DynamiCrafter-mallissa käytetään kolmivaiheista koulutusprosessia

  1. Ensimmäisessä vaiheessa malli kouluttaa kuvan kontekstin esitysverkoston. 
  2. Toisessa vaiheessa malli sovittaa kuvan kontekstin esitysverkon tekstiksi videoksi -malliin. 
  3. Kolmannessa ja viimeisessä vaiheessa malli hienosäätää kuvan kontekstin esitysverkostoa yhdessä Visual Detail Guidance -komponentin kanssa. 

Jotta kuvatiedot ovat yhteensopivia Text-to-Video (T2V) -mallin kanssa, DynamiCrafter-kehys ehdottaa kontekstin esitysverkon, P, kehittämistä, joka on suunniteltu sieppaamaan tekstiin kohdistettuja visuaalisia yksityiskohtia annetusta kuvasta. Kun tiedostetaan, että P vaatii monia optimointivaiheita konvergenssiin, viitekehyksen lähestymistapa sisältää sen aluksi koulutuksen käyttämällä yksinkertaisempaa tekstistä kuvaksi (T2I) -mallia. Tämä strategia sallii kontekstin esitysverkon keskittyä kuvan kontekstin oppimiseen ennen sen integroimista T2V-malliin yhteisen harjoittelun avulla P:n ja T2V-mallin tilakerrosten, toisin kuin ajallisten kerrosten, kanssa. 

T2V-yhteensopivuuden varmistamiseksi DyanmiCrafter-kehys yhdistää tulokuvan kehyskohtaiseen kohinaan ja jatkaa hienosäätääkseen sekä P- että visuaalisen erottelumallin (VDM) spatiaalisia kerroksia. Tämä menetelmä on valittu säilyttämään T2V-mallin olemassa olevien ajallisten oivallusten eheys ilman tiheän kuvien yhdistämisen haitallisia vaikutuksia, jotka voivat vaarantaa suorituskykyä ja poiketa ensisijaisesta tavoitteestamme. Lisäksi kehys käyttää strategiaa, jossa valitaan satunnaisesti videokehys kuvan ehdoksi kahden tavoitteen saavuttamiseksi: (i) estetään verkkoa kehittämästä ennustettavaa kuviota, joka yhdistää yhdistetyn kuvan suoraan tiettyyn kehyksen sijaintiin, ja (ii) kannustaa mukautuvampaa kontekstin esitystapaa estämällä liian jäykän tiedon tarjoaminen tietystä kehyksestä. 

DynamiCrafter: Kokeilut ja tulokset

DynamiCrafter-kehys kouluttaa ensin kontekstin esitysverkoston ja kuvan ristiin huomioivia kerroksia vakaalla diffuusiolla. Kehys korvaa sitten Vakaa diffuusio komponentti VideoCrafterin kanssa ja hienosäätää edelleen kontekstin esitysverkkoa ja spatiaalisia kerroksia mukauttamista ja kuvien ketjuttamista varten. Johtopäätöksenä kehys ottaa käyttöön DDIM-näytteenottimen, jossa on moniehtoinen luokittelijavapaa ohjaus. Lisäksi kehys raportoi FVD- tai Frechet-videoetäisyyden sekä KVD- tai ytimen videoetäisyyden arvioidakseen sekä ajallisesti että spatiaalisesti syntetisoitujen videoiden ajallista koherenssia ja laatua ja arvioi nollakuvan suorituskyvyn kaikilla menetelmillä. MSR-VTT:n ja UCF-101:n vertailuarvoista. Luotujen tulosten ja syötekuvan välisen havainnon yhdenmukaisuuden tutkimiseksi kehys ottaa käyttöön PIC- tai Perceptual Input Conformity -yhteensopivuuden ja ottaa käyttöön havaintoetäisyysmetriikan DreamSim etäisyyden funktiona. 

Seuraava kuva havainnollistaa luodun animoidun sisällön visuaalista vertailua eri tyylien ja sisällön kanssa. 

Kuten voidaan havaita, kaikkien eri menetelmien joukossa DynamiCrafter-kehys noudattaa hyvin tulokuvan ehtoja ja tuottaa ajallisesti yhtenäisiä videoita. Seuraava taulukko sisältää tilastot käyttäjätutkimuksesta, johon osallistui 49 osallistujaa ajallisen koherenssin (TC) ja liikkeen laadun (MC) mieltymyssuhteesta, sekä visuaalisen yhdenmukaisuuden valintaasteen syötekuvan kanssa. (IC). Kuten voidaan havaita, DynamiCrafter-kehys pystyy ylittämään olemassa olevat menetelmät huomattavalla marginaalilla. 

Seuraava kuva havainnollistaa kaksoisvirtausmenetelmällä ja harjoitusparadigmalla saavutetut tulokset. 

Loppuajatukset

Tässä artikkelissa olemme puhuneet DynamiCrafterista, yrityksestä voittaa kuvaanimaatiomallien nykyiset rajoitukset ja laajentaa niiden soveltuvuutta yleisiin skenaarioihin, joissa on mukana avoimen maailman kuvia. DynamiCrafter-kehys yrittää syntetisoida dynaamista sisältöä avoimen verkkotunnuksen kuville ja muuntaa ne animoiduiksi videoiksi. DynamiCrafterin keskeisenä ideana on sisällyttää kuva ohjauksena generatiiviseen prosessiin, jotta voidaan hyödyntää jo olemassa olevan tekstin ja videon diffuusiomallien liikettä. Tietylle kuvalle DynamiCrafter-malli toteuttaa ensin kyselymuuntajan, joka heijastaa kuvan tekstiin kohdistettuun rikkaan kontekstin esitystilaan, mikä helpottaa videomallin sulattamista kuvasisällöstä yhteensopivalla tavalla. DynamiCrafter-mallilla on kuitenkin edelleen vaikeuksia säilyttää joitain visuaalisia yksityiskohtia tuloksena olevissa videoissa. Ongelma, jonka DynamiCrafter-malli ratkaisee syöttämällä koko kuvan diffuusiomalliin yhdistämällä kuvan alkuperäisiin kohinoihin, jolloin mallia täydennetään tarkemmalla kuvalla. tiedot. 

"Ammatiltaan insinööri, sydämeltään kirjailija". Kunal on tekninen kirjoittaja, jolla on syvä rakkaus ja ymmärrys tekoälystä ja ML:stä. Hän on omistautunut yksinkertaistamaan monimutkaisia ​​käsitteitä näillä aloilla kiinnostavan ja informatiivisen dokumentaationsa avulla.