stub DynamiCrafter: Animazzjoni ta' Stampi ta' Dominju Miftuħ b'Prijori ta' Diffużjoni tal-Vidjo - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

DynamiCrafter: Animazzjoni ta' Stampi ta' Dominju Miftuħ b'Prijori ta' Diffużjoni tal-Vidjo

mm

ippubblikat

 on

DynamiCrafter: Animazzjoni ta' Stampi ta' Dominju Miftuħ b'Prijori ta' Diffużjoni tal-Vidjo

Viżjoni bil-kompjuter huwa wieħed mill-oqsma l-aktar eċċitanti u riċerkati tajjeb fi ħdan il-komunità tal-AI llum, u minkejja t-titjib mgħaġġel tal-mudelli tal-viżjoni bil-kompjuter, sfida li ilha għaddejja li għadha tfixkel lill-iżviluppaturi hija l-animazzjoni tal-immaġni. Anke llum, l-oqfsa ta ' l-animazzjoni ta ' l-immaġini jissieltu biex jikkonvertu stampi fissi fil-kontropartijiet tal-vidjo rispettivi tagħhom li juru dinamika naturali filwaqt li jippreservaw id-dehra oriġinali ta ' l-immaġini. Tradizzjonalment, l-oqfsa tal-animazzjoni tal-immaġini jiffokaw primarjament fuq l-animazzjoni ta’ xeni naturali b’movimenti speċifiċi għad-dominju bħal xagħar uman jew movimenti tal-ġisem, jew dinamika stokastika bħal fluwidi u sħab. Għalkemm dan l-approċċ jaħdem sa ċertu punt, jillimita l-applikabbiltà ta’ dawn l-oqfsa ta’ animazzjoni għal kontenut viżwali aktar ġeneriku. 

Barra minn hekk, approċċi konvenzjonali ta 'l-animazzjoni ta' l-immaġini jikkonċentraw primarjament fuq is-sintetizzar ta 'movimenti oxxillanti u stokastiċi, jew fuq customizing għal kategoriji ta' oġġetti speċifiċi. Madankollu, difett notevoli fl-approċċ huwa s-suppożizzjonijiet qawwija li huma imposti fuq dawn il-metodi li fl-aħħar mill-aħħar jillimitaw l-applikabilità tagħhom speċjalment f'xenarji ġenerali bħall-animazzjoni tal-immaġni ta 'dominju miftuħ. Matul l-aħħar ftit snin, Mudelli T2V jew Test to Video wrew suċċess notevoli fil-ġenerazzjoni ta 'vidjows ħaj u diversi bl-użu ta' prompts testwali, u din id-dimostrazzjoni ta 'mudelli T2V hija dik li tifforma l-pedament għall-qafas DynamiCrafter. 

Il-qafas DynamiCrafter huwa tentattiv biex jingħelbu l-limitazzjonijiet attwali tal-mudelli tal-animazzjoni tal-immaġni u jespandu l-applikabilità tagħhom għal xenarji ġeneriċi li jinvolvu immaġini tad-dinja miftuħa. Il-qafas DynamiCrafter jipprova jissintetizza kontenut dinamiku għal immaġini ta 'dominju miftuħ, u jikkonvertihom f'vidjows animati. L-idea ewlenija wara DynamiCrafter hija li tinkorpora l-immaġni bħala gwida fil-proċess ġenerattiv f'tentattiv biex tuża l-mozzjoni qabel it-test diġà eżistenti għal mudelli ta 'diffużjoni tal-vidjo. Għal immaġini partikolari, il-mudell DynamiCrafter l-ewwel jimplimenta transformer tal-mistoqsija li jipproġetta l-immaġni fi spazju ta 'rappreżentazzjoni tal-kuntest għani allinjat mat-test, li jiffaċilita l-mudell tal-vidjo biex jiddiġerixxi l-kontenut tal-immaġni b'mod kompatibbli. Madankollu, il-mudell DynamiCrafter għadu jissielet biex jippreserva xi dettalji viżwali fil-vidjows li jirriżultaw, problema li l-mudell DynamiCrafter jegħleb billi jitma 'l-immaġni sħiħa lill-mudell tad-diffużjoni billi jikkonkatena l-immaġni mal-ħsejjes inizjali, għalhekk jissupplimenta l-mudell b'immaġni aktar preċiża. informazzjoni. 

Dan l-artikolu għandu l-għan li jkopri l-qafas ta 'DynamiCrafter fil-fond, u nesploraw il-mekkaniżmu, il-metodoloġija, l-arkitettura tal-qafas flimkien mat-tqabbil tiegħu ma' oqfsa ta 'immaġni u ġenerazzjoni tal-vidjo l-aktar avvanzata. Mela ejja nibdew. 

DynamiCrafter : Animazzjoni ta' Stampi ta' Dominju Miftuħ

L-animazzjoni ta' immaġni wieqfa ħafna drabi toffri esperjenza viżiva ta' involviment għall-udjenza peress li tidher li tagħti l-ħajja lill-immaġni fissa. Matul is-snin, bosta oqfsa esploraw diversi metodi ta’ animazzjoni ta’ stampi fissi. L-oqfsa tal-animazzjoni inizjali implimentaw approċċi bbażati fuq simulazzjoni fiżika li ffukaw fuq is-simulazzjoni tal-moviment ta 'oġġetti speċifiċi. Madankollu, minħabba l-immudellar indipendenti ta 'kull kategorija ta' oġġetti, dawn l-approċċi la kienu effettivi u lanqas ma kellhom ġeneralizzabbiltà. Biex jiġu replikati mozzjonijiet aktar realistiċi, ħarġu metodi bbażati fuq ir-referenza li ttrasferixxew informazzjoni dwar il-moviment jew l-apparenza minn sinjali ta 'referenza bħal vidjows għall-proċess ta' sinteżi. Għalkemm l-approċċi bbażati fuq referenza taw riżultati aħjar b'koerenza temporali aħjar meta mqabbla ma 'approċċi bbażati fuq is-simulazzjoni, kellhom bżonn gwida addizzjonali li llimitat l-applikazzjonijiet prattiċi tagħhom. 

F'dawn l-aħħar snin, il-maġġoranza tal-oqfsa ta 'animazzjoni jiffokaw primarjament fuq l-animazzjoni ta' xeni naturali b'movimenti stokastiċi, speċifiċi għad-dominju jew oscillanti. Għalkemm l-approċċ implimentat minn dawn l-oqfsa jaħdem sa ċertu punt, ir-riżultati li jiġġeneraw dawn l-oqfsa mhumiex sodisfaċenti, bi spazju sinifikanti għal titjib. Ir-riżultati notevoli miksuba minn mudelli ġenerattivi Test to Video fl-aħħar ftit snin ispiraw lill-iżviluppaturi tal-qafas DynamiCrafter biex jisfruttaw il-kapaċitajiet ġenerattivi qawwija ta 'mudelli Test to Video għall-animazzjoni tal-immaġni. 

Il-pedament ewlieni tal-qafas DynamiCrafter huwa li tinkorpora immaġni kundizzjonali f'tentattiv biex tirregola l-proċess tal-ġenerazzjoni tal-vidjow Mudelli ta' diffużjoni Test to Video. Madankollu, l-għan aħħari tal-animazzjoni tal-immaġni għadu mhux trivjali peress li l-animazzjoni tal-immaġni teħtieġ il-preservazzjoni tad-dettalji kif ukoll il-fehim ta 'kuntesti viżwali essenzjali għall-ħolqien ta' dinamika. Madankollu, mudelli ta 'diffużjoni tal-vidjo kontrollabbli multi-modali bħal VideoComposer ippruvaw jippermettu l-ġenerazzjoni tal-vidjo bi gwida viżwali minn immaġni. Madankollu, dawn l-approċċi mhumiex adattati għall-animazzjoni tal-immaġni peress li jew jirriżultaw f'bidliet temporali f'daqqa jew konformità viżwali baxxa mal-immaġni tal-input minħabba l-mekkaniżmi ta 'injezzjoni tal-immaġni inqas komprensivi tagħhom. Biex jiġġieled dan l-ostaklu, il-qafas DyaniCrafter jipproponi approċċ ta 'injezzjoni ta' fluss doppju, li jikkonsisti minn gwida viżwali dettall, u rappreżentazzjoni tal-kuntest allinjata mat-test. L-approċċ ta 'injezzjoni b'kurrent doppju jippermetti lill-qafas DynamiCrafter biex jiżgura li l-mudell tad-diffużjoni tal-vidjo jissintetizza kontenut dinamiku ppreservat fid-dettall b'mod kumplimentari. 

Għal immaġni partikolari, il-qafas DynamiCrafter l-ewwel jipproġetta l-immaġni fl-ispazju ta 'rappreżentazzjoni tal-kuntest allinjat mat-test billi juża netwerk ta' tagħlim tal-kuntest iddisinjat apposta. Biex inkun aktar speċifiku, l-ispazju ta 'rappreżentazzjoni tal-kuntest jikkonsisti minn transformer ta' mistoqsija li jista 'jitgħallem biex jippromwovi aktar l-adattament tiegħu għall-mudelli ta' diffużjoni, u encoder tal-immaġni CLIP imħarreġ minn qabel biex jiġu estratti karatteristiċi tal-immaġni allinjati mat-test. Il-mudell imbagħad juża l-karatteristiċi tal-kuntest għani billi juża saffi ta 'attenzjoni inkroċjata, u l-mudell juża fużjoni gated biex jgħaqqad dawn il-karatteristiċi tat-test mas-saffi ta' attenzjoni inkroċjata. Madankollu, dan l-approċċ jinnegozja r-rappreżentazzjonijiet tal-kuntest mitgħallma b'dettalji viżwali allinjati mat-test li jiffaċilitaw il-fehim semantiku tal-kuntest tal-immaġni li jippermettu li tiġi sintetizzata dinamika raġonevoli u vivaċi. Barra minn hekk, f'tentattiv biex jissupplimenta dettalji viżwali addizzjonali, il-qafas jikkonkatena l-immaġni sħiħa mal-istorbju inizjali mal-mudell tad-diffużjoni. Bħala riżultat, l-approċċ ta 'injezzjoni doppja implimentat mill-qafas DynamiCrafter jiggarantixxi konformità viżwali kif ukoll kontenut dinamiku plawżibbli għall-immaġni tal-input. 

Nimxu 'l quddiem, mudelli ta' diffużjoni jew DMs wrew prestazzjoni notevoli u qawwa ġenerattiva fil-ġenerazzjoni T2I jew Test to Image. Biex tirreplika s-suċċess tal-mudelli T2I għall-ġenerazzjoni tal-vidjo, huma proposti VDM jew Mudelli tad-Diffużjoni tal-Vidjo li juża arkitettura U-New fatturizzata fl-ispazju-ħin fl-ispazju tal-pixels biex timmudella vidjows b'riżoluzzjoni baxxa. It-trasferiment tat-tagħlim tal-oqfsa T2I għal oqfsa T2V se jgħin fit-tnaqqis tal-ispejjeż tat-taħriġ. Għalkemm il-VDM jew il-Mudelli ta' Diffużjoni tal-Vidjo għandhom il-kapaċità li jiġġeneraw vidjows ta' kwalità għolja, jaċċettaw biss prompts ta' test bħala l-unika gwida semantika li tista' ma tirriflettix l-intenzjonijiet veri ta' utent jew tista' tkun vaga. Madankollu, ir-riżultati tal-maġġoranza tal-mudelli VDM rarament jaderixxu mal-immaġni tal-input u jbatu mill-kwistjoni ta 'varjazzjoni temporali mhux realistika. L-approċċ DynamiCrafter huwa mibni fuq Mudelli ta' Diffużjoni tal-Vidjo kkondizzjonati bit-test li jisfruttaw id-dinamika rikka tagħhom qabel biex janimaw immaġini ta' dominju miftuħ. Jagħmel dan billi jinkorpora disinji mfassla apposta għal fehim semantiku aħjar u konformità mal-immaġni tal-input. 

DynamiCrafter : Metodu u Arkitettura

Għal immaġni fissa partikolari, il-qafas DyanmiCrafter jipprova janima l- immaġini għal vidjo jiġifieri tipproduċi video clip qasir. Il-filmat jiret il-kontenut viżwali mill-immaġni, u juri dinamika naturali. Madankollu, hemm possibbiltà li l-immaġni tista 'tidher fil-post arbitrarju tas-sekwenza tal-qafas li tirriżulta. Id-dehra ta 'immaġni f'post arbitrarju hija tip speċjali ta' sfida osservata f'ħidmiet ta 'ġenerazzjoni ta' vidjo kkondizzjonati bl-immaġni b'rekwiżiti ta 'konformità viżwali għolja. Il-qafas DynamiCrafter jegħleb din l-isfida billi juża l-preċedenti ġenerattivi ta 'mudelli ta' diffużjoni tal-vidjow imħarrġa minn qabel. 

Dinamika tal-Immaġini minn Video Diffusion Qabel

Normalment, mudelli ta 'diffużjoni ta' test ta 'dominju miftuħ għal vidjo huma magħrufa li juru kontenut viżwali dinamiku mmudellat kondizzjonament fuq deskrizzjonijiet tat-test. Biex janimaw immaġni wieqfa bi priors ġenerattivi Test to Video, l-oqfsa għandhom l-ewwel jinjettaw l-informazzjoni viżwali fil-proċess tal-ġenerazzjoni tal-vidjow b'mod komprensiv. Barra minn hekk, għal sinteżi dinamika, il-mudell T2V għandu jiddiġerixxi l-immaġni għall-fehim tal-kuntest, filwaqt li għandu jkun kapaċi wkoll jippreserva d-dettalji viżwali fil-vidjows iġġenerati. 

Rappreżentazzjoni tal-Kuntest Allinjat tat-Test

Biex jiggwida l-ġenerazzjoni tal-vidjow bil-kuntest tal-immaġni, il-qafas DynamiCrafter jipprova jipproġetta l-immaġni fi spazju tal-inkorporazzjoni allinjat li jippermetti lill-mudell tal-vidjo juża l-informazzjoni tal-immaġni b'mod kompatibbli. Wara dan, il-qafas DynamiCrafter juża l-encoder tal-immaġini biex jiġi estratt karatteristiċi tal-immaġni mill-immaġini tal-input peress li l-inkorporazzjonijiet tat-test huma ġġenerati bl-użu ta 'encoder tat-test CLIP imħarreġ minn qabel. Issa, għalkemm it-tokens semantiċi globali mill-encoder tal-immaġni CLIP huma allinjati mal-captions tal-immaġni, primarjament jirrappreżenta l-kontenut viżwali fil-livell semantiku, u b'hekk jonqos milli jaqbad il-firxa sħiħa tal-immaġni. Il-qafas DynamiCrafter jimplimenta tokens viżwali sħaħ mill-aħħar saff tal-encoder CLIP biex jiġi estratt informazzjoni aktar kompleta peress li dawn it-tokens viżwali juru fedeltà għolja f'ħidmiet ta 'ġenerazzjoni ta' immaġini kondizzjonali. Barra minn hekk, il-qafas juża inkorporazzjonijiet ta 'kuntest u test biex jinteraġixxi mal-karatteristiċi intermedji U-Net billi juża s-saffi ta' attenzjoni doppja. Id-disinn ta 'dan il-komponent jiffaċilita l-abbiltà tal-mudell li jassorbi l-kundizzjonijiet tal-immaġni b'mod dipendenti fuq is-saff. Barra minn hekk, peress li s-saffi intermedji tal-arkitettura U-Net jassoċjaw aktar ma 'pożi jew forom ta' oġġetti, huwa mistenni li l-karatteristiċi tal-immaġni jinfluwenzaw id-dehra tal-vidjows b'mod predominanti speċjalment peress li s-saffi b'żewġt itruf huma aktar marbuta mad-dehra. 

Gwida Dettall Viżwali

Il-qafas DyanmiCrafter juża rappreżentazzjoni tal-kuntest b'ħafna informazzjoni li tippermetti li l-mudell tad-diffużjoni tal-vidjo fl-arkitettura tiegħu jipproduċi vidjows li jixbħu mill-qrib l-immaġni tal-input. Madankollu, kif muri fl-immaġini li ġejja, il-kontenut iġġenerat jista’ juri xi diskrepanzi minħabba l-kapaċità limitata tal-encoder CLIP imħarreġ minn qabel biex jippreserva kompletament l-informazzjoni tal-input, peress li ġie ddisinjat biex jallinja l-lingwa u l-karatteristiċi viżwali. 

Biex tittejjeb il-konformità viżwali, il-qafas DynamiCrafter jipproponi li jipprovdi lill-mudell tad-diffużjoni tal-vidjo b'dettalji viżwali addizzjonali estratti mill-immaġni tal-input. Biex jinkiseb dan, il-mudell DyanmiCrafter jgħaqqad l-immaġni kondizzjonali b'ħsejjes inizjali għal kull qafas u jagħtihom lill-komponent U-Net li jneħħi l-ħoss bħala gwida. 

Paradigma tat-Taħriġ

Il-qafas DynamiCrafter jintegra l-immaġni kundizzjonali permezz ta 'żewġ flussi kumplimentari li għandhom rwol sinifikanti fil-gwida fid-dettall u l-kontroll tal-kuntest. Biex tiffaċilita l-istess, il-mudell DynamiCrafter jimpjega proċess ta 'taħriġ fi tliet stadji

  1. Fl-ewwel pass, il-mudell iħarreġ in-netwerk tar-rappreżentazzjoni tal-kuntest tal-immaġni. 
  2. Fit-tieni pass, il-mudell jadatta n-netwerk tar-rappreżentazzjoni tal-kuntest tal-immaġni għall-mudell Test to Video. 
  3. Fit-tielet u l-aħħar pass, il-mudell jirfina n-netwerk tar-rappreżentazzjoni tal-kuntest tal-immaġni flimkien mal-komponent tal-Gwida tad-Dettal Viżwali. 

Biex tadatta l-informazzjoni tal-immaġini għall-kompatibilità mal-mudell Test-to-Video (T2V), il-qafas DynamiCrafter jissuġġerixxi l-iżvilupp ta 'netwerk ta' rappreżentazzjoni tal-kuntest, P, iddisinjat biex jaqbad dettalji viżwali allinjati mat-test mill-immaġni mogħtija. Filwaqt li jirrikonoxxu li P jeħtieġ ħafna passi ta 'ottimizzazzjoni għall-konverġenza, l-approċċ tal-qafas jinvolvi inizjalment it-taħriġ tiegħu bl-użu ta' mudell aktar sempliċi Test-to-Image (T2I). Din l-istrateġija tippermetti li n-netwerk ta 'rappreżentazzjoni tal-kuntest jikkonċentra fuq it-tagħlim dwar il-kuntest tal-immaġni qabel jintegrah mal-mudell T2V permezz ta' taħriġ konġunt ma 'P u s-saffi spazjali, għall-kuntrarju tas-saffi temporali, tal-mudell T2V. 

Biex tiġi żgurata l-kompatibilità T2V, il-qafas DyanmiCrafter jingħaqad l-immaġni tal-input ma 'storbju għal kull qafas, jipproċedi biex jirfina kemm P kif ukoll is-saffi spazjali tal-Mudell ta' Diskriminazzjoni Viżwali (VDM). Dan il-metodu jintgħażel biex tinżamm l-integrità tal-għarfien temporali eżistenti tal-mudell T2V mingħajr l-effetti ħżiena ta 'għaqda ta' immaġni densa, li tista 'tikkomprometti l-prestazzjoni u tiddiverja mill-għan primarju tagħna. Barra minn hekk, il-qafas juża strateġija li tagħżel b'mod każwali frejm tal-vidjo bħala l-kundizzjoni tal-immaġni biex jinkisbu żewġ għanijiet: (i) biex jiġi evitat li n-netwerk jiżviluppa mudell prevedibbli li jassoċja direttament l-immaġni magħquda ma' post speċifiku tal-qafas, u (ii) biex tinkoraġġixxi rappreżentazzjoni tal-kuntest aktar adattabbli billi tipprevjeni l-provvista ta' informazzjoni riġida żżejjed għal kwalunkwe qafas partikolari. 

DynamiCrafter: Esperimenti u Riżultati

Il-qafas DynamiCrafter l-ewwel iħarreġ in-netwerk ta 'rappreżentazzjoni tal-kuntest u s-saffi ta' attenzjoni inkroċjata tal-immaġni fuq Diffużjoni Stabbli. Il-qafas imbagħad jissostitwixxi l- Diffużjoni Stabbli komponent ma' VideoCrafter u jtejjeb aktar in-netwerk ta' rappreżentazzjoni tal-kuntest u s-saffi spazjali għall-adattament, u b'konkatenazzjoni tal-immaġni. Fl-inferenza, il-qafas jadotta l-kampjun DDIM bi gwida mingħajr klassifikatur b'ħafna kundizzjonijiet. Barra minn hekk, biex tiġi evalwata l-koerenza temporali u l-kwalità tal-vidjows sintetizzati kemm fl-oqsma temporali kif ukoll spazjali, il-qafas jirrapporta FVD jew Frechet Video Distance, kif ukoll KVD jew Kernel Video Distance, u jevalwa l-prestazzjoni zero-shot fuq il-metodi kollha tal-parametri referenzjarji MSR-VTT u UCF-101. Biex tinvestiga l-konformità perċettiv bejn ir-riżultati ġġenerati u l-immaġni tal-input, il-qafas jintroduċi PIC jew Konformità tal-Input Perċettiv, u jadotta l-metrika tad-distanza perċettiva DreamSim bħala l-funzjoni tad-distanza. 

Il-figura li ġejja turi t-tqabbil viżwali tal-kontenut animat iġġenerat bi stili u kontenut differenti. 

Kif jista 'jiġi osservat, fost il-metodi differenti kollha, il-qafas DynamiCrafter jaderixxi sew mal-kundizzjoni tal-immaġini tal-input, u jiġġenera vidjows koerenti temporalment. It-tabella li ġejja fiha l-istatistika minn studju tal-utent b’49 parteċipant tar-rata ta’ preferenza għall-Koerenza Temporali (TC), u l-Kwalità tal-Moviment (MC) flimkien mar-rata tal-għażla għall-konformità viżwali mal-immaġni tal-input. (IC). Kif jista 'jiġi osservat, il-qafas DynamiCrafter huwa kapaċi jegħleb il-metodi eżistenti b'marġni konsiderevoli. 

Il-figura li ġejja turi r-riżultati miksuba bl-użu tal-metodu ta 'injezzjoni b'kurrent doppju u l-paradigma tat-taħriġ. 

Ħsibijiet Finali

F'dan l-artikolu, tkellimna dwar DynamiCrafter, tentattiv biex negħlbu l-limitazzjonijiet attwali ta 'mudelli ta' animazzjoni ta 'immaġni u tespandi l-applikabilità tagħhom għal xenarji ġeneriċi li jinvolvu immaġini tad-dinja miftuħa. Il-qafas DynamiCrafter jipprova jissintetizza kontenut dinamiku għal immaġini ta 'dominju miftuħ, u jikkonvertihom f'vidjows animati. L-idea ewlenija wara DynamiCrafter hija li tinkorpora l-immaġni bħala gwida fil-proċess ġenerattiv f'tentattiv biex tuża l-mozzjoni qabel it-test diġà eżistenti għal mudelli ta 'diffużjoni tal-vidjo. Għal immaġini partikolari, il-mudell DynamiCrafter l-ewwel jimplimenta transformer tal-mistoqsija li jipproġetta l-immaġni fi spazju ta 'rappreżentazzjoni tal-kuntest għani allinjat mat-test, li jiffaċilita l-mudell tal-vidjo biex jiddiġerixxi l-kontenut tal-immaġni b'mod kompatibbli. Madankollu, il-mudell DynamiCrafter għadu jissielet biex jippreserva xi dettalji viżwali fil-vidjows li jirriżultaw, problema li l-mudell DynamiCrafter jegħleb billi jitma 'l-immaġni sħiħa lill-mudell tad-diffużjoni billi jikkonkatena l-immaġni mal-ħsejjes inizjali, għalhekk jissupplimenta l-mudell b'immaġni aktar preċiża. informazzjoni. 

“Inġinier b’professjoni, kittieb b’qalbu”. Kunal huwa kittieb tekniku b'imħabba u fehim profondi tal-AI u l-ML, iddedikat biex jissimplifika kunċetti kumplessi f'dawn l-oqsma permezz tad-dokumentazzjoni involviment u informattiva tiegħu.