cung DynamiCrafter: Animimi i imazheve me domen të hapur me Priors Diffusion Video - Unite.AI
Lidhu me ne

Inteligjenca artificiale

DynamiCrafter: Animimi i imazheve me domen të hapur me paraprakisht të përhapjes së videove

mm

Publikuar

 on

DynamiCrafter: Animimi i imazheve me domen të hapur me paraprakisht të përhapjes së videove

Vizioni i kompjuterit është një nga fushat më emocionuese dhe më të hulumtuara brenda komunitetit të AI sot, dhe pavarësisht përmirësimit të shpejtë të modeleve të vizionit kompjuterik, një sfidë e gjatë që ende shqetëson zhvilluesit është animimi i imazheve. Edhe sot, kornizat e animacionit të imazheve luftojnë për të kthyer imazhet e palëvizshme në homologët e tyre përkatës të videove që shfaqin dinamikë natyrore duke ruajtur pamjen origjinale të imazheve. Tradicionalisht, kornizat e animacionit të imazheve fokusohen kryesisht në animimin e skenave natyrore me lëvizje specifike për domenin, si lëvizjet e flokëve të njeriut ose të trupit, ose dinamika stokastike si lëngjet dhe retë. Megjithëse kjo qasje funksionon në një masë të caktuar, ajo kufizon zbatueshmërinë e këtyre kornizave të animacionit në përmbajtje vizuale më të përgjithshme. 

Për më tepër, qasjet konvencionale të animimit të imazheve përqendrohen kryesisht në sintetizimin e lëvizjeve lëkundëse dhe stokastike, ose në përshtatjen për kategori të veçanta objektesh. Sidoqoftë, një e metë e dukshme me qasjen janë supozimet e forta që imponohen mbi këto metoda që përfundimisht kufizon zbatueshmërinë e tyre veçanërisht në skenarët e përgjithshëm si animimi i imazhit me domen të hapur. Gjatë viteve të fundit, Modelet T2V ose Text to Video kanë demonstruar sukses të jashtëzakonshëm në gjenerimin e videove të gjalla dhe të larmishme duke përdorur udhëzime tekstuale, dhe ky demonstrim i modeleve T2V është ajo që formon themelin për kornizën DynamiCrafter. 

Korniza DynamiCrafter është një përpjekje për të kapërcyer kufizimet aktuale të modeleve të animimit të imazheve dhe për të zgjeruar zbatueshmërinë e tyre në skenarë gjenerikë që përfshijnë imazhe të botës së hapur. Korniza DynamiCrafter përpiqet të sintetizojë përmbajtje dinamike për imazhe me domen të hapur, duke i kthyer ato në video të animuara. Ideja kryesore pas DynamiCrafter është të përfshijë imazhin si udhëzues në procesin gjenerues në një përpjekje për të përdorur lëvizjen para të tekstit ekzistues në modelet e përhapjes së videos. Për një imazh të caktuar, modeli DynamiCrafter fillimisht zbaton një transformator pyetës që e projekton imazhin në një hapësirë ​​të përfaqësimit të kontekstit të pasur të rreshtuar me tekst, duke lehtësuar modelin e videos për të tretur përmbajtjen e imazhit në një mënyrë të pajtueshme. Sidoqoftë, modeli DynamiCrafter ende përpiqet të ruajë disa detaje vizuale në videot rezultuese, një problem që modeli DynamiCrafter e kapërcen duke ushqyer imazhin e plotë me modelin e difuzionit duke e lidhur imazhin me zhurmat fillestare, duke e plotësuar modelin me imazh më të saktë. informacion. 

Ky artikull synon të mbulojë në thellësi kornizën DynamiCrafter, dhe ne eksplorojmë mekanizmin, metodologjinë, arkitekturën e kornizës së bashku me krahasimin e tij me kornizat më moderne të imazhit dhe videove. Pra, le të fillojmë. 

DynamiCrafter: Animacioni i imazheve me domen të hapur

Animimi i një imazhi të palëvizshëm shpesh ofron një përvojë tërheqëse vizuale për audiencën pasi duket se i jep jetë imazhit të palëvizshëm. Gjatë viteve, korniza të shumta kanë eksploruar metoda të ndryshme të animimit të imazheve statike. Kornizat fillestare të animacionit zbatuan qasje të bazuara në simulime fizike që u fokusuan në simulimin e lëvizjes së objekteve specifike. Megjithatë, për shkak të modelimit të pavarur të secilës kategori objektesh, këto qasje nuk ishin as efektive dhe as nuk kishin përgjithësim. Për të përsëritur lëvizje më realiste, u shfaqën metoda të bazuara në referencë që transferuan informacionin e lëvizjes ose pamjes nga sinjalet e referencës si videot në procesin e sintezës. Megjithëse qasjet e bazuara në referencë dhanë rezultate më të mira me koherencë më të mirë kohore në krahasim me qasjet e bazuara në simulim, ato kishin nevojë për udhëzime shtesë që kufizonin aplikimet e tyre praktike. 

Në vitet e fundit, shumica e kornizave të animacionit fokusohen kryesisht në animimin e skenave natyrore me lëvizje stokastike, specifike për domenin ose lëkundjet. Megjithëse qasja e zbatuar nga këto korniza funksionon në një masë të caktuar, rezultatet që gjenerojnë këto korniza nuk janë të kënaqshme, me hapësirë ​​të konsiderueshme për përmirësim. Rezultatet e jashtëzakonshme të arritura nga modelet gjeneruese "Text to Video" në vitet e fundit kanë frymëzuar zhvilluesit e kornizës DynamiCrafter për të shfrytëzuar aftësitë e fuqishme gjeneruese të modeleve "Text to Video" për animimin e imazhit. 

Baza kryesore e kornizës DynamiCrafter është të përfshijë një imazh të kushtëzuar në një përpjekje për të qeverisur procesin e gjenerimit të videove të Modelet e përhapjes së tekstit në video. Sidoqoftë, qëllimi përfundimtar i animimit të imazhit mbetet ende jo i parëndësishëm pasi animacioni i imazhit kërkon ruajtjen e detajeve, si dhe kuptimin e konteksteve vizuale thelbësore për krijimin e dinamikës. Sidoqoftë, modelet e difuzionit të videove të kontrollueshme shumë-modale si VideoComposer janë përpjekur të mundësojnë gjenerimin e videos me udhëzim vizual nga një imazh. Megjithatë, këto qasje nuk janë të përshtatshme për animimin e imazhit pasi ato rezultojnë ose në ndryshime të papritura kohore ose në përputhje të ulët vizuale me imazhin e hyrjes për shkak të mekanizmave të tyre më pak gjithëpërfshirës të injektimit të imazhit. Për t'iu kundërvënë kësaj pengese, korniza DyaniCrafter propozon një qasje të injektimit me rrjedhë të dyfishtë, që përbëhet nga udhëzime vizuale të detajeve dhe përfaqësim i kontekstit të përafruar me tekst. Qasja e injektimit me transmetim të dyfishtë lejon kuadrin DynamiCrafter të sigurojë që modeli i përhapjes së videos sintetizon përmbajtjen dinamike të ruajtur në detaje në një mënyrë plotësuese. 

Për një imazh të caktuar, korniza DynamiCrafter fillimisht e projekton imazhin në hapësirën e përfaqësimit të kontekstit të rreshtuar me tekst duke përdorur një rrjet të krijuar posaçërisht për mësimin e kontekstit. Për të qenë më specifik, hapësira e përfaqësimit të kontekstit përbëhet nga një transformator pyetësor i mësuar për të promovuar më tej përshtatjen e tij me modelet e difuzionit, dhe një kodues imazhi CLIP të trajnuar paraprakisht për të nxjerrë veçoritë e imazhit të përafruar me tekst. Më pas, modeli përdor veçoritë e pasura të kontekstit duke përdorur shtresat e vëmendjes së kryqëzuar, dhe modeli përdor bashkimin me porta për të kombinuar këto veçori të tekstit me shtresat e vëmendjes së kryqëzuar. Megjithatë, kjo qasje shkëmben përfaqësimet e kontekstit të mësuar me detaje vizuale të përafruara me tekst që lehtëson kuptimin semantik të kontekstit të imazhit duke lejuar sintetizimin e dinamikave të arsyeshme dhe të gjalla. Për më tepër, në një përpjekje për të plotësuar detaje shtesë vizuale, korniza bashkon imazhin e plotë me zhurmën fillestare në modelin e difuzionit. Si rezultat, qasja me injeksion të dyfishtë e zbatuar nga kuadri DynamiCrafter garanton konformitet vizuale, si dhe përmbajtje dinamike të besueshme për imazhin e hyrjes. 

Duke ecur përpara, modelet e difuzionit ose DM-të kanë demonstruar performancë të jashtëzakonshme dhe aftësi gjeneruese në gjenerimin e T2I ose Text to Image. Për të përsëritur suksesin e modeleve T2I në gjenerimin e videove, propozohen modele VDM ose Video Difuzion që përdorin një arkitekturë U-New të faktorizuar në hapësirë-kohë në hapësirën e pikselëve për të modeluar video me rezolucion të ulët. Transferimi i mësimeve të kornizave T2I në kornizat T2V do të ndihmojë në uljen e kostove të trajnimit. Megjithëse modelet VDM ose Video Diffusion kanë aftësinë për të gjeneruar video me cilësi të lartë, ato pranojnë vetëm kërkesat e tekstit si udhëzimin e vetëm semantik që mund të mos pasqyrojë qëllimet e vërteta të një përdoruesi ose mund të jetë i paqartë. Megjithatë, rezultatet e shumicës së modeleve VDM rrallë i përmbahen imazhit të hyrjes dhe vuan nga problemi joreal i ndryshimit të përkohshëm. Qasja DynamiCrafter është ndërtuar mbi Modelet e Difuzionit të Videove të kushtëzuara me tekst që përdorin paraprakisht dinamikën e tyre të pasur për animimin e imazheve me domen të hapur. Ai e bën këtë duke përfshirë dizajne të përshtatura për një kuptim më të mirë semantik dhe përputhshmëri me imazhin e hyrjes. 

DynamiCrafter: Metoda dhe Arkitektura

Për një imazh të caktuar të palëvizshëm, korniza DyanmiCrafter përpiqet të animojë atë imazh në video dmth të prodhojë një videoklip të shkurtër. Videoklipi trashëgon përmbajtjen vizuale nga imazhi dhe shfaq dinamikë natyrore. Megjithatë, ekziston mundësia që imazhi të shfaqet në vendndodhjen arbitrare të sekuencës së kornizës që rezulton. Shfaqja e një imazhi në një vendndodhje arbitrare është një lloj sfide e veçantë që vërehet në detyrat e gjenerimit të videove të kushtëzuara me imazhe me kërkesa të larta konformiteti vizuale. Korniza DynamiCrafter e kapërcen këtë sfidë duke përdorur përparësitë gjeneruese të modeleve të difuzionit të videove të trajnuara paraprakisht. 

Dinamika e imazhit nga Video Diffusion Prior

Zakonisht, modelet e përhapjes së tekstit me domen të hapur në video dihet se shfaqin kushte dinamike të modeluara të përmbajtjes vizuale në përshkrimet e tekstit. Për të animuar një imazh të palëvizshëm me prioritete gjeneruese nga teksti në video, kornizat duhet së pari të injektojnë informacionin vizual në procesin e gjenerimit të videos në një mënyrë gjithëpërfshirëse. Për më tepër, për sintezë dinamike, modeli T2V duhet të tret imazhin për të kuptuar kontekstin, ndërkohë që duhet të jetë në gjendje të ruajë detajet vizuale në videot e krijuara. 

Përfaqësimi i kontekstit të përafruar me tekst

Për të udhëhequr gjenerimin e videove me kontekstin e imazhit, korniza DynamiCrafter përpiqet të projektojë imazhin në një hapësirë ​​të përshtatur të ngulitjes duke lejuar modelin e videos të përdorë informacionin e imazhit në një mënyrë të përputhshme. Pas kësaj, korniza DynamiCrafter përdor koduesin e imazhit për të nxjerrë veçoritë e imazhit nga imazhi i hyrjes meqënëse futjet e tekstit krijohen duke përdorur një kodues teksti CLIP të trajnuar paraprakisht. Tani, edhe pse shenjat globale semantike nga koduesi i imazhit CLIP janë në linjë me titrat e imazhit, ai përfaqëson kryesisht përmbajtjen vizuale në nivelin semantik, duke dështuar kështu të kapë shtrirjen e plotë të imazhit. Korniza DynamiCrafter zbaton shenja të plota vizuale nga shtresa e fundit e koduesit CLIP për të nxjerrë informacione më të plota pasi këto argumente vizuale demonstrojnë besnikëri të lartë në detyrat e krijimit të imazhit të kushtëzuar. Për më tepër, korniza përdor ngulitje të kontekstit dhe tekstit për të bashkëvepruar me veçoritë e ndërmjetme U-Net duke përdorur shtresat e dyfishta të vëmendjes së kryqëzuar. Dizajni i këtij komponenti lehtëson aftësinë e modelit për të absorbuar kushtet e imazhit në një mënyrë të varur nga shtresa. Për më tepër, duke qenë se shtresat e ndërmjetme të arkitekturës U-Net lidhen më shumë me pozat ose format e objekteve, pritet që veçoritë e imazhit të ndikojnë kryesisht në pamjen e videove, veçanërisht pasi shtresat me dy skaje janë më të lidhura me pamjen. 

Udhëzime për detaje vizuale

Korniza e DyanmiCrafter përdor një përfaqësim të pasur me informacion të kontekstit që lejon modelin e përhapjes së videos në arkitekturën e tij të prodhojë video që ngjajnë shumë me imazhin hyrës. Megjithatë, siç tregohet në imazhin e mëposhtëm, përmbajtja e krijuar mund të shfaqë disa mospërputhje për shkak të aftësisë së kufizuar të koduesit CLIP të trajnuar paraprakisht për të ruajtur plotësisht informacionin e hyrjes, pasi është krijuar për të përafruar gjuhën dhe veçoritë vizuale. 

Për të rritur konformitetin vizual, kuadri DynamiCrafter propozon t'i sigurojë modelit të difuzionit të videos me detaje vizuale shtesë të nxjerra nga imazhi i hyrjes. Për ta arritur këtë, modeli DyanmiCrafter bashkon imazhin e kushtëzuar me zhurmën fillestare për kornizë dhe i furnizon ato me komponentin denoisues U-Net si udhëzim. 

Paradigma e Trajnimit

Korniza DynamiCrafter integron imazhin e kushtëzuar përmes dy rrymave plotësuese që luajnë një rol të rëndësishëm në udhëzimin e detajeve dhe kontrollin e kontekstit. Për të lehtësuar të njëjtën gjë, modeli DynamiCrafter përdor një proces trajnimi me tre hapa

  1. Në hapin e parë, modeli trajnon rrjetin e përfaqësimit të kontekstit të imazhit. 
  2. Në hapin e dytë, modeli përshtat rrjetin e përfaqësimit të kontekstit të imazhit me modelin Tekst në Video. 
  3. Në hapin e tretë dhe të fundit, modeli rregullon rrjetin e përfaqësimit të kontekstit të imazhit së bashku me komponentin Visual Detail Guidance. 

Për të përshtatur informacionin e imazhit për pajtueshmërinë me modelin Text-to-Video (T2V), kuadri DynamiCrafter sugjeron zhvillimin e një rrjeti të përfaqësimit të kontekstit, P, i krijuar për të kapur detaje vizuale të rreshtuara me tekst nga imazhi i dhënë. Duke pranuar se P kërkon shumë hapa optimizimi për konvergjencë, qasja e kornizës përfshin fillimisht trajnimin e tij duke përdorur një model më të thjeshtë Text-to-Image (T2I). Kjo strategji lejon që rrjeti i përfaqësimit të kontekstit të përqendrohet në të mësuarit rreth kontekstit të imazhit përpara se ta integrojë atë me modelin T2V përmes trajnimit të përbashkët me P dhe shtresat hapësinore, në krahasim me shtresat kohore, të modelit T2V. 

Për të siguruar përputhshmërinë e T2V, korniza DyanmiCrafter bashkon imazhin e hyrjes me zhurmën për kornizë, duke vazhduar me rregullimin e hollësishëm të shtresave hapësinore si P ashtu edhe të Modelit të Diskriminimit Vizual (VDM). Kjo metodë është zgjedhur për të ruajtur integritetin e njohurive ekzistuese kohore të modelit T2V pa efektet negative të bashkimit të dendur të imazheve, të cilat mund të rrezikojnë performancën dhe të ndryshojnë nga qëllimi ynë kryesor. Për më tepër, korniza përdor një strategji të zgjedhjes së rastësishme të një kornize video si kusht imazhi për të arritur dy objektiva: (i) për të shmangur që rrjeti të zhvillojë një model të parashikueshëm që lidh drejtpërdrejt imazhin e shkrirë me një vendndodhje specifike të kornizës, dhe (ii) të inkurajoni një përfaqësim më të përshtatshëm të kontekstit duke parandaluar dhënien e informacionit tepër të ngurtë për çdo kornizë të veçantë. 

DynamiCrafter: Eksperimentet dhe rezultatet

Korniza DynamiCrafter së pari trajnon rrjetin e përfaqësimit të kontekstit dhe shtresat e ndërsjella të vëmendjes së imazhit në Difuzion të qëndrueshëm. Korniza më pas zëvendëson Difuzion i qëndrueshëm komponent me VideoCrafter dhe rregullon më tej rrjetin e përfaqësimit të kontekstit dhe shtresat hapësinore për përshtatje, dhe me lidhjen e imazhit. Si përfundim, korniza miraton mostrën DDIM me udhëzim pa klasifikues me shumë kushte. Për më tepër, për të vlerësuar koherencën kohore dhe cilësinë e videove të sintetizuara si në domenin kohor ashtu edhe në atë hapësinor, korniza raporton FVD ose Frechet Video Distance, si dhe KVD ose Kernel Video Distance, dhe vlerëson performancën e shkrepjes zero në të gjitha metodat. të standardeve MSR-VTT dhe UCF-101. Për të hetuar konformitetin perceptues midis rezultateve të gjeneruara dhe imazhit të hyrjes, korniza prezanton PIC ose Konformitetin e hyrjes perceptuale dhe miraton metrikën e distancës perceptuese DreamSim si funksion të distancës. 

Figura e mëposhtme tregon krahasimin vizual të përmbajtjes së krijuar të animuar me stile dhe përmbajtje të ndryshme. 

Siç mund të vërehet, midis të gjitha metodave të ndryshme, kuadri DynamiCrafter i përmbahet mirë gjendjes së imazhit të hyrjes dhe gjeneron video koherente. Tabela e mëposhtme përmban statistikat nga një studim përdoruesi me 49 pjesëmarrës të normës së preferencës për Koherencën Kohore (TC) dhe Cilësinë e Lëvizjes (MC) së bashku me shkallën e përzgjedhjes për konformitetin vizual me imazhin e hyrjes. (UNË C). Siç mund të vërehet, kuadri DynamiCrafter është në gjendje të tejkalojë metodat ekzistuese me një diferencë të konsiderueshme. 

Figura e mëposhtme tregon rezultatet e arritura duke përdorur metodën e injektimit të dyfishtë dhe paradigmën e trajnimit. 

Mendime përfundimtare

Në këtë artikull, ne kemi folur për DynamiCrafter, një përpjekje për të kapërcyer kufizimet aktuale të modeleve të animimit të imazheve dhe për të zgjeruar zbatueshmërinë e tyre në skenarë gjenerikë që përfshijnë imazhe të botës së hapur. Korniza DynamiCrafter përpiqet të sintetizojë përmbajtje dinamike për imazhe me domen të hapur, duke i kthyer ato në video të animuara. Ideja kryesore pas DynamiCrafter është të përfshijë imazhin si udhëzues në procesin gjenerues në një përpjekje për të përdorur lëvizjen para të tekstit ekzistues në modelet e përhapjes së videos. Për një imazh të caktuar, modeli DynamiCrafter fillimisht zbaton një transformator pyetës që e projekton imazhin në një hapësirë ​​të përfaqësimit të kontekstit të pasur të rreshtuar me tekst, duke lehtësuar modelin e videos për të tretur përmbajtjen e imazhit në një mënyrë të pajtueshme. Sidoqoftë, modeli DynamiCrafter ende përpiqet të ruajë disa detaje vizuale në videot rezultuese, një problem që modeli DynamiCrafter e kapërcen duke ushqyer imazhin e plotë me modelin e difuzionit duke e lidhur imazhin me zhurmat fillestare, duke e plotësuar modelin me imazh më të saktë. informacion. 

“Me profesion inxhinier, me zemër shkrimtar”. Kunal është një shkrimtar teknik me një dashuri dhe kuptim të thellë të AI dhe ML, i përkushtuar ndaj thjeshtimit të koncepteve komplekse në këto fusha përmes dokumentacionit të tij tërheqës dhe informues.