Îstîxbaratê ya sûnî

DynamiCrafter: Bi Pêşiyên Belavkirina Vîdyoyê re Wêneyên Domana Vekirî Anîmasyon bikin

Published

1 month ago

March 25, 2024

DynamiCrafter: Bi Pêşiyên Belavkirina Vîdyoyê re Wêneyên Domana Vekirî Anîmasyon bikin

Vîzyona Computer îro di nav civata AI-ê de yek ji wan qadên herî balkêş û xweş-lêkolînkirî ye, û tevî pêşkeftina bilez a modelên dîtina komputerê, dijwariyek demdirêj a ku hîn jî pêşdebiran tengas dike anîmasyona wêneyê ye. Tewra îro jî, çarçoveyên anîmasyonê yên wêneyê têkoşîn dikin ku wêneyên bêdeng veguherînin hevpîşeyên xwe yên vîdyoyê yên ku dînamîkên xwezayî destnîşan dikin û di heman demê de xuyangiya orjînal a wêneyan diparêzin. Bi kevneşopî, çarçoveyên anîmasyonê yên wêneyê di serî de balê dikişînin ser zindîkirina dîmenên xwezayî bi tevgerên domain-taybet ên mîna porê mirovan an tevgerên laş, an dînamîkên stokastîk ên mîna şil û ewran. Her çend ev nêzîkatî heya radeyekê kar dike, ew sepandina van çarçoveyên anîmasyonê ji naveroka dîtbarî ya gelemperî re sînordar dike.

Digel vê yekê, nêzîkatiyên anîmasyona wêneya kevneşopî di serî de li ser sentezkirina tevgerên oscil û stokastîk, an jî li ser xwerûkirina ji bo kategoriyên tiştên taybetî disekine. Lêbelê, kêmasiyek berbiçav a nêzîkbûnê texmînên bihêz e ku li ser van rêbazan têne ferz kirin ku di dawiyê de sepandina wan bi taybetî li ser senaryoyên gelemperî yên mîna anîmasyona wêneya-domîna vekirî sînordar dike. Di van çend salên borî de, Modelên T2V an Text to Video di çêkirina vîdyoyên zindî û cihêreng de bi karanîna pêşniyarên nivîsê serkeftinek berbiçav nîşan dane, û ev xwenîşandana modelên T2V ew e ku bingeha çarçoveya DynamiCrafter pêk tîne.

Çarçoveya DynamiCrafter hewldanek e ku meriv sînorên heyî yên modelên anîmasyona wêneyê derbas bike û sepandina wan li senaryoyên gelemperî yên ku wêneyên cîhana vekirî vedihewîne berfireh bike. Çarçoveya DynamiCrafter hewl dide ku naveroka dînamîkî ji bo wêneyên vekirî-domînayê hevrêz bike, wan veguherîne vîdyoyên anîmasyon. Fikra bingehîn a li pişt DynamiCrafter ev e ku wêneyê wekî rêberiyê di pêvajoya hilberînê de bihewîne di hewildanek ku tevgera pêşiya nivîsa heyî ya modelên belavkirina vîdyoyê bikar bîne. Ji bo wêneyek diyarkirî, modela DynamiCrafter pêşî veguherînerek pirsê pêk tîne ku wêneyê di nav cîhek nunertiya çarçoveyek dewlemend a bihevhatî ya nivîsê de proje dike, modela vîdyoyê hêsan dike ku naveroka wêneyê bi rengek lihevhatî bişewitîne. Lêbelê, modela DynamiCrafter hîn jî têdikoşe ku hin hûrguliyên dîtbarî di vîdyoyên encam de biparêze, pirsgirêkek ku modela DynamiCrafter bi guheztina wêneya tevahî bi modela belavbûnê re derbas dike û wêneyê bi dengên destpêkê ve girêdide, ji ber vê yekê modelê bi wêneyek rastîntir temam dike. agahî.

Armanca vê gotarê ew e ku çarçoveya DynamiCrafter bi kûrahî veşêre, û em li mekanîzma, metodolojî, mîmariya çarçoveyê digel berhevdana wê bi çarçoweya wêneya hunerî ya hunerî û çarçoveyên hilberîna vîdyoyê re vedikolin. Ji ber vê yekê em dest pê bikin.

DynamiCrafter: Anîmasyona Wêneyên Domaya Vekirî

Anîmkirina wêneyek bêdeng bi gelemperî ezmûnek dîtbarî ya balkêş ji temaşevanan re peyda dike ji ber ku wusa dixuye ku wêneyê bêdeng zindî dike. Bi salan, gelek çarçowe rêbazên cûrbecûr yên anîmasyonkirina wêneyên bêdeng lêkolîn kirine. Çarçoveyên anîmasyonê yên destpêkê nêzîkatiyên bingehîn ên simulasyona laşî ku balê dikişîne ser simulkirina tevgera tiştên taybetî pêk tîne. Lêbelê, ji ber modelkirina serbixwe ya her kategoriya objektê, ev nêzîkatî ne bi bandor bûn û ne jî xwedan gelemperîbûn bûn. Ji bo dubarekirina tevgerên rastîntir, rêbazên referans-based derketin holê ku agahdariya tevgerê an xuyangê ji nîşaneyên referansê yên mîna vîdyoyan vediguhezîne pêvajoya sentezkirinê. Her çend nêzîkatiyên bingehîn ên referansê encamên çêtir bi hevrêziya demkî ya çêtir peyda kirin dema ku li gorî nêzîkatiyên bingehîn ên simulasyonê têne berhev kirin, wan hewceyê rêbernameyek din ku sepanên wan ên pratîkî sînordar dike.

Di salên dawî de, piraniya çarçoveyên anîmasyonê di serî de balê dikişînin ser zindîkirina dîmenên xwezayî bi tevgerên stokastîk, domain-taybetî an oscillating. Her çend nêzîkatiya ku ji hêla van çarçoweyan ve hatî bicîh kirin heya radeyekê bixebite jî, encamên ku van çarçove çêdikin ne têrker in, digel cîhek girîng a pêşkeftinê. Encamên berbiçav ên ku di van çend salên borî de ji hêla modelên hilberîner ên Text to Vîdyoyê ve hatine bidestxistin, îlhama pêşdebirên çarçoveya DynamiCrafter kiriye ku ji kapasîteyên hilberîner ên hêzdar ên modelên Text to Video ji bo anîmasyona wêneyê bikar bînin.

Bingeha bingehîn a çarçoveya DynamiCrafter ev e ku meriv wêneyek şertî bihewîne di hewildanek ji bo birêvebirina pêvajoya hilberîna vîdyoyê ya Modelên belavkirina nivîsê ji vîdyoyê re. Lêbelê, armanca dawîn a anîmasyona wêneyê hîn jî ne-tewre dimîne ji ber ku anîmasyona wêneyê hewceyê parastina hûrguliyan û her weha têgihîştina çarçoveyên dîtbarî yên ku ji bo afirandina dînamîkên bingehîn in hewce dike. Lêbelê, modelên belavkirina vîdyoya kontrolkirî ya pir-modal ên mîna VideoComposer hewl dane ku hilberîna vîdyoyê bi rêberiya dîtbarî ji wêneyek çalak bikin. Lêbelê, ev nêzîkatî ji bo anîmasyona wêneyê ne maqûl in ji ber ku ew ji ber mekanîzmayên derzîlêdana wêneya wan a hindiktir berfereh dibin sedema guhertinên demkî yên nişkave an jî lihevhatina dîtbarî ya kêm a wêneya têketinê. Ji bo berevajîkirina vê astengiyê, çarçoveya DyaniCrafter nêzîkatiyek derzîlêdanê ya dualî, ku ji rêbernameya hûrguliya dîtbarî, û nûnertiya çarçoweya bihevrekirî ya nivîsê pêk tê, pêşniyar dike. Nêzîkatiya derzîlêdanê ya dualî dihêle ku çarçoveya DynamiCrafter piştrast bike ku modela belavkirina vîdyoyê naveroka dînamîkî ya hûrgulî-parastî bi rengekî temamker hevdeng dike.

Ji bo wêneyek diyarkirî, çarçoweya DynamiCrafter yekem wêneyê bi karanîna tora fêrbûna çarçovê ya taybetî hatî sêwirandin wêneyê li cîhê nûnertiya çarçoweya bihevrekirî proje dike. Zêdetir, cîhê nûnertiya çarçovê ji veguherînerek pirsê ya fêrbûyî pêk tê da ku adaptasyona xwe bi modelên belavbûnê re pêşdetir bike, û kodkerek wêneya CLIP-ê ya pêş-perwerdekirî ji bo derxistina taybetmendiyên wêneyê bihevkirî yên nivîsê pêk tê. Dûv re model taybetmendiyên çarçoveyek dewlemend bi karanîna qatên baldariya xaçê bikar tîne, û model fusiona dergeh bikar tîne da ku van taybetmendiyên nivîsê bi qatên baldariya xaçê re bike yek. Lêbelê, ev nêzîkatî nûnertiyên çarçoweya fêrbûyî bi hûrguliyên dîtbarî yên lihevkirî yên nivîsê re bazirganî dike ku têgihîştina semantîkî ya çarçoweya wêneyê hêsantir dike û dihêle ku dînamîkên maqûl û zelal werin hevber kirin. Wekî din, di hewildanek ji bo pêvekirina hûrguliyên dîtbarî yên din, çarçove wêneya tevahî bi dengê destpêkê re bi modela belavbûnê ve girêdide. Wekî encamek, nêzîkatiya derzîlêdanê ya dualî ku ji hêla çarçoveya DynamiCrafter ve hatî bicîh kirin lihevhatina dîtbar û her weha naveroka dînamîkî ya maqûl ji wêneya têketinê re garantî dike.

Bi pêş ve diçin, modelên belavkirinê an DM-ê di hilberîna T2I an Text to Image de performansa berbiçav û jêhatîbûna hilberîner nîşan dane. Ji bo dubarekirina serkeftina modelên T2I ji bo hilberîna vîdyoyê, VDM an Modelên Belavkirina Vîdyoyê têne pêşniyar kirin ku di cîhê pixel de mîmariya U-New-ya faktorkirî ya cîh-dem bikar tîne da ku vîdyoyên kêm-çareseriyê model bike. Veguheztina fêrbûnên çarçoveyên T2I ji çarçoveyên T2V re dê di kêmkirina lêçûnên perwerdehiyê de bibe alîkar. Her çend VDM an Modelên Belavkirina Vîdyoyê xwedan şiyana afirandina vîdyoyên bi kalîteya bilind in, ew tenê pêşniyarên nivîsê wekî yekane rêbernameya semantîkî qebûl dikin ku dibe ku niyeta rastîn a bikarhênerek nîşan nede an jî dibe ku nezelal be. Lêbelê, encamên piraniya modelên VDM-ê kêm kêm bi wêneya têketinê ve girêdayî ye û ji pirsgirêka guherîna demkî ya nerealîst dikişîne. Nêzîkatiya DynamiCrafter li ser Modelên Belavkirina Vîdyoyê yên bi şert-nivîsan hatiye avakirin ku berê dînamîka xweya dewlemend ji bo anîmkirina wêneyên domên vekirî bi kar tînin. Ew wiya bi tevlêkirina sêwiranên xwerû ji bo têgihiştina semantîkî çêtir û lihevhatina wêneya têketinê dike.

DynamiCrafter: Rêbaz û Mîmarî

Ji bo wêneyek hêşîn a diyarkirî, çarçoveya DyanmiCrafter hewl dide ku anîmasyonê bike wêne bo vîdyoyê yanî kurte videoklîp çêbike. Vîdyoyê naveroka dîtbarî ji wêneyê mîras digire, û dînamîkên xwezayî nîşan dide. Lêbelê, îhtîmalek heye ku wêne li cîhê keyfî ya rêzika çarçoweya encam de xuya bibe. Xuyabûna wêneyek li cîhek kêfî celebek taybetî ye ku di karên hilberîna vîdyoya bi şert û mercên wêneyê de bi hewcedariyên lihevhatina dîtbarî yên bilind têne dîtin. Çarçoveya DynamiCrafter bi karanîna pêşekên hilberîner ên modelên belavkirina vîdyoyê yên pêş-perwerdekirî vê dijwariyê derbas dike.

Dînamîkên Wêne ji Berê Velavandina Vîdyoyê

Bi gelemperî, modelên belavkirina vîdyoyê ji nivîsa-domînaya vekirî têne zanîn ku li ser raveyên nivîsê şertê modela naveroka dîtbarî ya dînamîkî nîşan didin. Ji bo ku wêneyek bêdeng bi pêşiyên hilberîner ên Text-Vîdyoyê re zindî bikin, pêdivî ye ku çarçove pêşî agahdariya dîtbarî di pêvajoya hilberîna vîdyoyê de bi rengek berfireh derxînin. Digel vê yekê, ji bo senteza dînamîkî, modela T2V divê wêneyê ji bo têgihîştina çarçovê bişewitîne, di heman demê de divê ew di vîdyoyên çêkirî de hûrguliyên dîtbarî jî biparêze.

Text Aligned Context Nûnertiya

Ji bo rêberiya hilberîna vîdyoyê bi çarçoweya wêneyê re, çarçoweya DynamiCrafter hewl dide ku wêneyê di nav cîhek veguheztinê ya hevgirtî de proje bike ku destûrê dide modela vîdyoyê ku agahdariya wêneyê bi rengek hevgirtî bikar bîne. Li dûv vê yekê, çarçoweya DynamiCrafter şîfrekera wêneyê bi kar tîne da ku taybetmendiyên wêneyê ji wêneya têketinê derxîne ji ber ku vegirtinên nivîsê bi karanîna şîfreyek nivîsê ya CLIP-ê ya pêş-perwerdekirî têne çêkirin. Naha, her çend nîşaneyên semantîkî yên gerdûnî yên ji şîfrekera wêneya CLIP-ê bi sernavên wêneyê re têne hev kirin, ew di serî de naveroka dîtbarî di asta semantîkî de temsîl dike, ji ber vê yekê nekare tevahîya wêneyê bigire. Çarçoveya DynamiCrafter nîşaneyên dîtbarî yên bêkêmasî ji qata paşîn a şîfrekera CLIP-ê bicîh tîne da ku agahdariya bêkêmasî derxîne ji ber ku ev nîşaneyên dîtbarî di karên hilberîna wêneya şertî de dilsoziya bilind nîşan didin. Digel vê yekê, çarçove navgînên navgîn û nivîsê bi kar tîne da ku bi taybetmendiyên navîn ên U-Net re bi karanîna qatên baldariya dualî re têkilî daynin. Sêwirana vê hêmanê şiyana modelê ku şert û mercên wêneyê bi rengekî-girêdayî vehewîne hêsan dike. Digel vê yekê, ji ber ku qatên navîn ên mîmariya U-Net bêtir bi pozan an şeklan re têkildar in, tê pêşbînîkirin ku taybetmendiyên wêneyê dê bi giranî bandorê li xuyangkirina vîdyoyan bikin nemaze ji ber ku qatên du-dawî bi xuyangê ve girêdayî ne.

Rêbernameya Detail Visual

Çarçoveya DyanmiCrafter nûnertiya çarçoveyek dewlemend-agahdar bikar tîne ku dihêle modela belavkirina vîdyoyê di mîmariya xwe de vîdyoyên ku ji nêz ve dişibin wêneya têketinê hilberîne. Lêbelê, wekî ku di wêneya jêrîn de tê xuyang kirin, naveroka çêkirî dibe ku hin cûdahiyan nîşan bide ji ber kapasîteya tixûbdar a şîfrekera CLIP-a pêş-perwerdekirî ku agahdariya têketinê bi tevahî biparêze, ji ber ku ew ji bo hevrêzkirina ziman û taybetmendiyên dîtbarî hatî çêkirin.

Ji bo zêdekirina lihevhatina dîtbarî, çarçoveya DynamiCrafter pêşniyar dike ku modela belavkirina vîdyoyê bi hûrguliyên dîtbar ên din ên ku ji wêneya têketinê têne derxistin peyda bike. Ji bo ku bigihîje vê yekê, modela DyanmiCrafter wêneya şertî bi dengê destpêkê yê per-çarçoveyê ve girêdide û wan wekî rênîşanderê veguhezîne beşa U-Net.

Paradîgmaya Perwerdehiyê

Çarçoveya DynamiCrafter wêneya şertî bi navgîniya du çemên temamker ên ku di rêbernameya hûrgulî û kontrolkirina çarçoveyê de rolek girîng dileyzin yek dike. Ji bo hêsankirina heman yekê, modela DynamiCrafter pêvajoyek perwerdehiya sê-gavekî bikar tîne

Di gava yekem de, model tora nûnertiya çarçoweya wêneyê perwerde dike.
Di gava duyemîn de, model tora nûnertiya çarçoweya wêneyê bi modela Text ber Vîdyoyê re adapte dike.
Di gava sêyemîn û paşîn de, model tora nûnertiya çarçoweya wêneyê bi hev re bi hêmana Rêberiya Kêmasiya Dîtbar re baş rast dike.

Ji bo ku agahdariya wêneyê ji bo hevahengiya bi modela Text-to-Video (T2V) re biguncîne, çarçoveya DynamiCrafter pêşnîyar dike ku torgilokek nûnertiya çarçoweyê, P, pêşve bibe, ku ji bo girtina hûrguliyên dîtbarî yên lihevhatî yên nivîsê ji wêneya hatî dayîn hatî çêkirin. Naskirina ku P ji bo hevgirtinê gelek gavên optimîzasyonê hewce dike, nêzîkatiya çarçoveyê di destpêkê de perwerdehiya wê bi karanîna modelek Text-to-Image (T2I) hêsantir dike. Ev stratejî dihêle ku tora nûnertiya çarçoweyê li ser fêrbûna çarçoweya wêneyê berî ku wê bi modela T2V re bi perwerdehiya hevbeş a bi P re û qatên mekanî, berevajî qatên demkî, yên modela T2V entegre bike, hûr bibe.

Ji bo misogerkirina lihevhatina T2V, çarçoweya DyanmiCrafter wêneya têketinê bi dengê per-çarçoveyê re dike yek, hem P û hem jî qatên cîhêreng ên Modela Cûdahiya Dîtbarî (VDM) bi rê ve dibe. Ev rêbaz tê hilbijartin da ku yekparebûna nihêrînên demkî yên heyî yên modela T2V biparêze bêyî bandorên neyînî yên yekbûna wêneya hişk, ku dikare performansê tawîz bike û ji armanca meya bingehîn dûr bixe. Digel vê yekê, çarçove stratejiyek hilbijartina bi korfelaqî çarçoveyek vîdyoyê wekî şerta wêneyê bikar tîne da ku bigihîje du armancan: (i) nehiştina torê ji pêşdebirina nimûneyek pêşbînîkirî ku rasterast wêneya yekbûyî bi cîhek çarçoveyek taybetî re têkildar dike, û (ii) bi pêşîlêgirtina peydakirina agahdariya pir hişk ji bo her çarçoveyek taybetî, nûnertiya çarçoveyek adaptabletir teşwîq bikin.

DynamiCrafter: Ceribandin û Encam

Çarçoveya DynamiCrafter pêşî tora nûnertiya çarçovê û qatên balê-guhêrîna wêneyê li ser Diffusion Stable perwerde dike. Paşê çarçove diguhere Belavbûna Stable hêmanek bi VideoCrafter re û ji bo adaptasyonê, û bi hevgirtina wêneyê, tora nûnertiya çarçovê û qatên mekanî hîn hûrtir dike. Di encamnameyê de, çarçove nimûneya DDIM-ê bi rêbernameya pir-rewş-bê-tefsîner qebûl dike. Digel vê yekê, ji bo nirxandina hevrêziya demkî û kalîteya vîdyoyên ku di hem warên demkî û hem jî di cîhê de hatine sentez kirin, çarçove Dûrahiya Vîdyoyê FVD an Frechet, û her weha Dûrahiya Vîdyoyê ya KVD an Kernel radigihîne, û performansa sifir-shot li ser hemî rêbazan dinirxîne. pîvanên MSR-VTT û UCF-101. Ji bo vekolîna lihevhatina têgihîştinê ya di navbera encamên hilberandî û wêneya têketinê de, çarçove PIC an Lihevhatina Ketina Têgihîştinê destnîşan dike, û metrîka dûrbûna têgihîştî DreamSim wekî fonksiyona dûrbûnê qebûl dike.

Nîgara jêrîn berhevdana dîtbarî ya naveroka anîmasyonî ya çêkirî bi şêwaz û naverokên cihêreng nîşan dide.

Wekî ku tê dîtin, di nav hemî awayên cihêreng de, çarçoveya DynamiCrafter bi rewşa wêneya têketinê baş tevdigere, û vîdyoyên hevgirtî yên demkî çêdike. Tabloya jêrîn statîstîkên lêkolînek bikarhêner bi 49 beşdaran re rêjeya tercîhê ji bo Hevrêziya Demkî (TC), û Qalîteya Tevgerê (MC) û rêjeya hilbijartinê ji bo hevahengiya dîtbarî ya bi wêneya têketinê re vedihewîne. (IC). Wekî ku tê dîtin, çarçoweya DynamiCrafter dikare bi rêgezek berbiçav ji rêbazên heyî derxe.

Nîgara jêrîn encamên ku bi karanîna rêbaza derzîlêdanê ya dualî û paradîgmaya perwerdehiyê hatine bidestxistin destnîşan dike.

Thoughts Final

Di vê gotarê de, me li ser DynamiCrafter, hewldanek ji bo derbaskirina tixûbên heyî yên modelên anîmasyona wêneyê û berfirehkirina senaryoyên gelemperî yên ku bi wêneyên cîhana vekirî ve girêdayî ye, axifî. Çarçoveya DynamiCrafter hewl dide ku naveroka dînamîkî ji bo wêneyên vekirî-domînayê hevrêz bike, wan veguherîne vîdyoyên anîmasyon. Fikra bingehîn a li pişt DynamiCrafter ev e ku wêneyê wekî rêberiyê di pêvajoya hilberînê de bihewîne di hewildanek ku tevgera pêşiya nivîsa heyî ya modelên belavkirina vîdyoyê bikar bîne. Ji bo wêneyek diyarkirî, modela DynamiCrafter pêşî veguherînerek pirsê pêk tîne ku wêneyê di nav cîhek nunertiya çarçoveyek dewlemend a bihevhatî ya nivîsê de proje dike, modela vîdyoyê hêsan dike ku naveroka wêneyê bi rengek lihevhatî bişewitîne. Lêbelê, modela DynamiCrafter hîn jî têdikoşe ku hin hûrguliyên dîtbarî di vîdyoyên encam de biparêze, pirsgirêkek ku modela DynamiCrafter bi guheztina wêneya tevahî bi modela belavbûnê re derbas dike û wêneyê bi dengên destpêkê ve girêdide, ji ber vê yekê modelê bi wêneyek rastîntir temam dike. agahî.

Up Next

Rêbernameyek Tevahî Ji Bo Birêkûpêkkirina Modelên Zimanên Mezin

Ma Miss

Modela Neuralî ya Nû Têkiliya Zimanî ya AI-to-AI-ê çalak dike

Kunal Kejriwal

"Bi pîşeyê endezyar, bi dil nivîskar". Kunal nivîskarek teknîkî ye ku bi evîn û têgihîştina kûr a AI û ML-ê ye, ku ji bo hêsankirina têgehên tevlihev di van waran de bi navgîniya belgeyên xwe yên balkêş û agahdar ve hatî veqetandin.