քոթուկ DynamiCrafter. բաց տիրույթի պատկերների անիմացիա՝ վիդեո դիֆուզիոն պրիորներով - Unite.AI
Միացեք մեզ

Արհեստական ​​բանականություն

DynamiCrafter. Բաց տիրույթի պատկերների անիմացիա՝ վիդեո դիֆուզիոն պրիորներով

mm

Հրատարակված է

 on

DynamiCrafter. Բաց տիրույթի պատկերների անիմացիա՝ վիդեո դիֆուզիոն պրիորներով

Համակարգչային տեսողություն Այսօր AI համայնքի ամենահետաքրքիր և լավ ուսումնասիրված ոլորտներից մեկն է, և չնայած համակարգչային տեսողության մոդելների արագ բարելավմանը, երկարամյա մարտահրավերը, որը դեռևս անհանգստացնում է ծրագրավորողներին, պատկերների անիմացիա է: Նույնիսկ այսօր, պատկերների անիմացիոն շրջանակները պայքարում են անշարժ պատկերները վերածելու իրենց համապատասխան վիդեո նմանակների, որոնք ցուցադրում են բնական դինամիկա՝ պահպանելով պատկերների սկզբնական տեսքը: Ավանդաբար, պատկերների անիմացիոն շրջանակները հիմնականում կենտրոնանում են բնական տեսարանների կենդանացման վրա՝ տիրույթին հատուկ շարժումներով, ինչպիսիք են մարդու մազերի կամ մարմնի շարժումները, կամ ստոխաստիկ դինամիկան, ինչպիսիք են հեղուկներն ու ամպերը: Չնայած այս մոտեցումը գործում է որոշակի չափով, այն սահմանափակում է այս անիմացիոն շրջանակների կիրառելիությունը ավելի ընդհանուր տեսողական բովանդակության համար: 

Ավելին, պատկերների անիմացիայի սովորական մոտեցումները հիմնականում կենտրոնանում են տատանվող և ստոխաստիկ շարժումների սինթեզման կամ հատուկ օբյեկտների կատեգորիաների հարմարեցման վրա: Այնուամենայնիվ, մոտեցման ուշագրավ թերությունն այս մեթոդների վրա դրված ուժեղ ենթադրություններն են, որոնք, ի վերջո, սահմանափակում են դրանց կիրառելիությունը հատկապես ընդհանուր սցենարներում, ինչպիսին է բաց տիրույթի պատկերի անիմացիա: Վերջին մի քանի տարիների ընթացքում, T2V կամ Text to Video մոդելներ նրանք զգալի հաջողություն են ցուցաբերել տեքստային հուշումների միջոցով վառ և բազմազան տեսանյութեր ստեղծելու գործում, և T2V մոդելների այս ցուցադրումն այն է, ինչը հիմք է հանդիսանում DynamiCrafter շրջանակի համար: 

DynamiCrafter շրջանակը փորձ է հաղթահարելու պատկերների անիմացիոն մոդելների ներկայիս սահմանափակումները և ընդլայնելու դրանց կիրառելիությունը ընդհանուր սցենարներում, որոնք ներառում են բաց աշխարհի պատկերներ: DynamiCrafter շրջանակը փորձում է սինթեզել դինամիկ բովանդակություն բաց տիրույթի պատկերների համար՝ դրանք վերածելով անիմացիոն տեսանյութերի: DynamiCrafter-ի հիմքում ընկած հիմնական գաղափարը պատկերը որպես ուղեցույց ներառելն է գեներատիվ գործընթացում՝ փորձելով օգտագործել արդեն գոյություն ունեցող տեքստից առաջ շարժվող վիդեո դիֆուզիոն մոդելները: Տվյալ պատկերի համար DynamiCrafter մոդելը նախ կիրառում է հարցման տրանսֆորմատոր, որը նախագծում է պատկերը տեքստով համահունչ հարուստ համատեքստի ներկայացման տարածության մեջ՝ հեշտացնելով տեսանյութի մոդելը յուրացնել պատկերի բովանդակությունը համատեղելի ձևով: Այնուամենայնիվ, DynamiCrafter մոդելը դեռևս փորձում է պահպանել որոշ տեսողական մանրամասներ ստացված տեսանյութերում, խնդիր, որը DynamiCrafter մոդելը հաղթահարում է՝ ամբողջական պատկերը սնուցելով դիֆուզիոն մոդելին՝ պատկերը միացնելով սկզբնական աղմուկներին, հետևաբար մոդելը լրացնելով ավելի ճշգրիտ պատկերով: տեղեկատվություն։ 

Այս հոդվածը նպատակ ունի խորությամբ լուսաբանել DynamiCrafter շրջանակը, և մենք ուսումնասիրում ենք շրջանակի մեխանիզմը, մեթոդաբանությունը, ճարտարապետությունը, ինչպես նաև դրա համեմատությունը նորագույն պատկերների և տեսանյութերի ստեղծման շրջանակների հետ: Այսպիսով, եկեք սկսենք: 

DynamiCrafter: Բաց տիրույթի պատկերների անիմացիա

Անշարժ պատկերը կենդանացնելը հաճախ հանդիսատեսի համար առաջարկում է գրավիչ տեսողական փորձ, քանի որ այն կարծես կյանքի է կոչում անշարժ պատկերը: Տարիների ընթացքում բազմաթիվ շրջանակներ ուսումնասիրել են անշարժ պատկերների անիմացիոն տարբեր մեթոդներ: Նախնական անիմացիոն շրջանակները կիրառում էին ֆիզիկական մոդելավորման վրա հիմնված մոտեցումներ, որոնք ուղղված էին կոնկրետ օբյեկտների շարժման մոդելավորմանը: Այնուամենայնիվ, յուրաքանչյուր օբյեկտի կատեգորիայի անկախ մոդելավորման շնորհիվ այս մոտեցումները ոչ արդյունավետ էին, ոչ էլ ընդհանրացման հնարավորություն: Ավելի իրատեսական շարժումները կրկնելու համար հայտնվեցին հղման վրա հիմնված մեթոդներ, որոնք շարժման կամ արտաքին տեսքի մասին տեղեկատվությունը հղումային ազդանշաններից, օրինակ՝ տեսանյութերից, տեղափոխում էին սինթեզի գործընթաց: Թեև տեղեկանքների վրա հիմնված մոտեցումներն ավելի լավ արդյունքներ տվեցին՝ ավելի լավ ժամանակային համահունչ, երբ համեմատվում էին սիմուլյացիայի վրա հիմնված մոտեցումների հետ, դրանք լրացուցիչ ուղեցույցի կարիք ունեին՝ սահմանափակելով դրանց գործնական կիրառությունները: 

Վերջին տարիներին անիմացիոն շրջանակների մեծ մասը հիմնականում կենտրոնանում է բնական տեսարանների կենդանացման վրա՝ ստոխաստիկ, տիրույթին հատուկ կամ տատանվող շարժումներով: Թեև այս շրջանակների կողմից իրականացվող մոտեցումը որոշակի չափով աշխատում է, այդ շրջանակների ստեղծած արդյունքները գոհացուցիչ չեն և բարելավման զգալի տեղ ունեն: Վերջին մի քանի տարիների ընթացքում «Text to Video» գեներատիվ մոդելների կողմից ձեռք բերված ուշագրավ արդյունքները ոգեշնչել են DynamiCrafter շրջանակի մշակողներին՝ օգտագործելու «Text to Video» մոդելների հզոր գեներատիվ հնարավորությունները պատկերների անիմացիայի համար: 

DynamiCrafter շրջանակի հիմնական հիմքը պայմանական պատկերի ներառումն է՝ փորձելով կառավարել տեսանյութերի ստեղծման գործընթացը: Տեքստից դեպի վիդեո դիֆուզիոն մոդելներ. Այնուամենայնիվ, պատկերների անիմացիայի վերջնական նպատակը դեռևս մնում է աննշան, քանի որ պատկերի անիմացիայի համար անհրաժեշտ է պահպանել մանրամասները, ինչպես նաև հասկանալ տեսողական ենթատեքստերը, որոնք կարևոր են դինամիկա ստեղծելու համար: Այնուամենայնիվ, VideoComposer-ի պես կառավարելի վիդեո դիֆուզիոն բազմամոդալ մոդելները փորձել են հնարավորություն տալ վիդեո ստեղծմանը պատկերից տեսողական առաջնորդությամբ: Այնուամենայնիվ, այս մոտեցումները հարմար չեն պատկերի անիմացիայի համար, քանի որ դրանք կամ հանգեցնում են կտրուկ ժամանակային փոփոխությունների կամ ցածր տեսողական համապատասխանության ներածված պատկերին, քանի որ դրանց ոչ համապարփակ պատկերի ներարկման մեխանիզմները: Այս խոչընդոտին դիմակայելու համար DyaniCrafter շրջանակն առաջարկում է երկակի հոսքի ներարկման մոտեցում, որը բաղկացած է տեսողական մանրամասների ուղեցույցից և տեքստի համահունչ համատեքստի ներկայացումից: Կրկնակի հոսքի ներարկման մոտեցումը թույլ է տալիս DynamiCrafter շրջանակին ապահովել տեսանյութի դիֆուզիոն մոդելի սինթեզումը մանրամասնորեն պահպանված դինամիկ բովանդակությունը փոխլրացնող ձևով: 

Տվյալ պատկերի համար DynamiCrafter շրջանակը նախ նախագծում է պատկերը տեքստի համահունչ համատեքստի ներկայացման տարածության մեջ՝ օգտագործելով հատուկ մշակված համատեքստի ուսուցման ցանց: Ավելի կոնկրետ լինելու համար, համատեքստի ներկայացման տարածքը բաղկացած է ուսանելի հարցման տրանսֆորմատորից, որն էլ ավելի է նպաստում դրա հարմարվողականությանը դիֆուզիոն մոդելներին, և նախապես պատրաստված CLIP պատկերի կոդավորիչից՝ տեքստային համահարթեցված պատկերի առանձնահատկությունները հանելու համար: Այնուհետև մոդելն օգտագործում է հարուստ համատեքստի առանձնահատկությունները՝ օգտագործելով խաչաձև ուշադրության շերտերը, և մոդելն օգտագործում է փակ միաձուլում՝ տեքստային այս հատկանիշները խաչաձև ուշադրության շերտերի հետ համատեղելու համար: Այնուամենայնիվ, այս մոտեցումը փոխում է սովորած համատեքստի ներկայացումները տեքստի հետ համահունչ տեսողական մանրամասներով, որոնք հեշտացնում են պատկերի համատեքստի իմաստային ըմբռնումը, ինչը թույլ է տալիս սինթեզել ողջամիտ և վառ դինամիկան: Ավելին, լրացուցիչ տեսողական մանրամասները համալրելու նպատակով շրջանակը ամբողջական պատկերը միացնում է սկզբնական աղմուկի հետ դիֆուզիոն մոդելին: Արդյունքում, DynamiCrafter շրջանակի կողմից իրականացվող երկակի ներարկման մոտեցումը երաշխավորում է տեսողական համապատասխանությունը, ինչպես նաև մուտքային պատկերի հավանական դինամիկ բովանդակությունը: 

Շարժվելով, դիֆուզիոն մոդելները կամ DM-ները ցուցադրել են ուշագրավ կատարում և գեներացնող հմտություն T2I կամ Text to Image ստեղծման մեջ: T2I մոդելների հաջողությունը վիդեո ստեղծմանը կրկնելու համար առաջարկվում են VDM կամ Video Diffusion Models, որոնք օգտագործում են տարածական ժամանակի ֆակտորիզացված U-New ճարտարապետությունը պիքսելային տարածության մեջ՝ ցածր լուծաչափով տեսանյութեր մոդելավորելու համար: T2I շրջանակների գիտելիքները T2V շրջանակներին փոխանցելը կօգնի նվազեցնել վերապատրաստման ծախսերը: Չնայած VDM-ը կամ վիդեո դիֆուզիոն մոդելներն ունեն բարձրորակ տեսանյութեր ստեղծելու ունակություն, նրանք ընդունում են միայն տեքստային հուշումները որպես միակ իմաստաբանական ուղեցույց, որը կարող է չարտացոլել օգտատիրոջ իրական մտադրությունները կամ կարող է լինել անորոշ: Այնուամենայնիվ, VDM մոդելների մեծամասնության արդյունքները հազվադեպ են կպչում մուտքագրված պատկերին և տառապում են անիրատեսական ժամանակային տատանումների խնդրից: DynamiCrafter մոտեցումը կառուցված է տեքստով պայմանավորված Video Diffusion Models-ի վրա, որոնք օգտագործում են իրենց հարուստ դինամիկ առաջնահերթությունը բաց տիրույթի պատկերների անիմացիայի համար: Այն անում է դա՝ ներառելով հարմարեցված ձևավորումներ՝ ավելի լավ իմաստային ըմբռնման և մուտքագրված պատկերին համապատասխանելու համար: 

DynamiCrafter: Մեթոդ և ճարտարապետություն

Տվյալ անշարժ պատկերի համար DyanmiCrafter շրջանակը փորձում է կենդանացնել այն պատկերից տեսանյութ այսինքն պատրաստել կարճ տեսահոլովակ: Տեսահոլովակը ժառանգում է տեսողական բովանդակությունը պատկերից և ցուցադրում բնական դինամիկա: Այնուամենայնիվ, կա հավանականություն, որ պատկերը կարող է հայտնվել արդյունքում ստացված կադրերի հաջորդականության կամայական վայրում: Պատկերի հայտնվելը կամայական վայրում հատուկ տեսակի մարտահրավեր է, որը նկատվում է պատկերով պայմանավորված տեսանյութերի ստեղծման առաջադրանքներում, որոնք ունեն տեսողական համապատասխանության բարձր պահանջներ: DynamiCrafter շրջանակը հաղթահարում է այս մարտահրավերը՝ օգտագործելով նախապես վերապատրաստված տեսանյութերի դիֆուզիոն մոդելների գեներատիվ առաջնահերթությունները: 

Image Dynamics-ից Video Diffusion Prior-ից

Սովորաբար, բաց տիրույթի տեքստը դեպի վիդեո դիֆուզիոն մոդելները, ինչպես հայտնի է, ցուցադրում են դինամիկ տեսողական բովանդակության մոդելավորված պայմանավորում տեքստի նկարագրությունների վրա: Անշարժ պատկերը Տեքստից վիդեո գեներատիվ առաջնահերթություններով անշարժացնելու համար շրջանակները նախ պետք է համապարփակ կերպով ներարկեն տեսողական տեղեկատվությունը տեսաստեղծման գործընթացում: Ավելին, դինամիկ սինթեզի համար T2V մոդելը պետք է մարսի պատկերը համատեքստը հասկանալու համար, մինչդեռ այն պետք է նաև կարողանա պահպանել տեսողական մանրամասները ստեղծված տեսանյութերում: 

Տեքստի հավասարեցված համատեքստի ներկայացում

Տեսանյութերի ստեղծմանը պատկերի համատեքստով առաջնորդելու համար DynamiCrafter շրջանակը փորձում է պատկերը նախագծել համահունչ ներկառուցված տարածության մեջ՝ թույլ տալով վիդեո մոդելին օգտագործել պատկերի տեղեկատվությունը համատեղելի ձևով: Դրանից հետո DynamiCrafter շրջանակն օգտագործում է պատկերի կոդավորիչը՝ մուտքագրված պատկերից պատկերի առանձնահատկությունները հանելու համար, քանի որ տեքստի ներկառուցումները ստեղծվում են նախապես պատրաստված CLIP տեքստային կոդավորիչի միջոցով: Այժմ, թեև CLIP պատկերի կոդավորիչից գլոբալ իմաստային նշանները համահունչ են պատկերի ենթագրերին, այն հիմնականում ներկայացնում է տեսողական բովանդակությունը իմաստային մակարդակում՝ այդպիսով չհաջողելով գրավել պատկերի ողջ ծավալը: DynamiCrafter շրջանակն իրականացնում է ամբողջական տեսողական նշաններ CLIP կոդավորիչի վերջին շերտից՝ ավելի ամբողջական տեղեկատվություն հանելու համար, քանի որ այս վիզուալ նշանները ցուցադրում են բարձր հավատարմություն պայմանական պատկերների ստեղծման առաջադրանքներում: Ավելին, շրջանակն օգտագործում է համատեքստի և տեքստի ներկառուցումներ՝ U-Net միջանկյալ հնարավորությունների հետ փոխազդելու համար՝ օգտագործելով կրկնակի խաչաձև ուշադրության շերտերը: Այս բաղադրիչի դիզայնը հեշտացնում է մոդելի կարողությունը՝ կլանելու պատկերի պայմանները շերտից կախված եղանակով: Ավելին, քանի որ U-Net ճարտարապետության միջանկյալ շերտերն ավելի շատ կապված են օբյեկտների դիրքերի կամ ձևերի հետ, ակնկալվում է, որ պատկերի առանձնահատկությունները հիմնականում կազդեն տեսանյութերի արտաքին տեսքի վրա, հատկապես, քանի որ երկկողմանի շերտերն ավելի շատ կապված են արտաքին տեսքի հետ: 

Տեսողական մանրամասն ուղեցույց

DyanmiCrafter-ի շրջանակն օգտագործում է հարուստ տեղեկատվական համատեքստի ներկայացում, որը թույլ է տալիս վիդեո դիֆուզիոն մոդելին իր ճարտարապետության մեջ արտադրել տեսանյութեր, որոնք սերտորեն նման են մուտքային պատկերին: Այնուամենայնիվ, ինչպես ցույց է տրված հետևյալ պատկերում, ստեղծվող բովանդակությունը կարող է ցուցադրել որոշ անհամապատասխանություններ, քանի որ նախապես պատրաստված CLIP կոդավորիչի սահմանափակ կարողությունը՝ ամբողջությամբ պահպանելու մուտքային տեղեկատվությունը, քանի որ այն նախագծված է լեզուների և տեսողական առանձնահատկությունները համապատասխանեցնելու համար: 

Տեսողական համապատասխանությունը բարձրացնելու համար DynamiCrafter շրջանակն առաջարկում է վիդեո դիֆուզիոն մոդելին տրամադրել լրացուցիչ տեսողական մանրամասներ՝ արդյունահանված մուտքային պատկերից: Դրան հասնելու համար DyanmiCrafter մոդելը միացնում է պայմանական պատկերը յուրաքանչյուր կադրի սկզբնական աղմուկի հետ և դրանք սնուցում է զրոյացնող U-Net բաղադրիչին որպես ուղեցույց: 

Ուսուցման պարադիգմ

DynamiCrafter շրջանակը ինտեգրում է պայմանական պատկերը երկու լրացուցիչ հոսքերի միջոցով, որոնք էական դեր են խաղում մանրամասն ուղղորդման և համատեքստի վերահսկման մեջ: Նույնը հեշտացնելու համար DynamiCrafter մոդելն օգտագործում է եռաստիճան վերապատրաստման գործընթաց

  1. Առաջին քայլում մոդելը վարժեցնում է պատկերի համատեքստի ներկայացման ցանցը: 
  2. Երկրորդ քայլում մոդելը հարմարեցնում է պատկերի համատեքստի ներկայացման ցանցը Text to Video մոդելին: 
  3. Երրորդ և վերջին քայլում մոդելը ճշգրտում է պատկերի համատեքստի ներկայացման ցանցը Visual Detail Guidance բաղադրիչի հետ համատեղ: 

Պատկերի տեղեկատվությունը Text-to-Video (T2V) մոդելի հետ համատեղելիության համար հարմարեցնելու համար DynamiCrafter շրջանակն առաջարկում է մշակել համատեքստի ներկայացման ցանց՝ P, որը նախատեսված է տվյալ պատկերից տեքստային համահարթեցված տեսողական մանրամասները գրավելու համար: Հասկանալով, որ P-ն պահանջում է շատ օպտիմալացման քայլեր կոնվերգենցիայի համար, շրջանակի մոտեցումը ներառում է սկզբնական շրջանում այն ​​ուսուցանել՝ օգտագործելով ավելի պարզ Text-to-Image (T2I) մոդելը: Այս ռազմավարությունը թույլ է տալիս համատեքստի ներկայացման ցանցին կենտրոնանալ պատկերի համատեքստի մասին սովորելու վրա՝ նախքան այն T2V մոդելի հետ ինտեգրվելը՝ P-ի և տարածական շերտերի հետ համատեղ ուսուցման միջոցով՝ ի տարբերություն T2V մոդելի ժամանակավոր շերտերի: 

T2V-ի համատեղելիությունն ապահովելու համար DyanmiCrafter շրջանակը միաձուլում է մուտքային պատկերը մեկ կադրի աղմուկի հետ՝ անցնելով ինչպես P-ի, այնպես էլ Visual Discrimination Model-ի (VDM) տարածական շերտերի ճշգրտմանը: Այս մեթոդն ընտրվել է T2V մոդելի առկա ժամանակային պատկերացումների ամբողջականությունը պահպանելու համար՝ առանց պատկերների խիտ միաձուլման բացասական հետևանքների, որոնք կարող են վտանգել կատարողականը և շեղվել մեր հիմնական նպատակից: Ավելին, շրջանակն օգտագործում է վիդեո շրջանակը պատահականորեն ընտրելու ռազմավարություն՝ որպես պատկերի պայման՝ երկու նպատակի հասնելու համար. խրախուսել համատեքստի ավելի հարմարվողական ներկայացումը՝ կանխելով որևէ կոնկրետ շրջանակի համար չափազանց կոշտ տեղեկատվության տրամադրումը: 

DynamiCrafter: Փորձեր և արդյունքներ

DynamiCrafter շրջանակը նախ վերապատրաստում է համատեքստի ներկայացման ցանցը և պատկերի խաչաձև ուշադրության շերտերը Stable Diffusion-ում: Շրջանակն այնուհետև փոխարինում է Կայուն դիֆուզիոն բաղադրիչը VideoCrafter-ով և հետագայում ճշգրտում է համատեքստի ներկայացման ցանցը և տարածական շերտերը հարմարեցման համար և պատկերների միացումով: Եզրակացության արդյունքում շրջանակն ընդունում է DDIM նմուշառիչը՝ բազմաբնույթ պայմանի դասակարգիչից զերծ ուղեցույցով: Ավելին, և՛ ժամանակային, և՛ տարածական տիրույթներում սինթեզված տեսանյութերի ժամանակային համահունչությունն ու որակը գնահատելու համար շրջանակը հայտնում է FVD կամ Frechet Video Distance, ինչպես նաև KVD կամ Kernel Video Distance և գնահատում է զրոյական կրակոցի կատարումը բոլոր մեթոդների վրա: MSR-VTT և UCF-101 հենանիշների: Ստացված արդյունքների և մուտքագրված պատկերի միջև ընկալման համապատասխանությունը ուսումնասիրելու համար շրջանակը ներկայացնում է PIC կամ Perceptual Input Conformity և ընդունում է DreamSim-ի ընկալման հեռավորության չափանիշը որպես հեռավորության ֆունկցիա: 

Հետևյալ նկարը ցույց է տալիս ստեղծված անիմացիոն բովանդակության տեսողական համեմատությունը տարբեր ոճերի և բովանդակության հետ: 

Ինչպես երևում է, բոլոր տարբեր մեթոդների շարքում, DynamiCrafter շրջանակը լավ է պահպանում մուտքային պատկերի պայմանը և ստեղծում է ժամանակավոր համահունչ տեսանյութեր: Հետևյալ աղյուսակը պարունակում է 49 մասնակիցների հետ օգտատերերի ուսումնասիրության վիճակագրությունը ժամանակային համահունչության (TC) և Շարժման որակի (MC) նախապատվության դրույքաչափի հետ միասին մուտքագրված պատկերին տեսողական համապատասխանության ընտրության մակարդակի վերաբերյալ: (ՀԱՍԿԱՆԱԼԻ Է). Ինչպես կարելի է նկատել, DynamiCrafter շրջանակն ի վիճակի է զգալի տարբերությամբ գերազանցել գոյություն ունեցող մեթոդներին: 

Հետևյալ նկարը ցույց է տալիս երկակի հոսքային ներարկման մեթոդի և ուսուցման պարադիգմով ձեռք բերված արդյունքները: 

Վերջնական Մտքեր

Այս հոդվածում մենք խոսեցինք DynamiCrafter-ի մասին՝ փորձ՝ հաղթահարելու պատկերների անիմացիոն մոդելների ներկայիս սահմանափակումները և ընդլայնելու դրանց կիրառելիությունը ընդհանուր սցենարներում, որոնք ներառում են բաց աշխարհի պատկերներ: DynamiCrafter շրջանակը փորձում է սինթեզել դինամիկ բովանդակություն բաց տիրույթի պատկերների համար՝ դրանք վերածելով անիմացիոն տեսանյութերի: DynamiCrafter-ի հիմքում ընկած հիմնական գաղափարը պատկերը որպես ուղեցույց ներառելն է գեներատիվ գործընթացում՝ փորձելով օգտագործել արդեն գոյություն ունեցող տեքստից առաջ շարժվող վիդեո դիֆուզիոն մոդելները: Տվյալ պատկերի համար DynamiCrafter մոդելը նախ կիրառում է հարցման տրանսֆորմատոր, որը նախագծում է պատկերը տեքստով համահունչ հարուստ համատեքստի ներկայացման տարածության մեջ՝ հեշտացնելով տեսանյութի մոդելը յուրացնել պատկերի բովանդակությունը համատեղելի ձևով: Այնուամենայնիվ, DynamiCrafter մոդելը դեռևս փորձում է պահպանել որոշ տեսողական մանրամասներ ստացված տեսանյութերում, խնդիր, որը DynamiCrafter մոդելը հաղթահարում է՝ ամբողջական պատկերը սնուցելով դիֆուզիոն մոդելին՝ պատկերը միացնելով սկզբնական աղմուկներին, հետևաբար մոդելը լրացնելով ավելի ճշգրիտ պատկերով: տեղեկատվություն։ 

«Մասնագիտությամբ ինժեներ, անգիր գրող». Կունալը տեխնիկական գրող է, որն ունի AI և ML-ի խորը սեր և հասկացողություն, որը նվիրված է այս ոլորտներում բարդ հասկացությունների պարզեցմանը իր գրավիչ և տեղեկատվական փաստաթղթերի միջոցով: