stub „DynamiCrafter“: atvirojo domeno vaizdų animavimas naudojant vaizdo sklaidos pirmenybę – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

„DynamiCrafter“: Atviro domeno vaizdų animavimas naudojant vaizdo sklaidos pirmenybę

mm

paskelbta

 on

„DynamiCrafter“: Atviro domeno vaizdų animavimas naudojant vaizdo sklaidos pirmenybę

Kompiuterių vizija yra viena įdomiausių ir labiausiai ištirtų sričių AI bendruomenėje šiandien, ir nepaisant spartaus kompiuterinio regėjimo modelių tobulinimo, ilgalaikis iššūkis, kuris vis dar vargina kūrėjus, yra vaizdo animacija. Net ir šiandien vaizdų animacijos sistemoms sunku konvertuoti nejudančius vaizdus į atitinkamus vaizdo įrašus, kurie rodo natūralią dinamiką ir išsaugo pirminę vaizdų išvaizdą. Tradiciškai vaizdų animacijos sistemose daugiausia dėmesio skiriama natūralių scenų animavimui su konkrečiais domeno judesiais, pvz., žmogaus plaukais ar kūno judesiais, arba stochastine dinamika, pvz., skysčiais ir debesimis. Nors šis metodas tam tikru mastu veikia, jis apriboja šių animacijos sistemų pritaikymą bendresniam vaizdiniam turiniui. 

Be to, tradiciniai vaizdo animacijos metodai pirmiausia yra skirti svyruojančių ir stochastinių judesių sintezei arba pritaikymui konkrečioms objektų kategorijoms. Tačiau pastebimas šio metodo trūkumas yra tvirtos prielaidos, taikomos šiems metodams, kurios galiausiai riboja jų taikymą, ypač bendruose scenarijuose, pvz., atvirojo domeno vaizdo animacija. Per pastaruosius kelerius metus T2V arba Text to Video modeliai pademonstravo nepaprastą sėkmę kurdami ryškius ir įvairius vaizdo įrašus naudodami tekstinius raginimus, o šis T2V modelių demonstravimas yra „DynamiCrafter“ sistemos pagrindas. 

„DynamiCrafter“ sistema yra bandymas įveikti dabartinius vaizdų animacijos modelių apribojimus ir išplėsti jų pritaikomumą bendriems scenarijams, susijusiems su atviro pasaulio vaizdais. „DynamiCrafter“ sistema bando sintetinti dinaminį turinį atviro domeno vaizdams, paverčiant juos animuotais vaizdo įrašais. Pagrindinė „DynamiCrafter“ idėja yra įtraukti vaizdą kaip gairę į generavimo procesą, bandant panaudoti judesį prieš jau esamą tekstą į vaizdo sklaidos modelius. Tam tikram vaizdui „DynamiCrafter“ modelis pirmiausia įdiegia užklausos transformatorių, kuris projektuoja vaizdą į teksto suderintą turtingą konteksto vaizdavimo erdvę, palengvindamas vaizdo įrašo modelio vaizdo turinį suderinamu būdu. Tačiau „DynamiCrafter“ modelis vis dar stengiasi išsaugoti kai kurias vaizdines detales gautuose vaizdo įrašuose. Problema, kurią „DynamiCrafter“ modelis išsprendžia pateikdamas visą vaizdą į difuzijos modelį, sujungdamas vaizdą su pradiniais triukšmais, todėl modelį papildo tikslesniu vaizdu. informacija. 

Šio straipsnio tikslas yra išsamiai apžvelgti „DynamiCrafter“ sistemą, o mes tyrinėjame mechanizmą, metodiką, sistemos architektūrą ir palyginame ją su naujausiomis vaizdų ir vaizdo įrašų generavimo sistemomis. Taigi pradėkime. 

DynamiCrafter: atvirojo domeno vaizdų animacija

Nejudančio vaizdo animavimas dažnai suteikia žiūrovams patrauklų vaizdinį potyrį, nes atrodo, kad nejudantis vaizdas atgyja. Bėgant metams daugybė sistemų ištyrė įvairius nejudančių vaizdų animavimo būdus. Pradinės animacijos sistemos įgyvendino fiziniu modeliavimu pagrįstus metodus, orientuotus į konkrečių objektų judėjimo modeliavimą. Tačiau dėl nepriklausomo kiekvienos objektų kategorijos modeliavimo šie metodai nebuvo nei veiksmingi, nei apibendrinami. Siekiant atkartoti tikroviškesnius judesius, atsirado nuorodomis pagrįsti metodai, perkeliantys judesio ar išvaizdos informaciją iš atskaitos signalų, pvz., vaizdo įrašų, į sintezės procesą. Nors nuorodomis pagrįsti metodai davė geresnių rezultatų ir geresnę laiko darną, palyginti su modeliavimu pagrįstais metodais, jiems reikėjo papildomų nurodymų, kurie apribojo jų praktinį taikymą. 

Pastaraisiais metais daugumoje animacijos sistemų daugiausia dėmesio skiriama natūralių scenų animavimui stochastiniais, specifiniais domenais arba svyruojančiais judesiais. Nors šių struktūrų įgyvendintas metodas tam tikru mastu veikia, šių struktūrų rezultatai nėra patenkinami, juos galima daug tobulinti. Įspūdingi rezultatai, pasiekti per pastaruosius kelerius metus iš teksto į vaizdo įrašą generuojamųjų modelių, įkvėpė DynamiCrafter sistemos kūrėjus panaudoti galingas teksto į vaizdo įrašų modelių generavimo galimybes vaizdų animacijai. 

Pagrindinis „DynamiCrafter“ sistemos pagrindas yra įtraukti sąlyginį vaizdą, bandant valdyti vaizdo įrašų generavimo procesą. Teksto į vaizdo įrašą sklaidos modeliai. Tačiau galutinis vaizdų animacijos tikslas vis tiek lieka nereikšmingas, nes vaizdo animacija reikalauja išsaugoti detales ir suprasti vizualinius kontekstus, būtinus kuriant dinamiką. Tačiau daugiarūšiai valdomi vaizdo sklaidos modeliai, tokie kaip „VideoComposer“, bandė įgalinti vaizdo įrašų generavimą naudojant vaizdo nurodymus. Tačiau šie metodai netinka vaizdų animacijai, nes jie sukelia staigius laiko pokyčius arba mažą vizualinį atitikimą įvesties vaizdui dėl ne tokių išsamių vaizdo įterpimo mechanizmų. Siekiant įveikti šią kliūtį, „DyaniCrafter“ sistema siūlo dviejų srautų įpurškimo metodą, kurį sudaro vaizdinės detalės ir konteksto atvaizdavimas pagal tekstą. Dviejų srautų įpurškimo metodas leidžia „DynamiCrafter“ sistemai užtikrinti, kad vaizdo sklaidos modelis sintezuotų detaliai išsaugotą dinaminį turinį papildomu būdu. 

Tam tikram vaizdui „DynamiCrafter“ sistema pirmiausia projektuoja vaizdą į teksto suderinto konteksto vaizdavimo erdvę, naudodama specialiai sukurtą konteksto mokymosi tinklą. Konkrečiau kalbant, konteksto vaizdavimo erdvę sudaro mokomasis užklausų transformatorius, kuris dar labiau skatina jo pritaikymą difuzijos modeliams, ir iš anksto parengtas CLIP vaizdo kodavimo įrenginys, skirtas išgauti pagal tekstą suderinto vaizdo ypatybes. Tada modelis naudoja turtingas konteksto ypatybes, naudodamas kryžminio dėmesio sluoksnius, o modelis naudoja susiliejimą, kad sujungtų šias teksto funkcijas su kryžminio dėmesio sluoksniais. Tačiau šis metodas pakeičia išmoktas konteksto reprezentacijas su tekstu suderintomis vaizdinėmis detalėmis, kurios palengvina semantinį vaizdo konteksto supratimą ir leidžia susintetinti pagrįstą ir ryškią dinamiką. Be to, bandant papildyti papildomas vaizdines detales, sistema sujungia visą vaizdą su pradiniu triukšmu į difuzijos modelį. Dėl to „DynamiCrafter“ sistemos įdiegtas dvigubo įpurškimo metodas garantuoja įvesties vaizdo vaizdinį atitikimą ir patikimą dinaminį turinį. 

Judėdami toliau, difuzijos modeliai arba DM pademonstravo puikų našumą ir generatyvų meistriškumą generuojant T2I arba tekstą į vaizdą. Norint pakartoti T2I modelių sėkmę vaizdo įrašų generavimui, siūlomi VDM arba vaizdo difuzijos modeliai, kurie naudoja erdvės ir laiko faktorių U-New architektūrą pikselių erdvėje, kad modeliuotų mažos raiškos vaizdo įrašus. T2I struktūrų mokymosi perkėlimas į T2V sistemas padės sumažinti mokymo išlaidas. Nors VDM arba vaizdo sklaidos modeliai gali generuoti aukštos kokybės vaizdo įrašus, jie priima tik tekstinius raginimus kaip vienintelę semantinę gairę, kuri gali neatspindėti tikrųjų naudotojo ketinimų arba gali būti neaiški. Tačiau daugumos VDM modelių rezultatai retai atitinka įvesties vaizdą ir kenčia nuo nerealaus laiko kitimo problemos. „DynamiCrafter“ metodas yra pagrįstas tekstiniais vaizdo įrašų difuzijos modeliais, kurie išnaudoja turtingą dinamiką prieš animuojant atviro domeno vaizdus. Tai daroma įtraukiant pritaikytus dizainus, skirtus geresniam semantiniam supratimui ir įvesties vaizdo atitikimui. 

DynamiCrafter: metodas ir architektūra

Tam tikram nejudančiam vaizdui DyanmiCrafter sistema bando animuoti vaizdas į vaizdo įrašą ty sukurti trumpą vaizdo klipą. Vaizdo klipas paveldi vaizdinį turinį iš vaizdo ir pasižymi natūralia dinamika. Tačiau yra tikimybė, kad vaizdas gali pasirodyti savavališkoje gautos kadrų sekos vietoje. Vaizdo atsiradimas savavališkoje vietoje yra ypatingas iššūkis, stebimas atliekant vaizdo kondicionavimo vaizdo generavimo užduotis, kurioms keliami aukšti vaizdo atitikties reikalavimai. „DynamiCrafter“ sistema įveikia šį iššūkį naudodama generatyvius iš anksto paruoštų vaizdo sklaidos modelių prioritetus. 

Vaizdo dinamika iš vaizdo difuzijos prieš

Paprastai žinoma, kad atviro domeno teksto į vaizdo įrašą sklaidos modeliai rodo dinaminį vaizdinį turinį, modeliuotą teksto aprašymuose. Norint animuoti nejudantį vaizdą naudojant teksto į vaizdo įrašą generavimo prioritetus, sistemos pirmiausia turėtų visapusiškai įterpti vaizdinę informaciją vaizdo įrašų generavimo procese. Be to, dinaminei sintezei T2V modelis turėtų suvirškinti vaizdą, kad suprastų kontekstą, ir taip pat turėtų sugebėti išsaugoti vaizdines detales sugeneruotuose vaizdo įrašuose. 

Teksto suderintas kontekstinis vaizdavimas

Siekdama nukreipti vaizdo įrašų generavimą atsižvelgiant į vaizdo kontekstą, „DynamiCrafter“ sistema bando projektuoti vaizdą į suderintą įterpimo erdvę, leidžiančią vaizdo modeliui suderinamai naudoti vaizdo informaciją. Po to „DynamiCrafter“ sistema naudoja vaizdo kodavimo įrenginį, kad iš įvesto vaizdo išskirtų vaizdo ypatybes, nes teksto įterpimai generuojami naudojant iš anksto paruoštą CLIP teksto kodavimo įrenginį. Dabar, nors pasauliniai semantiniai žetonai iš CLIP vaizdo kodavimo priemonės yra sulygiuoti su vaizdo antraštėmis, jis pirmiausia vaizduoja vaizdinį turinį semantiniu lygiu, todėl nepavyksta užfiksuoti viso vaizdo masto. „DynamiCrafter“ sistema įdiegia visus vizualinius prieigos raktus iš paskutinio CLIP kodavimo įrenginio sluoksnio, kad išgautų išsamesnę informaciją, nes šie vaizdiniai žetonai demonstruoja aukštą tikslumą atliekant sąlyginio vaizdo generavimo užduotis. Be to, sistemoje naudojami konteksto ir teksto įterpimai, kad būtų galima sąveikauti su U-Net tarpinėmis funkcijomis naudojant dvigubus kryžminio dėmesio sluoksnius. Šio komponento konstrukcija palengvina modelio gebėjimą sugerti vaizdo sąlygas priklausomai nuo sluoksnio. Be to, kadangi tarpiniai U-Net architektūros sluoksniai labiau asocijuojasi su objektų pozomis ar formomis, tikimasi, kad vaizdo ypatybės daugiausia paveiks vaizdo įrašų išvaizdą, ypač todėl, kad dviejų galų sluoksniai yra labiau susiję su išvaizda. 

Vizualinės detalės vadovas

„DyanmiCrafter“ sistemoje naudojamas turtingas informatyvus konteksto atvaizdavimas, leidžiantis vaizdo sklaidos modeliui savo architektūroje sukurti vaizdo įrašus, kurie labai primena įvesties vaizdą. Tačiau, kaip parodyta toliau pateiktame paveikslėlyje, sukurtame turinyje gali būti tam tikrų neatitikimų dėl ribotos iš anksto parengto CLIP koduotuvo galimybės visiškai išsaugoti įvesties informaciją, nes jis buvo sukurtas taip, kad būtų suderinta kalba ir vaizdo ypatybės. 

Siekiant pagerinti vizualinį atitikimą, „DynamiCrafter“ sistema siūlo vaizdo sklaidos modelį pateikti su papildomomis vaizdinėmis detalėmis, išskirtomis iš įvesties vaizdo. Kad tai pasiektų, „DyanmiCrafter“ modelis sąlyginį vaizdą sujungia su pradiniu kiekvieno kadro triukšmu ir pateikia juos triukšmą slopinančiam „U-Net“ komponentui kaip nurodymą. 

Treniruočių paradigma

„DynamiCrafter“ sistema sujungia sąlyginį vaizdą per du vienas kitą papildančius srautus, kurie atlieka svarbų vaidmenį teikiant išsamias gaires ir valdant kontekstą. Siekiant palengvinti tą patį, DynamiCrafter modelyje naudojamas trijų etapų mokymo procesas

  1. Pirmajame etape modelis apmoko vaizdo konteksto vaizdavimo tinklą. 
  2. Antrame žingsnyje modelis pritaiko vaizdo konteksto vaizdavimo tinklą prie teksto į vaizdo įrašą modelio. 
  3. Trečiajame ir paskutiniame žingsnyje modelis tiksliai suderina vaizdo konteksto vaizdavimo tinklą kartu su „Visual Detail Guidance“ komponentu. 

Norint pritaikyti vaizdo informaciją, kad ji būtų suderinama su teksto į vaizdo įrašą (T2V) modeliu, „DynamiCrafter“ sistema siūlo sukurti konteksto vaizdavimo tinklą P, skirtą užfiksuoti su tekstu suderintas vaizdo detales iš pateikto vaizdo. Pripažįstant, kad P konvergencijai reikia daug optimizavimo žingsnių, sistemos metodas apima iš pradžių jos mokymą naudojant paprastesnį teksto į vaizdą (T2I) modelį. Ši strategija leidžia konteksto vaizdavimo tinklui sutelkti dėmesį į vaizdo konteksto pažinimą, prieš integruojant jį su T2V modeliu, bendrai treniruojant su P ir erdviniais T2V modelio sluoksniais, o ne laikinaisiais. 

Siekiant užtikrinti T2V suderinamumą, „DyanmiCrafter“ sistema sujungia įvesties vaizdą su vieno kadro triukšmu, tiksliai suderindama tiek P, tiek vizualinio atskyrimo modelio (VDM) erdvinius sluoksnius. Šis metodas pasirinktas siekiant išlaikyti esamų T2V modelio laiko įžvalgų vientisumą be neigiamo tankaus vaizdo susiliejimo poveikio, kuris gali pakenkti našumui ir nukrypti nuo mūsų pagrindinio tikslo. Be to, sistemoje naudojama strategija, pagal kurią atsitiktinai pasirenkamas vaizdo įrašo kadras kaip vaizdo sąlyga, kad būtų pasiekti du tikslai: (i) neleisti, kad tinklas sukurtų nuspėjamą modelį, tiesiogiai susiejantį sujungtą vaizdą su konkrečia kadro vieta, ir (ii) skatinti labiau pritaikomą konteksto vaizdavimą, užkertant kelią pernelyg griežtos informacijos teikimui bet kokiam konkrečiam rėmui. 

DynamiCrafter: eksperimentai ir rezultatai

„DynamiCrafter“ sistema pirmiausia apmoko konteksto vaizdavimo tinklą ir vaizdo kryžminio dėmesio sluoksnius stabilioje difuzijoje. Tada sistema pakeičia Stabili difuzija komponentas su „VideoCrafter“ ir toliau tiksliai suderina konteksto vaizdavimo tinklą ir erdvinius sluoksnius, kad būtų galima pritaikyti ir sujungti vaizdą. Darant išvadą, sistema naudoja DDIM mėginių ėmimo priemonę su kelių sąlygų klasifikatoriaus nurodymais. Be to, norint įvertinti laiko ir erdvės srityse susintetintų vaizdo įrašų darną ir kokybę, sistema praneša apie FVD arba Frechet vaizdo atstumą, taip pat KVD arba branduolio vaizdo atstumą ir įvertina nulinį visų metodų našumą. MSR-VTT ir UCF-101 etalonų. Norint ištirti sugeneruotų rezultatų ir įvesties vaizdo suvokimo atitiktį, sistema pristato PIC arba suvokimo įvesties atitiktį ir priima suvokimo atstumo metriką DreamSim kaip atstumo funkciją. 

Toliau pateiktame paveikslėlyje parodytas vaizdinis sugeneruoto animacinio turinio palyginimas su skirtingais stiliais ir turiniu. 

Kaip galima pastebėti, tarp visų skirtingų metodų, „DynamiCrafter“ sistema gerai laikosi įvesties vaizdo sąlygų ir generuoja laikinai nuoseklius vaizdo įrašus. Šioje lentelėje pateikiami statistiniai duomenys iš naudotojo tyrimo, kuriame dalyvavo 49 dalyviai, pagal pirmenybės laikinosios darnos (TC) ir judėjimo kokybės (MC) rodiklį, taip pat vizualinio atitikimo įvesties vaizdui pasirinkimo rodiklis. (IC). Kaip galima pastebėti, „DynamiCrafter“ sistema gali gerokai pranokti esamus metodus. 

Toliau pateiktame paveikslėlyje pavaizduoti rezultatai, pasiekti naudojant dviejų srautų injekcijos metodą ir mokymo paradigmą. 

Baigiamosios mintys

Šiame straipsnyje mes kalbėjome apie „DynamiCrafter“ – bandymą įveikti dabartinius vaizdų animacijos modelių apribojimus ir išplėsti jų pritaikomumą bendriems scenarijams, susijusiems su atviro pasaulio vaizdais. „DynamiCrafter“ sistema bando sintetinti dinaminį turinį atviro domeno vaizdams, paverčiant juos animuotais vaizdo įrašais. Pagrindinė „DynamiCrafter“ idėja yra įtraukti vaizdą kaip gairę į generavimo procesą, bandant panaudoti judesį prieš jau esamą tekstą į vaizdo sklaidos modelius. Tam tikram vaizdui „DynamiCrafter“ modelis pirmiausia įdiegia užklausos transformatorių, kuris projektuoja vaizdą į teksto suderintą turtingą konteksto vaizdavimo erdvę, palengvindamas vaizdo įrašo modelio vaizdo turinį suderinamu būdu. Tačiau „DynamiCrafter“ modelis vis dar stengiasi išsaugoti kai kurias vaizdines detales gautuose vaizdo įrašuose. Problema, kurią „DynamiCrafter“ modelis išsprendžia pateikdamas visą vaizdą į difuzijos modelį, sujungdamas vaizdą su pradiniais triukšmais, todėl modelį papildo tikslesniu vaizdu. informacija. 

„Iš profesijos inžinierius, iš širdies – rašytojas“. Kunal yra techninis rašytojas, giliai mylintis ir suprantantis dirbtinį intelektą ir ML, siekiantis supaprastinti sudėtingas sąvokas šiose srityse, pasitelkdamas patrauklią ir informatyvią dokumentaciją.