стуб ДинамиЦрафтер: Анимирање слика отвореног домена уз претходну видео дифузију - Уните.АИ
Повежите се са нама

Вештачка интелигенција

ДинамиЦрафтер: Анимирање слика отвореног домена са претходним видео дифузијом

mm

објављен

 on

ДинамиЦрафтер: Анимирање слика отвореног домена са претходним видео дифузијом

Цомпутер висион је данас једна од најузбудљивијих и добро истражених области унутар АИ заједнице, и упркос брзом унапређењу модела компјутерског вида, дугогодишњи изазов који и даље мучи програмере је анимација слика. Чак и данас, оквири за анимацију слика се боре да претворе статичне слике у одговарајуће видео парњаке који приказују природну динамику уз очување оригиналног изгледа слика. Традиционално, оквири за анимацију слика се првенствено фокусирају на анимирање природних сцена са покретима специфичним за домен као што су покрети људске косе или тела, или стохастичка динамика као што су течности и облаци. Иако овај приступ функционише у одређеној мери, он ограничава применљивост ових оквира за анимацију на генерички визуелни садржај. 

Штавише, конвенционални приступи анимацији слике концентришу се првенствено на синтезу осцилирајућих и стохастичких кретања, или на прилагођавање за специфичне категорије објеката. Међутим, приметна мана приступа су снажне претпоставке које су наметнуте овим методама, што на крају ограничава њихову применљивост, посебно у општим сценаријима као што је анимација слике отвореног домена. У последњих неколико година, Модели Т2В или Тект то Видео су показали изузетан успех у генерисању живописних и разноврсних видео записа користећи текстуалне упите, а ова демонстрација Т2В модела је оно што чини основу за ДинамиЦрафтер оквир. 

Оквир ДинамиЦрафтер је покушај да се превазиђу тренутна ограничења модела анимације слика и прошири њихова примењивост на генеричке сценарије који укључују слике отвореног света. Оквир ДинамиЦрафтер покушава да синтетизује динамички садржај за слике отвореног домена, претварајући их у анимиране видео записе. Кључна идеја која стоји иза ДинамиЦрафтер-а је да се слика угради као смерница у генеративни процес у покушају да се искористи кретање пре већ постојећег текста у моделе дифузије видеа. За дату слику, ДинамиЦрафтер модел прво имплементира трансформатор упита који пројектује слику у простор за представљање богатог контекста усклађеног са текстом, олакшавајући видео моделу да свари садржај слике на компатибилан начин. Међутим, ДинамиЦрафтер модел се и даље бори да сачува неке визуелне детаље у резултујућим видео снимцима, проблем који ДинамиЦрафтер модел превазилази тако што даје пуну слику дифузионом моделу спајањем слике са почетним шумовима, допуњујући модел прецизнијом сликом. информације. 

Овај чланак има за циљ да детаљно покрије ДинамиЦрафтер оквир, а ми истражујемо механизам, методологију, архитектуру оквира заједно са његовим поређењем са најсавременијим оквирима за генерисање слике и видео записа. Па хајде да почнемо. 

ДинамиЦрафтер : анимација слика отвореног домена

Анимирање непокретне слике често нуди привлачно визуелно искуство за публику јер се чини да оживљава непокретну слику. Током година, бројни оквири су истраживали различите методе анимације непокретних слика. Почетни оквири за анимацију имплементирали су приступе засноване на физичкој симулацији који су се фокусирали на симулацију кретања одређених објеката. Међутим, због независног моделирања сваке категорије објеката, ови приступи нису били ни ефикасни нити су имали могућност генерализације. Да би се реплицирали реалистичнији покрети, појавиле су се методе засноване на референцама које су преносиле информације о кретању или изгледу из референтних сигнала попут видео записа у процес синтезе. Иако су приступи засновани на референцама дали боље резултате са бољом временском кохерентношћу у поређењу са приступима заснованим на симулацији, њима су биле потребне додатне смернице које су ограничавале њихову практичну примену. 

Последњих година, већина оквира за анимацију фокусира се првенствено на анимирање природних сцена са стохастичким, специфичним за домен или осцилирајућим покретима. Иако приступ који имплементирају ови оквири у одређеној мери функционише, резултати које ови оквири генеришу нису задовољавајући, са значајним простором за побољшање. Изванредни резултати постигнути генеративним моделима Тект то Видео у последњих неколико година инспирисали су програмере ДинамиЦрафтер оквира да искористе моћне генеративне могућности Тект то Видео модела за анимацију слика. 

Кључна основа ДинамиЦрафтер оквира је да се укључи условна слика у покушају да се управља процесом генерисања видео записа Модели дифузије текста у видео. Међутим, крајњи циљ анимације слике и даље остаје нетривијалан јер анимација слике захтева очување детаља, као и разумевање визуелног контекста који је од суштинског значаја за стварање динамике. Међутим, мултимодални контролисани модели видео дифузије као што је ВидеоЦомпосер покушали су да омогуће генерисање видео записа уз визуелно вођење са слике. Међутим, ови приступи нису погодни за анимацију слике јер или доводе до наглих временских промена или до ниске визуелне усклађености са улазном сликом због њихових мање свеобухватних механизама за убризгавање слике. Да би се супротставио овој препреци, оквир ДианиЦрафтер предлаже приступ убризгавања двоструког тока, који се састоји од визуелног детаљног вођења и текстуалног приказа контекста. Приступ двоструког тока омогућава ДинамиЦрафтер оквиру да осигура да модел видео дифузије синтетише динамички садржај сачуван до детаља на комплементаран начин. 

За дату слику, ДинамиЦрафтер оквир прво пројектује слику у простор за представљање контекста усклађеног са текстом користећи посебно дизајнирану мрежу за учење контекста. Да будемо прецизнији, простор за представљање контекста се састоји од трансформатора упита који се може научити како би се додатно промовисало његово прилагођавање дифузионим моделима и унапред обученог ЦЛИП кодера слике за издвајање карактеристика слике поравнатих по тексту. Модел затим користи карактеристике богатог контекста користећи слојеве унакрсне пажње, а модел користи затворену фузију да комбинује ове карактеристике текста са слојевима унакрсне пажње. Међутим, овај приступ мења научене приказе контекста са визуелним детаљима усклађеним са текстом који олакшавају семантичко разумевање контекста слике омогућавајући синтетизовање разумне и живописне динамике. Штавише, у покушају да допуни додатне визуелне детаље, оквир спаја пуну слику са почетним шумом у модел дифузије. Као резултат тога, приступ двоструког убризгавања који имплементира ДинамиЦрафтер оквир гарантује визуелни конформитет као и уверљив динамички садржај улазне слике. 

Идући даље, модели дифузије или ДМ су показали изузетне перформансе и генеративну снагу у Т2И или генерисању текста у слику. Да би се успех Т2И модела пресликао на генерисање видео записа, предложени су ВДМ или модели видео дифузије који користе просторно-временску факторизовану У-нову архитектуру у простору пиксела за моделирање видео записа ниске резолуције. Преношење учења из Т2И оквира у Т2В оквире ће помоћи у смањењу трошкова обуке. Иако ВДМ или модели видео дифузије имају могућност да генеришу видео записе високог квалитета, они прихватају само текстуалне упите као једино семантичко упутство које можда не одражава праве намере корисника или може бити нејасно. Међутим, резултати већине ВДМ модела ретко се придржавају улазне слике и пате од нереалних временских варијација. Приступ ДинамиЦрафтер-а је изграђен на текстуално условљеним моделима видео дифузије који користе своју богату динамику за анимирање слика отвореног домена. То чини тако што укључује прилагођене дизајне за боље семантичко разумевање и усклађеност са улазном сликом. 

ДинамиЦрафтер : Метод и архитектура

За дату непокретну слику, ДианмиЦрафтер оквир покушава да анимира слику у видео тј. направити кратак видео клип. Видео снимак наслеђује визуелни садржај слике и показује природну динамику. Међутим, постоји могућност да се слика појави на произвољној локацији резултујуће секвенце кадрова. Појава слике на произвољној локацији је посебна врста изазова који се примећује у задацима генерисања видеа условљеног сликом са високим захтевима за визуелну усклађеност. Оквир ДинамиЦрафтер превазилази овај изазов користећи генеративне приоритете унапред обучених модела видео дифузије. 

Динамика слике из претходног видео дифузије

Познато је да модели дифузије текста отвореног домена обично приказују динамички визуелни садржај који је моделован на основу текстуалних описа. Да би се анимирала непокретна слика са претходним генерисањем текста у видео, оквири би прво требало да унесу визуелне информације у процес генерисања видеа на свеобухватан начин. Штавише, за динамичку синтезу, Т2В модел треба да пробави слику ради разумевања контекста, док би такође требало да буде у стању да сачува визуелне детаље у генерисаним видео записима. 

Представљање контекста поравнато по тексту

Да би водио генерисање видео записа са контекстом слике, оквир ДинамиЦрафтер покушава да пројектује слику у поравнати простор за уграђивање омогућавајући видео моделу да користи информације о слици на компатибилан начин. Након тога, ДинамиЦрафтер оквир користи кодер слике за издвајање карактеристика слике из улазне слике пошто се уграђивање текста генерише коришћењем унапред обученог ЦЛИП кодера текста. Сада, иако су глобални семантички токени из ЦЛИП кодера слике усклађени са натписима слика, он првенствено представља визуелни садржај на семантичком нивоу, чиме не успева да ухвати пун обим слике. Оквир ДинамиЦрафтер имплементира потпуне визуелне токене из последњег слоја ЦЛИП кодера како би извукао потпуније информације пошто ови визуелни токени показују високу верност у задацима генерисања условних слика. Штавише, оквир користи уграђивање контекста и текста за интеракцију са средњим карактеристикама У-Нета користећи двоструке слојеве унакрсне пажње. Дизајн ове компоненте олакшава способност модела да апсорбује услове слике на начин који зависи од слојева. Штавише, пошто се средњи слојеви архитектуре У-Нета више повезују са позама или облицима објеката, очекује се да ће карактеристике слике утицати на изглед видео записа претежно, посебно зато што су слојеви са два краја више повезани са изгледом. 

Висуал Детаил Гуиданце

Оквир ДианмиЦрафтер користи богато информативно представљање контекста које омогућава моделу видео дифузије у својој архитектури да производи видео записе који веома личе на улазну слику. Међутим, као што је приказано на следећој слици, генерисани садржај може да прикаже нека одступања због ограничене способности унапред обученог ЦЛИП енкодера да у потпуности сачува улазне информације, пошто је дизајниран да усклади језик и визуелне карактеристике. 

Да би се побољшао визуелни конформитет, оквир ДинамиЦрафтер предлаже да се моделу видео дифузије обезбеди додатни визуелни детаљи извучени из улазне слике. Да би се то постигло, ДианмиЦрафтер модел спаја условну слику са почетним шумом по кадру и шаље их компоненти У-Нет која смањује шумове као смерницу. 

Парадигма обуке

Оквир ДинамиЦрафтер интегрише условну слику кроз два комплементарна тока који играју значајну улогу у детаљном вођењу и контроли контекста. Да би се то олакшало, ДинамиЦрафтер модел користи процес обуке у три корака

  1. У првом кораку, модел обучава мрежу за представљање контекста слике. 
  2. У другом кораку, модел прилагођава мрежу представљања контекста слике моделу Тект то Видео. 
  3. У трећем и последњем кораку, модел фино подешава мрежу за представљање контекста слике заједно са компонентом Висуал Детаил Гуиданце. 

Да би се информације о слици прилагодиле компатибилности са моделом Тект-то-Видео (Т2В), оквир ДинамиЦрафтер предлаже развој мреже за представљање контекста, П, дизајниране да ухвати визуелне детаље поравнате са датом сликом. Препознајући да П захтева много корака оптимизације за конвергенцију, приступ оквира укључује почетну обуку користећи једноставнији модел текста у слику (Т2И). Ова стратегија омогућава мрежи за представљање контекста да се концентрише на учење о контексту слике пре него што га интегрише са Т2В моделом кроз заједничку обуку са П и просторним слојевима, за разлику од временских слојева, Т2В модела. 

Да би се обезбедила Т2В компатибилност, ДианмиЦрафтер оквир спаја улазну слику са шумом по кадру, настављајући да фино подешава просторне слојеве П и модела визуелне дискриминације (ВДМ). Овај метод је изабран да одржи интегритет постојећих временских увида Т2В модела без штетних ефеката спајања густе слике, што би могло угрозити перформансе и одступити од нашег примарног циља. Штавише, оквир користи стратегију насумичног одабира видео оквира као услова слике да би се постигла два циља: (и) да се избегне да мрежа развије предвидљиви образац који директно повезује спојену слику са одређеном локацијом кадра, и (ии) да подстичу прилагодљивије представљање контекста спречавањем давања превише ригидних информација за било који одређени оквир. 

ДинамиЦрафтер : Експерименти и резултати

Оквир ДинамиЦрафтер прво обучава мрежу за представљање контекста и слојеве унакрсне пажње слике на Стабле Диффусион. Оквир тада замењује Стабле Диффусион компоненту са ВидеоЦрафтер-ом и даље фино подешава мрежу за представљање контекста и просторне слојеве за прилагођавање, и са спајањем слика. На основу закључка, оквир усваја ДДИМ узоркивач са вођењем без класификатора са више услова. Штавише, да би се проценила временска кохерентност и квалитет видео записа синтетизованих иу временском и у просторном домену, оквир извештава о ФВД или Фрецхет Видео Дистанце, као и КВД или Кернел Видео Дистанце, и оцењује перформансе нулте снимке на свим методама. МСР-ВТТ и УЦФ-101 референтних вредности. Да би се истражио перцептивни конформитет између генерисаних резултата и улазне слике, оквир уводи ПИЦ или перцептуални улазни конформитет и усваја метрику перцептивне удаљености ДреамСим као функцију удаљености. 

Следећа слика приказује визуелно поређење генерисаног анимираног садржаја са различитим стиловима и садржајем. 

Као што се може приметити, међу свим различитим методама, ДинамиЦрафтер оквир се добро придржава услова улазне слике и генерише временски кохерентне видео записе. Следећа табела садржи статистику из корисничке студије са 49 учесника о стопи преференције за временску кохерентност (ТЦ) и квалитет покрета (МЦ) заједно са стопом одабира за визуелну усклађеност са улазном сликом. (ИЦ). Као што се може приметити, ДинамиЦрафтер фрамеворк је у стању да надмаши постојеће методе са значајном разликом. 

На следећој слици су приказани резултати постигнути коришћењем методе убризгавања двоструког тока и парадигме обуке. 

Завршне мисли

У овом чланку смо говорили о ДинамиЦрафтер-у, покушају да се превазиђу тренутна ограничења модела анимације слика и прошири њихова примењивост на генеричке сценарије који укључују слике отвореног света. Оквир ДинамиЦрафтер покушава да синтетизује динамички садржај за слике отвореног домена, претварајући их у анимиране видео записе. Кључна идеја која стоји иза ДинамиЦрафтер-а је да се слика угради као смерница у генеративни процес у покушају да се искористи кретање пре већ постојећег текста у моделе дифузије видеа. За дату слику, ДинамиЦрафтер модел прво имплементира трансформатор упита који пројектује слику у простор за представљање богатог контекста усклађеног са текстом, олакшавајући видео моделу да свари садржај слике на компатибилан начин. Међутим, ДинамиЦрафтер модел се и даље бори да сачува неке визуелне детаље у резултујућим видео снимцима, проблем који ДинамиЦрафтер модел превазилази тако што даје пуну слику дифузионом моделу спајањем слике са почетним шумовима, допуњујући модел прецизнијом сликом. информације. 

„Инжењер по занимању, писац по срцу“. Кунал је технички писац са дубоком љубављу и разумевањем АИ и МЛ, посвећен поједностављивању сложених концепата у овим областима кроз своју занимљиву и информативну документацију.