Вештачка интелигенција

ЦамераЦтрл: Омогућавање контроле камере за генерисање текста у видео

објављен

Пре КСНУМКС недеља

Може 23, 2024

Недавни оквири који покушавају да претворе текст у видео или Т2В генерације користе моделе дифузије да додају стабилност у свом процесу обуке, а модел видео дифузије, један од пионира у оквирима за генерисање текста у видео, проширује архитектуру дифузије 2Д слике у покушају да се прилагоди видео податке и обучите модел на видео и слику заједно од нуле. Надовезујући се на исто, и у циљу имплементације моћног унапред обученог генератора слике као што је Стабле Диффусион, недавни радови надувају своју 2Д архитектуру преплитањем временских слојева између унапред обучених 2Д слојева и фино подешавају нови модел на невиђеним великим скуповима података. Упркос њиховом приступу, модели дифузије текста у видео суочавају се са значајним изазовом јер двосмисленост описа текста који се искључиво користи за генерисање видео узорка често доводи до тога да модел текста у видео има слабију контролу над генерисањем. Да би се ухватили у коштац са овим ограничењем, неки модели пружају побољшано навођење, док неки други раде са прецизним сигналима како би прецизно контролисали сцену или људске покрете у синтетизованим видео записима. С друге стране, постоји неколико оквира текст-видео који усвајају слике као контролни сигнал видео генератору што резултира или прецизним моделирањем временског односа или високим квалитетом видеа.

Може се са сигурношћу рећи да управљивост игра кључну улогу у задацима генерисања слика и видеа, јер омогућава корисницима да креирају садржај који желе. Међутим, постојећи оквири често занемарују прецизну контролу позе камере која служи као филмски језик за боље изражавање дубљих наративних нијанси модела. Да бисмо се ухватили у коштац са тренутним ограничењима контроле, у овом чланку ћемо говорити о ЦамераЦтрл, новој идеји која покушава да омогући тачну контролу положаја камере за текст у видео моделе. Након прецизног параметризовања путање камере, модел обучава плуг анд плаи модул камере на текстуални видео модел, а остале компоненте оставља нетакнутим. Штавише, модел ЦамераЦтрл такође спроводи свеобухватну студију о ефектима различитих скупова података и сугерише да видео снимци са сличним изгледом и разноликом дистрибуцијом камера могу побољшати укупну управљивост и способности генерализације модела. Експерименти спроведени ради анализе перформанси модела ЦамераЦтрл на задацима из стварног света указују на ефикасност оквира у постизању прецизне контроле камере која је прилагодљива домену, отварајући пут напред ка тражењу прилагођеног и динамичног видео генерисања из положаја камере и текстуалних уноса.

Овај чланак има за циљ да детаљно покрије оквир ЦамераЦтрл, а ми истражујемо механизам, методологију, архитектуру оквира заједно са његовим поређењем са најсавременијим оквирима. Па хајде да почнемо.

ЦамераЦтрл : контрола камере за Т2В генерацију

Недавни развој и унапређење модела дифузије значајно су унапредили генерисање видео записа вођених текстом последњих година и револуционисали радни ток дизајна садржаја. Управљивост игра значајну улогу у практичним апликацијама за генерисање видео записа јер омогућава корисницима да прилагоде генерисане резултате према својим потребама и захтевима. Уз високу управљивост, модел је у стању да побољша реализам, квалитет и употребљивост видео записа које је генерисао, и док модели обично користе унос текста и слике за побољшање укупне контроле, често им недостаје прецизна контрола над кретањем и садржајем . Да би се ухватили у коштац са овим ограничењем, неки оквири су предложили да се користе контролни сигнали као што су скелет поза, оптички ток и други мултимодални сигнали како би се омогућила прецизнија контрола за вођење генерисања видео записа. Још једно ограничење са којим се суочавају постојећи оквири је то што им недостаје прецизна контрола над стимулисањем или подешавањем тачака камере у генерисању видео записа, јер је могућност контроле камере кључна јер не само да побољшава реализам генерисаних видео записа, већ омогућавајући прилагођене тачке гледишта, већ и побољшава ангажовање корисника, што је од суштинског значаја за развој игара, проширене стварности и виртуелне стварности. Штавише, вешто управљање покретима камере омогућава креаторима да истакну односе ликова, нагласе емоције и усмере фокус циљне публике, нешто од великог значаја у филмској и рекламној индустрији.

Да бисте се ухватили у коштац са овим ограничењима и превазишли их, оквир ЦамераЦтрл, прецизан модул камере плуг анд плаи који се може научити, са могућношћу контроле гледишта камере за генерисање видео записа. Међутим, интегрисање прилагођене камере у постојећи цевовод од текста до видео модела је задатак лакше рећи него урадити, приморавајући оквир ЦамераЦтрл да тражи начине како да ефикасно представи и убаци камеру у архитектуру модела. На истој напомени, оквир ЦамераЦтрл усваја уграђивање хватача као примарни облик параметара камере, а разлог за одабир уграђивања плуцкера може се приписати њиховој способности да кодирају геометријске описе информација о пози камере. Штавише, да би се обезбедила генерализација и применљивост модела ЦамераЦтрл након обуке, модел уводи модел контроле камере који прихвата само уградњу вапилица као улаз. Да би се осигурало да је модел контроле камере ефикасно обучен, оквир и његови програмери спроводе свеобухватну студију како би истражили како различити подаци о обуци утичу на оквир од синтетичких до реалних података. Експериментални резултати показују да се применом података са разноликом дистрибуцијом поза камере и сличним изгледом оригиналном основном моделу постиже најбољи компромис између управљивости и генерализације. Програмери ЦамераЦтрл фрамеворк-а су имплементирали модел на врх АниматеДифф оквира, чиме су омогућили прецизну контролу у генерисању видео записа преко различитих персонализованих, демонстрирајући његову свестраност и корисност у широком спектру контекста креирања видео записа.

АниматеДифф оквир усваја ефикасан ЛоРА приступ финог подешавања за добијање тежине модела за различите врсте снимака. Дирецт-а-видео оквир предлаже имплементацију ембеддера камере за контролу положаја камера током процеса генерисања видео записа, али условљава само три параметра камере, ограничавајући способност контроле камере на већину основних типова. С друге стране, оквири укључујући МотионЦтрл дизајнирају контролер покрета који прихвата више од три улазна параметра и може да производи видео записе са сложенијим положајима камере. Међутим, потреба за финим подешавањем делова генерисаних видео записа отежава генерализацију модела. Штавише, неки оквири укључују додатне структуралне контролне сигнале као што су мапе дубине у процес како би се побољшала могућност контроле за генерисање слика и текста. Типично, модел уноси ове контролне сигнале у додатни енкодер, а затим убризгава сигнале у генератор користећи различите операције.

ЦамераЦтрл: Архитектура модела

Пре него што можемо да погледамо архитектуру и парадигму обуке за енкодер камере, од виталног је значаја да разумемо различите репрезентације камере. Обично се поза камере односи на унутрашње и екстринзичне параметре, а један од једноставних избора да се дозволи услов видео генератора на пози камере је да се сирове вредности у вези са параметрима камере унесу у генератор. Међутим, примена таквог приступа можда неће побољшати прецизну контролу камере из неколико разлога. Прво, док је матрица ротације ограничена ортогоналношћу, вектор транслације је типично ненапрегнут у величини и доводи до неусклађености у процесу учења што може утицати на конзистентност контроле. Друго, директно коришћење необрађених параметара камере може отежати моделу да повеже ове вредности са пикселима слике, што резултира смањеном контролом над визуелним детаљима. Да би се избегла ова ограничења, оквир ЦамераЦтрл бира уградње хватача као репрезентацију за позу камере, пошто уградње чупача имају геометријске репрезентације сваког пиксела видео оквира и могу пружити детаљнији опис информација о положају камере.

Управљивост камере у видео генераторима

Како модел параметризује путању камере у секвенцу за уграђивање плуцкера, тј. просторне мапе, модел има избор да користи модел кодера да издвоји карактеристике камере, а затим споји карактеристике камере у видео генераторе. Слично текст у слику адаптер, модел ЦамераЦтрл уводи енкодер камере дизајниран посебно за видео записе. Кодер камере укључује модел темпоралне пажње након сваког конволуционог блока, омогућавајући му да ухвати временске односе поза камере током видео клипа. Као што је приказано на следећој слици, енкодер камере прихвата само унос за уградњу плуцкер-а и пружа карактеристике вишеструких размера. Након добијања карактеристика камере са више скала, ЦамераЦтрл модел има за циљ да интегрише ове карактеристике у У-нет архитектуру текста у видео модел неприметно, и одређује слојеве који треба да се користе за ефикасно инкорпорирање информација о камери. Штавише, пошто већина постојећих оквира усваја архитектуру попут У-Нета која садржи и временски и просторни слој пажње, модел ЦамераЦтрл убризгава представе камере у блок темпоралне пажње, што је одлука која је подржана способношћу временске пажње. слојева за снимање временских односа, усклађујући се са инхерентном лежерном и секвенцијалном природом путање камере са слојевима просторне пажње који приказују појединачне кадрове.

Дистрибуције камере за учење

Обука компоненте енкодера камере унутар оквира ЦамераЦтрл на видео генератору захтева велику количину добро означених и обележених видео записа са моделом који може да добије путању камере користећи структуру из покрета или СфМ приступ. Оквир ЦамераЦтрл покушава да изабере скуп података са изгледом који се блиско подудара са подацима обуке основног текста са видео моделом и има што ширу дистрибуцију положаја камере. Узорци у скупу података генерисаном коришћењем виртуелних механизама показују различиту дистрибуцију камере пошто програмери имају флексибилност да контролишу параметре камере током фазе рендеровања, иако пати од јаза у дистрибуцији у поређењу са скуповима података који садрже узорке из стварног света. Када радите са скуповима података који садрже узорке из стварног света, дистрибуција камере је обично уска, и у таквим случајевима, оквир треба да пронађе равнотежу између различитости између различитих путања камере и сложености путање појединачних камера. Сложеност индивидуалне трајекторије камере осигурава да модел научи да контролише сложене путање током процеса обуке, док разноликост између различитих путања камере осигурава да се модел не уклапа у одређене фиксне обрасце. Штавише, за праћење процеса обуке енкодера камере, оквир ЦамераЦтрл предлаже метрику поравнања камере за мерење квалитета контроле камере квантификацијом грешке између путање камере генерисаних узорака и услова улазне камере.

ЦамераЦтрл : Експерименти и резултати

Оквир ЦамераЦтрл имплементира АниматеДифф модел као основни текст у видео модел, а главни разлог за исто је тај што стратегија обуке АниматеДифф модела дозвољава његовом модулу покрета да се интегрише са основним моделима текста у слику или текстом у слику ЛоРА за прилагођавање видеа. генерације у различитим жанровима и доменима. Модел користи Адам оптимизатор за обуку модела са константном стопом учења од 1е-4. Штавише, да би се осигурало да модел не утиче на могућности генерисања видео записа оригинала текст у видео модел негативно, оквир ЦамераЦтрл користи метрику ФИД или Фрецхет Инцептион Дистанце за процену квалитета изгледа видеа и упоређује квалитет генерисаног видеа пре и после укључивања модула камере.

Да би се проценио његов учинак, оквир ЦамераЦтрл се оцењује у односу на два постојећа оквира за контролу камере: МотионЦтрл и АниматеДифф. Међутим, пошто АниматеДифф оквир има подршку за само осам основних путања камере, поређење између ЦамераЦтрл и АниматеДифф је ограничено на три основне путање. С друге стране, за поређење са МотионЦтрл, оквир бира преко хиљаду насумичних путања камере из постојећег скупа података поред путања основне камере, генерише видео записе користећи ове путање и процењује их користећи ТрансЕрр и РотЕрр метрику.

Као што се може приметити, оквир ЦамераЦтрл надмашује оквир АниматеДифф у основној путањи и даје боље резултате у поређењу са оквиром МотионЦтрл на сложеној метрици путање.

Штавише, следећа слика показује ефекат архитектуре енкодера камере на укупан квалитет генерисаних узорака. Редови од а до реда д представљају резултате генерисане енкодером камере имплементираним у архитектури: ЦонтролНет, ЦонтролНет са временском пажњом, Т2И адаптер и Т2И адаптер са временском пажњом.

На следећој слици, прва два депласирају видео генерисан коришћењем комбинације РГБ кодера СпарсеЦтрл оквира и методе коришћене у оквиру ЦамераЦтрл.

Завршне мисли

У овом чланку смо говорили о ЦамераЦтрл, новој идеји која покушава да омогући прецизну контролу положаја камере за текст у видео моделе. Након прецизног параметризовања путање камере, модел обучава плуг анд плаи модул камере на текстуални видео модел, а остале компоненте оставља нетакнутим. Штавише, модел ЦамераЦтрл такође спроводи свеобухватну студију о ефектима различитих скупова података и сугерише да видео снимци са сличним изгледом и разноликом дистрибуцијом камера могу побољшати укупну управљивост и способности генерализације модела. Експерименти спроведени ради анализе перформанси модела ЦамераЦтрл на задацима из стварног света указују на ефикасност оквира у постизању прецизне контроле камере која је прилагодљива домену, отварајући пут напред ка тражењу прилагођеног и динамичног видео генерисања из положаја камере и текстуалних уноса.

Повезане теме:ЦамераЦтрл т2в модели текст у слику текст у видео моделе генератор текста у видео видео дифузија

Уп Нект

МамбаОут: Да ли нам је заиста потребна Мамба за визију?

Не пропустите

Шта је пошло наопако са хуманим АИ пином?

Кунал Кејривал

„Инжењер по занимању, писац по срцу“. Кунал је технички писац са дубоком љубављу и разумевањем АИ и МЛ, посвећен поједностављивању сложених концепата у овим областима кроз своју занимљиву и информативну документацију.