Изкуствен интелект

CameraCtrl: Активиране на контрола на камерата за генериране на текст към видео

Публикуван

Преди 3 седмици

Май 23, 2024

Последните рамки, които се опитват да генерират текст към видео или T2V, използват дифузионни модели, за да добавят стабилност в процеса на обучение, а Video Diffusion Model, един от пионерите в рамките за генериране на текст към видео, разширява архитектура за дифузия на 2D изображение в опит да приспособи видео данни и обучете модела на видео и изображение съвместно от нулата. Надграждайки същото и за да внедрят мощен предварително обучен генератор на изображения като Stable Diffusion, последните разработки раздуват своята 2D архитектура чрез преплитане на времеви слоеве между предварително обучените 2D слоеве и прецизират новия модел върху невиждани големи масиви от данни. Въпреки техния подход, моделите за разпространение на текст към видео са изправени пред значително предизвикателство, тъй като неяснотата на единствено използваните текстови описания за генериране на видео извадката често води до по-слаб контрол на модела от текст към видео върху генерирането. За да се справят с това ограничение, някои модели предоставят подобрени насоки, докато други работят с прецизни сигнали за точно управление на сцената или човешките движения в синтезираните видеоклипове. От друга страна, има няколко рамки текст към видео, които приемат изображения като контролен сигнал към видео генератора, което води или до точно моделиране на времева връзка, или до високо качество на видеото.

Би било безопасно да се каже, че контролируемостта играе решаваща роля в задачите за генериране на изображения и видео, тъй като позволява на потребителите да създават желаното от тях съдържание. Съществуващите рамки обаче често пренебрегват прецизния контрол на позата на камерата, която служи като кинематографичен език за по-добро изразяване на по-дълбоките наративни нюанси на модела. За да се справим с настоящите ограничения на контролируемостта, в тази статия ще говорим за CameraCtrl, нова идея, която се опитва да даде възможност за точно управление на позицията на камерата за модели от текст към видео. След прецизно параметризиране на траекторията на камерата, моделът обучава plug and play модул на камера върху модел от текст към видео и оставя останалите компоненти недокоснати. Освен това моделът CameraCtrl също така провежда цялостно проучване на ефекта от различни набори от данни и предполага, че видеоклипове с подобен външен вид и разнообразно разпределение на камерата могат да подобрят цялостната управляемост и способностите за обобщение на модела. Експериментите, проведени за анализиране на производителността на модела CameraCtrl при задачи от реалния свят, показват ефективността на рамката за постигане на прецизен и адаптивен към домейн контрол на камерата, прокарвайки път напред за преследването на персонализирано и динамично видео генериране от поза на камерата и текстови входове.

Тази статия има за цел да покрие рамката CameraCtrl в дълбочина и ние изследваме механизма, методологията, архитектурата на рамката, заедно с нейното сравнение с най-съвременните рамки. Така че да започваме.

CameraCtrl : Управление на камерата за генериране на T2V

Неотдавнашното развитие и усъвършенстване на дифузионни модели усъвършенства значително воденото от текст генериране на видео през последните години и революционизира работните потоци за проектиране на съдържание. Управляемостта играе важна роля в практическите приложения за генериране на видео, тъй като позволява на потребителите да персонализират генерираните резултати според техните нужди и изисквания. С висока управляемост моделът е в състояние да подобри реализма, качеството и използваемостта на генерираните от него видеоклипове и докато въвеждането на текст и изображения се използва често от моделите за подобряване на цялостната управляемост, често им липсва прецизен контрол върху движението и съдържанието . За да се справят с това ограничение, някои рамки предложиха да се използват контролни сигнали като поза скелет, оптичен поток и други мултимодални сигнали, за да се даде възможност за по-точен контрол за насочване на генерирането на видео. Друго ограничение, с което се сблъскват съществуващите рамки, е, че им липсва прецизен контрол върху стимулирането или регулирането на точките на камерата при генериране на видео, тъй като способността да се контролира камерата е от решаващо значение, тъй като не само подобрява реализма на генерираните видеоклипове, но като позволява персонализирани гледни точки, също подобрява ангажираността на потребителите, функция, която е от съществено значение при разработването на игри, добавената реалност и виртуалната реалност. Освен това умелото управление на движенията на камерата позволява на създателите да подчертават взаимоотношенията между героите, да подчертават емоциите и да насочват фокуса на целевата аудитория, нещо от голямо значение във филмовата и рекламната индустрия.

За справяне и преодоляване на тези ограничения, рамката CameraCtrl, обучаем и прецизен plug and play модул на камера с възможност за контролиране на гледните точки на камерата за генериране на видео. Въпреки това, интегрирането на персонализирана камера в съществуващ тръбопровод на модел на текст към видео е по-лесна задача, отколкото да се направи, принуждавайки рамката CameraCtrl да търси начини как да представи и инжектира камерата в архитектурата на модела ефективно. На същата бележка рамката CameraCtrl приема вграждания на plucker като основна форма на параметрите на камерата и причината за избора на вграждания на plucker може да се припише на способността им да кодират геометрични описания на информацията за позата на камерата. Освен това, за да се осигури обобщеност и приложимост на модела CameraCtrl след обучението, моделът въвежда модел за управление на камерата, който приема само вграждания на plucker като вход. За да се гарантира, че моделът за управление на камерата е обучен ефективно, рамката и нейните разработчици провеждат цялостно проучване, за да проучат как различните данни за обучение влияят на рамката от синтетични до реалистични данни. Експерименталните резултати показват, че внедряването на данни с разнообразно разпределение на позите на камерата и подобен външен вид на оригиналния базов модел постига най-добрия компромис между управляемост и възможност за генерализиране. Разработчиците на рамката CameraCtrl внедриха модела върху рамката AnimateDiff, като по този начин позволяват прецизен контрол при генерирането на видео в различни персонализирани такива, демонстрирайки неговата гъвкавост и полезност в широк диапазон от контексти за създаване на видео.

Рамката AnimateDiff приема ефективното LoRA подход за фина настройка за получаване на теглата на модела за различни видове снимки. Рамката Direct-a-video предлага внедряване на камера за вграждане, за да контролира позата на камерите по време на процеса на генериране на видео, но зависи само от три параметъра на камерата, ограничавайки способността за управление на камерата до повечето основни типове. От друга страна, рамки, включително MotionCtrl, проектират контролер за движение, който приема повече от три входни параметъра и е в състояние да създава видеоклипове с по-сложни пози на камерата. Въпреки това, необходимостта от фина настройка на части от генерираните видеоклипове възпрепятства възможността за обобщаване на модела. Освен това, някои рамки включват допълнителни структурни контролни сигнали като карти на дълбочината в процеса, за да подобрят контролируемостта както за генериране на изображение, така и за текст. Обикновено моделът подава тези контролни сигнали в допълнителен енкодер и след това инжектира сигналите в генератор, като използва различни операции.

CameraCtrl: Архитектура на модела

Преди да можем да разгледаме парадигмата на архитектурата и обучението за енкодера на камерата, за нас е жизненоважно да разберем различните представяния на камерата. Обикновено позата на камерата се отнася до присъщи и външни параметри и един от лесните избори да оставите условие за видеогенератор на позата на камерата е да подадете необработени стойности по отношение на параметрите на камерата в генератора. Прилагането на такъв подход обаче може да не подобри точното управление на камерата поради няколко причини. Първо, докато ротационната матрица е ограничена от ортогоналност, векторът на транслация обикновено е ненапрегнат по величина и води до несъответствие в процеса на обучение, което може да повлияе на последователността на контрола. Второ, използването на необработени параметри на камерата директно може да затрудни модела да съпостави тези стойности с пикселите на изображението, което води до намален контрол върху визуалните детайли. За да избегне тези ограничения, рамката CameraCtrl избира вграждания на plucker като представяне на позата на камерата, тъй като вгражданията на plucker имат геометрични представяния на всеки пиксел от видеокадъра и могат да предоставят по-подробно описание на информацията за позата на камерата.

Управление на камерата във видеогенераторите

Тъй като моделът параметризира траекторията на камерата в последователност за вграждане на plucker, т.е. пространствени карти, моделът има избор да използва модел на енкодер за извличане на характеристиките на камерата и след това да обедини характеристиките на камерата във видео генератори. Подобен на текст към изображение адаптер, моделът CameraCtrl въвежда енкодер на камера, проектиран специално за видеоклипове. Енкодерът на камерата включва модел на времево внимание след всеки конволюционен блок, което му позволява да улови времевите връзки на позите на камерата в целия видеоклип. Както е показано на следващото изображение, енкодерът на камерата приема само вход за вграждане на plucker и предоставя многомащабни функции. След получаване на многомащабните функции на камерата, моделът CameraCtrl има за цел да интегрира безпроблемно тези функции в U-net архитектурата на модела текст към видео и определя слоевете, които трябва да се използват за ефективно включване на информацията от камерата. Освен това, тъй като по-голямата част от съществуващите рамки приемат архитектура, подобна на U-Net, която съдържа както времевите, така и пространствените слоеве на вниманието, моделът CameraCtrl инжектира изображенията на камерата в блока за темпорално внимание, решение, което е подкрепено от способността на темпоралното внимание слоеве за улавяне на времеви връзки, привеждане в съответствие с присъщия непринуден и последователен характер на траекторията на камерата със слоевете на пространственото внимание, изобразяващи отделните кадри.

Разпределение на камери за обучение

Обучението на компонента на енкодера на камерата в рамката CameraCtrl на видео генератор изисква голямо количество добре обозначени и анотирани видеоклипове, като моделът може да получи траекторията на камерата, използвайки структура от движение или SfM подход. Рамката CameraCtrl се опитва да избере набора от данни с външен вид, съответстващ точно на тренировъчните данни на основния текст към видеомодела, и да има възможно най-широко разпределение на позата на камерата. Пробите в набора от данни, генериран с помощта на виртуални машини, показват разнообразно разпределение на камерата, тъй като разработчиците имат гъвкавостта да контролират параметрите на камерата по време на фазата на изобразяване, въпреки че тя страда от пропуск в разпространението в сравнение с наборите от данни, съдържащи проби от реалния свят. Когато работите с набори от данни, съдържащи проби от реалния свят, разпределението на камерата обикновено е тясно и в такива случаи рамката трябва да намери баланс между разнообразието между различните траектории на камерата и сложността на траекторията на отделната камера. Сложността на индивидуалната траектория на камерата гарантира, че моделът се научава да контролира сложни траектории по време на тренировъчния процес, докато разнообразието между различните траектории на камерата гарантира, че моделът не прекалява с определени фиксирани модели. Освен това, за да наблюдава процеса на обучение на енкодера на камерата, рамката CameraCtrl предлага показател за подравняване на камерата за измерване на качеството на управление на камерата чрез количествено определяне на грешката между траекторията на камерата на генерираните проби и условията на входната камера.

CameraCtrl : Експерименти и резултати

Рамката CameraCtrl внедрява модела AnimateDiff като основен модел текст към видео и основната причина зад същото е, че стратегията за обучение на модела AnimateDiff позволява на неговия модул за движение да се интегрира с базови модели текст към изображение или LoRA текст към изображение, за да побере видео поколение в различни жанрове и области. Моделът използва оптимизатора на Adam, за да обучи модела с постоянна скорост на обучение от 1e-4. Освен това, за да се гарантира, че моделът не оказва влияние върху възможностите за генериране на видео на оригинала текст във видео модел отрицателно, рамката CameraCtrl използва показателя FID или Frechet Inception Distance, за да оцени качеството на външния вид на видеото и сравнява качеството на генерираното видео преди и след включването на модула на камерата.

За да се оцени неговата производителност, рамката CameraCtrl се оценява спрямо две съществуващи рамки за управление на камерата: MotionCtrl и AnimateDiff. Въпреки това, тъй като рамката AnimateDiff поддържа само осем основни траектории на камерата, сравнението между CameraCtrl и AnimateDiff е ограничено до три основни траектории. От друга страна, за сравнение с MotionCtrl, рамката избира над хиляда произволни траектории на камерата от съществуващ набор от данни в допълнение към базовите траектории на камерата, генерира видеоклипове, използвайки тези траектории, и ги оценява с помощта на показателите TransErr и RotErr.

Както може да се види, рамката CameraCtrl превъзхожда рамката AnimateDiff в основната траектория и предоставя по-добри резултати в сравнение с рамката MotionCtrl по показателя на сложната траектория.

Освен това следващата фигура демонстрира ефекта от архитектурата на енкодера на камерата върху общото качество на генерираните проби. Редове от a до ред d представляват резултатите, генерирани с енкодер на камерата, внедрен в архитектурата: ControlNet, ControlNet с временно внимание, T2I адаптер и T2I адаптер с временно внимание съответно.

На следващата фигура първите две изместват видеото, генерирано с помощта на комбинация от RGB енкодера на рамката SparseCtrl и метода, използван в рамката CameraCtrl.

Заключителни мисли

В тази статия говорихме за CameraCtrl, нова идея, която се опитва да активира прецизен контрол на позата на камерата за модели на текст към видео. След прецизно параметризиране на траекторията на камерата, моделът обучава plug and play модул на камера върху модел от текст към видео и оставя останалите компоненти недокоснати. Освен това моделът CameraCtrl също така провежда цялостно проучване на ефекта от различни набори от данни и предполага, че видеоклипове с подобен външен вид и разнообразно разпределение на камерата могат да подобрят цялостната управляемост и способностите за обобщение на модела. Експериментите, проведени за анализиране на производителността на модела CameraCtrl при задачи от реалния свят, показват ефективността на рамката за постигане на прецизен и адаптивен към домейн контрол на камерата, прокарвайки път напред за преследването на персонализирано и динамично генериране на видео от поза на камерата и текстови входове.

Следва

MambaOut: Наистина ли имаме нужда от Mamba за зрение?

Не пропускайте

Какво се обърка с Humane AI Pin?

Кунал Кейривал

„Инженер по професия, писател по душа“. Kunal е технически писател с дълбока любов и разбиране на AI и ML, посветен на опростяването на сложни концепции в тези области чрез своята ангажираща и информативна документация.