Зв'язатися з нами

Штучний Інтелект

CameraCtrl: увімкнення керування камерою для генерації тексту у відео

mm

опублікований

 on

Останні фреймворки, які намагаються створювати текст у відео або T2V, використовують дифузійні моделі для додання стабільності процесу навчання, а Video Diffusion Model, один із піонерів у фреймворках генерації тексту у відео, розширює архітектуру дифузії 2D-зображень, намагаючись пристосуватись до відеодані та навчати модель на відео та зображенні разом з нуля. Спираючись на те ж саме, і щоб реалізувати потужний попередньо навчений генератор зображень, такий як Stable Diffusion, нещодавні роботи роздули свою 2D архітектуру шляхом чергування часових шарів між попередньо навченими 2D шарами та точно налаштували нову модель на небачених великих наборах даних. Незважаючи на такий підхід, моделі розповсюдження тексту у відео стикаються зі значною проблемою, оскільки неоднозначність текстових описів, які використовуються лише для створення зразка відео, часто призводить до того, що модель перетворення тексту у відео має слабший контроль над створенням. Щоб усунути це обмеження, деякі моделі забезпечують розширені вказівки, тоді як інші працюють з точними сигналами, щоб точно контролювати сцену або рухи людини в синтезованих відео. З іншого боку, є кілька фреймворків тексту до відео, які використовують зображення як керуючий сигнал для відеогенератора, що призводить або до точного моделювання часових зв’язків, або до високої якості відео. 

Можна з упевненістю сказати, що керованість відіграє вирішальну роль у задачах створення зображень і відео, оскільки вона дозволяє користувачам створювати вміст, який вони бажають. Однак існуючі рамки часто ігнорують точний контроль пози камери, який служить кінематографічною мовою для кращого вираження глибших нюансів оповіді моделі. Щоб усунути поточні обмеження керованості, у цій статті ми поговоримо про CameraCtrl, нову ідею, яка намагається увімкнути точне керування позицією камери для моделей тексту у відео. Після точної параметризації траєкторії камери модель навчає модуль камери plug and play на моделі тексту у відео, залишаючи інші компоненти недоторканими. Крім того, модель CameraCtrl також проводить комплексне дослідження впливу різних наборів даних і припускає, що відео зі схожим зовнішнім виглядом і різноманітним розподілом камер можуть підвищити загальну керованість і можливості узагальнення моделі. Експерименти, проведені для аналізу продуктивності моделі CameraCtrl у реальних завданнях, вказують на ефективність фреймворку в досягненні точного й адаптивного до домену керування камерою, прокладаючи шлях вперед для створення налаштованого та динамічного відео з пози камери та текстових вводів. 

Ця стаття має на меті детально розглянути фреймворк CameraCtrl, і ми досліджуємо механізм, методологію, архітектуру фреймворку разом із його порівнянням із сучасними фреймворками. Тож почнемо. 

CameraCtrl : керування камерою для створення T2V

Нещодавня розробка та вдосконалення моделей розповсюдження за останні роки суттєво вдосконалили генерацію відео з керуванням текстом і зробили революцію в робочих процесах дизайну вмісту. Керованість відіграє важливу роль у практичних програмах створення відео, оскільки вона дозволяє користувачам налаштовувати згенеровані результати відповідно до своїх потреб і вимог. Завдяки високій керованості модель здатна підвищити реалістичність, якість і зручність використання створюваних відео, і хоча введення тексту та зображень зазвичай використовуються моделями для покращення загальної керованості, їм часто бракує точного контролю над рухом і вмістом . Щоб усунути це обмеження, деякі фреймворки запропонували використовувати керуючі сигнали, такі як скелет пози, оптичний потік та інші мультимодальні сигнали, щоб уможливити більш точне керування для генерації відео. Ще одне обмеження, з яким стикаються існуючі фреймворки, полягає в тому, що їм не вистачає точного контролю над стимулюванням або коригуванням точок камери під час генерації відео, оскільки здатність контролювати камеру має вирішальне значення, оскільки вона не тільки підвищує реалістичність створюваних відео, але й дозволяє налаштовувати точки огляду. покращує залучення користувачів, функція, яка є важливою для розробки ігор, доповненої реальності та віртуальної реальності. Крім того, вміле керування рухами камери дозволяє творцям висвітлити стосунки персонажів, підкреслити емоції та спрямувати увагу цільової аудиторії, що є надзвичайно важливим у кіно та рекламній індустрії. 

Для вирішення та подолання цих обмежень розроблено структуру CameraCtrl, зручний і точний модуль камери з можливістю керування кутами огляду камери для створення відео. Однак інтегрувати налаштовану камеру в існуючу конвеєрну модель тексту у відео – завдання легше сказати, ніж зробити, що змушує структуру CameraCtrl шукати способи ефективного представлення та впровадження камери в архітектуру моделі. На тій же ноті, фреймворк CameraCtrl приймає вбудовування plucker як основну форму параметрів камери, і причиною вибору вбудовування plucker можна зарахувати їх здатність кодувати геометричні описи інформації про пози камери. Крім того, щоб забезпечити узагальненість і застосовність моделі CameraCtrl після навчання, модель представляє модель керування камерою, яка приймає лише вбудовування plucker як вхідні дані. Щоб забезпечити ефективне навчання моделі керування камерою, фреймворк та його розробники проводять комплексне дослідження, щоб дослідити, як різні навчальні дані впливають на фреймворк від синтетичних до реалістичних даних. Експериментальні результати показують, що впровадження даних із різноманітним розподілом пози камери та зовнішнім виглядом, подібним до вихідної базової моделі, забезпечує найкращий компроміс між керованістю та можливістю узагальнення. Розробники фреймворку CameraCtrl реалізували цю модель поверх фреймворку AnimateDiff, забезпечуючи таким чином точний контроль у створенні відео в різних персоналізованих відео, демонструючи його універсальність і корисність у широкому діапазоні контекстів створення відео. 

Фреймворк AnimateDiff використовує ефективність Лора тонкий підхід для отримання вагових коефіцієнтів моделі для різних типів знімків. Фреймворк Direct-a-video пропонує реалізувати вбудований пристрій камери для керування положенням камер під час генерації відео, але це залежить лише від трьох параметрів камери, обмежуючи здатність керування камерою до більшості основних типів. З іншого боку, фреймворки, включаючи MotionCtrl, розробляють контролер руху, який приймає більше трьох вхідних параметрів і може створювати відео зі складнішими позами камери. Однак необхідність точного налаштування частин створених відеозаписів перешкоджає узагальненню моделі. Крім того, деякі фреймворки включають у процес додаткові структурні керуючі сигнали, такі як карти глибини, щоб підвищити керованість генерації зображення та тексту. Як правило, модель подає ці керуючі сигнали в додатковий кодер, а потім вводить сигнали в генератор за допомогою різних операцій. 

CameraCtrl: Архітектура моделі

Перш ніж ми зможемо поглянути на архітектуру та парадигму навчання кодера камери, нам життєво важливо зрозуміти різні представлення камери. Як правило, поза камери відноситься до внутрішніх і зовнішніх параметрів, і один із простих варіантів використання умови відеогенератора для пози камери — це передача необроблених значень щодо параметрів камери в генератор. Однак впровадження такого підходу може не покращити точне керування камерою з кількох причин. По-перше, хоча матриця обертання обмежена ортогональністю, вектор трансляції зазвичай не напружений за величиною, що призводить до неузгодженості в процесі навчання, що може вплинути на послідовність керування. По-друге, використання необроблених параметрів камери може ускладнити для моделі зв’язок цих значень із пікселями зображення, що призведе до зниження контролю над візуальними деталями. Щоб уникнути цих обмежень, структура CameraCtrl вибирає вбудовування plucker як представлення для пози камери, оскільки вбудовування plucker мають геометричні представлення кожного пікселя відеокадру та можуть надати більш детальний опис інформації про пози камери. 

Керованість камери у відеогенераторах

Оскільки модель параметризує траєкторію камери в послідовність вбудовування plucker, тобто просторові карти, модель має вибір використовувати модель кодера для вилучення функцій камери, а потім об’єднати функції камери у відеогенератори. Схожий на текст в зображення адаптера, модель CameraCtrl представляє кодер камери, розроблений спеціально для відео. Кодер камери включає часову модель уваги після кожного згорткового блоку, що дає змогу фіксувати часові співвідношення поз камери протягом усього відеокліпу. Як показано на наступному зображенні, кодер камери приймає лише вхідні дані для вбудовування plucker і надає багатомасштабні функції. Після отримання функцій багатомасштабної камери модель CameraCtrl прагне безперешкодно інтегрувати ці функції в архітектуру U-net моделі тексту у відео та визначає рівні, які слід використовувати для ефективного включення інформації камери. Крім того, оскільки більшість існуючих фреймворків використовують архітектуру, схожу на U-Net, яка містить як часовий, так і просторовий рівні уваги, модель CameraCtrl вводить зображення камери в блок тимчасової уваги, рішення, яке підтримується здатністю тимчасової уваги шари для захоплення часових зв’язків, узгоджуючи з притаманним невимушеним і послідовним характером траєкторії камери з шарами просторової уваги, що відображають окремі кадри. 

Вивчення дистрибутивів камер

Навчання компонента кодера камери в рамках CameraCtrl на відеогенераторі потребує великої кількості добре позначених і анотованих відео з моделлю, здатною отримувати траєкторію камери за допомогою структури з руху або підходу SfM. Фреймворк CameraCtrl намагається вибрати набір даних із зовнішнім виглядом, який точно відповідає навчальним даним базового тексту та відеомоделі, і мати якомога ширший розподіл пози камери. Зразки в наборі даних, створених за допомогою віртуальних механізмів, демонструють різноманітний розподіл камери, оскільки розробники мають можливість контролювати параметри камери на етапі візуалізації, хоча вона страждає від розриву в розподілі порівняно з наборами даних, що містять зразки реального світу. Під час роботи з наборами даних, що містять зразки з реального світу, розподіл камери зазвичай вузький, і в таких випадках інфраструктурі потрібно знайти баланс між різноманітністю траєкторій різних камер і складністю траєкторій окремих камер. Складність індивідуальної траєкторії камери гарантує, що модель навчиться керувати складними траєкторіями під час процесу навчання, тоді як різноманітність між різними траєкторіями камер гарантує, що модель не підлаштовується під певні фіксовані шаблони. Крім того, для моніторингу процесу навчання кодера камери платформа CameraCtrl пропонує метрику вирівнювання камери для вимірювання якості контролю камери шляхом кількісного визначення похибки між траєкторією камери згенерованих зразків і умовами вхідної камери. 

CameraCtrl: експерименти та результати

Фреймворк CameraCtrl реалізує модель AnimateDiff як базову модель тексту в відео, і головною причиною цього є те, що стратегія навчання моделі AnimateDiff дозволяє її модулю руху інтегруватися з базовими моделями тексту в зображення або LoRA тексту в зображення для розміщення відео покоління в різних жанрах і областях. Модель використовує оптимізатор Адама для навчання моделі з постійною швидкістю навчання 1e-4. Крім того, переконайтеся, що модель не впливає на можливості створення відео оригіналу модель тексту у відео З іншого боку, CameraCtrl використовує метрику FID або Frechet Inception Distance для оцінки зовнішньої якості відео та порівнює якість створеного відео до та після включення модуля камери. 

Щоб оцінити продуктивність CameraCtrl, її порівнюють із двома існуючими платформами керування камерою: MotionCtrl і AnimateDiff. Однак, оскільки структура AnimateDiff підтримує лише вісім основних траєкторій камери, порівняння між CameraCtrl і AnimateDiff обмежується трьома основними траєкторіями. З іншого боку, для порівняння з MotionCtrl фреймворк вибирає понад тисячу випадкових траєкторій камери з існуючого набору даних на додаток до базових траєкторій камери, генерує відео з використанням цих траєкторій та оцінює їх за допомогою показників TransErr і RotErr. 

Як можна спостерігати, фреймворк CameraCtrl перевершує фреймворк AnimateDiff за основною траєкторією та забезпечує кращі результати порівняно з фреймворком MotionCtrl за метрикою складної траєкторії. 

Крім того, наступний малюнок демонструє вплив архітектури кодера камери на загальну якість згенерованих зразків. Рядки від a до d представляють результати, згенеровані за допомогою кодера камери, реалізованого в архітектурі: ControlNet, ControlNet із тимчасовою увагою, адаптер T2I та адаптер T2I із тимчасовою увагою відповідно. 

На наступному малюнку перші два зміщують відео, згенероване за допомогою комбінації RGB-кодувальника SparseCtrl і методу, який використовується в CameraCtrl. 

Заключні думки

У цій статті ми говорили про CameraCtrl, нову ідею, яка намагається увімкнути точне керування позицією камери для моделей, що передають текст у відео. Після точної параметризації траєкторії камери модель навчає модуль камери plug and play на моделі тексту у відео, залишаючи інші компоненти недоторканими. Крім того, модель CameraCtrl також проводить комплексне дослідження впливу різних наборів даних і припускає, що відео зі схожим зовнішнім виглядом і різноманітним розподілом камер можуть підвищити загальну керованість і можливості узагальнення моделі. Експерименти, проведені для аналізу продуктивності моделі CameraCtrl у реальних завданнях, вказують на ефективність фреймворку в досягненні точного й адаптивного до домену керування камерою, прокладаючи шлях вперед для створення налаштованого та динамічного відео з пози камери та текстових вводів. 

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.