Штучний інтелект

CameraCtrl: Включення керування камерою для генерації відео з тексту

Published May 23, 2024

Updated April 4, 2026

Kunal Kejriwal

Нещодавні.frameworks, які намагаються створити відео з тексту або T2V генерації, використовують моделі дифузії для додання стабільності в процесі навчання, а модель Video Diffusion, одна з піонерів у рамках генерації відео з тексту, розширює архітектуру дифузії зображень у двовимірному просторі для розміщення відеоданих та навчання моделі на відео та зображенні спільно з нуля. Будуючи на цьому та для реалізації потужного попередньо навченого генератора зображень, такого як Stable Diffusion, недавні роботи розширюють свою двовимірну архітектуру шляхом вплетення тимчасових шарів між попередньо навченими двовимірними шарами та донастройки нової моделі на великих незнайомих наборах даних. Незважаючи на їхній підхід, моделі дифузії тексту у відео стикаються з суттєвою проблемою, оскільки двозначність використовуваних лише текстових описів для генерації відеозразка часто призводить до того, що модель генерації відео з тексту має слабший контроль над процесом генерації. Для подолання цього обмеження деякі моделі забезпечують покращене керування, тоді як інші працюють з точними сигналами для контролю сцени або руху людей у синтезованих відео точно. З іншого боку, є кілька рамок генерації відео з тексту, які приймають зображення як сигнал керування генератором відео, що призводить до точного моделювання тимчасових відносин або високої якості відео.

Безперечно, можна сказати, що керування грає важливу роль у задачах генерації зображень та відео, оскільки це дозволяє користувачам створювати бажаний контент. Однак існуючі рамки часто нехтують точним контролем позиції камери, який служить кінематографічною мовою для вираження глибинних нюансів оповіді моделі краще. Для подолання обмежень керування, у цій статті ми обговоримо CameraCtrl, нову ідею, яка намагається забезпечити точний контроль позиції камери для моделей генерації відео з тексту. Після параметризації траєкторії камери точно, модель тренує модуль камери, який можна вставляти в модель генерації відео з тексту, та залишає інші компоненти незмінними. Крім того, модель CameraCtrl також проводить всебічне дослідження впливу різних наборів даних та пропонує, що відео з подібними зовнішніми ознаками та різноманітним розподілом камер можуть підвищити загальну керованність та узагальнюваність моделі. Експерименти, проведені для аналізу продуктивності моделі CameraCtrl на реальних завданнях, свідчать про ефективність рамки у досягненні точного та адаптивного керування камерою, прокладаючи шлях вперед для створення персоналізованого та динамічного відео з позиції камери та текстових вхідних даних.

Ця стаття має на меті висвітлити рамку CameraCtrl докладно, і ми досліджуємо механізм, методологію, архітектуру рамки разом з її порівнянням з рамками стану мистецтва. Тому давайте почнемо.

CameraCtrl : Керування камерою для генерації відео з тексту

Нещодавній розвиток та вдосконалення моделей дифузії суттєво просунули текстову генерацію відео за останні роки та революціонізували процеси дизайну контенту. Керування грає суттєву роль у практичних застосуваннях генерації відео, оскільки це дозволяє користувачам налаштовувати згенеровані результати відповідно до своїх потреб та вимог. З високим рівнем керування модель може підвищити реалізм, якість та придатність згенерованих відео, а тексти та зображення, які використовуються моделями для покращення загальної керованості, часто не мають точного контролю над рухом та контентом. Для подолання цього обмеження деякі рамки пропонують використовувати сигнали керування, такі як скелет пози, оптичний потік та інші мультимодальні сигнали, для забезпечення більш точного контролю генерації відео. Іншим обмеженням, з яким стикаються існуючі рамки, є відсутність точного контролю над стимулюванням або регулюванням позицій камери під час генерації відео, оскільки можливість контролювати камеру є важливою, оскільки це не тільки підвищує реалізм згенерованих відео, але також дозволяє налаштовувати точки зору, підвищуючи участь користувача, особливість, необхідну у розробці ігор, доповненій реальності та віртуальній реальності. Крім того, уміння керувати рухом камери дозволяє творцям підкреслювати відносини між персонажами, акцентувати емоції та спрямовувати увагу цільової аудиторії, що є важливим у кінематографічній та рекламній галузях.

Для подолання цих обмежень рамка CameraCtrl пропонує навчальну та точну модуль камери, який можна вставляти в існуючу модель генерації відео з тексту, з можливістю контролю позиції камери. Однак інтеграція налаштованої камери в існуючу модель генерації відео з тексту є завданням, яке легше сказати, ніж зробити, тому рамка CameraCtrl шукає способи ефективно представити та впровадити камеру в архітектуру моделі. У цьому контексті рамка CameraCtrl приймає плакер-ембеддинги як основну форму камерних параметрів, причиною чого є їхня здатність кодувати геометричне описання інформації про позицію камери. Крім того, для забезпечення загальності та придатності моделі CameraCtrl після навчання, модель вводить модель контролю камери, яка приймає лише плакер-ембеддинги як вхідні дані. Для ефективного навчання моделі контролю камери рамка та її розробники проводять всебічне дослідження впливу різних тренувальних даних на рамку, від синтетичних до реалістичних даних. Експериментальні результати свідчать про те, що впровадження даних з різноманітним розподілом позицій камери та подібними зовнішніми ознаками до оригінальної базової моделі досягає найкращого компромісу між керованністю та узагальнюваністю. Розробники рамки CameraCtrl реалізували модель на основі рамки AnimateDiff, забезпечуючи точний контроль у генерації відео в різних персоналізованих контекстах, демонструючи її універсальність та корисність у широкому спектрі контекстів створення відео.

Рамка AnimateDiff приймає ефективний підхід донастройки LoRA для отримання ваг моделі для різних типів кадрів. Рамка Direct-a-video пропонує впровадити камерний ембеддер для контролю позиції камери під час процесу генерації відео, але вона умовно залежить лише від трьох параметрів камери, обмежуючи можливість контролю камери найбільш базовими типами. З іншого боку, рамки, такі як MotionCtrl, проектують контролер руху, який приймає більше трьох вхідних параметрів та能够 виробляти відео з більш складними позиціями камери. Однак необхідність донастройки частин згенерованих відео перешкоджає загальності моделі. Крім того, деякі рамки включають додаткові структуровані сигнали контролю, такі як глибинні карти, у процес генерації для підвищення керованості як для зображень, так і для тексту. Зазвичай, модель подає ці сигнали контролю в додатковий кодувальник, а потім впроваджує сигнали в генератор за допомогою різних операцій.

CameraCtrl: Архітектура моделі

Перед тим, як розглянути архітектуру та парадигму навчання камерного кодувальника, важливо зрозуміти різні представлення камери. Зазвичай, позиція камери відноситься до внутрішніх та зовнішніх параметрів, і одним з прямих виборів для умовання генератора відео на позицію камери є подача сирових значень камерних параметрів у генератор. Однак реалізація такого підходу може не підвищити точний контроль камери через кілька причин. По-перше, хоча матриця обертання обмежена ортогональністю, вектор перекладу зазвичай не обмежений за величиною, що призводить до неузгодженості в процесі навчання, яка може вплинути на узгодженість контролю. По-друге, використання сирових камерних параметрів безпосередньо може зробити важким для моделі корелювати ці значення з пікселями зображення, що призводить до зниження контролю над візуальними деталями. Для уникнення цих обмежень рамка CameraCtrl приймає плакер-ембеддинги як представлення позиції камери, оскільки плакер-ембеддинги мають геометричне представлення кожного пікселя кадру відео та можуть забезпечити більш докладне описання інформації про позицію камери.

Керування камерою у генераторах відео

Параметризуючи траєкторію камери у плакер-ембеддинг-послідовність, тобто просторові карти, модель має можливість використовувати кодувальник для витягування камерних ознак, а потім поєднувати камерні ознаки з генераторами відео. Аналогічно до тексту в зображення адаптера, модель CameraCtrl вводить камерний кодувальник, спеціально розроблений для відео. Камерний кодувальник включає тимчасову увагу після кожного конволюційного блоку, що дозволяє йому захоплювати тимчасові відносини позицій камери протягом відеокадру. Як показано на наступному зображенні, камерний кодувальник приймає лише плакер-ембеддинг-вхід та видає багатошарові ознаки. Після отримання багатошарових камерних ознак, модель CameraCtrl намагається інтегрувати ці ознаки в архітектуру U-Net моделі генерації відео з тексту безперешкодно та визначає шари, які слід використовувати для впровадження камерної інформації ефективно. Крім того, оскільки більшість існуючих рамок приймають архітектуру типу U-Net, яка містить тимчасові та просторові шари уваги, модель CameraCtrl впроваджує камерні представлення в тимчасовий блок уваги, рішення, яке підтримується можливістю тимчасових шарів уваги захоплювати тимчасові відносини, узгоджуючи з внутрішньою причинно-наслідковою та послідовною природою траєкторії камери з просторовими шарами уваги, які зображують окремі кадри.

Навчання розподілів камери

Навчання компонента камерного кодувальника у рамці CameraCtrl на генераторі відео вимагає великої кількості добре позначених та анотованих відео з можливістю отримання траєкторії камери за допомогою підходу структури від руху або SfM. Рамка CameraCtrl намагається вибрати набір даних з зовнішніми ознаками, які відповідають тренувальним даним базової моделі генерації відео з тексту, та мають розподіл позицій камери якомога ширше. Зразки у наборі даних, згенеровані за допомогою віртуальних двигунів, демонструють різноманітний розподіл камери, оскільки розробники мають гнучкість контролювати параметри камери під час фази рендерингу, хоча це й страждає від розриву розподілу порівняно з наборами даних, що містять реальні зразки. При роботі з наборами даних, що містять реальні зразки, розподіл камери зазвичай вужчий, і в таких випадках рамка повинна знайти баланс між різноманітністю різних траєкторій камери та складністю окремої траєкторії камери. Складність окремої траєкторії камери забезпечує, що модель вчиться контролювати складні траєкторії під час навчання, тоді як різноманітність різних траєкторій камери забезпечує, що модель не переобучується до певних фіксованих шаблонів. Крім того, для контролю процесу навчання камерного кодувальника рамка CameraCtrl пропонує метрику вирівнювання камери для вимірювання якості контролю камери шляхом кількісної оцінки помилки між траєкторією камери згенерованих зразків та вхідними умовами камери.

CameraCtrl : Експерименти та результати

Рамка CameraCtrl реалізує модель AnimateDiff як свою базову модель генерації відео з тексту, і однією з основних причин цього є те, що стратегія навчання моделі AnimateDiff дозволяє її модулю руху інтегруватися з моделями генерації зображень з тексту або тексту в зображення LoRAs для генерації відео в різних жанрах та доменах. Модель використовує оптимізатор Adam для навчання моделі з постійною швидкістю навчання 1e-4. Крім того, для забезпечення того, що модель не впливає негативно на можливості генерації відео оригінальної моделі генерації відео з тексту, рамка CameraCtrl використовує метрику FID або відстань Фрідета для оцінки якості зовнішнього вигляду відео та порівнює якість згенерованого відео до та після включення модуля камери.

Для оцінки своєї продуктивності рамка CameraCtrl порівнюється з двома існуючими рамками контролю камери: MotionCtrl та AnimateDiff. Однак, оскільки рамка AnimateDiff підтримує лише вісім базових траєкторій камери, порівняння між CameraCtrl та AnimateDiff обмежується трьома базовими траєкторіями. З іншого боку, для порівняння з MotionCtrl рамка вибирає понад тисячу випадкових траєкторій камери з існуючого набору даних, крім базових траєкторій камери, генерує відео за допомогою цих траєкторій та оцінює їх за допомогою метрик TransErr та RotErr.

Як можна бачити, рамка CameraCtrl перевершує рамку AnimateDiff у базовій траєкторії та демонструє кращі результати порівняно з рамкою MotionCtrl на метриці складної траєкторії.

Крім того, наступне зображення демонструє вплив архітектури камерного кодувальника на загальну якість згенерованих зразків. Рядок а до рядка д представляють результати, згенеровані з реалізацією камерного кодувальника в архітектурі: ControlNet, ControlNet з тимчасовою увагою, T2I Адаптер, та T2I адаптер з тимчасовою увагою відповідно.

На наступному зображенні перші два місця демонструють відео, згенеровані за допомогою комбінації кодувальника RGB з рамки SparseCtrl та методу, використаного в рамці CameraCtrl.

Заключні думки

У цій статті ми обговорили рамку CameraCtrl, нову ідею, яка намагається забезпечити точний контроль позиції камери для моделей генерації відео з тексту. Після параметризації траєкторії камери точно, модель тренує модуль камери, який можна вставляти в модель генерації відео з тексту, та залишає інші компоненти незмінними. Крім того, модель CameraCtrl також проводить всебічне дослідження впливу різних наборів даних та пропонує, що відео з подібними зовнішніми ознаками та різноманітним розподілом камери можуть підвищити загальну керованість та узагальнюваність моделі. Експерименти, проведені для аналізу продуктивності моделі CameraCtrl на реальних завданнях, свідчать про ефективність рамки у досягненні точного та адаптивного контролю камери, прокладаючи шлях вперед для створення персоналізованого та динамічного відео з позиції камери та текстових вхідних даних.

Related Topics:CameraCtrl t2v models text to image text to video models text-to-video generator video diffusion

Kunal Kejriwal

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.