Umělá inteligence

CameraCtrl: Povolení ovládání kamery pro generování videa z textu

Published May 23, 2024

Updated April 4, 2026

Kunal Kejriwal

Nedávné rámce snažící se o generování videa z textu nebo T2V využívají modely difuze k přidání stability do svého tréninkového procesu a Video Diffusion Model, jeden z průkopníků v rámci generování videa z textu, rozšiřuje architekturu difuze 2D obrazu v pokusů o přizpůsobení videa a trénovat model na video a obraz společně od začátku. Na základě stejného principu a za účelem implementace silného předtrénovaného generátoru obrazu, jako je Stable Diffusion, nedávné práce inflují svou 2D architekturu tím, že mezi předtrénované 2D vrstvy vkládají časové vrstvy, a fine-tunují nový model na neviditelná velká data. Navzdory jejich přístupu, modely difuze videa z textu čelí významné výzvě, protože nejednoznačnost použitého textu k generování vzorku videa často vede k tomu, že model T2V má slabší kontrolu nad generováním. Aby se tato omezení překonala, některé modely poskytují lepší vedení, zatímco jiné pracují s přesnými signály pro kontrolu scény nebo pohyb člověka ve syntetizovaných videích přesně. Na druhou stranu existují beberapa rámce generování videa z textu, které přijímají obrázky jako signál řízení pro generátor videa, což vede k buď přesnému modelování časových vztahů nebo vysoké kvalitě videa.

Lze říci, že ovladatelnost hraje zásadní roli v generativních úkolech obrazu a videa, protože umožňuje uživatelům vytvářet obsah, který si přejí. Nicméně, existující rámce často přehlížejí přesnou kontrolu kamery, která slouží jako filmový jazyk pro vyjádření hlubších narativních nuancí modelu lépe. Aby se tato omezení překonala, v tomto článku budeme mluvit o CameraCtrl, novém nápadu, který se snaží povolit přesnou kontrolu kamery pro modely generování videa z textu. Po parametrizaci trajektorie kamery přesně, model trénuje modul kamery, který lze vložit do modelu generování videa z textu, a ponechává ostatní komponenty nedotčené. Kromě toho, model CameraCtrl také provádí komplexní studii o účinku různých dat, a navrhuje, že videa se podobnými vzhledy a různou distribucí kamery mohou zlepšit celkovou ovladatelnost a generalizaci modelu. Experimenty provedené k analýze výkonu modelu CameraCtrl na reálných úkolech ukazují efektivitu rámce při dosahování přesné a doménově adaptivní kontroly kamery, vytvářející cestu vpřed pro generování videa z kamery a textových vstupů.

Tento článek si klade za cíl pokrýt rámec CameraCtrl do hloubky, a prozkoumáme mechanismus, metodologii, architekturu rámce spolu s jeho srovnáním se stávajícími rámci. Takže pojďme začít.

CameraCtrl : Ovládání kamery pro generování videa z textu

Nedávný vývoj a pokrok modelů difuze významně pokročily v generování videa z textu v posledních letech a revolucionalizovaly pracovní postupy navrhování obsahu. Ovladatelnost hraje významnou roli v praktických aplikacích generování videa, protože umožňuje uživatelům přizpůsobit generované výsledky podle svých potřeb a požadavků. S vysokou ovladatelností, model je schopen zlepšit realističnost, kvalitu a použitelnost generovaných videí, a zatímco textové a obrazové vstupy jsou modely běžně používány ke zlepšení celkové ovladatelnosti, často postrádají přesnou kontrolu nad pohybem a obsahem. Aby se tato omezení překonala, některé rámce navrhly využití kontrolních signálů, jako je skelet pozice, optický tok a další multimodální signály, aby umožnily přesnější kontrolu pro vedení generování videa. Další omezení, se kterým se stávající rámce potýkají, je, že postrádají přesnou kontrolu nad stimulací nebo úpravou bodů kamery ve generování videa, protože schopnost kontroly kamery je zásadní, protože nejen zlepšuje realističnost generovaných videí, ale také umožňuje přizpůsobené pohledy, což je funkce, která je nezbytná ve vývoji her, rozšířené realitě a virtuální realitě. Kromě toho, dovedné řízení pohybů kamery umožňuje tvůrcům zdůraznit vztahy mezi postavami, zdůraznit emoce a vést pozornost cílového publika, což je něco velmi důležitého ve filmovém a reklamním průmyslu.

Aby se tato omezení překonala, rámec CameraCtrl, učitelný a přesný modul kamery s možností kontroly pohledů kamery pro generování videa. Nicméně, integrace přizpůsobené kamery do stávajícího rámce generování videa z textu není úkolem, který lze snadno vyřešit, a proto rámec CameraCtrl hledá způsoby, jak reprezentovat a vložit kameru do architektury modelu účinně. Ve stejném duchu, rámec CameraCtrl přijímá plucker embeddings jako primární formu kamerových parametrů, a důvodem pro výběr plucker embeddings je jejich schopnost kódovat geometrické popisy informací o poloze kamery. Kromě toho, aby se zajistila generalizovatelnost a aplikovatelnost modelu CameraCtrl po tréninku, model zavádí model kontroly kamery, který přijímá pouze plucker embeddings jako vstup. Aby se zajistilo, že model kontroly kamery je trénován účinně, rámec a jeho vývojáři provádějí komplexní studii, aby prozkoumali, jak různá tréninková data ovlivňují rámec od syntetických až po realistická data. Experimentální výsledky ukazují, že implementace dat s různou distribucí kamery a podobným vzhledem k původnímu základnímu modelu dosahuje nejlepšího kompromisu mezi ovladatelností a generalizovatelností. Vývojáři rámce CameraCtrl implementovali model na základě rámce AnimateDiff, a tím umožnili přesnou kontrolu ve generování videa napříč různými personalizovanými kontexty, demonstrujíce jeho všestrannost a užitelnost v širokém spektru kontextů tvorby videa.

Rámec AnimateDiff přijímá efektivní přístup fine-tuningu LoRA, aby získal váhy modelu pro různé typy záběrů. Rámec Direct-a-video navrhuje implementovat vkládání kamery, aby kontroloval polohu kamery během procesu generování videa, ale podmíněně pouze na třech parametrech kamery, omezující schopnost kontroly kamery na základní typy. Na druhou stranu, rámce, jako je MotionCtrl, navrhuje návrh kontroleru pohybu, který přijímá více než tři vstupní parametry a je schopen produkovat videa s komplexnějšími polohami kamery. Nicméně, potřeba fine-tuningu částí generovaných videí brání generalizovatelnosti modelu. Kromě toho, některé rámce zahrnují další strukturální kontrolní signály, jako jsou hloubkové mapy, do procesu, aby zlepšily ovladatelnost pro generování obrazu a textu. Typicky, model krmit tyto kontrolní signály do dalšího kódéru a poté vkládá signály do generátoru pomocí různých operací.

CameraCtrl: Architektura modelu

Než budeme moci prozkoumat architekturu a tréninkový paradigm pro kódér kamery, je důležité pochopit různé reprezentace kamery. Typicky, poloha kamery odkazuje na intrinsické a extrinsické parametry, a jednou z přímých voleb, aby se nechal generátor videa podmínit polohou kamery, je krmit surové hodnoty týkající se parametrů kamery do generátoru. Nicméně, implementace takového přístupu nemusí zlepšit přesnou kontrolu kamery z několika důvodů. První, zatímco rotační matice je omezena ortogonality, translační vektor je typicky neomezený v magnitude, a vede k nesouladu v procesu učení, který může ovlivnit konzistenci kontroly. Druhý, použití surových parametrů kamery přímo může udělat to obtížné pro model, aby koreloval tyto hodnoty s pixely obrazu, vedoucí ke snížení kontroly nad vizuálními detaily. Aby se tato omezení překonala, rámec CameraCtrl zvolil plucker embeddings jako reprezentaci polohy kamery, protože plucker embeddings mají geometrické reprezentace každého pixelu rámce videa a mohou poskytnout podrobnější popis informací o poloze kamery.

Ovladatelnost kamery ve generátorech videa

Jak model parametrizuje trajektorii kamery do sekvence plucker embeddings, tj. prostorových map, model má možnost použít kódér, aby extrahoval funkce kamery, a poté sloučit funkce kamery do generátorů videa. Podobně jako text to image adapter, model CameraCtrl zavádí kódér kamery navržen speciálně pro videa. Kódér kamery zahrnuje temporální pozornostní model po každém konvolučním bloku, umožňující mu zachytit temporální vztahy poloh kamery během celého klipu videa. Jak je ukázáno v následujícím obrázku, kódér kamery přijímá pouze vstup plucker embeddings a dodává multi-škálové funkce. Po získání multi-škálových funkcí kamery, model CameraCtrl cílí na integraci těchto funkcí do architektury U-Net modelu generování videa z textu bezproblémově a určuje vrstvy, které by měly být použity k efektivnímu zavedení informací kamery. Kromě toho, protože většina stávajících rámců přijímá architekturu podobnou U-Net, která obsahuje jak temporální, tak prostorové pozornostní vrstvy, model CameraCtrl vkládá reprezentace kamery do temporální pozornostní vrstvy, rozhodnutí, které je podpořeno schopností temporální pozornostní vrstvy zachytit temporální vztahy, které jsou v souladu s inherentní kauzální a sekvenční povahou trajektorie kamery se prostorovými pozornostními vrstvami, které zobrazují jednotlivé snímky.

Učení distribucí kamery

Trénink komponentu kódéru kamery v rámci rámce CameraCtrl na generátoru videa vyžaduje大量 dobře označených a anotovaných videí s modelem, který je schopen získat trajektorii kamery pomocí přístupu SfM. Rámec CameraCtrl se snaží vybrat data s vzhledy, které odpovídají tréninkovým datům základního modelu generování videa z textu, a mají distribuci polohy kamery co možná nejširší. Vzorky v datech generované pomocí virtuálních motorů vykazují různou distribuci kamery, protože vývojáři mají flexibilitu kontrolovat parametry kamery během fáze vykreslování, ačkoli trpí mezerou v distribuci ve srovnání s daty obsahujícími reálné vzorky. Při práci s daty obsahujícími reálné vzorky, distribuce kamery je obvykle úzká, a v takových případech, rámec potřebuje najít rovnováhu mezi rozmanitostí různých trajektorií kamery a složitostí jednotlivých trajektorií kamery. Složitost jednotlivých trajektorií kamery zajišťuje, že model učí kontrolu komplexních trajektorií během tréninku, zatímco rozmanitost mezi různými trajektoriemi kamery zajišťuje, že model se nezanedbává na určitých pevných vzorcích. Kromě toho, aby se monitoroval tréninkový proces kódéru kamery, rámec CameraCtrl navrhuje metriku zarovnání kamery, aby měřil kvalitu kontroly kamery kvantifikací chyby mezi trajektorií kamery generovaných vzorků a vstupními podmínkami kamery.

CameraCtrl : Experimenty a výsledky

Rámec CameraCtrl implementuje model AnimateDiff jako svůj základní model generování videa z textu a jeden z hlavních důvodů pro toto rozhodnutí je, že tréninková strategie modelu AnimateDiff umožňuje jeho modulu pohybu integrovat se s modelem generování obrazu z textu nebo LoRA, aby umožnil generování videa napříč různými žánry a doménami. Model používá optimalizátor Adam k tréninku modelu s konstantní rychlostí učení 1e-4. Kromě toho, aby se zajistilo, že model neovlivní negativně generování videa původního modelu generování videa z textu, rámec CameraCtrl využívá metriku FID nebo Frechet Inception Distance, aby zhodnotil kvalitu vzhledu videa a porovnal kvalitu generovaného videa před a po zahrnutím modulu kamery.

Aby se zhodnotil jeho výkon, rámec CameraCtrl je porovnán se dvěma stávajícími rámci kontroly kamery: MotionCtrl a AnimateDiff. Nicméně, protože rámec AnimateDiff má podporu pouze pro osm základních trajektorií kamery, porovnání mezi CameraCtrl a AnimateDiff je omezeno na tři základní trajektorie. Na druhou stranu, pro porovnání proti MotionCtrl, rámec vybírá přes tisíc náhodných trajektorií kamery z existujícího datasetu, kromě základních trajektorií kamery, generuje videa pomocí těchto trajektorií a hodnotí je pomocí metrik TransErr a RotErr.

Jak je vidět, rámec CameraCtrl překonává rámec AnimateDiff v základních trajektoriích a dodává lepší výsledky ve srovnání s rámcem MotionCtrl na metrice komplexní trajektorie.

Kromě toho, následující obrázek demonstruje efekt architektury kódéru kamery na celkovou kvalitu generovaných vzorků. Řádek a až řádek d reprezentují výsledky generované s kódérem kamery implementovaným v architektuře: ControlNet, ControlNet s temporální pozorností, T2I Adaptor a T2I adaptor s temporální pozorností.

V následujícím obrázku, první dva snímky zobrazují video generované pomocí kombinace rámce SparseCtrl a metody používané v rámci CameraCtrl.

Závěrečné myšlenky

V tomto článku, jsme mluvili o CameraCtrl, novém nápadu, který se snaží povolit přesnou kontrolu polohy kamery pro modely generování videa z textu. Po parametrizaci trajektorie kamery přesně, model trénuje modul kamery, který lze vložit do modelu generování videa z textu, a ponechává ostatní komponenty nedotčené. Kromě toho, model CameraCtrl také provádí komplexní studii o účinku různých dat, a navrhuje, že videa se podobnými vzhledy a různou distribucí kamery mohou zlepšit celkovou ovladatelnost a generalizaci modelu. Experimenty provedené k analýze výkonu modelu CameraCtrl na reálných úkolech ukazují efektivitu rámce při dosahování přesné a doménově adaptivní kontroly kamery, vytvářející cestu vpřed pro generování videa z kamery a textových vstupů.

Related Topics:CameraCtrl t2v models text to image text to video models text-to-video generator video diffusion

Kunal Kejriwal

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.