Kunstig intelligens

CameraCtrl: Enabling Camera Control for Text-to-Video Generation

Published May 23, 2024

Updated April 4, 2026

Kunal Kejriwal

De siste rammeverkene som prøver å generere tekst til video eller T2V, utnytter diffusjonsmodeller for å legge til stabilitet i treningsprosessen, og Video Diffusion Model, en av pionerene i tekst-til-video-rammeverk, utvider en 2D-bilde diffusjonsarkitektur i et forsøk på å tilpasse video-data, og trene modellen på video og bilde sammen fra scratch. Bygging på det samme, og for å implementere en kraftig forhånds-trent bildegenerator som Stable Diffusion, har nyere arbeid blåst opp deres 2D-arkitektur ved å interpolere tidslag mellom de forhånds-trente 2D-lagene, og finjustere den nye modellen på usette store datasamlinger. Til tross for deres tilnærming, møter tekst-til-video-diffusjonsmodellene en betydelig utfordring siden tvetydigheten ved å bruke kun tekstbeskrivelser til å generere videoeksemplet ofte resulterer i at tekst-til-video-modellen har svakere kontroll over genereringen. For å takle denne begrensningen, gir noen modeller forbedret veiledning, mens andre arbeider med presise signaler for å kontrollere scenen eller menneskelige bevegelser i de syntetiserte videoene nøyaktig. På den andre siden finnes det noen tekst-til-video-rammeverk som adopterer bilder som kontrollsignaler til video-generatoren, med resultat i enten en nøyaktig tidsmessig relasjonsmodellering eller høy video-kvalitet.

Det ville være trygt å si at kontroll spill en avgjørende rolle i bilde- og video-generative oppgaver siden det tillater brukerne å opprette innhold de ønsker. Men eksisterende rammeverk ser ofte bort fra den presise kontrollen over kamera-posen som fungerer som et kinematisk språk for å uttrykke dyptere narrative nyanser til modellen bedre. For å takle de nåværende kontroll-begrensningene, vil vi i denne artikkelen snakke om CameraCtrl, en ny idé som prøver å aktivere nøyaktig kamera-pose-kontroll for tekst-til-video-modeller. Etter å parameterisere kameraets trajektori nøyaktig, trener modellen en plug-and-play-kameramodul på en tekst-til-video-modell, og lar de andre komponentene være uberørt. Videre gjennomfører CameraCtrl-modellen også en omfattende studie på effekten av ulike datasamlinger, og foreslår at videoer med lignende utseende og divers kamerafordeling kan forbedre den totale kontrollen og generaliserbarheten til modellen. Eksperimenter gjennomført for å analysere ytelsen til CameraCtrl-modellen på virkelige oppgaver indikerer effektiviteten til rammeverket i å oppnå presis og domene-adaptiv kamera-kontroll, og baner vei for fremtiden til skreddersydd og dynamisk video-generering fra kamera-pose og tekstuelle inndata.

Denne artikkelen har som mål å dekke CameraCtrl-rammeverket i dybden, og vi utforsker mekanismen, metoden, arkitekturen til rammeverket sammen med dens sammenligning med state-of-the-art-rammeverk. La oss komme i gang.

CameraCtrl : Kamera-kontroll for T2V-generering

De siste års utvikling og fremgang i diffusjonsmodellene har fremmet tekst-styrt video-generering betydelig, og revolusjonert innhold-design-arbeidsflyten. Kontroll spiller en betydelig rolle i praktiske video-genererings-applikasjoner siden det tillater brukerne å tilpasse de genererte resultater etter deres behov og krav. Med høy kontroll, kan modellen forbedre realisme, kvalitet og brukbarheten til videoene den genererer, og mens tekst- og bilde-inndata ofte brukes av modeller for å forbedre den totale kontrollen, mangler de ofte presis kontroll over bevegelse og innhold. For å takle denne begrensningen, har noen rammeverk foreslått å utnytte kontroll-signaler som posisjons-skelett, optisk strøm og andre multi-modale signaler for å aktivere mer nøyaktig kontroll for å guide video-generering. En annen begrensning som eksisterende rammeverk møter, er at de mangler presis kontroll over å stimulere eller justere kamera-punkter i video-generering, siden evnen til å kontrollere kameraet er avgjørende, siden det ikke bare forbedrer realisme til de genererte videoene, men også tillater tilpassede visninger, og forbedrer bruker-engasjement, en funksjon som er essensiell i spill-utvikling, forbedret virkelighet og virtuell virkelighet. Videre tillater dyktig håndtering av kamera-bevegelser skapere å fremheve karakter-relasjoner, betone emosjoner og guide fokus til mål-gruppen, noe som er av stor betydning i film- og reklame-industriene.

For å takle og overvinne disse begrensningene, har CameraCtrl-rammeverket en lærbart og presis plug-and-play-kameramodul med evnen til å kontrollere kameraets visninger for video-generering. Men å integrere et tilpasset kamera i en eksisterende tekst-til-video-modell-pipeline er en oppgave som er lettere sagt enn gjort, og tvinger CameraCtrl-rammeverket til å se etter måter å representere og injicere kameraet i modell-arkitekturen effektivt. På samme måte har CameraCtrl-rammeverket valgt plucker-embetter som primær form for kamera-parametere, og grunnen til å velge plucker-embetter kan tilskrives deres evne til å kode geometriske beskrivelser av kamera-pose-informasjon. Videre, for å sikre generaliserbarheten og anvendeligheten til CameraCtrl-modellen etter trening, innfører modellen en kamera-kontroll-modell som bare aksepterer plucker-embetter som inndata. For å sikre at kamera-kontroll-modellen er trenet effektivt, gjennomfører rammeverket og dens utviklere en omfattende studie for å undersøke hvordan ulike trening-data påvirker rammeverket fra syntetiske til realistiske data. De eksperimentelle resultater indikerer at implementering av data med divers kamera-pose-fordeling og lignende utseende til den opprinnelige basis-modellen oppnår den beste avveiingen mellom kontroll og generaliserbarhet. Utviklerne av CameraCtrl-rammeverket har implementert modellen på toppen av AnimateDiff-rammeverket, og har dermed aktivert presis kontroll i video-generering på tvers av ulike personlige kontekster, og demonstrerer dens fleksibilitet og nytte i en rekke video-oppbygging-sammenhenger.

AnimateDiff-rammeverket adopterer den effektive LoRA-finjusterings-tilnærmingen for å oppnå vektene til modellen for ulike typer skudd. Direct-a-video-rammeverket foreslår å implementere en kamera-embedder for å kontrollere kameraets pose under video-genererings-prosessen, men det konditionerer bare på tre kamera-parametere, og begrenser dermed kontroll-evnen til kameraet til de mest grunnleggende typene. På den andre siden, designer MotionCtrl-rammeverket en bevegelses-kontroller som aksepterer mer enn tre inndata-parametere og kan produsere videoer med mer komplekse kamera-poser. Men behovet for å finjustere deler av de genererte videoene hemmer generaliserbarheten til modellen. Videre inkorporerer noen rammeverk ekstra strukturelle kontroll-signaler som dybde-kart til prosessen for å forbedre kontrollen for både bilde- og tekst-generering. Typisk sett matet modellen disse kontroll-signalene inn i en ekstra encoder, og injiserer deretter signalene inn i en generator ved hjelp av ulike operasjoner.

CameraCtrl: Modell-arkitektur

Før vi kan se på arkitekturen og trenings-paradigmet for kamera-encoderen, er det viktig for oss å forstå ulike kamera-representasjoner. Typisk sett refererer en kamera-pose til intrinsiske og ekstrinsiske parametere, og en av de rett fremme valgene for å la en video-generator konditionere på kamera-posen er å mate inn rå-verdier relatert til kamera-parametere inn i generatoren. Men å implementere en slik tilnærming kan kanskje ikke forbedre nøyaktig kamera-kontroll av flere grunner. Først er rotasjons-matrisen begrenset av ortogonalitet, mens translasjons-vektoren vanligvis er ubegrenset i størrelse, og fører til en mismatch i lære-prosessen som kan påvirke konsistensen til kontrollen. Andre, å bruke rå kamera-parametere direkte kan gjøre det vanskelig for modellen å korrelere disse verdiene med bilde-piksler, og resultere i redusert kontroll over visuelle detaljer. For å unngå disse begrensningene, har CameraCtrl-rammeverket valgt plucker-embetter som representasjon for kamera-posen, siden plucker-embetter har geometriske representasjoner av hver piksel i video-rammen, og kan gi en mer omfattende beskrivelse av kamera-pose-informasjonen.

Kamera-kontroll i video-generatorene

Etter å parameterisere kameraets trajektori inn i en plucker-embet-sekvens, dvs. romlige kart, har modellen valget å bruke en encoder-modell til å trekke ut kamera-egenskapene, og deretter fusjonere kamera-egenskapene inn i video-generatorene. Lignende til tekst-til-bilde-adapteren, innfører CameraCtrl-modellen en kamera-encoder designet spesielt for videoer. Kamera-encoderen inkluderer en tidsmessig oppmerksomhets-modell etter hver konvolusjons-blokk, og tillater den å fange tidsmessige relasjoner av kamera-poser gjennom hele video-klippet. Som vist i følgende bilde, aksepterer kamera-encoderen bare plucker-embet-inndata, og leverer multi-skala-egenskaper. Etter å ha fått multi-skala kamera-egenskaper, har CameraCtrl-modellen som mål å integrere disse egenskapene i U-Net-arkitekturen til tekst-til-video-modellen uten å berøre andre komponenter, og bestemmer lagene som skal brukes til å inkorporere kamera-informasjonen effektivt. Videre, siden de fleste eksisterende rammeverkene adopterer en U-Net-lignende arkitektur som inneholder både tidsmessig og romlig oppmerksomhet-lag, injiserer CameraCtrl-modellen kamera-representasjoner inn i tidsmessig oppmerksomhets-blokken, et valg som støttes av evnen til tidsmessige oppmerksomhets-lag til å fange tidsmessige relasjoner, og sammenfaller med den innebygde kausale og sekvensielle naturen til en kamera-trajektori med romlige oppmerksomhets-lag som bilder individuelle rammene.

Læring av kamera-distribusjoner

Trening av kamera-encoder-komponenten innenfor CameraCtrl-rammeverket på en video-generator krever en stor mengde godt merket og annotert videoer, hvor modellen kan oppnå kamera-trajektorien ved hjelp av struktur fra bevegelse eller SfM-tilnærmingen. CameraCtrl-rammeverket prøver å velge datasamlingen med utseende som matcher trening-data til basis-tekst-til-video-modellen nært, og har en kamera-pose-fordeling så bred som mulig. Eksempler i datasamlingen generert ved hjelp av virtuelle motorer utviser divers kamera-fordeling, siden utviklerne har fleksibiliteten til å kontrollere kamera-parametere under rendering-fasen, selv om det lider under en fordelings-gap når det sammenlignes med datasamlinger som inneholder eksempler fra den virkelige verden. Når det arbeides med datasamlinger som inneholder eksempler fra den virkelige verden, er kamera-fordelingen vanligvis smal, og i slike tilfeller må rammeverket finne en balanse mellom diversitet blant ulike kamera-trajektorier og kompleksiteten til individuelle kamera-trajektorier. Kompleksiteten til individuelle kamera-trajektorier sikrer at modellen lærer å kontrollere komplekse trajektorier under trenings-prosessen, mens diversiteten blant ulike kamera-trajektorier sikrer at modellen ikke over-fitter til bestemte faste mønster. Videre, for å overvåke trenings-prosessen til kamera-encoderen, foreslår CameraCtrl-rammeverket kamera-justerings-metrikken for å måle kontroll-kvaliteten til kameraet ved å kvantifisere feilen mellom kamera-trajektorien til de genererte eksemplene og inndata-kamera-betingelser.

CameraCtrl : Eksperimenter og resultater

CameraCtrl-rammeverket implementerer AnimateDiff-modellen som sin basis-tekst-til-video-modell, og en hoved-grunn til dette er at trenings-strategien til AnimateDiff-modellen tillater dens bevegelses-modul å integrere med tekst-til-bilde-basis-modeller eller tekst-til-bilde-LoRAs for å akkommodere video-generering på tvers av ulike sjangere og domener. Modellen bruker Adam-optimizeren til å trene modellen med en konstant lærings-rate på 1e-4. Videre, for å sikre at modellen ikke påvirker video-genererings-egenskapene til den opprinnelige tekst-til-video-modellen negativt, bruker CameraCtrl-rammeverket FID eller Frechet Inception Distance-metrikken til å vurdere utseende-kvaliteten til videoen, og sammenligner kvaliteten til den genererte videoen før og etter inkludering av kamera-modulen.

For å vurdere dens ytelse, er CameraCtrl-rammeverket evaluert mot to eksisterende kamera-kontroll-rammeverk: MotionCtrl og AnimateDiff. Men siden AnimateDiff-rammeverket bare støtter åtte grunnleggende kamera-trajektorier, er sammenligningen mellom CameraCtrl og AnimateDiff begrenset til tre grunnleggende trajektorier. På den andre siden, for sammenligning mot MotionCtrl, velger rammeverket over tusen tilfeldige kamera-trajektorier fra eksisterende datasamling i tillegg til basis-kamera-trajektorier, genererer videoer ved hjelp av disse trajektoriene, og evaluerer dem ved hjelp av TransErr og RotErr-metrikker.

Som det kan observeres, overgår CameraCtrl-rammeverket AnimateDiff-rammeverket i basis-trajektori, og leverer bedre resultater når det sammenlignes med MotionCtrl-rammeverket på kompleks trajektori-metrikken.

Videre demonstrerer følgende figur effekten av kamera-encoder-arkitekturen på den totale kvaliteten til de genererte eksemplene. Rad a til Rad d representerer resultater generert med kamera-encoder implementert i arkitekturen: ControlNet, ControlNet med tidsmessig oppmerksomhet, T2I-adapter, og T2I-adapter med tidsmessig oppmerksomhet, henholdsvis.

I følgende figur vises de to første eksemplene som er generert ved hjelp av en kombinasjon av SparseCtrl-rammeverkets RGB-encoder, og metoden brukt i CameraCtrl-rammeverket.

Slutt-tanker

I denne artikkelen har vi snakket om CameraCtrl, en ny idé som prøver å aktivere nøyaktig kamera-pose-kontroll for tekst-til-video-modeller. Etter å parameterisere kameraets trajektori nøyaktig, trener modellen en plug-and-play-kameramodul på en tekst-til-video-modell, og lar de andre komponentene være uberørt. Videre gjennomfører CameraCtrl-modellen også en omfattende studie på effekten av ulike datasamlinger, og foreslår at videoer med lignende utseende og divers kamera-fordeling kan forbedre den totale kontrollen og generaliserbarheten til modellen. Eksperimenter gjennomført for å analysere ytelsen til CameraCtrl-modellen på virkelige oppgaver indikerer effektiviteten til rammeverket i å oppnå presis og domene-adaptiv kamera-kontroll, og baner vei for fremtiden til skreddersydd og dynamisk video-generering fra kamera-pose og tekstuelle inndata.

Related Topics:CameraCtrl t2v models text to image text to video models text-to-video generator video diffusion

Kunal Kejriwal

En ingeniør av yrke, en forfatter av hjerte. Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse av AI og ML, dedikert til å forenkle komplekse konsepter i disse feltene gjennom sin engasjerende og informerende dokumentasjon.