Intelligenza Artificiale

CameraCtrl: abilitazione del controllo della telecamera per la generazione di testo in video

Pubblicato il

settimane fa 3

23 Maggio 2024

I recenti framework che tentano di generare testo in video o T2V sfruttano i modelli di diffusione per aggiungere stabilità al loro processo di formazione, e il modello di diffusione video, uno dei pionieri nei framework di generazione di testo in video, espande un'architettura di diffusione di immagini 2D nel tentativo di adattarsi dati video e addestrare il modello su video e immagine insieme da zero. Basandosi sullo stesso, e al fine di implementare un potente generatore di immagini pre-addestrato come Stable Diffusion, lavori recenti gonfiano la loro architettura 2D interlacciando strati temporali tra gli strati 2D pre-addestrati e perfezionano il nuovo modello su grandi set di dati invisibili. Nonostante il loro approccio, i modelli di diffusione da testo a video devono affrontare una sfida significativa poiché l’ambiguità delle descrizioni testuali utilizzate esclusivamente per generare il campione video spesso fa sì che il modello da testo a video abbia un controllo più debole sulla generazione. Per affrontare questa limitazione, alcuni modelli forniscono una guida migliorata mentre altri funzionano con segnali precisi per controllare con precisione la scena o i movimenti umani nei video sintetizzati. D'altra parte, ci sono alcuni framework da testo a video che adottano immagini come segnale di controllo per il generatore video, risultando in un accurato modellamento delle relazioni temporali o in un'elevata qualità video.

Si potrebbe dire con certezza che la controllabilità gioca un ruolo cruciale nelle attività di generazione di immagini e video poiché consente agli utenti di creare il contenuto che desiderano. Tuttavia, le strutture esistenti spesso trascurano il controllo preciso della posa della telecamera che funge da linguaggio cinematografico per esprimere meglio le sfumature narrative più profonde del modello. Per affrontare le attuali limitazioni di controllabilità, in questo articolo parleremo di CameraCtrl, una nuova idea che tenta di abilitare un controllo accurato della posa della fotocamera per i modelli da testo a video. Dopo aver parametrizzato con precisione la traiettoria della telecamera, il modello addestra un modulo telecamera plug and play su un modello da testo a video e lascia intatti gli altri componenti. Inoltre, il modello CameraCtrl conduce anche uno studio completo sugli effetti di vari set di dati e suggerisce che video con aspetti simili e diversa distribuzione delle telecamere possono migliorare la controllabilità complessiva e le capacità di generalizzazione del modello. Gli esperimenti condotti per analizzare le prestazioni del modello CameraCtrl su attività del mondo reale indicano l'efficienza del framework nel raggiungimento di un controllo della telecamera preciso e adattativo al dominio, aprendo una strada da seguire per il perseguimento della generazione di video personalizzati e dinamici dalla posa della telecamera e dagli input testuali.

Questo articolo mira a coprire in modo approfondito il framework CameraCtrl ed esploriamo il meccanismo, la metodologia, l'architettura del framework insieme al suo confronto con i framework all'avanguardia. Quindi iniziamo.

CameraCtrl: controllo della telecamera per la generazione T2V

Il recente sviluppo e il progresso dei modelli di diffusione hanno fatto avanzare significativamente la generazione di video guidati da testo negli ultimi anni e hanno rivoluzionato i flussi di lavoro di progettazione dei contenuti. La controllabilità gioca un ruolo significativo nelle applicazioni pratiche di generazione video poiché consente agli utenti di personalizzare i risultati generati in base alle proprie esigenze e requisiti. Grazie all'elevata controllabilità, il modello è in grado di migliorare il realismo, la qualità e l'usabilità dei video generati e, sebbene gli input di testo e immagini siano comunemente utilizzati dai modelli per migliorare la controllabilità complessiva, spesso mancano di un controllo preciso su movimento e contenuto. . Per affrontare questa limitazione, alcuni framework hanno proposto di sfruttare segnali di controllo come lo scheletro di posa, il flusso ottico e altri segnali multimodali per consentire un controllo più accurato per guidare la generazione del video. Un'altra limitazione affrontata dai framework esistenti è che non hanno un controllo preciso sulla stimolazione o sulla regolazione dei punti della telecamera nella generazione del video poiché la capacità di controllare la telecamera è cruciale poiché non solo migliora il realismo dei video generati, ma consentendo punti di vista personalizzati, ma anche migliora il coinvolgimento degli utenti, una funzionalità essenziale nello sviluppo di giochi, nella realtà aumentata e nella realtà virtuale. Inoltre, gestire abilmente i movimenti della telecamera consente ai creatori di evidenziare le relazioni tra i personaggi, enfatizzare le emozioni e guidare l'attenzione del pubblico target, qualcosa di grande importanza nell'industria cinematografica e pubblicitaria.

Per affrontare e superare queste limitazioni, è stato creato il framework CameraCtrl, un modulo fotocamera plug and play preciso e apprendibile con la capacità di controllare i punti di vista della fotocamera per la generazione di video. Tuttavia, integrare una telecamera personalizzata in una pipeline di modello testo-video esistente è un compito più facile a dirsi che a farsi, costringendo il framework CameraCtrl a cercare modi su come rappresentare e inserire la telecamera nell'architettura del modello in modo efficace. Allo stesso modo, il framework CameraCtrl adotta gli incorporamenti di plucker come forma principale di parametri della fotocamera, e il motivo per optare per gli incorporamenti di plucker può essere attribuito alla loro capacità di codificare descrizioni geometriche delle informazioni sulla posa della fotocamera. Inoltre, per garantire la generalizzabilità e l'applicabilità del modello CameraCtrl dopo l'addestramento, il modello introduce un modello di controllo della telecamera che accetta solo gli incorporamenti di plucker come input. Per garantire che il modello di controllo della telecamera venga addestrato in modo efficace, il framework e i suoi sviluppatori conducono uno studio completo per indagare in che modo i diversi dati di training influiscono sul framework, dai dati sintetici a quelli realistici. I risultati sperimentali indicano che l'implementazione dei dati con una diversa distribuzione della posa della fotocamera e un aspetto simile al modello base originale raggiunge il miglior compromesso tra controllabilità e generalizzabilità. Gli sviluppatori del framework CameraCtrl hanno implementato il modello sopra il framework AnimateDiff, consentendo così un controllo preciso nella generazione di video tra diverse personalizzazioni, dimostrando la sua versatilità e utilità in un'ampia gamma di contesti di creazione video.

Il framework AnimateDiff adotta l'efficient LORA approccio di messa a punto per ottenere i pesi del modello per diversi tipi di scatti. Il framework Direct-a-video propone di implementare un incorporatore di telecamere per controllare la posa delle telecamere durante il processo di generazione del video, ma si condiziona solo su tre parametri della telecamera, limitando la capacità di controllo della telecamera ai tipi più elementari. D'altra parte, i framework che includono MotionCtrl progettano un controller di movimento che accetta più di tre parametri di input ed è in grado di produrre video con pose della fotocamera più complesse. Tuttavia, la necessità di mettere a punto parti dei video generati ostacola la generalizzabilità del modello. Inoltre, alcuni framework incorporano segnali di controllo strutturale aggiuntivi come mappe di profondità nel processo per migliorare la controllabilità sia per la generazione di immagini che di testo. In genere, il modello invia questi segnali di controllo a un codificatore aggiuntivo, quindi li inserisce in un generatore utilizzando varie operazioni.

CameraCtrl: architettura del modello

Prima di poter dare un'occhiata all'architettura e al paradigma di training per il codificatore della telecamera, è fondamentale comprendere le diverse rappresentazioni della telecamera. In genere, la posa della telecamera si riferisce a parametri intrinseci ed estrinseci e una delle scelte più semplici per consentire a un generatore video di condizionare la posa della telecamera è quella di inserire nel generatore valori grezzi relativi ai parametri della telecamera. Tuttavia, l’implementazione di un simile approccio potrebbe non migliorare il controllo accurato della fotocamera per alcuni motivi. In primo luogo, mentre la matrice di rotazione è vincolata dall’ortogonalità, il vettore di traslazione è tipicamente non vincolato in grandezza e porta a una discrepanza nel processo di apprendimento che può influenzare la coerenza del controllo. In secondo luogo, l’utilizzo diretto dei parametri grezzi della fotocamera può rendere difficile per il modello correlare questi valori con i pixel dell’immagine, con conseguente riduzione del controllo sui dettagli visivi. Per evitare queste limitazioni, il framework CameraCtrl sceglie gli incorporamenti di plucker come rappresentazione per la posa della fotocamera poiché gli incorporamenti di plucker hanno rappresentazioni geometriche di ciascun pixel del fotogramma video e possono fornire una descrizione più elaborata delle informazioni sulla posa della fotocamera.

Controllabilità della telecamera nei generatori video

Poiché il modello parametrizza la traiettoria della telecamera in una sequenza di incorporamento del plucker, ovvero mappe spaziali, il modello può scegliere di utilizzare un modello codificatore per estrarre le caratteristiche della telecamera e quindi fondere le caratteristiche della telecamera in generatori video. Simile a testo su immagine adattatore, il modello CameraCtrl introduce un codificatore della fotocamera progettato specificamente per i video. Il codificatore della fotocamera include un modello di attenzione temporale dopo ciascun blocco convoluzionale, consentendogli di catturare le relazioni temporali delle pose della fotocamera in tutto il video clip. Come dimostrato nell'immagine seguente, il codificatore della fotocamera accetta solo input di incorporamento del plucker e offre funzionalità multi-scala. Dopo aver ottenuto le funzionalità della fotocamera multiscala, il modello CameraCtrl mira a integrare queste funzionalità nell'architettura U-net del modello da testo a video senza soluzione di continuità e determina i livelli che dovrebbero essere utilizzati per incorporare in modo efficace le informazioni della fotocamera. Inoltre, poiché la maggior parte dei framework esistenti adotta un'architettura simile a U-Net che contiene sia il livello di attenzione temporale che quello spaziale, il modello CameraCtrl inserisce le rappresentazioni della telecamera nel blocco di attenzione temporale, una decisione che è supportata dalla capacità dell'attenzione temporale strati per catturare le relazioni temporali, allineandosi con la natura intrinseca casuale e sequenziale di una traiettoria della telecamera con gli strati di attenzione spaziale che raffigurano i singoli fotogrammi.

Imparare le distribuzioni delle telecamere

L'addestramento del componente codificatore della telecamera all'interno del framework CameraCtrl su un generatore video richiede una grande quantità di video ben etichettati e annotati con il modello in grado di ottenere la traiettoria della telecamera utilizzando la struttura dal movimento o l'approccio SfM. Il framework CameraCtrl tenta di selezionare il set di dati con aspetti che corrispondono strettamente ai dati di addestramento del testo di base con il modello video e di avere una distribuzione della posa della fotocamera quanto più ampia possibile. I campioni nel set di dati generato utilizzando motori virtuali mostrano una distribuzione diversa delle telecamere poiché gli sviluppatori hanno la flessibilità di controllare i parametri della telecamera durante la fase di rendering, sebbene soffra di un divario di distribuzione rispetto ai set di dati contenenti campioni del mondo reale. Quando si lavora con set di dati contenenti campioni del mondo reale, la distribuzione della telecamera è solitamente ristretta e, in questi casi, il quadro deve trovare un equilibrio tra la diversità tra le diverse traiettorie della telecamera e la complessità della traiettoria della singola telecamera. La complessità della traiettoria della singola telecamera garantisce che il modello impari a controllare traiettorie complesse durante il processo di addestramento, mentre la diversità tra le diverse traiettorie della telecamera garantisce che il modello non si adatti eccessivamente a determinati schemi fissi. Inoltre, per monitorare il processo di addestramento del codificatore della telecamera, il framework CameraCtrl propone la metrica di allineamento della telecamera per misurare la qualità del controllo della telecamera quantificando l'errore tra la traiettoria della telecamera dei campioni generati e le condizioni della telecamera di input.

CameraCtrl: esperimenti e risultati

Il framework CameraCtrl implementa il modello AnimateDiff come modello base da testo a video e una delle ragioni principali alla base di ciò è che la strategia di training del modello AnimateDiff consente al suo modulo di movimento di integrarsi con modelli base da testo a immagine o LoRA da testo a immagine per accogliere video generazione attraverso generi e domini diversi. Il modello utilizza l'ottimizzatore Adam per addestrare il modello con un tasso di apprendimento costante di 1e-4. Inoltre, per garantire che il modello non influisca sulle capacità di generazione video dell'originale modello da testo a video negativamente, il framework CameraCtrl utilizza la metrica FID o Frechet Inception Distance per valutare la qualità estetica del video e confronta la qualità del video generato prima e dopo aver incluso il modulo fotocamera.

Per valutarne le prestazioni, il framework CameraCtrl viene valutato rispetto a due framework di controllo della fotocamera esistenti: MotionCtrl e AnimateDiff. Tuttavia, poiché il framework AnimateDiff supporta solo otto traiettorie di base della telecamera, il confronto tra CameraCtrl e AnimateDiff è limitato a tre traiettorie di base. D'altra parte, per il confronto con MotionCtrl, il framework seleziona oltre un migliaio di traiettorie casuali della telecamera dal set di dati esistente oltre alle traiettorie di base della telecamera, genera video utilizzando queste traiettorie e li valuta utilizzando le metriche TransErr e RotErr.

Come si può osservare, il framework CameraCtrl supera il framework AnimateDiff nella traiettoria di base e fornisce risultati migliori se confrontato con il framework MotionCtrl sulla metrica della traiettoria complessa.

Inoltre, la figura seguente mostra l'effetto dell'architettura del codificatore della fotocamera sulla qualità complessiva dei campioni generati. Le righe da a a d rappresentano i risultati generati con il codificatore della telecamera implementato nell'architettura: ControlNet, ControlNet con attenzione temporale, adattatore T2I e adattatore T2I con attenzione temporale rispettivamente.

Nella figura seguente, i primi due sostituiscono il video generato utilizzando una combinazione del codificatore RGB del framework SparseCtrl e del metodo utilizzato nel framework CameraCtrl.

Considerazioni finali

In questo articolo abbiamo parlato di CameraCtrl, una nuova idea che tenta di abilitare un controllo accurato della posa della fotocamera per i modelli da testo a video. Dopo aver parametrizzato con precisione la traiettoria della telecamera, il modello addestra un modulo telecamera plug and play su un modello da testo a video e lascia intatti gli altri componenti. Inoltre, il modello CameraCtrl conduce anche uno studio completo sugli effetti di vari set di dati e suggerisce che video con aspetti simili e diversa distribuzione delle telecamere possono migliorare la controllabilità complessiva e le capacità di generalizzazione del modello. Gli esperimenti condotti per analizzare le prestazioni del modello CameraCtrl su attività del mondo reale indicano l'efficienza del framework nel raggiungimento di un controllo della telecamera preciso e adattativo al dominio, aprendo una strada da seguire per il perseguimento della generazione di video personalizzati e dinamici dalla posa della telecamera e dagli input testuali.

Avanti il prossimo

MambaOut: abbiamo davvero bisogno di Mamba per la vista?

Da non perdere

Cosa è andato storto con il pin Humane AI?

Kunal Kejriwal

"Un ingegnere di professione, uno scrittore a memoria". Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedito a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.