mozzicone DynamiCrafter: animazione di immagini di dominio aperto con priori di diffusione video - Unite.AI
Seguici sui social

Intelligenza Artificiale

DynamiCrafter: animazione di immagini di dominio aperto con precedenti di diffusione video

mm

Pubblicato il

 on

DynamiCrafter: animazione di immagini di dominio aperto con precedenti di diffusione video

Visione computerizzata è uno dei campi più interessanti e ben studiati oggi all'interno della comunità dell'intelligenza artificiale e, nonostante il rapido miglioramento dei modelli di visione artificiale, una sfida di lunga data che ancora preoccupa gli sviluppatori è l'animazione delle immagini. Ancora oggi, i framework di animazione delle immagini faticano a convertire le immagini fisse nelle rispettive controparti video che mostrano dinamiche naturali preservando l'aspetto originale delle immagini. Tradizionalmente, i framework di animazione delle immagini si concentrano principalmente sull'animazione di scene naturali con movimenti specifici del dominio come i movimenti dei capelli o del corpo umano, o dinamiche stocastiche come fluidi e nuvole. Sebbene questo approccio funzioni in una certa misura, limita l'applicabilità di questi framework di animazione a contenuti visivi più generici. 

Inoltre, gli approcci convenzionali all'animazione delle immagini si concentrano principalmente sulla sintesi di movimenti oscillatori e stocastici o sulla personalizzazione per categorie di oggetti specifiche. Tuttavia, un notevole difetto dell'approccio sono i forti presupposti imposti su questi metodi che alla fine ne limitano l'applicabilità, soprattutto in scenari generali come l'animazione di immagini in dominio aperto. Negli ultimi anni, Modelli T2V o testo in video hanno dimostrato un notevole successo nel generare video vividi e diversificati utilizzando suggerimenti testuali e questa dimostrazione dei modelli T2V è ciò che costituisce la base per il framework DynamiCrafter. 

Il framework DynamiCrafter è un tentativo di superare le attuali limitazioni dei modelli di animazione delle immagini ed espandere la loro applicabilità a scenari generici che coinvolgono immagini open-world. Il framework DynamiCrafter tenta di sintetizzare contenuti dinamici per immagini di dominio aperto, convertendoli in video animati. L'idea chiave alla base di DynamiCrafter è quella di incorporare l'immagine come guida nel processo generativo nel tentativo di utilizzare il movimento precedente al testo già esistente nei modelli di diffusione video. Per una determinata immagine, il modello DynamiCrafter implementa innanzitutto un trasformatore di query che proietta l'immagine in uno spazio di rappresentazione del contesto ricco allineato al testo, facilitando il modello video a digerire il contenuto dell'immagine in modo compatibile. Tuttavia, il modello DynamiCrafter fatica ancora a preservare alcuni dettagli visivi nei video risultanti, un problema che il modello DynamiCrafter supera fornendo l'immagine completa al modello di diffusione concatenando l'immagine con i rumori iniziali, integrando quindi il modello con un'immagine più precisa. informazione. 

Questo articolo mira a coprire in modo approfondito il framework DynamiCrafter ed esploriamo il meccanismo, la metodologia, l'architettura del framework insieme al suo confronto con i framework all'avanguardia per la generazione di immagini e video. Quindi iniziamo. 

DynamiCrafter: animazione di immagini a dominio aperto

L'animazione di un'immagine fissa offre spesso un'esperienza visiva coinvolgente per il pubblico poiché sembra dare vita all'immagine fissa. Nel corso degli anni, numerosi framework hanno esplorato vari metodi per animare le immagini fisse. I quadri di animazione iniziali implementavano approcci basati sulla simulazione fisica incentrati sulla simulazione del movimento di oggetti specifici. Tuttavia, a causa della modellazione indipendente di ciascuna categoria di oggetti, questi approcci non erano né efficaci né generalizzabili. Per replicare movimenti più realistici, sono emersi metodi basati su riferimenti che trasferivano informazioni sul movimento o sull'aspetto da segnali di riferimento come i video al processo di sintesi. Sebbene gli approcci basati sui riferimenti fornissero risultati migliori con una migliore coerenza temporale rispetto agli approcci basati sulla simulazione, necessitavano di indicazioni aggiuntive che ne limitassero le applicazioni pratiche. 

Negli ultimi anni, la maggior parte dei framework di animazione si concentra principalmente sull’animazione di scene naturali con movimenti stocastici, specifici del dominio o oscillanti. Sebbene l’approccio implementato da questi quadri funzioni in una certa misura, i risultati generati da questi quadri non sono soddisfacenti, con notevoli margini di miglioramento. Gli straordinari risultati ottenuti dai modelli generativi Text to Video negli ultimi anni hanno ispirato gli sviluppatori del framework DynamiCrafter a sfruttare le potenti capacità generative dei modelli Text to Video per l'animazione delle immagini. 

Il fondamento chiave del framework DynamiCrafter è quello di incorporare un'immagine condizionale nel tentativo di governare il processo di generazione del video di Modelli di diffusione da testo a video. Tuttavia, l’obiettivo finale dell’animazione delle immagini rimane ancora non banale poiché l’animazione delle immagini richiede la conservazione dei dettagli e la comprensione dei contesti visivi essenziali per la creazione di dinamiche. Tuttavia, modelli di diffusione video controllabili multimodali come VideoComposer hanno tentato di consentire la generazione di video con guida visiva da un'immagine. Tuttavia, questi approcci non sono adatti per l'animazione delle immagini poiché provocano bruschi cambiamenti temporali o una bassa conformità visiva all'immagine di input a causa dei loro meccanismi di iniezione dell'immagine meno completi. Per contrastare questo ostacolo, il framework DyaniCrafter propone un approccio di iniezione a doppio flusso, costituito da una guida visiva dei dettagli e da una rappresentazione del contesto allineata al testo. L'approccio di iniezione dual-stream consente al framework DynamiCrafter di garantire che il modello di diffusione video sintetizzi contenuti dinamici preservati nei dettagli in modo complementare. 

Per una determinata immagine, il framework DynamiCrafter proietta innanzitutto l'immagine nello spazio di rappresentazione del contesto allineato al testo utilizzando una rete di apprendimento del contesto appositamente progettata. Per essere più specifici, lo spazio di rappresentazione del contesto è costituito da un trasformatore di query apprendibile per promuovere ulteriormente il suo adattamento ai modelli di diffusione e da un codificatore di immagini CLIP pre-addestrato per estrarre le caratteristiche dell'immagine allineata al testo. Il modello utilizza quindi le funzionalità del contesto avanzato utilizzando i livelli di attenzione incrociata e il modello utilizza la fusione con gate per combinare queste funzionalità di testo con i livelli di attenzione incrociata. Tuttavia, questo approccio scambia le rappresentazioni del contesto appreso con dettagli visivi allineati al testo che facilitano la comprensione semantica del contesto dell'immagine consentendo la sintesi di dinamiche ragionevoli e vivide. Inoltre, nel tentativo di integrare ulteriori dettagli visivi, il quadro concatena l'immagine completa con il rumore iniziale al modello di diffusione. Di conseguenza, l'approccio a doppia iniezione implementato dal framework DynamiCrafter garantisce conformità visiva e contenuto dinamico plausibile all'immagine di input. 

Andando avanti, i modelli di diffusione o DM hanno dimostrato prestazioni notevoli e capacità generativa nella generazione T2I o da testo a immagine. Per replicare il successo dei modelli T2I nella generazione di video, vengono proposti modelli VDM o di diffusione video che utilizzano un'architettura U-New fattorizzata spazio-tempo nello spazio dei pixel per modellare video a bassa risoluzione. Il trasferimento di quanto appreso dai quadri T2I ai quadri T2V aiuterà a ridurre i costi di formazione. Sebbene VDM o modelli di diffusione video abbiano la capacità di generare video di alta qualità, accettano solo istruzioni di testo come unica guida semantica che potrebbero non riflettere le vere intenzioni dell'utente o potrebbero essere vaghe. Tuttavia, i risultati della maggior parte dei modelli VDM raramente aderiscono all'immagine di input e soffrono del problema della variazione temporale non realistica. L'approccio DynamiCrafter si basa su modelli di diffusione video condizionati dal testo che sfruttano la loro ricca dinamica precedente per l'animazione di immagini di dominio aperto. Lo fa incorporando progetti su misura per una migliore comprensione semantica e conformità all'immagine di input. 

DynamiCrafter: metodo e architettura

Per una determinata immagine fissa, il framework DyanmiCrafter tenta di animare il file immagine al video cioè produrre un breve video clip. Il video clip eredita i contenuti visivi dall'immagine e mostra dinamiche naturali. Tuttavia, esiste la possibilità che l'immagine appaia nella posizione arbitraria della sequenza di fotogrammi risultante. L'apparizione di un'immagine in una posizione arbitraria è un tipo speciale di sfida osservata nelle attività di generazione di video condizionati da immagini con elevati requisiti di conformità visiva. Il framework DynamiCrafter supera questa sfida utilizzando i priori generativi di modelli di diffusione video pre-addestrati. 

Dinamica dell'immagine dalla diffusione video precedente

Di solito, è noto che i modelli di diffusione da testo a video in dominio aperto mostrano un condizionamento modellato del contenuto visivo dinamico sulle descrizioni del testo. Per animare un'immagine fissa con i precedenti generativi Text to Video, i framework dovrebbero prima inserire le informazioni visive nel processo di generazione del video in modo completo. Inoltre, per la sintesi dinamica, il modello T2V dovrebbe digerire l'immagine per la comprensione del contesto, mentre dovrebbe anche essere in grado di preservare i dettagli visivi nei video generati. 

Rappresentazione del contesto allineato al testo

Per guidare la generazione del video con il contesto dell'immagine, il framework DynamiCrafter tenta di proiettare l'immagine in uno spazio di incorporamento allineato consentendo al modello video di utilizzare le informazioni dell'immagine in modo compatibile. Successivamente, il framework DynamiCrafter utilizza il codificatore di immagini per estrarre le caratteristiche dell'immagine dall'immagine di input poiché gli incorporamenti di testo vengono generati utilizzando un codificatore di testo CLIP pre-addestrato. Ora, sebbene i token semantici globali del codificatore di immagini CLIP siano allineati con le didascalie delle immagini, rappresenta principalmente il contenuto visivo a livello semantico, non riuscendo quindi a catturare l'intera estensione dell'immagine. Il framework DynamiCrafter implementa token visivi completi dall'ultimo livello del codificatore CLIP per estrarre informazioni più complete poiché questi token visivi dimostrano un'alta fedeltà nelle attività di generazione di immagini condizionali. Inoltre, il framework utilizza contesto e incorporamenti di testo per interagire con le funzionalità intermedie di U-Net utilizzando i doppi livelli di attenzione incrociata. Il design di questo componente facilita la capacità del modello di assorbire le condizioni dell'immagine in modo dipendente dal livello. Inoltre, poiché gli strati intermedi dell'architettura U-Net si associano maggiormente alle pose o alle forme degli oggetti, si prevede che le caratteristiche dell'immagine influenzeranno prevalentemente l'aspetto dei video, soprattutto perché gli strati a due estremità sono più legati all'apparenza. 

Guida visiva ai dettagli

Il framework DyanmiCrafter utilizza una rappresentazione del contesto ricca di informazioni che consente al modello di diffusione video nella sua architettura di produrre video che assomigliano molto all'immagine di input. Tuttavia, come dimostrato nell'immagine seguente, il contenuto generato potrebbe presentare alcune discrepanze a causa della capacità limitata del codificatore CLIP pre-addestrato di preservare completamente le informazioni di input, poiché è stato progettato per allineare il linguaggio e le caratteristiche visive. 

Per migliorare la conformità visiva, il framework DynamiCrafter propone di fornire al modello di diffusione video ulteriori dettagli visivi estratti dall'immagine di input. Per raggiungere questo obiettivo, il modello DyanmiCrafter concatena l'immagine condizionale con il rumore iniziale per fotogramma e le invia al componente U-Net di denoising come guida. 

Paradigma Formativo

Il framework DynamiCrafter integra l'immagine condizionale attraverso due flussi complementari che svolgono un ruolo significativo nella guida dettagliata e nel controllo del contesto. Per facilitare lo stesso, il modello DynamiCrafter utilizza un processo di formazione in tre fasi

  1. Nella prima fase, il modello addestra la rete di rappresentazione del contesto dell'immagine. 
  2. Nella seconda fase, il modello adatta la rete di rappresentazione del contesto dell'immagine al modello Text to Video. 
  3. Nella terza e ultima fase, il modello mette a punto la rete di rappresentazione del contesto dell'immagine insieme al componente Visual Detail Guidance. 

Per adattare le informazioni sull'immagine per la compatibilità con il modello Text-to-Video (T2V), il framework DynamiCrafter suggerisce di sviluppare una rete di rappresentazione del contesto, P, progettata per catturare dettagli visivi allineati al testo dall'immagine data. Riconoscendo che P richiede molti passaggi di ottimizzazione per la convergenza, l'approccio del framework prevede inizialmente l'addestramento utilizzando un modello Text-to-Image (T2I) più semplice. Questa strategia consente alla rete di rappresentazione del contesto di concentrarsi sull'apprendimento del contesto dell'immagine prima di integrarlo con il modello T2V attraverso la formazione congiunta con P e gli strati spaziali, in contrapposizione agli strati temporali, del modello T2V. 

Per garantire la compatibilità T2V, il framework DyanmiCrafter unisce l'immagine di input con il rumore per fotogramma, procedendo alla messa a punto sia dei livelli spaziali P che del modello di discriminazione visiva (VDM). Questo metodo viene scelto per mantenere l'integrità delle informazioni temporali esistenti del modello T2V senza gli effetti negativi della fusione di immagini dense, che potrebbero compromettere le prestazioni e divergere dal nostro obiettivo principale. Inoltre, il framework utilizza una strategia di selezione casuale di un fotogramma video come condizione dell'immagine per raggiungere due obiettivi: (i) evitare che la rete sviluppi un modello prevedibile che associ direttamente l'immagine unita con una posizione specifica del fotogramma e (ii) incoraggiare una rappresentazione del contesto più adattabile impedendo la fornitura di informazioni eccessivamente rigide per ogni particolare frame. 

DynamiCrafter: esperimenti e risultati

Il framework DynamiCrafter addestra innanzitutto la rete di rappresentazione del contesto e gli strati di attenzione incrociata dell'immagine su Stable Diffusion. Il framework quindi sostituisce il Diffusione stabile componente con VideoCrafter e ottimizza ulteriormente la rete di rappresentazione del contesto e i livelli spaziali per l'adattamento e con la concatenazione delle immagini. In conclusione, il framework adotta il campionatore DDIM con una guida priva di classificatori multi-condizione. Inoltre, per valutare la coerenza temporale e la qualità dei video sintetizzati sia nel dominio temporale che in quello spaziale, il framework riporta FVD o Frechet Video Distance, nonché KVD o Kernel Video Distance, e valuta le prestazioni zero-shot su tutti i metodi dei benchmark MSR-VTT e UCF-101. Per indagare la conformità percettiva tra i risultati generati e l'immagine di input, il framework introduce PIC o Conformità dell'input percettivo e adotta la metrica della distanza percettiva DreamSim come funzione della distanza. 

La figura seguente mostra il confronto visivo del contenuto animato generato con stili e contenuti diversi. 

Come si può osservare, tra tutti i diversi metodi, il framework DynamiCrafter aderisce bene alle condizioni dell'immagine di input e genera video temporalmente coerenti. La tabella seguente contiene le statistiche di uno studio sugli utenti con 49 partecipanti sul tasso di preferenza per la coerenza temporale (TC) e la qualità del movimento (MC) insieme al tasso di selezione per la conformità visiva all'immagine di input. (CIRCUITO INTEGRATO). Come si può osservare, il framework DynamiCrafter è in grado di sovraperformare i metodi esistenti con un margine considerevole. 

La figura seguente mostra i risultati ottenuti utilizzando il metodo di iniezione dual-stream e il paradigma di training. 

Considerazioni finali

In questo articolo abbiamo parlato di DynamiCrafter, un tentativo di superare gli attuali limiti dei modelli di animazione delle immagini ed espandere la loro applicabilità a scenari generici che coinvolgono immagini open-world. Il framework DynamiCrafter tenta di sintetizzare contenuti dinamici per immagini di dominio aperto, convertendoli in video animati. L'idea chiave alla base di DynamiCrafter è quella di incorporare l'immagine come guida nel processo generativo nel tentativo di utilizzare il movimento precedente al testo già esistente nei modelli di diffusione video. Per una determinata immagine, il modello DynamiCrafter implementa innanzitutto un trasformatore di query che proietta l'immagine in uno spazio di rappresentazione del contesto ricco allineato al testo, facilitando il modello video a digerire il contenuto dell'immagine in modo compatibile. Tuttavia, il modello DynamiCrafter fatica ancora a preservare alcuni dettagli visivi nei video risultanti, un problema che il modello DynamiCrafter supera fornendo l'immagine completa al modello di diffusione concatenando l'immagine con i rumori iniziali, integrando quindi il modello con un'immagine più precisa. informazione. 

"Un ingegnere di professione, uno scrittore a memoria". Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedito a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.