Intelligenza artificiale

Colmare lo ‘Spazio Tra’ nel Video Generativo

Published December 20, 2024

Updated May 20, 2026

Martin Anderson

Images taken from the FCVG paper and project site, https://arxiv.org/pdf/2412.11755 and https://fcvg-inbetween.github.io/

Una nuova ricerca proveniente dalla Cina offre un metodo migliorato per interpolare il divario tra due frame video temporalmente distanti – una delle sfide più cruciali nella corsa attuale verso il realismo per il video generativo AI, nonché per la compressione del codec video.

Nell’esempio video qui sotto, vediamo nella colonna più a sinistra un frame di ‘inizio’ (in alto a sinistra) e un frame di ‘fine’ (in basso a sinistra). Il compito che i sistemi in competizione devono svolgere è indovinare come il soggetto nelle due immagini si sposterebbe dal frame A al frame B. Nell’animazione, questo processo si chiama tweening, e risale all’era del cinema muto.

Clicca per riprodurre. Nella prima colonna, a sinistra, vediamo i frame di inizio e fine proposti. Nella colonna centrale e nella parte superiore della terza colonna (a destra), vediamo tre approcci precedenti a questa sfida. In basso a destra, vediamo che il nuovo metodo ottiene un risultato molto più convincente nel fornire i frame intermedi. Fonte: https://fcvg-inbetween.github.io/

Il nuovo metodo proposto dai ricercatori cinesi si chiama Generazione di Video Condizionata da Frame (FCVG), e i suoi risultati possono essere visti nella parte inferiore destra del video sopra, fornendo una transizione liscia e logica da un frame fermo all’altro.

Al contrario, possiamo vedere che uno dei framework più celebrati per l’interpolazione video, il progetto Frame Interpolation for Large Motion (FILM) di Google, fatica, come molti altri, nell’interpretare grandi e audaci movimenti.

Gli altri due framework rivali visualizzati nel video, Time Reversal Fusion (TRF) e Generative Inbetweening (GI), forniscono un’interpretazione meno distorta, ma hanno creato movimenti di danza frenetici e anche comici, nessuno dei quali rispetta la logica implicita dei due frame forniti.

Clicca per riprodurre. Due soluzioni imperfette al problema del tweening. A sinistra, FILM tratta i due frame come semplici target di morphing. A destra, TRF sa che deve inserire una forma di danza, ma arriva a una soluzione impraticabile che dimostra anomalie anatomiche.

In alto a sinistra, possiamo dare uno sguardo più da vicino a come FILM affronta il problema. Sebbene FILM sia stato progettato per gestire grandi movimenti, a differenza degli approcci precedenti basati su flusso ottico, manca ancora di una comprensione semantica di ciò che dovrebbe accadere tra i due frame chiave, e semplicemente esegue un morphing tra i frame nello stile degli anni ’80 e ’90. FILM non ha un’architettura semantica, come un modello di diffusione latente come Stable Diffusion, per aiutare a creare un ponte appropriato tra i frame.

A destra, nel video sopra, vediamo l’approccio di TRF, dove Stable Video Diffusion (SVD) viene utilizzato per ‘indovinare’ in modo più intelligente come potrebbe essere un movimento di danza appropriato per i due frame forniti dall’utente – ma ha fatto un’approssimazione audace e implausibile.

FCVG, visibile qui sotto, fa un lavoro più credibile nell’indovinare il movimento e il contenuto tra i due frame:

Clicca per riprodurre. FCVG migliora gli approcci precedenti, ma è ancora lontano dalla perfezione.

Ci sono ancora artefatti, come il morphing non voluto delle mani e dell’identità facciale, ma questa versione è superficialmente la più plausibile – e qualsiasi miglioramento dello stato dell’arte deve essere considerato rispetto alla grande difficoltà che il compito propone; e il grande ostacolo che la sfida presenta per il futuro del video generato AI.

Perché l’Interpolazione è Importante

Come abbiamo sottolineato in precedenza, la capacità di riempire in modo plausibile il contenuto video tra due frame forniti dall’utente è uno dei migliori modi per mantenere la coerenza temporale nel video generativo, poiché due foto reali e consecutive della stessa persona conterranno naturalmente elementi coerenti come abbigliamento, capelli e ambiente.

Quando viene utilizzato solo un unico frame di inizio, la finestra di attenzione limitata di un sistema generativo, che spesso prende in considerazione solo i frame vicini, tenderà a far ‘evolvere’ gradualmente aspetti del soggetto, fino a quando (ad esempio) un uomo diventa un altro uomo (o una donna), o si rivela avere abbigliamento ‘in morphing’ – tra molte altre distrazioni che vengono comunemente generate nei sistemi T2V open source e nella maggior parte delle soluzioni a pagamento, come Kling:

Clicca per riprodurre. Feeding il nuovo paper’s due (reali) frame di inizio e fine in Kling, con il prompt ‘Un uomo che balla su un tetto’, non ha prodotto una soluzione ideale. Sebbene Kling 1.6 fosse disponibile al momento della creazione, V1.5 è l’ultima versione a supportare frame di inizio e fine forniti dall’utente. Fonte: https://klingai.com/

Il Problema è Già Risolto?

Al contrario, alcuni sistemi commerciali, chiusi e proprietari sembrano stare meglio con il problema – in particolare RunwayML, che è stato in grado di creare un inbetweening molto plausibile dei due frame di inizio e fine:

Clicca per riprodurre. L’interpolazione basata sulla diffusione di RunwayML è molto efficace. Fonte: https://app.runwayml.com/

Ripetendo l’esercizio, RunwayML ha prodotto un secondo risultato altrettanto credibile:

Clicca per riprodurre. Il secondo run della sequenza RunwayML.

Un problema qui è che non possiamo imparare nulla sulle sfide coinvolte, né avanzare lo stato dell’arte open-source, da un sistema proprietario. Non possiamo sapere se questo rendering superiore è stato ottenuto attraverso approcci architettonici unici, dati (o metodi di cura dei dati come filtraggio e annotazione), o una combinazione di questi e altre possibili innovazioni di ricerca.

In secondo luogo, le piccole aziende, come le società di effetti visivi, non possono a lungo termine fare affidamento su servizi API-driven B2B che potrebbero potenzialmente minare la loro pianificazione logistica con un unico aumento del prezzo – in particolare se un servizio dovesse venire a dominare il mercato e quindi essere più incline ad aumentare i prezzi.

Quando i Diritti sono Sbagliati

Molto più importante, se un modello commerciale di buona performance è stato addestrato su dati non autorizzati, come sembra essere il caso con RunwayML, qualsiasi azienda che utilizzi tali servizi potrebbe rischiare un’esposizione legale a valle.

Dal momento che le leggi (e alcune cause legali) durano più a lungo dei presidenti, e dal momento che il mercato cruciale degli Stati Uniti è tra i più litigiosi del mondo, la tendenza attuale verso una maggiore vigilanza legislativa per i dati di addestramento AI sembra probabile che sopravviva al ‘tocco leggero’ del prossimo mandato presidenziale di Donald Trump.

Pertanto, il settore della ricerca sulla visione artificiale dovrà affrontare questo problema in modo difficile, in modo che le soluzioni emergenti possano durare nel lungo termine.

FCVG

Il nuovo metodo proveniente dalla Cina è presentato in un paper intitolato Generazione di Video Intermedio attraverso la Generazione di Video Condizionata da Frame, e proviene da cinque ricercatori dell’Istituto di Tecnologia di Harbin e dell’Università di Tianjin.

FCVG risolve il problema dell’ambiguità nel compito di interpolazione utilizzando condizioni frame-wise, insieme a un framework che delinea bordi nei frame di inizio e fine forniti dall’utente, che aiuta il processo a mantenere una traccia più coerente delle transizioni tra i frame individuali e anche l’effetto complessivo.

La condizione frame-wise coinvolge la divisione della creazione di frame intermedi in sottocompiti, invece di cercare di riempire un grande vuoto semantico tra due frame (e più lungo è l’output video richiesto, più grande è quella distanza semantica).

Nel grafico qui sotto, tratto dal paper, gli autori confrontano il metodo di time-reversal (TRF) con il loro. TRF crea due percorsi di generazione video utilizzando un modello di immagine-to-video pre-addestrato (SVD). Uno è un percorso ‘in avanti’ condizionato sul frame di inizio, e l’altro un percorso ‘all’indietro’ condizionato sul frame di fine. Entrambi i percorsi iniziano dallo stesso rumore casuale. Ciò è illustrato a sinistra dell’immagine qui sotto:

Confronto tra approcci precedenti e FCVG. Fonte: https://arxiv.org/pdf/2412.11755

Gli autori affermano che FCVG è un miglioramento rispetto ai metodi di time-reversal perché riduce l’ambiguità nella generazione video, fornendo a ogni frame la sua condizione esplicita, portando a un output più stabile e coerente.

I metodi di time-reversal come TRF, afferma il paper, possono portare a ambiguità, poiché i percorsi di generazione in avanti e all’indietro possono divergere, causando misallineamenti o incoerenze. FCVG affronta questo utilizzando condizioni frame-wise derivate da linee abbinate tra i frame di inizio e fine (in basso a destra nell’immagine sopra), che guidano il processo di generazione.

Clicca per riprodurre. Un altro confronto dalla pagina del progetto FCVG.

I metodi di time-reversal consentono l’utilizzo di modelli di generazione video pre-addestrati per l’inbetweening, ma hanno alcuni svantaggi. Il movimento generato dai modelli I2V è diverso piuttosto che stabile. Sebbene ciò sia utile per compiti di immagine-to-video (I2V) puri, crea ambiguità e porta a percorsi video non allineati o incoerenti.

La time-reversal richiede anche un’attenta regolazione dei iperparametri, come la frequenza dei frame per ogni video generato. Inoltre, alcune delle tecniche utilizzate nella time-reversal per ridurre l’ambiguità rallentano notevolmente l’inferenza, aumentando i tempi di elaborazione.

Metodo

Gli autori osservano che se il primo di questi problemi (diversità vs. stabilità) può essere risolto, tutti gli altri problemi successivi si risolveranno da soli. Ciò è stato tentato in precedenti offerte come il già menzionato GI e anche ViBiDSampler.

Il paper afferma:

‘Tuttavia [ci] esiste ancora una notevole casualità tra questi percorsi, limitando così l’efficacia di questi metodi nel gestire scenari che coinvolgono grandi movimenti come rapidi cambiamenti nelle pose umane. L’ambiguità nel percorso di interpolazione deriva principalmente dalla mancanza di condizioni sufficienti per i frame intermedi, poiché due immagini di input forniscono condizioni solo per i frame di inizio e fine.’

‘Pertanto [noi] suggeriamo di offrire una condizione esplicita per ogni frame, che allevia notevolmente l’ambiguità del percorso di interpolazione.’

Possiamo vedere i concetti chiave di FCVG al lavoro nello schema qui sotto. FCVG genera una sequenza di frame video che iniziano e finiscono in modo coerente con due frame di input. Ciò garantisce che i frame siano stabili nel tempo fornendo condizioni frame-specifiche per il processo di generazione video.

Schema per l’inferenza di FCVG.

In questo ripensamento dell’approccio di time-reversal, il metodo combina informazioni da entrambe le direzioni, avanti e indietro, fondendole per creare transizioni lisce. Attraverso un processo iterativo, il modello raffina gradualmente gli input rumorosi fino a quando non vengono prodotti i frame intermedi finali.

La prossima fase coinvolge l’utilizzo del modello di matching di linee pre-addestrato GlueStick, che crea corrispondenze tra i due frame di inizio e fine calcolati, con l’uso opzionale di pose scheletriche per guidare il modello, tramite il modello di diffusione video stabile.

GlueStick deriva linee da forme interpretate. Queste linee forniscono anchor di matching tra i frame di inizio e fine in FCVG*.

Gli autori notano:

‘Abbiamo trovato empiricamente che l’interpolazione lineare è sufficiente per la maggior parte dei casi per garantire la stabilità temporale nei video di inbetweening, e il nostro metodo consente agli utenti di specificare percorsi di interpolazione non lineari per generare video desiderati.’

Flusso di lavoro per stabilire condizioni frame-wise in avanti e all’indietro. Possiamo vedere i colori abbinati che mantengono il contenuto coerente mentre l’animazione si sviluppa.

Per iniettare le condizioni frame-wise ottenute nel modello SVD, FCVG utilizza il metodo sviluppato per l’iniziativa ControlNeXt del 2024. In questo processo, le condizioni di controllo vengono inizialmente codificate da più blocchi ResNet, prima della normalizzazione incrociata tra i rami di condizione e SVD del flusso di lavoro.

Un piccolo set di video viene utilizzato per regolare il modello SVD, con la maggior parte dei parametri del modello congelati.

‘I [suddetti limiti] sono stati in gran parte risolti in FCVG: (i) specificando esplicitamente la condizione per ogni frame, l’ambiguità tra i percorsi in avanti e all’indietro è notevolmente alleviata; (ii) solo un parametro regolabile viene introdotto, mentre i parametri iperparametri in SVD vengono mantenuti come predefiniti, producendo risultati favorevoli nella maggior parte degli scenari; (iii) una semplice fusione media, senza reiniezione di rumore, è adeguata in FCVG, e i passaggi di inferenza possono essere sostanzialmente ridotti del 50% rispetto a [GI].’

Schema generale per l’iniezione di condizioni frame-wise nella diffusione video stabile per FCVG.

Dati e Test

Per testare il sistema, i ricercatori hanno curato un dataset che presenta scene diverse, tra cui ambienti all’aperto, pose umane e luoghi interni, tra cui movimenti come movimenti della telecamera, azioni di danza e espressioni facciali, tra gli altri. I 524 clip selezionati sono stati presi dai dataset DAVIS e RealEstate10k. Questa raccolta è stata integrata con video ad alta frequenza di frame ottenuti da Pexels. Il set curato è stato diviso 4:1 tra regolazione e test.

I metrici utilizzati sono stati Learned Perceptual Similarity Metrics (LPIPS); Fréchet Inception Distance (FID); Fréchet Video Distance (FVD); VBench; e Fréchet Video Motion Distance.

Gli autori notano che nessuno di questi metrici è ben adattato per stimare la stabilità temporale e ci rimandano ai video sulla pagina del progetto FCVG.

In aggiunta all’utilizzo di GlueStick per l’abbinamento di linee, DWPose è stato utilizzato per la stima delle pose umane.

La regolazione del modello ha avuto luogo per 70.000 iterazioni sotto l’ottimizzatore AdamW su una GPU NVIDIA A800, con un tasso di apprendimento di 1×10^-6, con frame ritagliati a patch di 512×320.

I framework rivali testati sono stati FILM, GI, TRF e DynamiCrafter.

Per la valutazione quantitativa, i gap di frame affrontati sono variati tra 12 e 23.

Risultati quantitativi contro i framework precedenti.

Riguardo a questi risultati, il paper osserva:

‘[Il nostro] metodo raggiunge la migliore prestazione tra quattro approcci generativi in tutti i metrici. Per quanto riguarda il confronto LPIPS con FILM, il nostro FCVG è marginalmente inferiore, mentre dimostra una prestazione superiore negli altri metrici. Considerando l’assenza di informazioni temporali in LPIPS, potrebbe essere più appropriato dare priorità ad altri metrici e osservazione visiva.

‘Inoltre, confrontando i risultati con diversi gap di frame, FILM potrebbe funzionare bene quando il gap è piccolo, mentre i metodi generativi sono più adatti per grandi gap. Tra questi metodi generativi, il nostro FCVG mostra una superiorità significativa grazie alle sue condizioni frame-wise esplicite.’

Per il test qualitativo, gli autori hanno prodotto i video visualizzati nella pagina del progetto (alcuni incorporati in questo articolo) e risultati statici e animati^† nel PDF del paper,

Risultati statici di esempio dal paper. Si prega di fare riferimento al PDF di origine per una migliore risoluzione e si prega di notare che il PDF contiene animazioni che possono essere riprodotte in applicazioni che supportano questa funzione.

Gli autori commentano:

‘Mentre FILM produce risultati di interpolazione lisci per scenari di piccolo movimento, fatica con grandi movimenti a causa delle limitazioni intrinseche del flusso ottico, portando a artifact visibili come movimenti di sfondo e mano (nel primo caso).

‘I modelli generativi come TRF e GI soffrono di ambiguità nei percorsi di fusione, portando a movimenti intermedi instabili, particolarmente evidenti in scene complesse che coinvolgono movimenti umani e oggetti.

‘Al contrario, il nostro metodo consegna costantemente risultati soddisfacenti in vari scenari.’Anche quando è presente un’occlusione significativa (nel secondo caso e nel sesto caso), il nostro metodo può ancora catturare una motione ragionevole. Inoltre, il nostro approccio mostra robustezza per azioni umane complesse (nell’ultimo caso).’

Gli autori hanno anche scoperto che FCVG si generalizza in modo insolito ai video di stile animazione:

Clicca per riprodurre. FCVG produce risultati molto convincenti per l’animazione di stile cartoon.

Conclusione

FCVG rappresenta almeno un miglioramento incrementale per lo stato dell’arte nell’interpolazione di frame in un contesto non proprietario. Gli autori hanno reso disponibile il codice per il lavoro su GitHub, sebbene il dataset associato non sia stato rilasciato al momento della scrittura.

Se le soluzioni commerciali proprietarie stanno superando gli sforzi open-source attraverso l’utilizzo di dati non autorizzati, sembra esserci un futuro limitato in un tale approccio, almeno per l’uso commerciale; i rischi sono semplicemente troppo grandi.

Pertanto, anche se la scena open-source potrebbe essere in ritardo rispetto alla spettacolare dimostrazione degli attuali leader del mercato, è, argomenta, la tartaruga che potrebbe battere la lepre alla fine.

* Fonte: https://openaccess.thecvf.com/content/ICCV2023/papers/Pautrat_GlueStick_Robust_Image_Matching_by_Sticking_Points_and_Lines_Together_ICCV_2023_paper.pdf

^† Richiede Acrobat Reader, Okular o qualsiasi altro lettore PDF che possa riprodurre animazioni PDF incorporate.

Pubblicato per la prima volta venerdì, 20 dicembre 2024