Angolo di Anderson

Migliore Intelligenza Artificiale Generativa di Video attraverso la Rimonta dei Frame Durante l’Addestramento

mm
Adobe Firefly, various prompts and edits.

Un nuovo articolo pubblicato questa settimana su Arxiv affronta un problema che chiunque abbia adottato il Hunyuan Video o Wan 2.1 generatori di video AI avrà incontrato fino ad ora: aberrazioni temporali, dove il processo generativo tende ad accelerare bruscamente, confondere, omettere o alterare in altro modo momenti cruciali in un video generato:

Click per riprodurre. Alcuni degli errori temporali che stanno diventando familiari agli utenti dei nuovi sistemi di video generativi, evidenziati nel nuovo articolo. A destra, l’effetto migliorativo del nuovo approccio FluxFlow. Fonte: https://haroldchen19.github.io/FluxFlow/

Il video sopra presenta estratti da video di test esempi sul (avvertenza: piuttosto caotico) sito del progetto per l’articolo. Possiamo vedere diversi problemi sempre più familiari che vengono risolti dal metodo degli autori (ritratto a destra nel video), che è essenzialmente una tecnica di pre-elaborazione dei dati applicabile a qualsiasi architettura di video generativo.

Nel primo esempio, che presenta ‘due bambini che giocano con una palla’, generato da CogVideoX, vediamo (a sinistra nel video di compilazione sopra e nell’esempio specifico sotto) che la generazione nativa salta rapidamente attraverso diversi micro-movimenti essenziali, accelerando l’attività dei bambini fino a un ‘tono da cartone’. In contrasto, lo stesso set di dati e il metodo producono risultati migliori con la nuova tecnica di pre-elaborazione, chiamata FluxFlow (a destra dell’immagine nel video sotto):

Click per riprodurre

Nel secondo esempio (che utilizza NOVA-0.6B) vediamo che un movimento centrale che coinvolge un gatto è stato in qualche modo corrotto o campionato in modo significativo durante la fase di addestramento, al punto che il sistema generativo diventa ‘paralizzato’ e non è in grado di far muovere il soggetto:

Click per riprodurre

Questo sindrome, in cui il movimento o il soggetto si ‘blocca’, è uno dei problemi più frequentemente segnalati da HV e Wan, nei vari gruppi di sintesi di immagini e video.

Alcuni di questi problemi sono legati a problemi di didascalia video nel set di dati di origine, che abbiamo esaminato questa settimana; ma gli autori del nuovo lavoro si concentrano i loro sforzi sulle qualità temporali dei dati di addestramento, e fanno un argomento convincente che affrontare le sfide da questa prospettiva può produrre risultati utili.

Come menzionato nell’articolo precedente sulla didascalia video, certi sport sono particolarmente difficili da distillare in momenti chiave, il che significa che eventi critici (come un dunk) non ricevono l’attenzione necessaria durante l’addestramento:

Click per riprodurre

Nell’esempio sopra, il sistema generativo non sa come passare alla fase successiva del movimento e transita illogicamente da una posa all’altra, cambiando l’atteggiamento e la geometria del giocatore nel processo.

Questi sono grandi movimenti che si sono persi durante l’addestramento – ma altrettanto vulnerabili sono movimenti molto più piccoli ma cruciali, come il battito delle ali di una farfalla:

Click per riprodurre.

A differenza del dunk, il battito delle ali non è un evento ‘raro’ ma piuttosto un evento persistente e monotono. Tuttavia, la sua coerenza si perde nel processo di campionamento, poiché il movimento è così rapido che è molto difficile stabilirlo temporalmente.

Questi non sono problemi particolarmente nuovi, ma stanno ricevendo maggiore attenzione ora che potenti modelli di video generativi sono disponibili agli appassionati per l’installazione locale e la generazione gratuita.

Le comunità di Reddit e Discord hanno inizialmente trattato questi problemi come ‘legati all’utente’. Questa è una supposizione comprensibile, poiché i sistemi in questione sono molto nuovi e minimamente documentati. Pertanto, vari esperti hanno suggerito diverse (e non sempre efficaci) soluzioni per alcuni dei glitch documentati qui, come ad esempio alterare le impostazioni in vari componenti di diverse tipologie di flussi di lavoro ComfyUI per Hunyuan Video (HV) e Wan 2.1.

In alcuni casi, invece di produrre movimento rapido, sia HV che Wan producono movimento lento. Suggerimenti da Reddit e ChatGPT (che si basa in gran parte su Reddit) includono cambiare il numero di frame nella generazione richiesta, o ridurre drasticamente la frequenza dei frame*.

Questo è tutto materiale disperato; la verità emergente è che non conosciamo ancora la causa esatta o la soluzione esatta per questi problemi; chiaramente, tormentare le impostazioni di generazione per lavorare intorno a essi (in particolare quando ciò degrada la qualità dell’output, ad esempio con una frequenza dei frame troppo bassa) è solo una soluzione temporanea, e è bene vedere che la scena della ricerca sta affrontando problemi emergenti così rapidamente.

Quindi, oltre a questo esame della didascalia video, prendiamo uno sguardo al nuovo articolo su regolarizzazione temporale e ai miglioramenti che potrebbe offrire alla scena corrente di video generativi.

L’idea centrale è piuttosto semplice e leggera, e non è peggiore per questo; tuttavia, l’articolo è un po’ gonfiato per raggiungere le otto pagine prescritte, e saltiamo oltre questo gonfiaggio quando necessario.

Il pesce nella generazione nativa del framework VideoCrafter è statico, mentre la versione modificata da FluxFlow cattura i cambiamenti richiesti. Fonte: https://arxiv.org/pdf/2503.15417

Il pesce nella generazione nativa del framework VideoCrafter è statico, mentre la versione modificata da FluxFlow cattura i cambiamenti richiesti. Fonte: https://arxiv.org/pdf/2503.15417

Il nuovo lavoro è intitolato La regolarizzazione temporale rende il tuo generatore di video più forte, e proviene da otto ricercatori di Everlyn AI, Hong Kong University of Science and Technology (HKUST), University of Central Florida (UCF) e The University of Hong Kong (HKU).

(al momento della scrittura, ci sono alcuni problemi con il sito del progetto)

FluxFlow

L’idea centrale dietro FluxFlow, lo schema di pre-addestramento degli autori, è superare i problemi diffusi di sfarfallio e incoerenza temporale mescolando blocchi e gruppi di blocchi nell’ordine dei frame temporali mentre i dati di origine vengono esposti al processo di addestramento:

L'idea centrale dietro FluxFlow è spostare blocchi e gruppi di blocchi in posizioni non temporali e inattese, come forma di aumento dei dati.

L’idea centrale dietro FluxFlow è spostare blocchi e gruppi di blocchi in posizioni non temporali e inattese, come forma di aumento dei dati.

L’articolo spiega:

‘[Gli artifact] derivano da una limitazione fondamentale: nonostante l’utilizzo di grandi set di dati, i modelli attuali spesso si basano su pattern temporali semplificati nei dati di addestramento (ad esempio, direzioni di camminata fisse o transizioni di frame ripetitive) piuttosto che imparare dinamiche temporali diverse e plausibili.

‘Questo problema è ulteriormente esacerbato dalla mancanza di aumento temporale esplicito durante l’addestramento, lasciando i modelli inclini a sovrapprendere correlazioni temporali spurie (ad esempio, “frame #5 deve seguire #4”) piuttosto che generalizzare su scenari di movimento diversi.’

La maggior parte dei modelli di generazione video, spiegano gli autori, si basa ancora troppo sulla sinossi di immagini, concentrandosi sulla fedeltà spaziale mentre ignorano in gran parte l’asse temporale. Sebbene tecniche come il ritaglio, il capovolgimento e la sfumatura dei colori abbiano aiutato a migliorare la qualità delle immagini statiche, non sono soluzioni adeguate quando applicate ai video, dove l’illusione del movimento dipende da transizioni coerenti tra i frame.

I problemi risultanti includono texture che sfarfallano, tagli tra i frame che scricchiolano e pattern di movimento ripetitivi o eccessivamente semplici.

Click per riprodurre.

L’articolo sostiene che sebbene alcuni modelli – tra cui Stable Video Diffusion e LlamaGen – compensano con architetture sempre più complesse o vincoli ingegneristici, questi vengono a un costo in termini di calcolo e flessibilità.

Poiché l’aumento dei dati temporali ha già dimostrato di essere utile nelle attività di comprensione del video (in framework come FineCliper, SeFAR e SVFormer) è sorprendente, affermano gli autori, che questa tattica sia raramente applicata in un contesto generativo.

Comportamento Disruptivo

I ricercatori sostengono che semplici, strutturati disturbi nell’ordine temporale durante l’addestramento aiutano i modelli a generalizzare meglio a movimenti realistici e diversi:

‘Addestrando su sequenze disordinate, il generatore impara a recuperare traiettorie plausibili, regolarizzando efficacemente l’entropia temporale. FLUXFLOW collega il divario tra aumento temporale discriminatorio e generativo, offrendo una soluzione di miglioramento plug-and-play per la generazione di video temporalmente plausibile mentre migliora la qualità generale.

‘A differenza dei metodi esistenti che introducono cambiamenti architettonici o si basano sul post-elaborazione, FLUXFLOW opera direttamente a livello di dati, introducendo perturbazioni temporali controllate durante l’addestramento.’

Click per riprodurre.

Le perturbazioni a livello di frame, affermano gli autori, introducono disturbi fine-granulari all’interno di una sequenza. Questo tipo di disturbo non è dissimile dall’aumento della maschera, dove sezioni di dati vengono bloccate casualmente, per prevenire che il sistema sovrapprenda sui punti di dati e incoraggiare una migliore generalizzazione.

Test

Sebbene l’idea centrale qui non sia sufficiente per un articolo completo, a causa della sua semplicità, ciò nonostante c’è una sezione di test che possiamo esaminare.

Gli autori hanno testato quattro query relative alla qualità temporale migliorata mantenendo la fedeltà spaziale; capacità di apprendere la dinamica del movimento/ottico; mantenimento della qualità temporale nella generazione extraterm; e sensibilità ai principali iperparametri.

I ricercatori hanno applicato FluxFlow a tre architetture generative: U-Net-based, nella forma di VideoCrafter2; DiT-based, nella forma di CogVideoX-2B; e AR-based, nella forma di NOVA-0.6B.

Per un confronto equo, hanno ottimizzato i modelli di base delle architetture con FluxFlow come fase di addestramento aggiuntiva, per un epoch, sul set di dati OpenVidHD-0.4M.

I modelli sono stati valutati contro due benchmark popolari: UCF-101; e VBench.

Per UCF, sono stati utilizzati i metrici Fréchet Video Distance (FVD) e Inception Score (IS). Per VBench, i ricercatori si sono concentrati sulla qualità temporale, sulla qualità frame-wise e sulla qualità generale.

Valutazione iniziale quantitativa di FluxFlow-Frame.

Valutazione iniziale quantitativa di FluxFlow-Frame. "+ Originale" indica l’addestramento senza FLUXFLOW, mentre "+ Num × 1" mostra diverse configurazioni di FluxFlow-Frame. I risultati migliori sono ombreggiati; i secondi migliori sono sottolineati per ogni modello.

Commentando questi risultati, gli autori affermano:

‘Sia FLUXFLOW-FRAME che FLUXFLOW-BLOCK migliorano significativamente la qualità temporale, come evidenziato dalle metriche nelle Tab. 1, 2 (ad esempio, FVD, Soggetto, Sfarfallio, Movimento e Dinamico) e risultati qualitativi in [immagine sotto].

‘Ad esempio, il movimento della macchina che derapa in VC2, il gatto che insegue la sua coda in NOVA e il surfista che cavalca un’onda in CVX diventano notevolmente più fluidi con FLUXFLOW. È importante notare che questi miglioramenti temporali sono ottenuti senza sacrificare la fedeltà spaziale, come evidenziato dai dettagli nitidi di schizzi d’acqua, scie di fumo e texture di onde, insieme alla fedeltà spaziale e alla fedeltà generale.’

Di seguito vediamo selezioni dai risultati qualitativi a cui gli autori fanno riferimento (si prega di vedere l’articolo originale per i risultati completi e una risoluzione migliore):

Selezioni dai risultati qualitativi.

Selezioni dai risultati qualitativi.

L’articolo suggerisce che mentre sia le perturbazioni a livello di frame che quelle a livello di blocco migliorano la qualità temporale, le perturbazioni a livello di frame tendono a funzionare meglio. Ciò è attribuito alla loro granularità più fine, che consente regolazioni temporali più precise. Le perturbazioni a livello di blocco, d’altra parte, possono introdurre rumore a causa di pattern spaziali e temporali strettamente accoppiati all’interno dei blocchi, riducendo la loro efficacia.

Conclusione

Questo articolo, insieme alla collaborazione di didascalia video di Bytedance-Tsinghua pubblicata questa settimana, ha reso chiaro che le apparenti carenze nei nuovi modelli di video generativi potrebbero non derivare da errori dell’utente, passi falsi istituzionali o limitazioni di finanziamento, ma piuttosto da una focalizzazione della ricerca che ha priorizzato sfide più urgenti, come la coerenza e la consistenza temporale, su queste preoccupazioni minori.

Fino a poco tempo fa, i risultati dei sistemi di video generativi disponibili gratuitamente e scaricabili erano così compromessi che non è emerso un grande sforzo dalla comunità degli appassionati per risolvere i problemi (non meno perché i problemi erano fondamentali e non banalmente risolvibili).

Ora che siamo così vicini all’era prevedibile di output video fotorealistico generato interamente da AI, è chiaro che sia la comunità della ricerca che quella degli appassionati stanno prendendo un interesse più profondo e produttivo nel risolvere i problemi rimanenti; con un po’ di fortuna, questi non sono ostacoli insormontabili.

 

* La frequenza dei frame nativa di Wan è di appena 16fps, e in risposta ai miei problemi, noto che i forum hanno suggerito di abbassare la frequenza dei frame fino a 12fps, e quindi utilizzare FlowFrames o altri sistemi di riflusso basati su AI per interpolare le lacune tra un numero così scarso di frame.

Pubblicato per la prima volta venerdì, 21 marzo 2025

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.