L'angolo di Anderson

Video di intelligenza artificiale generativa migliore tramite la riproduzione casuale dei fotogrammi durante l'addestramento

Pubblicato il 21 Marzo 2025

Martin Anderson

Un nuovo articolo uscito questa settimana su Arxiv affronta un problema che chiunque abbia adottato il Video di Hunyuan or 2.1 anni I generatori di video AI si saranno ormai imbattuti in: aberrazioni temporali, dove il processo generativo tende ad accelerare bruscamente, a confondere, a omettere o altrimenti a rovinare momenti cruciali in un video generato:

Clicca per giocare. Alcuni dei glitch temporali che stanno diventando familiari agli utenti della nuova ondata di sistemi video generativi, evidenziati nel nuovo articolo. A destra, l'effetto migliorativo del nuovo approccio FluxFlow. Fonte: https://haroldchen19.github.io/FluxFlow/

Il video sopra contiene estratti da video di test di esempio (attenzione: piuttosto caotici) sito del progetto per l'articolo. Possiamo vedere diversi problemi sempre più familiari risolti dal metodo degli autori (raffigurato a destra nel video), che è effettivamente un pre-elaborazione del set di dati tecnica applicabile a qualsiasi architettura video generativa.

Nel primo esempio, raffigurante "due bambini che giocano con una palla", generato da CogVideoX, vediamo (a sinistra nel video di compilazione qui sopra e nell'esempio specifico qui sotto) che la generazione nativa salta rapidamente attraverso diversi micro-movimenti essenziali, accelerando l'attività dei bambini fino a raggiungere un tono da "cartone animato". Al contrario, lo stesso set di dati e lo stesso metodo producono risultati migliori con la nuova tecnica di pre-elaborazione, denominata FlussoFlusso (a destra dell'immagine nel video qui sotto):

Clicca per giocare.

Nel secondo esempio (utilizzando NOVA-0.6B) vediamo che un movimento centrale che coinvolge un gatto è stato in qualche modo corrotto o significativamente sottocampionato nella fase di addestramento, al punto che il sistema generativo diventa "paralizzato" e non è in grado di far muovere il soggetto:

Clicca per giocare.

Questa sindrome, in cui il movimento o il soggetto si "bloccano", è uno dei problemi più frequentemente segnalati di HV e Wan nei vari gruppi di sintesi di immagini e video.

Alcuni di questi problemi sono correlati a problemi di sottotitoli video nel set di dati di origine, che noi ho dato un'occhiata a questa settimana; ma gli autori del nuovo lavoro concentrano invece i loro sforzi sulle qualità temporali dei dati di addestramento e sostengono in modo convincente che affrontare le sfide da questa prospettiva può produrre risultati utili.

Come accennato nell'articolo precedente sui sottotitoli dei video, alcuni sono particolarmente difficili da sintetizzare in momenti chiave, il che significa che gli eventi critici (come una schiacciata) non ricevono l'attenzione di cui hanno bisogno durante l'allenamento:

Clicca per giocare.

Nell'esempio sopra, il sistema generativo non sa come passare alla fase successiva del movimento e passa in modo illogico da una posa all'altra, modificando nel processo l'atteggiamento e la geometria del giocatore.

Si tratta di movimenti ampi che sono andati persi durante l'allenamento, ma altrettanto vulnerabili sono i movimenti molto più piccoli ma fondamentali, come il battito d'ali di una farfalla:

Clicca per giocare.

A differenza della schiacciata, il battito d'ali non è un evento "raro", ma piuttosto persistente e monotono. Tuttavia, la sua coerenza si perde nel processo di campionamento, poiché il movimento è così rapido che è molto difficile stabilirne la durata temporale.

Non si tratta di questioni particolarmente nuove, ma stanno ricevendo maggiore attenzione ora che potenti modelli video generativi sono disponibili per gli appassionati, per l'installazione locale e la generazione gratuita.

Le community di Reddit e Discord hanno inizialmente trattato questi problemi come "relativi all'utente". Si tratta di una supposizione comprensibile, dato che i sistemi in questione sono molto nuovi e scarsamente documentati. Pertanto, diversi esperti hanno suggerito diverse soluzioni (non sempre efficaci) per alcuni dei problemi qui documentati, come la modifica delle impostazioni in vari componenti di diversi tipi di flussi di lavoro ComfyUI per Hunyuan Video (HV) e Wan 2.1.

In alcuni casi, invece di produrre un movimento rapido, sia HV che Wan produrranno rallentare movimento. I suggerimenti di Reddit e ChatGPT (che sfrutta principalmente Reddit) includono modificando il numero di fotogrammi nella generazione richiesta, oppure abbassando radicalmente il frame rate*.

Si tratta di una situazione disperata; la verità emergente è che non conosciamo ancora la causa esatta o il rimedio esatto per questi problemi; chiaramente, modificare le impostazioni di generazione per aggirarli (in particolare quando ciò degrada la qualità dell'output, ad esempio con un fps troppo basso) è solo una tappa intermedia, ed è positivo vedere che la ricerca sta affrontando i problemi emergenti così rapidamente.

Quindi, oltre all'analisi di questa settimana su come i sottotitoli influenzano la formazione, diamo un'occhiata al nuovo articolo sulla regolarizzazione temporale e sui miglioramenti che potrebbe apportare all'attuale panorama dei video generativi.

L'idea centrale è piuttosto semplice e superficiale, e non per questo è peggiore; ciononostante il documento è un po' imbottito per raggiungere le otto pagine prescritte, e salteremo questa imbottitura se necessario.

Il pesce nella generazione nativa del framework VideoCrafter è statico, mentre la versione modificata da FluxFlow cattura i cambiamenti richiesti. Fonte: https://arxiv.org/pdf/2503.15417

Il pesce nella generazione nativa del framework VideoCrafter è statico, mentre la versione modificata da FluxFlow cattura le modifiche richieste. Fonte: https://arxiv.org/pdf/2503.15417

Migliori nuovo lavoro è intitolato La regolarizzazione temporale rende il tuo generatore video più fortee proviene da otto ricercatori di Everlyn AI, dell'Università di Scienza e Tecnologia di Hong Kong (HKUST), dell'Università della Florida Centrale (UCF) e dell'Università di Hong Kong (HKU).

(al momento della stesura, ci sono alcuni problemi con il documento allegato sito del progetto)

FlussoFlusso

L'idea centrale dietro FlussoFlusso, il nuovo schema di pre-addestramento degli autori, è quello di superare i problemi diffusi tremolante e incoerenza temporale mescolando blocchi e gruppi di blocchi negli ordini del frame temporale mentre i dati sorgente vengono esposti al processo di addestramento:

L'idea centrale di FluxFlow è quella di spostare blocchi e gruppi di blocchi in posizioni inaspettate e non temporali, come forma di aumento dei dati.

Il documento spiega:

"[Gli artefatti] derivano da una limitazione fondamentale: nonostante sfruttino set di dati su larga scala, i modelli attuali spesso si basano su modelli temporali semplificati nei dati di addestramento (ad esempio, direzioni di camminata fisse o transizioni di frame ripetitive) anziché apprendere dinamiche temporali diverse e plausibili.

'Questo problema è ulteriormente aggravato dalla mancanza di un aumento temporale esplicito durante l'addestramento, che rende i modelli inclini a un eccessivo adattamento a correlazioni temporali spurie (ad esempio, "il fotogramma n. 5 deve seguire il n. 4") anziché generalizzare su diversi scenari di movimento.'

La maggior parte dei modelli di generazione video, spiegano gli autori, prendono ancora troppo in prestito Immagine sintesi, concentrandosi sulla fedeltà spaziale ignorando ampiamente l'asse temporale. Sebbene tecniche come il ritaglio, il capovolgimento e il jittering del colore abbiano contribuito a migliorare la qualità delle immagini statiche, non sono soluzioni adeguate quando applicate ai video, dove l'illusione del movimento dipende da transizioni coerenti tra i fotogrammi.

I problemi che ne derivano includono texture tremolanti, stacchi netti tra i fotogrammi e schemi di movimento ripetitivi o eccessivamente semplicistici.

Clicca per giocare.

Il documento sostiene che sebbene alcuni modelli – tra cui Diffusione video stabile e Lama Gen – compensare con architetture sempre più complesse o vincoli ingegneristici, tutto ciò ha un costo in termini di elaborazione e flessibilità.

Poiché l'aumento dei dati temporali si è già dimostrato utile nei video Guida alle compiti (in framework come Tagliatore di precisione, SeFAR e SVFormatore) è sorprendente, affermano gli autori, che questa tattica venga raramente applicata in un contesto generativo.

Comportamento dirompente

I ricercatori sostengono che semplici interruzioni strutturate nell'ordine temporale durante l'addestramento aiutano i modelli a generalizzare meglio il movimento realistico e diversificato:

"Tramite l'addestramento su sequenze disordinate, il generatore impara a recuperare traiettorie plausibili, regolarizzando efficacemente l'entropia temporale. FLUXFLOW colma il divario tra aumento temporale discriminativo e generativo, offrendo una soluzione di miglioramento plug-and-play per la generazione di video temporalmente plausibili, migliorando al contempo la [qualità] complessiva.

"A differenza dei metodi esistenti che introducono modifiche architettoniche o si basano sulla post-elaborazione, FLUXFLOW opera direttamente a livello di dati, introducendo perturbazioni temporali controllate durante l'addestramento."

Clicca per giocare.

Le perturbazioni a livello di frame, affermano gli autori, introducono interruzioni a grana fine all'interno di una sequenza. Questo tipo di interruzione non è dissimile da aumento mascheramento, dove sezioni di dati vengono bloccate casualmente, per impedire al sistema overfitting sui punti dati e incoraggiando un migliore generalizzazione.

Test

Sebbene l'idea centrale qui non si traduca in un articolo completo, data la sua semplicità, c'è comunque una sezione di prova che possiamo esaminare.

Gli autori hanno testato quattro quesiti relativi al miglioramento della qualità temporale mantenendo la fedeltà spaziale; alla capacità di apprendere le dinamiche del movimento/flusso ottico; al mantenimento della qualità temporale nella generazione di extratermini; e alla sensibilità agli iperparametri chiave.

I ricercatori hanno applicato FluxFlow a tre architetture generative: basate su U-Net, sotto forma di VideoCrafter2; DiT-basato, sotto forma di CogVideoX-2B; e AR-basato, sotto forma di NOVA-0.6B.

Per un confronto equo, hanno perfezionato i modelli di base delle architetture con FluxFlow come fase di formazione aggiuntiva, per uno epoca, Sulla OpenVidHD-0.4M set di dati.

I modelli sono stati valutati rispetto a due parametri di riferimento popolari: UCF-101, E VBench.

Per l'UCF, il Distanza video Fréchet (FVD) e Punteggio iniziale (IS) sono state utilizzate metriche. Per VBench, i ricercatori si sono concentrati sulla qualità temporale, sulla qualità frame-wise e sulla qualità complessiva.

Valutazione iniziale quantitativa di FluxFlow-Frame. "+ Original" indica un allenamento senza FLUXFLOW, mentre "+ Num × 1" mostra diverse configurazioni di FluxFlow-Frame. I risultati migliori sono ombreggiati; i secondi migliori sono sottolineati per ciascun modello.

Commentando questi risultati, gli autori affermano:

Sia FLUXFLOW-FRAME che FLUXFLOW-BLOCK migliorano significativamente la qualità temporale, come evidenziato dalle metriche nelle Tabelle 1, 2 (vale a dire FVD, Soggetto, Flicker, Movimento e Dinamica) e dai risultati qualitativi nell'[immagine sottostante].

"Ad esempio, il movimento dell'auto che derapa in VC2, del gatto che si morde la coda in NOVA e del surfista che cavalca un'onda in CVX diventano notevolmente più fluidi con FLUXFLOW. È importante notare che questi miglioramenti temporali vengono ottenuti senza sacrificare la fedeltà spaziale, come dimostrano i dettagli nitidi degli schizzi d'acqua, delle scie di fumo e delle texture delle onde, insieme alle metriche di fedeltà spaziale e complessiva."

Di seguito sono riportati alcuni dei risultati qualitativi a cui fanno riferimento gli autori (per risultati completi e una migliore risoluzione, consultare il documento originale):

Selezioni dai risultati qualitativi.

Il documento suggerisce che, mentre sia le perturbazioni a livello di frame che quelle a livello di blocco migliorano la qualità temporale, i metodi a livello di frame tendono a funzionare meglio. Ciò è attribuito alla loro granularità più fine, che consente aggiustamenti temporali più precisi. Le perturbazioni a livello di blocco, al contrario, possono introdurre rumore dovuto a modelli spaziali e temporali strettamente accoppiati all'interno dei blocchi, riducendone l'efficacia.

Conclusione

Questo documento, insieme al Bytedance-Tsinghua collaborazione per la sottotitolazione pubblicato questa settimana, mi ha fatto capire chiaramente che le apparenti carenze della nuova generazione di modelli video generativi potrebbero non derivare da errori degli utenti, passi falsi istituzionali o limitazioni di finanziamento, ma piuttosto da un approccio alla ricerca che ha comprensibilmente dato priorità a sfide più urgenti, come la coerenza e la consistenza temporale, rispetto a queste preoccupazioni minori.

Fino a poco tempo fa, i risultati dei sistemi video generativi liberamente disponibili e scaricabili erano così compromessi che la comunità degli appassionati non si è mai impegnata molto per risolvere i problemi (anche perché si trattava di problemi fondamentali e non facilmente risolvibili).

Ora che siamo molto più vicini all'era tanto attesa dell'output video fotorealistico generato esclusivamente dall'intelligenza artificiale, è chiaro che sia la comunità di ricerca che quella occasionale stanno dimostrando un interesse più profondo e produttivo nel risolvere i problemi rimanenti; con un po' di fortuna, non si tratta di ostacoli insormontabili.

* Il frame rate nativo di Wan è un misero 16 fps e, in risposta ai miei problemi, noto che i forum hanno suggerito di abbassare il frame rate fino a 12 fps e quindi utilizzare Cornici di flusso o altri sistemi di rielaborazione basati sull'intelligenza artificiale per interpolare gli spazi vuoti tra un numero così esiguo di fotogrammi.

Prima pubblicazione venerdì 21 marzo 2025

Martin Anderson

Scrittore di machine learning, specialista di dominio nella sintesi di immagini umane. Ex responsabile dei contenuti di ricerca presso Metaphysic.ai.
Sito personale: martinandson.ai
Contatti: [email protected]
Twitter: @manders_ai