Angolo di Anderson

Il video AI perfeziona il selfie del gatto

Pubblicato il 19 dicembre 2025

Aggiornato il 17 maggio 2026

Martin Anderson

A still from a demo video for the paper 'Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models', depicting a POV of a 'cat selfie', while a dog skateboards in the background. Source: https://vita-epfl.github.io/FVG/

I generatori di video AI spesso forniscono risultati che sono vicini, ma non proprio ciò che il prompt di testo desiderava. Ma una nuova soluzione ad alto livello fa tutta la differenza.

I sistemi di video generativi spesso hanno difficoltà a creare video che siano realmente creativi o selvaggi e spesso non soddisfano le aspettative dei prompt di testo degli utenti.

Parte del motivo di ciò è l’entanglement – il fatto che i modelli di visione/linguaggio devono compromettere la durata dell’addestramento sui dati di origine. Troppo poco addestramento e i concetti sono flessibili, ma non completamente formati – troppo addestramento e i concetti sono precisi, ma non più flessibili abbastanza da incorporare in combinazioni nuove.

Si può avere un’idea dal video incorporato qui sotto. A sinistra c’è il tipo di compromesso che molti sistemi AI forniscono in risposta a un prompt esigente (il prompt è in alto nel video in tutti e quattro gli esempi) che chiede una giustapposizione di elementi che è troppo fantasiosa per essere stata un esempio di addestramento reale. A destra, c’è un output AI che si attiene al prompt molto meglio:

Clicca per riprodurre (nessun audio). A destra, vediamo ‘factorized’ WAN 2.2 che fornisce realmente ciò che i prompt chiedono, in confronto alle interpretazioni vaghe di ‘vanilla’ Wan 2.2., a sinistra. Si prega di fare riferimento ai file video di origine per una risoluzione migliore e molti altri esempi, sebbene le versioni curate viste qui non esistano nel sito del progetto e siano state assemblate per questo articolo. Origine

Bene, sebbene dobbiamo perdonare le mani umane del papero che applaude (!), è chiaro che gli esempi a destra si attengono al prompt di testo originale molto meglio di quelli a sinistra.

Interessantemente, entrambe le architetture presentate sono essenzialmente la stessa architettura – la popolare e molto capace Wan 2.2, una versione cinese che ha guadagnato terreno significativo nelle comunità open source e hobbistiche quest’anno.

La differenza è che la seconda pipeline generativa è factorizzata, il che in questo caso significa che un grande modello di linguaggio (LLM) è stato utilizzato per reinterpretare il primo frame (seed) del video, in modo che sia molto più facile per il sistema fornire ciò che l’utente chiede.

Questo “ancoraggio visivo” coinvolge l’iniezione di un’immagine creata da questo LLM migliorato nel prompt nel pipeline generativo come “frame di inizio” e l’utilizzo di un modello interpretativo LoRA per aiutare a integrare il “frame intruso” nel processo di creazione del video.

I risultati, in termini di fedeltà del prompt, sono piuttosto notevoli, in particolare per una soluzione che sembra abbastanza elegante:

Clicca per riprodurre (nessun audio). Altri esempi di generazioni di video ‘factorizzate’ che si attengono realmente allo script. Si prega di fare riferimento ai file video di origine per una risoluzione migliore e molti altri esempi, sebbene le versioni curate viste qui non esistano nel sito del progetto e siano state assemblate per questo articolo.

Questa soluzione arriva nella forma di un nuovo documento Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models, e il suo sito web del progetto accompagnatore.

Mentre molti sistemi attuali cercano di aumentare la precisione del prompt utilizzando modelli di linguaggio per riscrivere testi vaghi o non specificati, il nuovo lavoro sostiene che questa strategia porta ancora al fallimento quando la rappresentazione interna della scena del modello è difettosa.

Anche con un prompt riscritto dettagliato, i modelli di video generativi spesso miscompongono elementi chiave o generano stati iniziali incompatibili che rompono la logica dell’animazione. Finché il primo frame non riflette ciò che il prompt descrive, il video risultante non può recuperare, indipendentemente da quanto buono sia il modello di moto.

Il documento afferma*:

‘[I modelli di video generativi] producono frequentemente frame spostati in termini di distribuzione eppure raggiungono [punteggi di valutazione] comparabili a quelli dei modelli I2V, indicando che la loro modellazione del moto rimane ragionevolmente naturale anche quando la fedeltà della scena è relativamente scarsa.

‘[I modelli di video generativi] esibiscono un comportamento complementare, forti [punteggi di valutazione] da scene iniziali accurate e coerenza temporale più debole, mentre I2V+testo bilancia entrambi gli aspetti.

‘Questo contrasto suggerisce una mancanza strutturale nei modelli di video generativi attuali: la costruzione della scena e la sintesi temporale traggono beneficio da pregiudizi induttivi distinti, eppure le architetture esistenti cercano di apprendere entrambi simultaneamente all’interno di un singolo modello.’

Un confronto diagnostico dei modi di generazione ha rilevato che i modelli senza ancoraggio della scena esplicito hanno ottenuto punteggi alti per il moto, ma spesso hanno compromesso la disposizione della scena, mentre gli approcci condizionati dalle immagini hanno mostrato il pattern opposto:

Confronto dei modi di generazione di video su due set di dati, che mostra come I2V+testo raggiunga la migliore qualità dei frame (FID) e la coerenza temporale (FVD), evidenziando il beneficio della separazione della costruzione della scena dalla sintesi del moto. Origine

Questi risultati indicano una carenza strutturale in cui i modelli attuali cercano di apprendere sia la disposizione della scena che l’animazione in un’unica soluzione, anche se i due compiti richiedono tipi di pregiudizi induttivi diversi e sono gestiti meglio separatamente.

Forse di maggior interesse è che questo ‘trucco’ può potenzialmente essere applicato a installazioni locali di modelli come Wan 2.1 e 2.2, e modelli di diffusione di video simili come Hunyuan Video. Aneddoticamente, confrontando la qualità dell’output degli hobbisti con i portali generativi commerciali come Kling e Runway, la maggior parte dei principali fornitori di API sembra migliorare le offerte open source come WAN con LoRAs, e – sembra – con trucchi del tipo visto nel nuovo documento. Pertanto, questo approccio particolare potrebbe rappresentare un recupero per il settore FOSS.

I test condotti per il metodo indicano che questo approccio semplice e modulare offre un nuovo stato dell’arte sul benchmark T2V-CompBench, migliorando significativamente tutti i modelli testati. Gli autori notano in conclusione che mentre il loro sistema migliora radicalmente la fedeltà, non affronta (né è progettato per affrontare) la deriva dell’identità, attualmente il flagello della ricerca sull’intelligenza artificiale generativa.

Il nuovo documento proviene da quattro ricercatori dell’Ecole Polytechnique Fédérale de Lausanne (EPFL) in Svizzera.

Metodo e dati

La proposta centrale della nuova tecnica è che i modelli di diffusione di video testo-VIDEO (T2V) devono essere ‘ancorati’ a frame di inizio che realmente corrispondono al prompt di testo desiderato.

Per assicurarsi che il modello rispetti il frame di inizio, il nuovo metodo interrompe il processo di diffusione standard iniettando un latente pulito dall’immagine di ancoraggio al timestep zero, sostituendo uno degli input rumorosi usuali. Questo input insolito confonde il modello all’inizio, ma con un minimo di finetuning LoRA, impara a trattare il frame iniettato come un ancoraggio visivo fisso piuttosto che come parte della traiettoria del rumore:

Metodo a due fasi per la generazione di video testo-VIDEO con un ancoraggio visivo: a sinistra, il modello è sottoposto a finetuning utilizzando un LoRA leggero per trattare un latente pulito iniettato come una costrizione di scena fissa. A destra, il prompt è diviso in una didascalia del primo frame, che viene utilizzata per generare l’immagine di ancoraggio che guida il video.

Al momento dell’inferenza, il metodo riscrive il prompt per descrivere solo il primo frame, utilizzando un LLM per estrarre uno stato di scena iniziale plausibile focalizzato sulla disposizione e sull’aspetto.

Questo prompt riscritto viene passato a un generatore di immagini per produrre un frame di ancoraggio candidato (che può essere opzionalmente raffinato dall’utente). Il frame selezionato viene codificato in un latente e iniettato nel processo di diffusione sostituendo il primo timestep, consentendo al modello di generare il resto del video restando ancorato alla scena iniziale – un processo che funziona senza richiedere modifiche all’architettura sottostante.

Il processo è stato testato creando LoRAs per Wan2.2-14B, Wan2.1-1B e CogVideo1.5-5B. L’addestramento LoRA è stato condotto a un rank di 256, su 5000 clip casualmente campionati dalla raccolta UltraVideo.

L’addestramento è durato 6000 passi e ha richiesto 48 ore di GPU^† per Wan-1B e CogVideo-5B, e 96 ore di GPU per Wan-14B. Gli autori notano che Wan-5B supporta nativamente la condizionamento testo-solo e testo-immagine (che in questo caso vengono impostati sui framework più vecchi), e quindi non richiedeva alcun finetuning.

Test

Nei test condotti per il processo, ogni prompt di testo è stato inizialmente raffinato utilizzando Qwen2.5-7B-Instruct, che ha utilizzato il risultato per generare una didascalia dettagliata del ‘seed image’ contenente una descrizione dell’intera scena. Questa è stata poi passata a QwenImage, che è stato incaricato di generare il ‘magic frame’ da interporre nel processo di diffusione.

I benchmark utilizzati per valutare il sistema includevano il già menzionato T2V-CompBench, per testare la comprensione composizionale valutando come i modelli conservano oggetti, attributi e azioni all’interno di una scena coerente; e VBench 2.0, per valutare la ragionevolezza e la coerenza più ampia su 18 metriche, raggruppate in creatività, ragionevolezza comune, controllabilità, fedeltà umana e fisica:

Su tutte le sette categorie di valutazione di T2V-CompBench, il metodo di video generazione factorizzato ha superato sia i modelli di base standard che quelli campionati per ogni modello testato, con guadagni che raggiungono fino al 53,25%. Le varianti con punteggio più alto hanno frequentemente eguagliato o superato il benchmark PixVerse-V3 proprietario.

Riguardo a questo primo round di test, gli autori affermano*:

‘[Su] tutti i modelli, l’aggiunta di un’immagine di ancoraggio migliora costantemente le prestazioni composizionali. Tutti i modelli factorizzati più piccoli (CogVideo 5B, Wan 5B e Wan 1B) superano il modello T2V Wan 14B più grande.

‘Il nostro modello factorizzato Wan 5B supera anche il modello di riferimento PixVerse-V3 commerciale, che è il miglior modello riportato sul benchmark. Ciò dimostra che l’ancoraggio visivo migliora notevolmente la comprensione della scena e dell’azione anche nei modelli di capacità inferiore.

‘All’interno di ogni famiglia di modelli, la versione factorizzata supera il modello originale. Notabilmente, il nostro LoRA leggero ancorato su WAN 14B raggiunge prestazioni paragonabili alla sua variante I2V pre-addestrata (0,661 vs. 0,666), nonostante richieda solo un finetuning minimo.’

Prossimo è arrivato il round VBench2.0:

L’approccio di video generazione factorizzato migliora costantemente le prestazioni di VBench 2.0 su composizione, ragionevolezza comune, controllabilità e fisica, con alcuni guadagni che superano il 60% – sebbene la fedeltà umana sia rimasta al di sotto del benchmark Veo 3 proprietario.

Su tutte le architetture, l’approccio factorizzato ha aumentato i punteggi in ogni categoria di VBench tranne fedeltà umana, che è leggermente scesa anche con il campionamento del prompt. WAN 5B ha superato il più grande WAN 14B, rafforzando i risultati precedenti di T2V-CompBench che l’ancoraggio visivo contribuisce più della scala.

Sebbene i guadagni su VBench siano stati costanti, sono stati più piccoli di quelli visti su T2V-CompBench, e gli autori attribuiscono ciò al regime di punteggio binario più rigido di VBench.

Per i test qualitativi, il documento fornisce immagini statiche, ma ci riferiamo al lettore ai video composti incorporati in questo articolo, per un’idea più chiara, con la precisazione che i video di origine sono più numerosi e diversi, nonché dotati di una risoluzione e un dettaglio maggiori. Trovali qui. Riguardo ai risultati qualitativi, il documento afferma:

‘I video ancorati mostrano costantemente una composizione di scena più precisa, una legatura oggetto-attributo più forte e una progressione temporale più chiara.’

Il metodo factorizzato è rimasto stabile anche quando il numero di passi di diffusione è stato ridotto da 50 a 15, mostrando quasi nessuna perdita di prestazioni su T2V-CompBench. Al contrario, sia i modelli di base testo-solo che quelli campionati si sono deteriorati bruscamente nelle stesse condizioni.

Sebbene la riduzione dei passi potrebbe teoricamente triplicare la velocità, la pipeline di generazione completa è diventata solo 2,1x più veloce nella pratica, a causa dei costi fissi della generazione dell’immagine di ancoraggio. Tuttavia, i risultati hanno indicato che l’ancoraggio non solo ha migliorato la qualità del campione, ma ha anche aiutato a stabilizzare il processo di diffusione, supportando una generazione più rapida e efficiente senza perdita di accuratezza.

Il sito web del progetto fornisce esempi di generazioni campionate rispetto al nuovo metodo, dei quali offriamo alcuni (a risoluzione inferiore) esempi modificati qui:

Clicca per riprodurre (nessun audio). Sorgenti di inizio campionate rispetto all’approccio factorizzato degli autori.

Gli autori concludono:

‘I nostri risultati suggeriscono che un ancoraggio migliorato, piuttosto che una semplice aumento della capacità, potrebbe essere altrettanto importante. I recenti progressi nella diffusione di video testo-VIDEO hanno fatto affidamento pesantemente sull’aumento della dimensione del modello e dei dati di addestramento, eppure anche i modelli più grandi spesso lottano per inferire una scena iniziale coerente solo dal testo.

‘Ciò si contrappone alla diffusione di immagini, dove la scalabilità è relativamente semplice; nei modelli di video, ogni miglioramento architettonico deve operare su una dimensione temporale aggiuntiva, rendendo la scalabilità sostanzialmente più intensiva in termini di risorse.

‘I nostri risultati indicano che un ancoraggio migliorato può complementare la scala affrontando un collo di bottiglia diverso: stabilire la scena corretta prima che la sintesi del moto inizi.

‘Factorizzando la generazione di video in costruzione di scena e modellazione temporale, mitigiamo diversi modi di fallimento comuni senza richiedere modelli sostanzialmente più grandi. Consideriamo questo un principio di progettazione complementare che può guidare le future architetture verso una sintesi di video più affidabile e strutturata.’

Conclusione

Sebbene i problemi di entanglement siano molto reali e possano richiedere soluzioni dedicate (come una curation e valutazioni di distribuzione migliorate prima dell’addestramento), è stato un’apertura degli occhi vedere la factorizzazione ‘sganciare’ diverse orchestrazioni di prompt di concetto bloccate in rendering molto più precisi – con solo un moderato livello di condizionamento LoRA e l’intervento di un’immagine di inizio/seed notevolmente migliorata.

Il divario di risorse tra l’inferenza degli hobbisti e le soluzioni commerciali potrebbe non essere così enorme come supposto, considerando che quasi tutti i fornitori stanno cercando di razionalizzare la loro notevole spesa di risorse GPU ai consumatori.

Aneddoticamente, un gran numero dei fornitori di video generativi attuali sembra utilizzare versioni marchiate e generalmente ‘potenziate’ di modelli FOSS cinesi. Il principale ‘fosso’ che questi sistemi ‘intermedi’ sembrano avere è che si sono presi la briga di addestrare LoRAs, o altresì – a maggior costo e leggermente maggiore ricompensa – condotto un addestramento completo dei pesi del modello^††.

Intuizioni di questo tipo potrebbero aiutare a colmare ulteriormente questo divario, nel contesto di una scena di rilascio in cui i cinesi sembrano determinati (non necessariamente per ragioni altruistiche o idealistiche) a democratizzare l’AI generativa, mentre gli interessi commerciali occidentali potrebbero preferire che l’aumento della dimensione del modello e le normative alla fine isolino i modelli migliori dietro le API e molteplici strati di filtri di contenuto.

* Enfasi degli autori, non mia.

^†Il documento non specifica quale GPU sia stata scelta, o quanti siano stati utilizzati.

^†† Sebbene il percorso LoRA sia più probabile, sia per facilità di uso economica che perché i pesi full, piuttosto che i pesi quantizzati, non sono sempre resi disponibili.

Pubblicato per la prima volta venerdì, 19 dicembre 2025