Intelligenza artificiale

Preparare la Coerenza Narrativa per la Generazione di Video Lunghi

Published January 16, 2025

Updated April 26, 2026

Martin Anderson

ChatGPt 4o: 'an image with a width of 1792px and a height of 1024px. It should depict an orthographic view of an AI factory where rows of white-coated computer analysts are seated in front of PCs, and on the other side of their section is a conveyer belt with multiple stages of a recipe for a cake. Three video cameras are situated equidistant across the conveyer belt, aimed at the food items.'

La recente pubblicazione pubblica del modello di intelligenza artificiale generativa Hunyuan Video ha intensificato le discussioni in corso sul potenziale dei grandi modelli di visione-linguaggio multimodali per creare un giorno interi film.

Tuttavia, come abbiamo osservato, questo è un prospetto molto lontano al momento, per una serie di motivi. Uno è la finestra di attenzione molto breve della maggior parte dei generatori di video AI, che lottano per mantenere la coerenza anche in un singolo shot breve, per non parlare di una serie di shot.

Un altro è che riferimenti coerenti al contenuto video (come ambienti esplorabili, che non dovrebbero cambiare casualmente se si ritorna sui propri passi attraverso di essi) possono essere raggiunti solo nei modelli di diffusione attraverso tecniche di personalizzazione come l’adattamento di basso rango (LoRA), che limita le capacità fuori dagli schemi dei modelli di base.

Pertanto, l’evoluzione della generazione di video sembra destinata a fermarsi a meno che non vengano sviluppate nuove approcci alla continuità narrativa.

Ricetta per la Coerenza

Con questo in mente, una nuova collaborazione tra gli Stati Uniti e la Cina ha proposto l’uso di video di cucina istruzionali come possibile modello per futuri sistemi di continuità narrativa.

Click to play. Il sistema VideoAuteur sistematizza l’analisi di parti di un processo di cucina, per produrre un nuovo dataset con didascalie raffinate e un metodo di orchestrazione per la generazione di video di cucina. Fare riferimento al sito di origine per una migliore risoluzione. Fonte: https://videoauteur.github.io/

Intitolato VideoAuteur, il lavoro propone una pipeline a due fasi per generare video di cucina istruzionali utilizzando stati coerenti che combinano keyframe e didascalie, raggiungendo risultati di stato dell’arte in – ammettiamolo – uno spazio sottoscritto.

La pagina del progetto VideoAuteur include anche una serie di video più accattivanti che utilizzano la stessa tecnica, come una proposta di trailer per un crossover Marvel/DC (non esistente):

Click to play. Due supereroi da universi alternativi si incontrano in un falso trailer di VideoAuteur. Fare riferimento al sito di origine per una migliore risoluzione.

La pagina include anche video promozionali simili per una serie di animali Netflix (non esistente) e un annuncio pubblicitario per una vettura Tesla.

Nello sviluppare VideoAuteur, gli autori hanno sperimentato con diverse funzioni di perdita e altri approcci innovativi. Per sviluppare un flusso di lavoro di generazione di ricette, hanno anche curato CookGen, il più grande dataset focalizzato sul dominio della cucina, che presenta 200.000 clip video con una durata media di 9,5 secondi.

Con una media di 768,3 parole per video, CookGen è confortevolmente il dataset più ampiamente annotato del suo genere. Sono stati utilizzati diversi modelli di visione/linguaggio, tra cui altri approcci, per assicurare che le descrizioni fossero dettagliate, rilevanti e accurate il più possibile.

I video di cucina sono stati scelti perché le istruzioni di cucina hanno una narrazione strutturata e univoca, rendendo l’annotazione e la valutazione un compito più facile. A parte i video pornografici (probabilmente destinati a entrare in questo particolare spazio prima o poi), è difficile pensare a un altro genere così visivamente e narrativamente ‘formulaico’.

Gli autori affermano:

‘Il nostro proposto pipeline auto-regressivo a due fasi, che include un direttore narrativo lungo e una generazione di video condizionata visivamente, dimostra miglioramenti promettenti nella coerenza semantica e nella fedeltà visiva nei video narrativi lunghi generati.

‘Attraverso esperimenti sul nostro dataset, osserviamo miglioramenti nella coerenza spaziale e temporale attraverso le sequenze di video.

‘Speriamo che il nostro lavoro possa facilitare ulteriori ricerche nella generazione di video narrativi lunghi.’

Il nuovo lavoro è intitolato VideoAuteur: Verso la Generazione di Video Narrativi Lunghi, e proviene da otto autori tra l’Università Johns Hopkins, ByteDance e ByteDance Seed.

Cura del Dataset

Per sviluppare CookGen, che alimenta un sistema generativo a due fasi per la produzione di video di cucina AI, gli autori hanno utilizzato materiale dalle raccolte YouCook e HowTo100M.

Gli autori confrontano la scala di CookGen con i precedenti dataset focalizzati sullo sviluppo narrativo nella generazione di video, come il dataset Flintstones, il dataset dei cartoni animati Pororo, StoryGen, StoryStream di Tencent e VIST.

Confronto tra immagini e lunghezza del testo tra CookGen e i dataset più popolosi simili. Fonte: https://arxiv.org/pdf/2501.06173

CookGen si concentra su narrazioni del mondo reale, in particolare su attività procedurali come la cucina, offrendo storie più chiare e più facili da annotare rispetto ai dataset di fumetti basati su immagini. Superiore al più grande dataset esistente, StoryStream, con 150 volte più frame e 5 volte descrizioni testuali più dense.

I ricercatori hanno perfezionato un modello di didascalie utilizzando la metodologia di LLaVA-NeXT come base. Le etichette di riconoscimento vocale automatico (ASR) ottenute per HowTo100M sono state utilizzate come ‘azioni’ per ogni video, e quindi raffinate ulteriormente da grandi modelli linguistici (LLM).

Ad esempio, ChatGPT-4o è stato utilizzato per produrre un dataset di didascalie e gli è stato chiesto di concentrarsi sulle interazioni tra soggetto e oggetto (come mani che maneggiano utensili e cibo), attributi di oggetti e dinamiche temporali.

Poiché gli script ASR sono probabilmente inesatti e generalmente ‘rumorosi’, Intersection-over-Union (IoU) è stato utilizzato come metrica per misurare quanto le didascalie si conformassero alla sezione del video che stavano affrontando. Gli autori notano che ciò è stato cruciale per la creazione della coerenza narrativa.

Le clip curate sono state valutate utilizzando Fréchet Video Distance (FVD), che misura la disparità tra esempi di realtà (mondo reale) ed esempi generati, sia con che senza keyframe di realtà, arrivando a un risultato performante:

Utilizzo di FVD per valutare la distanza tra video generati con le nuove didascalie, sia con che senza l’utilizzo di keyframe catturati dai video di esempio.

Inoltre, le clip sono state valutate sia da GPT-4o che da sei annotatori umani, seguendo LLaVA-Hound definizione di ‘allucinazione’ (cioè, la capacità di un modello di inventare contenuti spurii).

I ricercatori hanno confrontato la qualità delle didascalie con la raccolta Qwen2-VL-72B, ottenendo un punteggio leggermente migliorato.

Confronto dei punteggi FVD e di valutazione umana tra Qwen2-VL-72B e la raccolta degli autori.

Metodo

La fase generativa di VideoAuteur è divisa tra il Direttore Narrativo Lungo (LND) e il modello di generazione di video condizionato visivamente (VCVGM).

LND genera una sequenza di embedding visivi o keyframe che caratterizzano il flusso narrativo, simili a ‘evidenze essenziali’. Il VCVGM genera clip video in base a queste scelte.

Schema per la pipeline di elaborazione di VideoAuteur. Il Long Narrative Video Director effettua scelte adeguate per alimentare il modulo generativo Seed-X.

Gli autori discutono ampiamente dei diversi meriti di un direttore di immagine-testo intercalato e di un direttore di keyframe centrato sul linguaggio, e concludono che il primo è l’approccio più efficace.

Il direttore di immagine-testo intercalato genera una sequenza intercalando token di testo e embedding visivi, utilizzando un modello auto-regressivo per prevedere il token successivo, in base al contesto combinato di testo e immagini. Ciò assicura un allineamento stretto tra elementi visivi e testo.

Al contrario, il direttore di keyframe centrato sul linguaggio sintetizza keyframe utilizzando un modello di diffusione condizionato dal testo basato solo sulle didascalie, senza incorporare embedding visivi nel processo di generazione.

I ricercatori hanno scoperto che mentre il metodo centrato sul linguaggio genera keyframe visivamente attraenti, manca di coerenza tra i frame, sostenendo che il metodo intercalato raggiunge punteggi più alti in realismo e coerenza visiva. Hanno anche scoperto che questo metodo è stato in grado di apprendere uno stile visivo realistico attraverso l’addestramento, anche se a volte con alcuni elementi ripetitivi o rumorosi.

In modo insolito, in una direzione di ricerca dominata dall’uso di Stable Diffusion e Flux nei flussi di lavoro, gli autori hanno utilizzato il modello di apprendimento multi-modale LLM da 7B parametri di Tencent SEED-X per la loro pipeline generativa (anche se questo modello sfrutta la release SDXL di Stability.ai per una parte limitata della sua architettura).

Gli autori affermano:

‘A differenza della classica pipeline Image-to-Video (I2V) che utilizza un’immagine come frame di partenza, il nostro approccio sfrutta [latenti visivi regressi] come condizioni continue lungo la [sequenza].

‘Inoltre, miglioriamo la robustezza e la qualità dei video generati adattando il modello per gestire embedding visivi rumorosi, poiché i latenti visivi regressi potrebbero non essere perfetti a causa di errori di regressione.’

Sebbene le pipeline generative di video condizionato visivamente di questo tipo utilizzino spesso keyframe iniziali come punto di partenza per la guida del modello, VideoAuteur estende questo paradigma generando stati visivi multi-parti in uno spazio latente semanticamente coerente, evitando il potenziale bias di basare ulteriore generazione solo su ‘frame di partenza’.

Schema per l’utilizzo di embedding di stato visivo come metodo di condizionamento superiore.

Test

In linea con i metodi di SeedStory, i ricercatori utilizzano SEED-X per applicare il perfezionamento LoRA sul loro dataset narrativo, descrivendo enigmaticamente il risultato come un ‘modello simile a Sora’, pre-addestrato su accoppiamenti di video/testo su larga scala, e in grado di accettare sia prompt visivi che testuali e condizioni.

Sono stati utilizzati 32.000 video narrativi per lo sviluppo del modello, con 1.000 tenuti da parte come campioni di convalida. I video sono stati ritagliati a 448 pixel sul lato corto e quindi ritagliati al centro a 448x448px.

Per l’addestramento, la generazione narrativa è stata valutata principalmente sul set di convalida YouCook2. Il set Howto100M è stato utilizzato per la valutazione della qualità dei dati e anche per la generazione di video da immagine.

Per la perdita di condizionamento visivo, gli autori hanno utilizzato la perdita di diffusione da DiT e un lavoro del 2024 basato intorno a Stable Diffusion.

Per dimostrare la loro affermazione che l’intercalazione è un approccio superiore, gli autori hanno confrontato VideoAuteur con diversi metodi che si basano solo su input testuali: EMU-2, SEED-X, SDXL e FLUX.1-schnell (FLUX.1-s).

Dato un prompt globale, ‘Guida passo dopo passo per cucinare il tofu mapo’, il direttore intercalato genera azioni, didascalie e embedding di immagini in sequenza per narrare il processo. Le prime due righe mostrano keyframe decodificati dagli spazi latenti di EMU-2 e SEED-X. Queste immagini sono realistiche e coerenti ma meno raffinate rispetto a quelle dei modelli avanzati come SDXL e FLUX.

Gli autori affermano:

‘L’approccio centrato sul linguaggio che utilizza modelli di testo-immagine produce keyframe visivamente attraenti ma soffre di una mancanza di coerenza tra i frame a causa di informazioni mutuali limitate. Al contrario, il metodo di generazione intercalato sfrutta latenti visivi allineati con il linguaggio, raggiungendo uno stile visivo realistico attraverso l’addestramento.

‘Tuttavia, a volte genera immagini con elementi ripetitivi o rumorosi, poiché il modello auto-regressivo lotta per creare embedding precisi in un’unica passata.’

La valutazione umana conferma ulteriormente l’affermazione degli autori sulla prestazione migliorata dell’approccio intercalato, con metodi intercalati che raggiungono i punteggi più alti in un sondaggio.

Confronto degli approcci da uno studio condotto per il paper.

Tuttavia, notiamo che gli approcci centrati sul linguaggio raggiungono i migliori punteggi estetici. Gli autori sostengono, tuttavia, che questo non è il problema centrale nella generazione di video narrativi lunghi.

Click to play. Segmenti generati per un video di costruzione di una pizza, da VideoAuteur.

Conclusione

Il filone di ricerca più popolare riguardo a questa sfida, ovvero la coerenza narrativa nella generazione di video lunghi, si concentra sulle singole immagini. Progetti di questo tipo includono DreamStory, StoryDiffusion, TheaterGen e ConsiStory di NVIDIA.

In un certo senso, VideoAuteur rientra anche in questa categoria ‘statica’, poiché utilizza immagini di semi da cui vengono generati segmenti di clip. Tuttavia, l’intercalazione di contenuto video e semantico porta il processo un passo più vicino a una pipeline pratica.

Pubblicato per la prima volta giovedì, 16 gennaio 2025