Angolo di Anderson

Perché il video dell’AI a volte si comporta all’indietro

Published March 13, 2025

Updated May 19, 2026

Martin Anderson

ChatGPT/Firefly image depicting a jet-skier impossibly leaving a wake in front of himself.

Se il 2022 è stato l’anno in cui l’AI generativa ha catturato l’immaginazione del grande pubblico, il 2025 è l’anno in cui la nuova generazione di framework di video generativi provenienti dalla Cina sembra destinata a fare lo stesso.

Il video Hunyuan di Tencent ha avuto un impatto significativo sulla comunità di appassionati di AI con il rilascio open-source di un modello di diffusione video full-world che gli utenti possono personalizzare in base alle loro esigenze.

A ruota, c’è il più recente Wan 2.1 di Alibaba, una delle soluzioni di immagine-video FOSS più potenti di questo periodo, che ora supporta la personalizzazione attraverso Wan LoRAs.

Oltre alla disponibilità del recente modello di fondazione umano-centriche SkyReels, al momento della stesura di questo articolo attendiamo anche il rilascio della suite di creazione e modifica video VACE di Alibaba:

Click to play. Il rilascio imminente della suite di editing AI multi-funzione VACE di Alibaba ha entusiasmato la comunità di utenti. Fonte: https://ali-vilab.github.io/VACE-Page/

Impatto improvviso

La scena della ricerca sull’AI generativa di video non è meno esplosiva; siamo ancora a metà marzo e le candidature di martedì alla sezione Computer Vision di Arxiv (un hub per le ricerche sull’AI generativa) sono state quasi 350 – un numero più associato all’apice della stagione delle conferenze.

I due anni trascorsi dal lancio di Stable Diffusion nell’estate del 2022 (e lo sviluppo successivo di Dreambooth e LoRA metodi di personalizzazione) sono stati caratterizzati dalla mancanza di ulteriori sviluppi significativi, fino alle ultime settimane, in cui nuovi rilasci e innovazioni sono proceduti a un ritmo così frenetico che è quasi impossibile stare al passo con tutto, per non parlare di coprire tutto.

I modelli di diffusione video come Hunyuan e Wan 2.1 hanno risolto, finalmente, e dopo anni di tentativi falliti da parte di centinaia di iniziative di ricerca, il problema della coerenza temporale in relazione alla generazione di esseri umani e, in larga misura, anche ambienti e oggetti.

Non c’è dubbio che gli studi di effetti visivi stiano attualmente applicando personale e risorse per adattare i nuovi modelli di video cinesi per risolvere sfide immediate come il face-swapping, nonostante la mancanza attuale di meccanismi ausiliari di tipo ControlNet per questi sistemi.

Deve essere un grande sollievo che un ostacolo così significativo sia stato superato, anche se non attraverso i canali previsti.

Dei problemi che restano, questo non è insignificante:

Click to play. Basato sul prompt ‘Una piccola roccia rotola giù per un pendio roccioso ripido, spostando terra e piccole pietre ‘, Wan 2.1, che ha ottenuto i punteggi più alti nel nuovo articolo, commette un semplice errore. Fonte: https://videophy2.github.io/

Su per la collina all’indietro

Tutti i sistemi di video testo-immagine e immagine-video attualmente disponibili, compresi i modelli commerciali chiusi, tendono a produrre errori di fisica come quello sopra, in cui il video mostra una roccia che rotola su per la collina, in base al prompt ‘Una piccola roccia rotola giù per un pendio roccioso ripido, spostando terra e piccole pietre ‘.

Una teoria su perché questo accade, recentemente proposta in una collaborazione accademica tra Alibaba e UAE, è che i modelli si addestrano sempre su singole immagini, in un certo senso, anche quando si addestrano su video (che vengono scritti come sequenze di singole immagini per scopi di addestramento); e potrebbero non imparare necessariamente l’ordine temporale corretto di ‘prima’ e ‘dopo’ immagini.

Tuttavia, la soluzione più probabile è che i modelli in questione abbiano utilizzato routine di aumento dei dati che coinvolgono l’esposizione di un clip di addestramento di origine al modello sia in avanti e all’indietro, effettivamente raddoppiando i dati di addestramento.

È stato a lungo noto che non si dovrebbe fare arbitrariamente, perché alcuni movimenti funzionano al contrario, ma molti no. Uno studio del 2019 dell’Università di Bristol del Regno Unito ha cercato di sviluppare un metodo che potesse distinguere equivariant, invariant e irreversible clip video di dati di origine che coesistono in un singolo set di dati (vedi immagine sotto), con l’idea che i clip di origine non adatti potrebbero essere filtrati dalle routine di aumento dei dati.

Esempi di tre tipi di movimento, solo uno dei quali è liberamente reversibile mantenendo una dinamica fisica plausibile. Fonte: https://arxiv.org/abs/1909.09422

Gli autori di quel lavoro inquadrano chiaramente il problema:

‘Trova che la realtà dei video invertiti sia tradita da artefatti di inversione, aspetti della scena che non sarebbero possibili in un mondo naturale. Alcuni artefatti sono sottili, mentre altri sono facili da individuare, come un’azione di lancio invertita in cui l’oggetto lanciato si alza spontaneamente dal pavimento.

‘Osserviamo due tipi di artefatti di inversione, fisici, quelli che esibiscono violazioni delle leggi della natura, e improbabili, quelli che rappresentano uno scenario possibile ma improbabile. Questi non sono esclusivi, e molte azioni invertite subiscono entrambi i tipi di artefatti, come quando si apre un pezzo di carta.

‘Esempi di artefatti fisici includono: gravità invertita (ad esempio ‘lasciare cadere qualcosa’), impulsi spontanei sugli oggetti (ad esempio ‘far girare una penna’), e cambiamenti di stato irreversibili (ad esempio ‘bruciare una candela’). Un esempio di artefatto improbabile: prendere un piatto dall’armadio, asciugarlo e metterlo sul sostegno per asciugare.

‘Questo tipo di riutilizzo dei dati è molto comune durante l’addestramento, e può essere benefico – ad esempio, per assicurarsi che il modello non impari solo una vista di un’immagine o di un oggetto che può essere capovolto o ruotato senza perdere la sua coerenza centrale e la sua logica.

‘Questo funziona solo per oggetti che sono veramente simmetrici, naturalmente; e l’apprendimento della fisica da un video ‘invertito’ funziona solo se la versione invertita ha senso quanto la versione in avanti.’

Reversibilità temporale

Non abbiamo prove che sistemi come Hunyuan Video e Wan 2.1 abbiano consentito clip ‘invertiti’ arbitrariamente esposti al modello durante l’addestramento (nessuno dei due gruppi di ricercatori è stato specifico riguardo alle routine di aumento dei dati).

Tuttavia, l’unica possibilità ragionevole alternativa, di fronte a tantissime segnalazioni (e la mia esperienza pratica), sembrerebbe essere che i set di dati iperscala che alimentano questi modelli potrebbero contenere clip che mostrano effettivamente movimenti che si verificano al contrario.

La roccia nel video di esempio incorporato sopra è stata generata utilizzando Wan 2.1 e figura in uno studio che esamina come i modelli di diffusione video gestiscono la fisica.

Nelle prove per questo progetto, Wan 2.1 ha ottenuto un punteggio di solo il 22% in termini di capacità di aderire coerentemente alle leggi fisiche.

Tuttavia, questo è il miglior punteggio di qualsiasi sistema testato per il lavoro, indicando che potremmo aver trovato il nostro prossimo ostacolo per l’AI video:

Punteggi ottenuti dai sistemi aperti e chiusi di punta, con l’output dei framework valutati da annotatori umani. Fonte: https://arxiv.org/pdf/2503.06800

Gli autori del nuovo lavoro hanno sviluppato un sistema di benchmarking, ora nella sua seconda iterazione, chiamato VideoPhy, con il codice disponibile su GitHub.

Sebbene l’ambito del lavoro sia al di là di ciò che possiamo coprire in modo esaustivo qui, prendiamo uno sguardo generale alla sua metodologia e al suo potenziale per stabilire una metrica che potrebbe aiutare a guidare il corso delle future sessioni di addestramento del modello lontano da questi strani casi di inversione.

Lo studio, condotto da sei ricercatori di UCLA e Google Research, si chiama VideoPhy-2: una valutazione dell’azione fisica basata sul senso comune in generazione video. Un sito del progetto affollato è anche disponibile, insieme al codice e ai set di dati su GitHub, e un visualizzatore del set di dati su Hugging Face.

Click to play. Qui, il modello OpenAI Sora non riesce a capire le interazioni tra i remi e le riflessioni e non è in grado di fornire un flusso fisico logico per la persona nella barca o per il modo in cui la barca interagisce con lei.

Metodo

Gli autori descrivono l’ultima versione del loro lavoro, VideoPhy-2, come ‘una valutazione del senso comune basata sulle azioni per azioni del mondo reale’. La raccolta presenta 197 azioni in un’ampia gamma di attività fisiche diverse come hula-hooping, ginnastica e tennis, nonché interazioni con oggetti, come piegare un oggetto fino a quando non si rompe.

Un modello linguistico di grandi dimensioni (LLM) viene utilizzato per generare 3840 prompt da queste azioni di base, e i prompt vengono utilizzati per sintetizzare video tramite i vari framework in prova.

Durante il processo gli autori hanno sviluppato un elenco di ‘candidati’ regole e leggi fisiche che i video generati dall’AI dovrebbero soddisfare, utilizzando modelli di visione-linguaggio per la valutazione.

Gli autori affermano:

‘Ad esempio, in un video di uno sportivo che gioca a tennis, una regola fisica sarebbe che una palla da tennis dovrebbe seguire una traiettoria parabolica sotto la gravità. Per giudizi di gold standard, chiediamo agli annotatori umani di valutare ogni video in base all’aderenza semantica generale e al senso comune fisico, e di segnalare la sua conformità con varie regole fisiche.’

Sopra: un prompt di testo viene generato da un’azione utilizzando un LLM e utilizzato per creare un video con un generatore di video testo. Un modello di visione-linguaggio annota il video, identificando le regole fisiche in gioco. Sotto: gli annotatori umani valutano la realtà del video, confermano le violazioni delle regole, aggiungono regole mancanti e verificano se il video corrisponde al prompt originale.

Inizialmente i ricercatori hanno curato un set di azioni per valutare il senso comune fisico nei video generati dall’AI. Hanno iniziato con oltre 600 azioni tratte dai set di dati Kinetics, UCF-101 e SSv2, concentrandosi su attività che coinvolgono sport, interazioni con oggetti e fisica del mondo reale.

Due gruppi indipendenti di studenti di STEM addestrati (con una qualifica di laurea minima ottenuta) hanno esaminato e filtrato l’elenco, selezionando azioni che testano principi come gravità, momento e elasticità, rimuovendo attività a basso movimento come battere a macchina, accarezzare un gatto o masticare.

Dopo un ulteriore affinamento con Gemini-2.0-Flash-Exp per eliminare i duplicati, il set di dati finale includeva 197 azioni, con 54 che coinvolgono interazioni con oggetti e 143 centrati su attività fisiche e sportive:

Esempi dalle azioni distillate.

Nella seconda fase, i ricercatori hanno utilizzato Gemini-2.0-Flash-Exp per generare 20 prompt per ogni azione nel set di dati, risultando in un totale di 3.940 prompt. Il processo di generazione si è concentrato su interazioni fisiche visibili che potevano essere chiaramente rappresentate in un video generato. Questo ha escluso elementi non visivi come emozioni, dettagli sensoriali e linguaggio astratto, ma ha incorporato personaggi e oggetti diversi.

Ad esempio, invece di un semplice prompt come ‘Un arciere rilascia la freccia’, il modello è stato guidato a produrre una versione più dettagliata come ‘Un arciere tira la corda dell’arco all’indietro fino alla tensione completa, poi rilascia la freccia, che vola dritta e colpisce un bersaglio su un bersaglio di carta’.

Poiché i modelli video moderni possono interpretare descrizioni più lunghe, i ricercatori hanno ulteriormente raffinato le didascalie utilizzando il Mistral-NeMo-12B-Instruct amplificatore di prompt, per aggiungere dettagli visivi senza alterare il significato originale.

Esempi di prompt da VideoPhy-2, categorizzati per attività fisiche o interazioni con oggetti. Ogni prompt è abbinato alla sua azione corrispondente e al principio fisico pertinente che testa.

Per la terza fase, le regole fisiche non sono state derivate da prompt di testo ma da video generati, poiché i modelli generativi possono lottare per aderire ai prompt di testo condizionati.

I video sono stati creati utilizzando prompt da VideoPhy-2, quindi ‘up-captionati’ con Gemini-2.0-Flash-Exp per estrarre dettagli chiave. Il modello ha proposto tre regole fisiche attese per ogni video, che gli annotatori umani hanno esaminato e ampliato identificando ulteriori potenziali violazioni.

Esempi dalle didascalie amplificate.

Successivamente, per identificare le azioni più impegnative, i ricercatori hanno generato video utilizzando CogVideoX-5B con prompt dal set di dati VideoPhy-2. Hanno quindi selezionato 60 azioni su 197 in cui il modello non è riuscito a seguire sia i prompt che il senso comune fisico di base.

Queste azioni coinvolgevano interazioni fisiche ricche di fisica come il trasferimento di momento nel lancio del disco, cambiamenti di stato come piegare un oggetto fino a quando non si rompe, compiti di equilibrio come camminare sulla fune e movimenti complessi che includevano capriole all’indietro, salto con l’asta e lancio di pizza, tra gli altri. In totale, 1.200 prompt sono stati scelti per aumentare la difficoltà del subset di dati.

Il set di dati risultante comprendeva 3.940 didascalie – 5,72 volte più del precedente versione di VideoPhy. La lunghezza media delle didascalie originali è di 16 token, mentre le didascalie amplificate raggiungono 138 token – 1,88 volte e 16,2 volte più lunghe, rispettivamente.

Il set di dati presenta anche 102.000 annotazioni umane che coprono l’aderenza semantica, il senso comune fisico e le violazioni delle regole in più modelli di generazione video.

Valutazione

I ricercatori hanno quindi definito criteri chiari per valutare i video. L’obiettivo principale era valutare quanto bene ogni video corrispondeva al prompt di input e seguisse principi fisici di base.

Invece di semplicemente classificare i video per preferenza, hanno utilizzato un feedback basato su valutazioni per catturare successi e insuccessi specifici. Gli annotatori umani hanno valutato i video su una scala di cinque punti, consentendo giudizi più dettagliati, mentre la valutazione ha anche verificato se i video seguissero varie regole e leggi fisiche.

Per la valutazione umana, un gruppo di 12 annotatori è stato selezionato da prove su Amazon Mechanical Turk (AMT) e ha fornito valutazioni dopo aver ricevuto istruzioni dettagliate a distanza. Per equità, aderenza semantica e senso comune fisico sono stati valutati separatamente (nello studio originale di VideoPhy, sono stati valutati congiuntamente).

Gli annotatori hanno valutato inizialmente quanto bene i video corrispondevano ai prompt di input, quindi hanno valutato separatamente la plausibilità fisica, segnalando violazioni delle regole e realismo generale su una scala di cinque punti. Solo i prompt originali sono stati mostrati, per mantenere una valutazione equa tra i modelli.

L’interfaccia presentata agli annotatori di AMT.

Sebbene il giudizio umano rimanga lo standard di riferimento, è costoso e presenta una serie di caveat. Pertanto, la valutazione automatizzata è essenziale per valutazioni dei modelli più rapide e più scalabili.

Gli autori del documento hanno testato diversi modelli di video-linguaggio, tra cui Gemini-2.0-Flash-Exp e VideoScore, sulla loro capacità di valutare i video per accuratezza semantica e ‘senso comune fisico’.

I modelli hanno valutato ogni video su una scala di cinque punti, mentre un compito di classificazione separato ha determinato se le regole fisiche sono state seguite, violate o non chiare.

Gli esperimenti hanno mostrato che i modelli di video-linguaggio esistenti hanno lottato per eguagliare i giudizi umani, principalmente a causa di una debole ragione fisica e della complessità dei prompt. Per migliorare la valutazione automatizzata, i ricercatori hanno sviluppato VideoPhy-2-Autoeval, un modello da 7B di parametri progettato per fornire previsioni più accurate in tre categorie: aderenza semantica; senso comune fisico; e conformità alle regole, ottimizzato sul modello VideoCon-Physics utilizzando 50.000 annotazioni umane*.

Dati e test

Con questi strumenti in place, gli autori hanno testato una serie di sistemi di video generativi, sia attraverso installazioni locali che, quando necessario, tramite API commerciali: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; e Luma Ray.

I modelli sono stati forniti con prompt amplificati quando possibile, ad eccezione del fatto che Hunyuan Video e VideoCrafter2 operano sotto limiti di 77 token CLIP e non possono accettare prompt più lunghi di una certa lunghezza.

I video generati sono stati limitati a meno di 6 secondi, poiché l’output più breve è più facile da valutare.

I dati di guida provenivano dal set di dati VideoPhy-2, che è stato diviso in un benchmark e un set di addestramento. 590 video sono stati generati per modello, ad eccezione di Sora e Ray2; a causa del fattore di costo (numeri equivalenti di video sono stati generati per questi).

(Si prega di fare riferimento al documento di origine per ulteriori dettagli di valutazione, che sono cronachisticamente esaurienti lì)

La valutazione iniziale ha trattato attività fisiche/sport (PA) e interazioni con oggetti (OI), e ha testato sia il set di dati generale che il subset ‘più difficile’ menzionato:

Risultati dal primo round.

Qui gli autori commentano:

‘Anche il modello con le prestazioni migliori, Wan2.1-14B, ottiene solo il 32,6% e il 21,9% sul set di dati completo e sul subset difficile, rispettivamente. La sua prestazione relativamente forte rispetto ad altri modelli può essere attribuita alla diversità dei suoi dati di addestramento multimodali, insieme a un filtraggio del movimento robusto che conserva video di alta qualità in un’ampia gamma di azioni.

‘Inoltre, osserviamo che i modelli chiusi, come Ray2, si comportano peggio dei modelli aperti come Wan2.1-14B e CogVideoX-5B. Ciò suggerisce che i modelli chiusi non sono necessariamente superiori ai modelli aperti nel catturare il senso comune fisico.

‘In particolare, Cosmos-Diffusion-7B ottiene il secondo miglior punteggio sul subset difficile, superando addirittura il modello HunyuanVideo-13B molto più grande. Ciò potrebbe essere dovuto alla rappresentazione di alta qualità delle azioni umane nei suoi dati di addestramento, insieme a simulazioni rese sinteticamente.’

I risultati hanno mostrato che i modelli video hanno lottato di più con le attività fisiche come gli sport rispetto alle interazioni con oggetti più semplici. Ciò suggerisce che migliorare i video generati dall’AI in questo settore richiederà set di dati migliori – in particolare, riprese di alta qualità di sport come tennis, disco, baseball e cricket.

Lo studio ha anche esaminato se la plausibilità fisica di un modello si correlava con altre metriche di qualità video, come estetica e fluidità del movimento. I risultati hanno rivelato che non c’è una forte correlazione, il che significa che un modello non può migliorare le sue prestazioni su VideoPhy-2 semplicemente generando video visivamente attraenti o fluidi – ha bisogno di una comprensione più profonda del senso comune fisico.

Sebbene il documento fornisca molti esempi qualitativi, pochi degli esempi statici forniti nel PDF sembrano essere collegati agli esempi video estensivi che gli autori forniscono nel sito del progetto. Pertanto, esamineremo una piccola selezione degli esempi statici e alcuni degli esempi video del progetto.

La riga superiore mostra video generati da Wan2.1. (a) In Ray2, il jet-ski a sinistra rimane indietro prima di muoversi all’indietro. (b) In Hunyuan-13B, il martello da demolizione si deforma a metà del movimento e una tavola di legno rotta appare inaspettatamente. (c) In Cosmos-7B, il giavellotto espelle sabbia prima di entrare in contatto con il terreno.

Riguardo al test qualitativo sopra, gli autori commentano:

‘[Noi] osserviamo violazioni del senso comune fisico, come jet-ski che si muovono in modo non naturale all’indietro e la deformazione di un martello da demolizione solido, che sfidano i principi di elasticità. Tuttavia, anche Wan soffre della mancanza di senso comune fisico, come mostrato nel clip incorporato all’inizio di questo articolo.

‘In questo caso, evidenziamo che una roccia inizia a rotolare e ad accelerare su per la collina, sfidando la legge fisica della gravità.’

Ulteriori esempi dal sito del progetto:

Click to play. Qui la didascalia era ‘Una persona torce vigorosamente un asciugamano bagnato, con acqua che sprizza all’esterno in un arco visibile’ – ma la fonte di acqua risultante è molto più simile a un tubo di gomma che a un asciugamano.

Click to play.Qui la didascalia era ‘Un chimico versa un liquido chiaro da un becher in un tubo di prova, evitando con cura di rovesciare’, ma possiamo vedere che il volume di acqua aggiunto al becher non è coerente con la quantità che esce dal contenitore.

Come ho menzionato all’inizio, il volume di materiale associato a questo progetto supera di gran lunga ciò che può essere coperto qui. Pertanto, si prega di fare riferimento al documento di origine, al sito del progetto e ai siti correlati menzionati in precedenza, per un’esauriente panoramica delle procedure degli autori e molti più esempi di test e dettagli procedurali.

* Per quanto riguarda la provenienza delle annotazioni, il documento specifica solo ‘acquisite per questi compiti’ – sembra molto per essere stato generato da 12 lavoratori di AMT.

Pubblicato per la prima volta giovedì 13 marzo 2025