L'angolo di Anderson

Perché a volte i video AI vanno al contrario

Pubblicato il 13 Marzo 2025

Martin Anderson

Immagine di ChatGPT/Firefly che raffigura un pilota di moto d'acqua che lascia una scia impossibile davanti a sé.

Se il 2022 è stato l'anno in cui l'intelligenza artificiale generativa ha catturato l'immaginazione di un pubblico più vasto, il 2025 è l'anno in cui la nuova generazione di intelligenza artificiale generativa video Anche i quadri normativi provenienti dalla Cina sembrano destinati a fare lo stesso.

Il video Hunyuan di Tencent ha fatto un impatto maggiore sulla comunità di hobbisti dell'intelligenza artificiale con la sua versione open source di un modello di diffusione video mondiale completo che gli utenti possono adattare alle loro esigenze.

Subito dopo c'è il più recente Alibaba 2.1 anni, una delle soluzioni FOSS da immagine a video più potenti di questo periodo, che ora supporta la personalizzazione tramite Wan LoRA.

Oltre alla disponibilità del recente modello di fondazione incentrato sull'uomo Bobine del cielo, al momento in cui scriviamo attendiamo anche la pubblicazione della relazione completa di Alibaba VACE suite di creazione e modifica video:

Clicca per giocare. L'imminente rilascio della suite di editing AI multifunzione VACE di Alibaba ha entusiasmato la comunità degli utenti. Fonte: https://ali-vilab.github.io/VACE-Page/

Impatto improvviso

Il panorama della ricerca sull'intelligenza artificiale generativa nei video non è meno esplosivo; siamo ancora nella prima metà di marzo e martedì le candidature pervenute alla sezione Computer Vision di Arxiv (un punto di riferimento per gli articoli sull'intelligenza artificiale generativa) hanno raggiunto quasi 350 voci, una cifra più legata al culmine della stagione delle conferenze.

I due anni trascorsi dall' lanciare di diffusione stabile nell'estate del 2022 (e il successivo sviluppo di cabina dei sogni e LORA metodi di personalizzazione) sono stati caratterizzati dalla mancanza di ulteriori sviluppi importanti, fino alle ultime settimane, in cui nuove versioni e innovazioni sono procedute a un ritmo così frenetico che è quasi impossibile tenersi aggiornati su tutto, figuriamoci coprirlo tutto.

Modelli di diffusione video come Hunyuan e Wan 2.1 hanno risolto, finalmente, e dopo anni di sforzi falliti da centinaia di iniziative di ricerca, il problema of consistenza temporale in relazione alla generazione degli esseri umani e, in larga misura, anche agli ambienti e agli oggetti.

Non ci sono dubbi sul fatto che gli studi di effetti visivi stiano attualmente impiegando personale e risorse per adattare i nuovi modelli video cinesi per risolvere sfide immediate come lo scambio di volti, nonostante l'attuale mancanza di Rete di controllomeccanismi ausiliari di tipo -style per questi sistemi.

Deve essere un grande sollievo sapere che un ostacolo così significativo è stato potenzialmente superato, anche se non attraverso le strade previste.

Tra i problemi che restano, questo però non è di poco conto:

Clicca per giocare. Basandosi sul prompt "Un piccolo sasso cade lungo un pendio ripido e roccioso, spostando terreno e piccole pietre", Wan 2.1, che ha ottenuto i punteggi più alti nel nuovo articolo, commette un semplice errore. Fonte: https://videophy2.github.io/

Su per la collina all'indietro

Tutti i sistemi testo-video e immagine-video attualmente disponibili, compresi i modelli commerciali closed-source, hanno la tendenza a produrre errori fisici come quello sopra, in cui il video mostra una roccia che rotola salita, in base al prompt 'Una piccola roccia cade lungo un pendio ripido e roccioso, spostando terreno e piccole pietre '.

Una teoria sul perché ciò accada, recentemente proposto in una collaborazione accademica tra Alibaba e gli Emirati Arabi Uniti, è che i modelli si allenano sempre su singole immagini, in un certo senso, anche quando si allenano su video (che sono scritti in sequenze di fotogrammi singoli per scopi di allenamento); e potrebbero non necessariamente imparare il corretto ordine temporale di 'prima' e 'Dopo' immagini.

Tuttavia, la soluzione più probabile è che i modelli in questione siano stati utilizzati aumento dei dati routine che comportano l'esposizione di una clip di addestramento sorgente al modello sia in avanti e all'indietro, raddoppiando di fatto i dati di addestramento.

È noto da tempo che questo non dovrebbe essere fatto in modo arbitrario, perché alcuni movimenti funzionano al contrario, ma molti no. uno studio del 2019 dell'Università di Bristol nel Regno Unito ha cercato di sviluppare un metodo in grado di distinguere equivariante, invariante e irreversibile clip video di dati sorgente che coesistono in un singolo set di dati (vedere l'immagine sotto), con l'idea che le clip sorgente non idonee potrebbero essere filtrate dalle routine di aumento dei dati.

Esempi di tre tipi di movimento, di cui solo uno è liberamente reversibile mantenendo una dinamica fisica plausibile. Fonte: https://arxiv.org/abs/1909.09422

Gli autori di quell'opera inquadrano il problema in modo chiaro:

"Troviamo che il realismo dei video invertiti sia tradito da artefatti di inversione, aspetti della scena che non sarebbero possibili in un mondo naturale. Alcuni artefatti sono sottili, mentre altri sono facili da individuare, come un'azione di "lancio" invertita in cui l'oggetto lanciato si solleva spontaneamente dal pavimento.

"Osserviamo due tipi di artefatti di inversione, fisici, quelli che mostrano violazioni delle leggi della natura, e improbabili, quelli che raffigurano uno scenario possibile ma improbabile. Questi non sono esclusivi e molte azioni invertite soffrono di entrambi i tipi di artefatti, come quando si sgualcisce un pezzo di carta.

Esempi di artefatti fisici includono: gravità invertita (ad esempio "far cadere qualcosa"), impulsi spontanei sugli oggetti (ad esempio "far girare una penna") e cambiamenti di stato irreversibili (ad esempio "accendere una candela"). Un esempio di artefatto improbabile: prendere un piatto dalla credenza, asciugarlo e metterlo sullo stendino.

"Questo tipo di riutilizzo dei dati è molto comune in fase di formazione e può essere utile, ad esempio per garantire che il modello non apprende solo una vista di un'immagine o di un oggetto che può essere capovolta o ruotata senza perdere la sua coerenza e logica centrale.

"Questo funziona solo per oggetti realmente simmetrici, ovviamente; e imparare la fisica da un video 'invertito' funziona solo se la versione invertita ha lo stesso senso della versione diretta."

Inversioni temporanee

Non abbiamo alcuna prova che sistemi come Hunyuan Video e Wan 2.1 abbiano consentito l'esposizione di clip "invertite" arbitrariamente al modello durante l'addestramento (nessuno dei due gruppi di ricercatori è stato specifico riguardo alle routine di aumento dei dati).

Eppure l'unica ragionevole possibilità alternativa, di fronte a così tanti resoconti (e la mia esperienza pratica), sembrerebbe che i set di dati iperscalari che alimentano questi modelli possano contenere clip che in realtà presentano movimenti che avvengono al contrario.

La roccia nel video di esempio incorporato sopra è stata generata utilizzando Wan 2.1 e viene utilizzata in un nuovo studio che esamina l'efficacia dei modelli di diffusione video nel gestire la fisica.

Nei test di questo progetto, Wan 2.1 ha ottenuto un punteggio pari solo al 22% in termini di capacità di aderire in modo coerente alle leggi fisiche.

Tuttavia, questo è il best punteggio di qualsiasi sistema testato per il lavoro, indicando che potremmo aver trovato il nostro prossimo ostacolo per l'intelligenza artificiale video:

Punteggi ottenuti dai principali sistemi open source e closed source, con l'output dei framework valutato da annotatori umani. Fonte: https://arxiv.org/pdf/2503.06800

Punteggi ottenuti dai principali sistemi open e closed-source, con l'output dei framework valutato da annotatori umani. Fonte: https://arxiv.org/pdf/2503.06800

Gli autori del nuovo lavoro hanno sviluppato un sistema di benchmarking, ora alla sua seconda iterazione, chiamato VideoFisica, con il codice disponibile su GitHub.

Sebbene la portata del lavoro vada oltre ciò che possiamo trattare in modo esaustivo qui, diamo un'occhiata generale alla sua metodologia e al suo potenziale per stabilire una metrica che potrebbe aiutare a orientare il corso delle future sessioni di addestramento dei modelli, allontanandolo da questi bizzarri casi di inversione.

Migliori studio, condotto da sei ricercatori dell'UCLA e di Google Research, si chiama VideoPhy-2: una valutazione fisica del buonsenso incentrata sull'azione impegnativa nella generazione di video. Un affollato accompagnamento sito del progetto è disponibile anche insieme al codice e ai set di dati su GitHube un visualizzatore di set di dati a Faccia Abbracciante.

Clicca per giocare. In questo caso, il celebre modello OpenAI Sora non riesce a comprendere le interazioni tra remi e riflessi e non è in grado di fornire un flusso fisico logico né per la persona sulla barca né per il modo in cui la barca interagisce con lei.

Metodo

Gli autori descrivono l'ultima versione del loro lavoro, VideoFi-2, come un "set di dati di valutazione del buon senso stimolante per azioni nel mondo reale". La raccolta comprende 197 azioni in una gamma di diverse attività fisiche come fare il hula hoop, ginnastica e tennis, così come le interazioni degli oggetti, come piegare un oggetto fino a romperlo.

Un modello linguistico di grandi dimensioni (LLM) viene utilizzato per generare 3840 prompt da queste azioni iniziali, e i prompt vengono poi utilizzati per sintetizzare i video tramite i vari framework in fase di sperimentazione.

Nel corso del processo, gli autori hanno sviluppato un elenco di regole e leggi fisiche "candidate" che i video generati dall'intelligenza artificiale dovrebbero soddisfare, utilizzando modelli di linguaggio visivo per la valutazione.

Gli autori affermano:

"Ad esempio, in un video di uno sportivo che gioca a tennis, una regola fisica sarebbe che una pallina da tennis dovrebbe seguire una traiettoria parabolica sotto l'effetto della gravità. Per giudizi di riferimento, chiediamo ad alcuni commentatori umani di valutare ogni video in base all'aderenza semantica complessiva e al buon senso fisico, e di segnalarne la conformità a diverse regole fisiche."

In alto: un prompt di testo viene generato da un'azione tramite un LLM e utilizzato per creare un video con un generatore di testo in video. Un modello di linguaggio visivo sottotitola il video, identificando possibili regole fisiche in gioco. In basso: annotatori umani valutano il realismo del video, confermano le violazioni delle regole, aggiungono regole mancanti e verificano se il video corrisponde al prompt originale.

Inizialmente i ricercatori hanno curato una serie di azioni per valutare il buonsenso fisico nei video generati dall'intelligenza artificiale. Hanno iniziato con oltre 600 azioni provenienti da Cinetica, UCF-101e SSv2 set di dati, incentrati su attività che coinvolgono sport, interazioni tra oggetti e fisica del mondo reale.

Due gruppi indipendenti di studenti annotatori formati in materie STEM (con una qualifica minima universitaria ottenuta) hanno esaminato e filtrato l'elenco, selezionando azioni che testassero principi come gravità, impulsoe elasticità, eliminando al contempo le attività a basso movimento come digitando, accarezzare un gatto, o masticazione.

Dopo ulteriore perfezionamento con Gemini-2.0-Flash-Exp per eliminare i duplicati, il set di dati finale includeva 197 azioni, di cui 54 che coinvolgevano interazioni con oggetti e 143 incentrate su attività fisiche e sportive:

Campioni dalle azioni distillate.

Nella seconda fase, i ricercatori hanno utilizzato Gemini-2.0-Flash-Exp per generare 20 prompt per ogni azione nel dataset, per un totale di 3,940 prompt. Il processo di generazione si è concentrato su interazioni fisiche visibili che potevano essere chiaramente rappresentate in un video generato. Ciò ha escluso elementi non visivi come emozioni, dettagli sensorialie linguaggio astratto, ma incorporava personaggi e oggetti diversi.

Ad esempio, invece di un semplice prompt come 'Un arciere scocca la freccia, il modello è stato guidato per produrre una versione più dettagliata come "Un arciere tende la corda dell'arco fino alla massima tensione, quindi scocca la freccia, che vola dritta e colpisce il centro di un bersaglio di carta'.

Poiché i modelli video moderni possono interpretare descrizioni più lunghe, i ricercatori hanno ulteriormente perfezionato le didascalie utilizzando Mistral-NeMo-12B-Istruzione prompt upsampler, per aggiungere dettagli visivi senza alterare il significato originale.

Esempi di prompt da VideoPhy-2, categorizzati per attività fisiche o interazioni con oggetti. Ogni prompt è abbinato alla sua azione corrispondente e al principio fisico rilevante che testa.

Nella terza fase, le regole fisiche non sono state ricavate da prompt di testo, bensì da video generati, poiché i modelli generativi possono avere difficoltà ad aderire ai prompt di testo condizionati.

I video sono stati inizialmente creati utilizzando i prompt di VideoPhy-2, quindi sono stati "sottotitolati" con Gemini-2.0-Flash-Exp per estrarre i dettagli chiave. Il modello ha proposto tre regole fisiche previste per ogni video, che gli annotatori umani hanno esaminato e ampliato identificando ulteriori potenziali violazioni.

Esempi dalle didascalie sovracampionate.

Successivamente, per identificare le azioni più difficili, i ricercatori hanno generato video utilizzando CogVideoX-5B con prompt dal dataset VideoPhy-2. Hanno poi selezionato 60 azioni su 197 in cui il modello non riusciva sistematicamente a seguire sia i prompt sia il buonsenso fisico di base.

Queste azioni hanno coinvolto interazioni ricche di fisica come il trasferimento di slancio nel lancio del disco, cambiamenti di stato come piegare un oggetto fino a romperlo, attività di bilanciamento come camminare sulla corda tesa e movimenti complessi che includevano salti mortali all'indietro, salto con l'asta e lancio della pizza, tra gli altri. In totale, sono stati scelti 1,200 prompt per aumentare la difficoltà del sottoinsieme di dati.

Il set di dati risultante comprendeva 3,940 sottotitoli, ovvero 5.72 volte in più rispetto alla versione precedente di VideoPhy. La lunghezza media dei sottotitoli originali è di 16 token, mentre i sottotitoli sovracampionati raggiungono i 138 token, ovvero 1.88 volte e 16.2 volte più lunghi, rispettivamente.

Il set di dati contiene anche 102,000 annotazioni umane che riguardano l'aderenza semantica, il buonsenso fisico e le violazioni delle regole in più modelli di generazione video.

Valutazione

I ricercatori hanno poi definito criteri chiari per la valutazione dei video. L'obiettivo principale era valutare quanto bene ogni video corrispondesse al suo prompt di input e seguisse i principi fisici di base.

Invece di classificare semplicemente i video in base alle preferenze, hanno utilizzato un feedback basato sulla valutazione per catturare specifici successi e fallimenti. Gli annotatori umani hanno valutato i video su una scala di cinque punti, consentendo giudizi più dettagliati, mentre la valutazione ha anche verificato se i video seguivano varie regole e leggi fisiche.

Per la valutazione umana, un gruppo di 12 annotatori è stato selezionato da prove su Amazon Mechanical Turk (AMT) e ha fornito valutazioni dopo aver ricevuto istruzioni remote dettagliate. Per correttezza, aderenza semantica e buonsenso fisico sono stati valutati separatamente (nello studio VideoPhy originale, sono stati valutati congiuntamente).

Gli annotatori hanno prima valutato quanto i video corrispondessero ai loro prompt di input, quindi hanno valutato separatamente la plausibilità fisica, le violazioni delle regole di punteggio e il realismo complessivo su una scala a cinque punti. Sono stati mostrati solo i prompt originali, per mantenere un confronto equo tra i modelli.

L'interfaccia presentata agli annotatori AMT.

Sebbene il giudizio umano rimanga il gold standard, è costoso e comporta un numero di avvertenzePertanto la valutazione automatizzata è essenziale per valutazioni dei modelli più rapide e scalabili.

Gli autori del documento hanno testato diversi modelli di linguaggio video, tra cui Gemini-2.0-Flash-Exp e Punteggio video, sulla loro capacità di valutare i video in base all'accuratezza semantica e al "buon senso fisico".

I modelli hanno nuovamente valutato ogni video su una scala a cinque punti, mentre un compito di classificazione separato ha determinato se le regole fisiche erano state rispettate, violate o non chiare.

Gli esperimenti hanno dimostrato che i modelli di linguaggio video esistenti facevano fatica a corrispondere ai giudizi umani, principalmente a causa del debole ragionamento fisico e della complessità dei prompt. Per migliorare la valutazione automatizzata, i ricercatori hanno sviluppato VideoPhy-2-Autoeval, un modello a 7B parametri progettato per fornire previsioni più accurate in tre categorie: aderenza semantica; buonsenso fisico, E conformità alle regole, messo a punto su VideoCon-Fisica modello basato su 50,000 annotazioni umane*.

Dati e test

Grazie a questi strumenti, gli autori hanno testato diversi sistemi video generativi, sia tramite installazioni locali sia, ove necessario, tramite API commerciali: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmo-Diffusione; Wan2.1-14B; OpenAI Sora, E Raggio luminoso.

I modelli sono stati sollecitati con didascalie sovracampionate ove possibile, ad eccezione di Hunyuan Video e VideoCrafter2 che operano con 77 token CLIP limitazioni e non può accettare richieste di lunghezza superiore a una certa lunghezza.

I video generati sono stati limitati a meno di 6 secondi, poiché un output più breve è più facile da valutare.

I dati di guida provenivano dal set di dati VideoPhy-2, suddiviso in un set di riferimento e un set di addestramento. Sono stati generati 590 video per modello, ad eccezione di Sora e Ray2, a causa del fattore costo (per questi sono stati generati numeri equivalenti inferiori di video).

(Per ulteriori dettagli sulla valutazione, fare riferimento al documento originale, che è ivi ampiamente descritto)

La valutazione iniziale ha riguardato attività fisiche/sport (PA) e interazioni tra oggetti (OI) e testato sia il set di dati generale sia il sottoinsieme "più difficile" sopra menzionato:

Risultati del turno iniziale.

Qui gli autori commentano:

"Anche il modello con le migliori prestazioni, Wan2.1-14B, raggiunge solo il 32.6% e il 21.9% rispettivamente sulle suddivisioni complete e rigide del nostro set di dati. Le sue prestazioni relativamente elevate rispetto ad altri modelli possono essere attribuite alla diversità dei suoi dati di training multimodali, insieme a un robusto filtraggio del movimento che preserva video di alta qualità in un'ampia gamma di azioni.

"Inoltre, osserviamo che i modelli chiusi, come Ray2, hanno prestazioni peggiori rispetto ai modelli aperti come Wan2.1-14B e CogVideoX-5B. Ciò suggerisce che i modelli chiusi non sono necessariamente superiori ai modelli aperti nel catturare il buonsenso fisico.

In particolare, Cosmos-Diffusion-7B ottiene il secondo miglior punteggio nella divisione rigida, superando persino il modello molto più grande HunyuanVideo-13B. Ciò potrebbe essere dovuto all'elevata rappresentazione delle azioni umane nei suoi dati di addestramento, insieme alle simulazioni rese sinteticamente.

I risultati hanno mostrato che i modelli video hanno avuto più difficoltà con le attività fisiche come gli sport che con le interazioni più semplici con gli oggetti. Ciò suggerisce che il miglioramento dei video generati dall'intelligenza artificiale in quest'area richiederà set di dati migliori, in particolare riprese di alta qualità di sport come tennis, lancio del disco, baseball e cricket.

Lo studio ha anche esaminato se la plausibilità fisica di un modello fosse correlata ad altre metriche di qualità video, come l'estetica e la fluidità del movimento. I risultati non hanno rivelato alcuna forte correlazione, il che significa che un modello non può migliorare le sue prestazioni su VideoPhy-2 semplicemente generando un movimento visivamente accattivante o fluido: ha bisogno di una comprensione più approfondita del buonsenso fisico.

Sebbene il documento fornisca abbondanti esempi qualitativi, pochi degli esempi statici forniti nel PDF sembrano essere correlati agli estesi esempi basati su video che gli autori forniscono nel sito del progetto. Pertanto, esamineremo una piccola selezione di esempi statici e poi alcuni altri video del progetto effettivo.

La riga superiore mostra i video generati da Wan2.1. (a) In Ray2, il jet-ski sulla sinistra resta indietro prima di muoversi all'indietro. (b) In Hunyuan-13B, la mazza si deforma a metà oscillazione e all'improvviso appare una tavola di legno rotta. (c) In Cosmos-7B, il giavellotto espelle la sabbia prima di entrare in contatto con il suolo.

Per quanto riguarda il test qualitativo di cui sopra, gli autori commentano:

"[Noi] osserviamo violazioni del buonsenso fisico, come i jetski che si muovono in modo innaturale in retromarcia e la deformazione di una solida mazza, che sfida i principi di elasticità. Tuttavia, persino Wan soffre della mancanza di buonsenso fisico, come mostrato in [la clip incorporata all'inizio di questo articolo].

"In questo caso, evidenziamo che una roccia inizia a rotolare e ad accelerare in salita, sfidando la legge fisica della gravità."

Ulteriori esempi dal sito del progetto:

Clicca per giocare. Qui la didascalia era "Una persona torce energicamente un asciugamano bagnato, l'acqua spruzza verso l'esterno formando un arco visibile", ma la fonte d'acqua risultante è molto più simile a un tubo dell'acqua che a un asciugamano.

Clicca per giocare. Qui la didascalia era "Un chimico versa un liquido trasparente da un becher in una provetta, evitando attentamente di rovesciarlo", ma possiamo vedere che il volume d'acqua aggiunto al becher non è coerente con la quantità che esce dalla brocca.

Come ho accennato all'inizio, la mole di materiale associato a questo progetto supera di gran lunga quella trattabile in questa sede. Pertanto, si prega di fare riferimento al documento originale, al sito del progetto e ai siti correlati menzionati in precedenza, per una descrizione veramente esaustiva delle procedure degli autori e per molti più esempi di test e dettagli procedurali.

* Per quanto riguarda la provenienza delle annotazioni, il documento specifica solo "acquisite per queste attività": sembra che molte siano state prodotte da 12 lavoratori dell'AMT.

Prima pubblicazione giovedì 13 marzo 2025

Argomenti correlati:Video AI Creazione di video AI modelli da testo a video