Angolo di Anderson

Rivedere l’addestramento dell’intelligenza artificiale dei video con dati focalizzati sull’utente

Published March 5, 2025

Updated April 26, 2026

Martin Anderson

Examples from the paper ' VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation'

Il tipo di contenuto che gli utenti potrebbero voler creare utilizzando un modello generativo come Flux o Hunyuan Video potrebbe non essere sempre facilmente disponibile, anche se la richiesta di contenuto è abbastanza generica, e si potrebbe pensare che il generatore possa gestirla.

Un esempio, illustrato in un nuovo articolo che esamineremo in questo articolo, nota che il modello OpenAI Sora, sempre più eclissato, ha alcune difficoltà a rappresentare un fuoco fatuo anatomicamente corretto, utilizzando il prompt ‘Un fuoco fatuo sta brillando su una foglia di erba in una serena notte estiva’:

OpenAI’s Sora ha una comprensione leggermente stramba dell’anatomia del fuoco fatuo. Source: https://arxiv.org/pdf/2503.01739

Poiché raramente accetto le affermazioni di ricerca a valore nominale, ho testato lo stesso prompt su Sora oggi e ho ottenuto un risultato leggermente migliore. Tuttavia, Sora non è ancora riuscito a rappresentare la luce in modo corretto – invece di illuminare la punta della coda del fuoco fatuo, dove si verifica la bioluminescenza, ha spostato la luce vicino ai piedi dell’insetto:

Il mio test del prompt dei ricercatori in Sora produce un risultato che mostra che Sora non capisce da dove proviene la luce di un fuoco fatuo.

Ironia della sorte, il Adobe Firefly generative diffusion engine, addestrato sulle foto e video protette da copyright dell’azienda, ha gestito solo un tasso di successo di 1 su 3 in questo senso, quando ho provato lo stesso prompt nella funzione di intelligenza artificiale generativa di Photoshop:

Solo l’ultima delle tre generazioni proposte del prompt dei ricercatori produce una luce in Adobe Firefly (marzo 2025), anche se almeno la luce è situata nella parte corretta dell’anatomia dell’insetto.

Questo esempio è stato evidenziato dai ricercatori del nuovo articolo per illustrare che la distribuzione, l’enfasi e la copertura nei set di dati di addestramento utilizzati per informare i popolari modelli di base potrebbero non allinearsi con le esigenze dell’utente, anche se l’utente non chiede nulla di particolarmente impegnativo – un argomento che solleva le sfide coinvolte nell’adattare i set di dati di addestramento iperscalabili ai loro risultati più efficienti e performanti come modelli generativi.

Gli autori affermano:

‘[Sora] non riesce a catturare il concetto di un fuoco fatuo luminoso mentre genera con successo l’erba e una notte [estiva]. Dal punto di vista dei dati, inferiamo che ciò è principalmente dovuto al fatto che [Sora] non è stato addestrato su argomenti relativi ai fuochi fatui, mentre è stato addestrato sull’erba e la notte. Inoltre, se [Sora] avesse visto il video mostrato [nell’immagine sopra], capirebbe cosa dovrebbe sembrare un fuoco fatuo luminoso.’

Introducono un nuovo set di dati curato e suggeriscono che la loro metodologia potrebbe essere raffinata in lavori futuri per creare raccolte di dati che si allineino meglio alle aspettative degli utenti rispetto a molti modelli esistenti.

Dati per le persone

In sostanza, la loro proposta ipotizza un approccio di cura dei dati che si colloca a metà strada tra i dati personalizzati per un modello di tipo LoRA (e questo approccio è troppo specifico per un uso generale); e le raccolte ampie e relativamente indiscriminate ad alta volumetria (come il set di dati LAION che alimenta Stable Diffusion) che non sono specificamente allineate con alcuno scenario di utilizzo finale.

Il nuovo approccio, sia come metodologia che come nuovo set di dati, è (piuttosto tortuosamente) denominato Users’ FOcus in text-to-video, o VideoUFO. Il set di dati VideoUFO comprende 1,9 milioni di clip video che coprono 1291 argomenti focalizzati sull’utente. Gli argomenti stessi sono stati elaborati a partire da un set di dati video esistente e analizzati attraverso diversi modelli linguistici e tecniche di elaborazione del linguaggio naturale (NLP):

Esempi degli argomenti distillati presentati nel nuovo articolo.

Il set di dati VideoUFO presenta un alto volume di video nuovi tratti da YouTube – ‘nuovi’ nel senso che i video in questione non figurano nei set di dati video attualmente popolari nella letteratura, e quindi in molti dei subset che sono stati curati da essi (e molti dei video sono stati effettivamente caricati successivamente alla creazione dei set di dati più vecchi menzionati nel articolo).

In effetti, gli autori affermano che c’è solo lo 0,29% di sovrapposizione con i set di dati video esistenti – una dimostrazione impressionante di novità.

Un motivo potrebbe essere che gli autori avrebbero accettato solo video di YouTube con una licenza Creative Commons che sarebbe stata meno probabile di limitare ulteriormente gli utenti in futuro: è possibile che questa categoria di video sia stata meno prioritaria nelle precedenti raccolte di YouTube e altre piattaforme ad alta volumetria.

In secondo luogo, i video sono stati richiesti sulla base di una stima pre-esistente del fabbisogno dell’utente (vedi immagine sopra), e non raccolti indiscriminatamente. Questi due fattori in combinazione potrebbero portare a una raccolta così nuova. Inoltre, i ricercatori hanno verificato gli ID di YouTube dei video contribuenti (ossia i video che potrebbero essere stati successivamente divisi e ri-immaginati per la raccolta VideoUFO) contro quelli presenti nelle raccolte esistenti, prestando credibilità all’affermazione.

Sebbene non tutto nel nuovo articolo sia altrettanto convincente, è una lettura interessante che sottolinea l’estensione alla quale siamo ancora piuttosto alla mercé di distribuzioni disomogenee nei set di dati, in termini di ostacoli con cui la scena della ricerca si confronta spesso nella cura dei set di dati.

Il nuovo lavoro è intitolato VideoUFO: un set di dati su larga scala focalizzato sull’utente per la generazione di video da testo, e proviene da due ricercatori, rispettivamente dell’Università di Tecnologia di Sydney in Australia e dell’Università di Zhejiang in Cina.

Esempi selezionati del set di dati finale ottenuto.

Un ‘Personal Shopper’ per i dati di intelligenza artificiale

Gli argomenti e i concetti presentati nella somma totale delle immagini e dei video su Internet non riflettono necessariamente ciò che l’utente medio potrebbe richiedere da un sistema generativo; anche quando il contenuto e la domanda si tendono a collidere (come nel caso della pornografia, che è ampiamente disponibile su Internet e di grande interesse per molti utenti di intelligenza artificiale generativa), ciò potrebbe non allinearsi con l’intento e gli standard degli sviluppatori per un nuovo sistema generativo.

Oltre al grande volume di materiale NSFW caricato quotidianamente, una quantità sproporzionata di materiale disponibile su Internet è probabilmente proveniente da inserzionisti e da coloro che tentano di manipolare il SEO. L’interesse commerciale di questo tipo rende la distribuzione degli argomenti lontana dall’imparzialità; peggio, è difficile sviluppare sistemi di filtraggio basati sull’intelligenza artificiale che possano far fronte al problema, poiché gli algoritmi e i modelli sviluppati da dati iperscalabili significativi possono riflettere a loro volta le tendenze e le priorità dei dati di origine.

Pertanto, gli autori del nuovo lavoro hanno affrontato il problema invertendo la proposta, determinando cosa gli utenti probabilmente vorrebbero e ottenendo video che si allineano a queste esigenze.

In superficie, questo approccio sembra altrettanto probabile scatenare una corsa semantica al ribasso quanto raggiungere una neutralità equilibrata e simile a Wikipedia. Calibrare la cura dei dati intorno alla domanda degli utenti rischia di amplificare le preferenze del minimo comune denominatore mentre marginalizza gli utenti di nicchia, poiché gli interessi della maggioranza avranno inevitabilmente un peso maggiore.

Nonostante ciò, analizziamo come l’articolo affronta la sfida.

Distillare concetti con discrezione

I ricercatori hanno utilizzato il set di dati VidProM del 2024 come fonte per l’analisi degli argomenti che avrebbe successivamente informato il progetto di web scraping.

Questo set di dati è stato scelto, affermano gli autori, perché è l’unico set di dati pubblicamente disponibile da oltre 1 milione ‘scritto da utenti reali’ – e dovrebbe essere affermato che questo set di dati è stato curato dai due autori del nuovo articolo.

L’articolo spiega*:

‘Innanzitutto, incorporiamo tutti i 1,67 milioni di prompt da VidProM in vettori a 384 dimensioni utilizzando SentenceTransformers Successivamente, raggruppiamo questi vettori con K-means. Nota che qui impostiamo il numero di cluster su un valore relativamente grande, ovvero 2.000, e uniamo cluster simili nel passaggio successivo.

‘Infine, per ogni cluster, chiediamo a GPT-4o di concludere un argomento [una o due parole].’

Gli autori sottolineano che certi concetti sono distinti ma notevolmente adiacenti, come chiesa e cattedrale. Criteri troppo granulari per casi di questo tipo porterebbero a incorporamenti di concetti (ad esempio) per ogni razza di cane, invece del termine cane; mentre criteri troppo ampi potrebbero radunare un eccessivo numero di sottocategorie in un unico concetto sovraffollato; pertanto l’articolo nota l’atto di equilibrio necessario per valutare tali casi.

Le forme singolari e plurali sono state unite, e i verbi ripristinati alle loro forme base (infinitive). I termini eccessivamente ampi – come animazione, scena, film e movimento – sono stati rimossi.

Pertanto, sono stati ottenuti 1.291 argomenti (con l’elenco completo disponibile nella sezione supplementare dell’articolo originale).

Selezione di web scraping

Successivamente, i ricercatori hanno utilizzato l’API ufficiale di YouTube per cercare video in base ai criteri distillati dal set di dati del 2024, cercando di ottenere 500 video per ogni argomento. Oltre alla licenza Creative Commons richiesta, ogni video doveva avere una risoluzione di 720p o superiore e doveva essere più breve di quattro minuti.

In questo modo sono stati raccolti 586.490 video da YouTube.

Gli autori hanno confrontato l’ID di YouTube dei video scaricati con una serie di set di dati popolari: OpenVid-1M; HD-VILA-100M; Intern-Vid; Koala-36M; LVD-2M; MiraData; Panda-70M; VidGen-1M; e WebVid-10M.

Hanno scoperto che solo 1.675 ID (lo 0,29% menzionato in precedenza) dei clip VideoUFO figuravano in queste raccolte più vecchie, e deve essere ammesso che mentre l’elenco di confronto dei set di dati non è esaustivo, include tutti i principali e più influenti attori nella scena della generazione di video.

Divisioni e valutazione

I video ottenuti sono stati successivamente segmentati in più clip, secondo la metodologia delineata nel paper Panda-70M citato sopra. I confini delle riprese sono stati stimati, le assemblee cucite e i video concatenati divisi in clip singole, con didascalie brevi e dettagliate fornite.

Ogni voce di dati nel set di dati VideoUFO presenta un clip, un ID, tempi di inizio e fine, e una didascalia breve e dettagliata.

Le didascalie brevi sono state gestite dal metodo Panda-70M, e le didascalie video dettagliate da Qwen2-VL-7B, secondo le linee guida stabilite da Open-Sora-Plan. Nei casi in cui le clip non rappresentavano efficacemente il concetto di destinazione previsto, le didascalie dettagliate per ogni clip sono state alimentate in GPT-4o mini, al fine di accertare se fosse effettivamente adatto all’argomento. Sebbene gli autori avrebbero preferito una valutazione tramite GPT-4o, ciò sarebbe stato troppo costoso per milioni di clip video.

La valutazione della qualità video è stata gestita con sei metodi del progetto VBench.

Confronti

Gli autori hanno ripetuto il processo di estrazione degli argomenti sui set di dati precedenti menzionati. Per questo, è stato necessario abbinare semanticamente le categorie derivate di VideoUFO alle categorie inevitabilmente diverse nelle altre raccolte; deve essere ammesso che tali processi forniscono solo categorie equivalenti approssimate, e pertanto ciò potrebbe essere un processo troppo soggettivo per garantire confronti empirici.

Nonostante ciò, nell’immagine seguente vediamo i risultati che i ricercatori hanno ottenuto con questo metodo:

Confronto degli attributi fondamentali derivati attraverso VideoUFO e i set di dati precedenti.

I ricercatori ammettono che la loro analisi si è basata sulle didascalie e descrizioni esistenti fornite in ogni set di dati. Ammettono che la ricaptazione dei set di dati più vecchi utilizzando lo stesso metodo di VideoUFO avrebbe potuto offrire un confronto più diretto. Tuttavia, data la enorme quantità di dati, la loro conclusione che questo approccio sarebbe stato proibitivamente costoso sembra giustificata.

Generazione

Gli autori hanno sviluppato un benchmark per valutare le prestazioni dei modelli di testo-video su concetti focalizzati sull’utente, intitolato BenchUFO. Ciò ha comportato la selezione di 791 sostantivi dai 1.291 argomenti distillati in VideoUFO. Per ogni argomento selezionato, sono stati scelti casualmente dieci prompt di testo da VidProM.

Ogni prompt è stato passato attraverso un modello di testo-video, con il già menzionato captioner Qwen2-VL-7B utilizzato per valutare i risultati generati. Con tutti i video generati così didascaliati, SentenceTransformers è stato utilizzato per calcolare la similarità coseno per sia il prompt di input che la descrizione di output (inferred) in ogni caso.

Schema per il processo BenchUFO.

I modelli generativi valutati sono stati: Mira; Show-1; LTX-Video; Open-Sora-Plan; Open Sora; TF-T2V; Mochi-1; HiGen; Pika; RepVideo; T2V-Zero; CogVideoX; Latte-1; Hunyuan Video; LaVie; e Pyramidal.

Oltre a VideoUFO, MVDiT-VidGen e MVDit-OpenVid sono stati i set di dati di addestramento alternativi.

I risultati considerano i 10 migliori e i 10 peggiori argomenti tra le architetture e i set di dati.

Risultati per le prestazioni dei modelli T2V pubblici rispetto ai modelli addestrati degli autori, su BenchUFO.

Qui gli autori commentano:

‘I modelli di testo-video attuali non si comportano costantemente bene su tutti gli argomenti focalizzati sull’utente. In particolare, c’è una differenza di punteggio che va da 0,233 a 0,314 tra i primi 10 e i 10 peggiori argomenti. Questi modelli potrebbero non comprendere efficacemente argomenti come “calamaro gigante”, “cellula animale”, “Van Gogh” e “egiziano antico” a causa della mancanza di addestramento su tali video.’

‘I modelli di testo-video attuali mostrano un certo grado di coerenza nei loro argomenti migliori. Scopriamo che la maggior parte dei modelli di testo-video eccelle nella generazione di video su argomenti relativi agli animali, come “gabbiano”, “panda”, “delfino”, “cammello” e “gufo”. Inferiamo che ciò è dovuto in parte a un bias verso gli animali nei set di dati video attuali.’

Conclusione

VideoUFO è un’offerta eccezionale se solo dal punto di vista dei dati freschi. Se non c’è stato alcun errore nella valutazione e nell’eliminazione degli ID di YouTube, e se il set di dati contiene così tanto materiale nuovo per la scena della ricerca, è una proposta rara e potenzialmente preziosa.

La controindicazione è che è necessario dare credito alla metodologia di base; se non si crede che la domanda dell’utente debba informare le formule di web scraping, si starebbe acquistando un set di dati che viene con il suo insieme di pregiudizi problematici.

Inoltre, l’utilità degli argomenti distillati dipende sia dall’affidabilità del metodo di distillazione utilizzato (che è generalmente ostacolato da vincoli di budget), sia dalla formulazione dei metodi per il set di dati del 2024 che fornisce il materiale di origine.

Tuttavia, VideoUFO merita sicuramente un’indagine più approfondita – ed è disponibile su Hugging Face.

* La mia sostituzione delle citazioni degli autori con collegamenti ipertestuali.

Pubblicato per la prima volta mercoledì 5 marzo 2025