Angolo di Anderson
Insegnare all’AI a Fornire Migliori Critiche Video

Mentre i Large Vision-Language Models (LVLMs) possono essere utili aiuti nell’interpretare alcune delle più arcane o sfidanti presentazioni nella letteratura della visione computerizzata, c’è un’area in cui sono limitati: determinare i meriti e la qualità soggettiva di qualsiasi esempio video che accompagna nuovi saggi*.
Questo è un aspetto critico di una presentazione, poiché gli articoli scientifici spesso mirano a generare entusiasmo attraverso testi o immagini coinvolgenti – o entrambi.
Ma nel caso di progetti che coinvolgono la sintesi video, gli autori devono mostrare la reale uscita video o rischiare di vedere il loro lavoro respinto; ed è in queste dimostrazioni che il divario tra affermazioni audaci e prestazioni nel mondo reale diventa più evidente.
Ho Letto il Libro, Non Ho Visto il Film
Attualmente, la maggior parte dei popolari modelli di linguaggio Large Language Models (LLMs) e Large Vision-Language Models (LVLMs) basati su API non analizzerà direttamente il contenuto video in alcun modo, qualitativo o meno. Invece, possono solo analizzare trascrizioni correlate – e, forse, commenti e altri materiali ausiliari strettamente testuali.

Le diverse obiezioni di GPT-4o, Google Gemini e Perplexity, quando richiesti di analizzare direttamente un video, senza ricorrere a trascrizioni o altri testi.
Tuttavia, un LLM può nascondere o negare la sua incapacità di guardare effettivamente i video, a meno che non lo si richiami su questo:

Dopo essere stato richiesto di fornire una valutazione soggettiva dei video associati a un nuovo articolo di ricerca, e dopo aver finto un’opinione reale, ChatGPT-4o confessa alla fine di non poter realmente visualizzare i video direttamente.
Sebbene modelli come ChatGPT-4o siano multimodali e possano almeno analizzare foto individuali (come un frame estratto da un video, vedi immagine sopra), ci sono alcune problematiche anche con questo: in primo luogo, c’è scarsa base per dare credito all’opinione qualitativa di un LLM, non ultimo perché gli LLM sono propensi a ‘piacere alla gente’ piuttosto che a un discorso sincero.
In secondo luogo, molti, se non la maggior parte dei problemi di un video generato, sono probabilmente di natura temporale che è interamente perso in una cattura di frame – e quindi l’esame di frame individuali non serve a nulla.
Infine, l’LLM può fornire solo un presunto ‘giudizio di valore’ basato (ancora una volta) sulla conoscenza testuale assorbita, ad esempio in relazione alle immagini deepfake o alla storia dell’arte. In tale caso, la conoscenza di dominio addestrata consente all’LLM di correlare le qualità visive di un’immagine con gli embedding appresi basati su intuizione umana:

Il progetto FakeVLM offre una rilevazione di deepfake mirata tramite un modello di visione-linguaggio multi-modale specializzato. Fonte: https://arxiv.org/pdf/2503.14905
Ciò non significa che un LLM non possa ottenere informazioni direttamente da un video; ad esempio, con l’uso di sistemi AI ausiliari come YOLO, un LLM potrebbe identificare oggetti in un video – o potrebbe farlo direttamente, se addestrato per un numero sopra la media di funzionalità multi-modalità.
Tuttavia, l’unico modo in cui un LLM potrebbe valutare soggettivamente un video (ad esempio, ‘Non sembra reale’) è applicando una metrica basata su loss function che riflette bene l’opinione umana o è direttamente informato dall’opinione umana.
Le funzioni di perdita sono strumenti matematici utilizzati durante l’addestramento per misurare quanto le previsioni di un modello siano lontane dalle risposte corrette. Forniscono un feedback che guida l’apprendimento del modello: maggiore è l’errore, maggiore è la perdita. Man mano che l’addestramento procede, il modello regola i suoi parametri per ridurre questa perdita, migliorando gradualmente la sua capacità di fare previsioni accurate.
Le funzioni di perdita sono utilizzate sia per regolare l’addestramento dei modelli, sia per calibrare algoritmi progettati per valutare l’output di modelli AI (come la valutazione di contenuti fotorealistici simulati da un modello di video generativo).
Visione Condizionale
Una delle metriche più popolari / funzioni di perdita è la Fréchet Inception Distance (FID), che valuta la qualità delle immagini generate misurando la somiglianza tra la loro distribuzione (che qui significa ‘come le immagini sono sparse o raggruppate per caratteristiche visive‘) e quella di immagini reali.
In particolare, FID calcola la differenza statistica, utilizzando medie e covarianze, tra caratteristiche estratte da entrambi i set di immagini utilizzando la rete di classificazione (spesso criticata) Inception v3. Un punteggio FID più basso indica che le immagini generate sono più simili a immagini reali, implicando una migliore qualità visiva e diversità.
Tuttavia, FID è essenzialmente comparativa e, in un certo senso, auto-referenziale. Per rimediare a questo, l’approccio successivo Conditional Fréchet Distance (CFD, 2021) differisce da FID confrontando immagini generate con immagini reali e valutando un punteggio in base a quanto bene entrambi i set soddisfano una condizione aggiuntiva, come un’etichetta di classe (inevitabilmente soggettiva) o un’immagine di input.
In questo modo, CFID tiene conto di quanto le immagini soddisfino le condizioni intese, non solo della loro realismo o diversità tra loro.

Esempi dall’uscita CFD del 2021. Fonte: https://github.com/Michael-Soloveitchik/CFID/
CFD segue una tendenza recente verso l’integrazione dell’interpretazione qualitativa umana nelle funzioni di perdita e negli algoritmi di metrica. Sebbene un tale approccio umano-centrico garantisca che l’algoritmo risultante non sarà ‘senza anima’ o meramente meccanico, presenta allo stesso tempo una serie di problemi: la possibilità di pregiudizio; l’onere di aggiornare l’algoritmo in linea con nuove pratiche; e il fatto che ciò rimuoverà la possibilità di standard di confronto coerenti nel corso degli anni tra progetti; e limitazioni di budget (un minor numero di contributori umani renderà le determinazioni più speculative, mentre un numero più alto potrebbe prevenire aggiornamenti utili a causa dei costi).
cFreD
Ciò ci porta a un nuovo articolo dagli Stati Uniti che apparentemente offre Conditional Fréchet Distance (cFreD), una nuova interpretazione di CFD progettata per riflettere meglio le preferenze umane valutando sia la qualità visiva che l’allineamento testo-immagine

Risultati parziali del nuovo articolo: classifiche di immagini (1–9) per diverse metriche per il prompt “Un soggiorno con un divano e un computer portatile posato sul divano.” I punti verdi evidenziano il modello più votato dagli umani (FLUX.1-dev), i punti viola il modello meno votato (SDv1.5). Solo cFreD corrisponde alle classifiche umane. Si prega di fare riferimento all’articolo originale per i risultati completi, che non abbiamo spazio per riprodurre qui. Fonte: https://arxiv.org/pdf/2503.21721
Gli autori sostengono che i metodi di valutazione esistenti per la sintesi testo-immagine, come Inception Score (IS) e FID, si allineano male con il giudizio umano perché misurano solo la qualità dell’immagine senza considerare come le immagini corrispondono ai prompt:
‘Ad esempio, considerate un set di dati con due immagini: una di un cane e una di un gatto, ciascuna accoppiata con il prompt corrispondente. Un modello di testo-immagine perfetto che scambia accidentalmente queste associazioni (ad esempio, generando un gatto per un prompt di cane e viceversa) raggiungerebbe quasi zero FID poiché la distribuzione complessiva di cani e gatti è mantenuta, nonostante la mancata allineazione con i prompt intesi.
‘Mostreremo che cFreD cattura meglio la valutazione della qualità dell’immagine e la condizionalità sul testo di input e risulta in una maggiore correlazione con le preferenze umane.’

I test dell’articolo indicano che la metrica proposta dagli autori, cFreD, raggiunge costantemente una maggiore correlazione con le preferenze umane rispetto a FID, FDDINOv2, CLIPScore e CMMD su tre set di dati di riferimento (PartiPrompts, HPDv2 e COCO).
Concetto e Metodo
Gli autori notano che l’attuale standard oro per la valutazione dei modelli di testo-immagine coinvolge la raccolta di dati di preferenza umana attraverso confronti crowd-sourced, simili ai metodi utilizzati per i grandi modelli di linguaggio (come LMSys Arena).
Ad esempio, il PartiPrompts Arena utilizza 1.600 prompt in inglese, presentando ai partecipanti immagini a coppie da diversi modelli e chiedendo loro di selezionare la loro immagine preferita.
Allo stesso modo, il Text-to-Image Arena Leaderboard utilizza confronti utente dei modelli di output per generare classifiche tramite punteggi ELO. Tuttavia, la raccolta di questo tipo di dati di valutazione umana è costosa e lenta, portando alcune piattaforme – come PartiPrompts Arena – a interrompere gli aggiornamenti.

L’Artificial Analysis Image Arena Leaderboard, che classifica gli attuali leader stimati nel settore dell’intelligenza artificiale generativa visiva. Fonte: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
Sebbene esistano metodi alternativi addestrati sui dati di preferenza umana storica, la loro efficacia per valutare modelli futuri rimane incerta, poiché le preferenze umane continuano a evolversi. Di conseguenza, metriche automatiche come FID, CLIPScore e la metrica proposta dagli autori, cFreD, sembrano destinate a rimanere strumenti di valutazione cruciali.
Gli autori suppongono che sia le immagini reali che quelle generate, condizionate da un prompt, seguano distribuzioni gaussiane, ciascuna definita da medie e covarianze condizionali. cFreD misura la distanza di Fréchet attesa tra queste distribuzioni condizionali. Ciò può essere formulato direttamente in termini di statistiche condizionali o combinando statistiche incondizionali con covarianze incrociate che coinvolgono il prompt.
Incorporando il prompt in questo modo, cFreD è in grado di valutare sia la realismo delle immagini che la loro coerenza con il testo di input.
Dati e Test
Per valutare quanto bene cFreD si allinei con le preferenze umane, gli autori hanno utilizzato classifiche di immagini da diversi modelli con gli stessi prompt. La loro valutazione si è basata su due fonti: il set di test Human Preference Score v2 (HPDv2), che include nove immagini generate e un’immagine di riferimento COCO per ogni prompt; e la già menzionata PartiPrompts Arena, che contiene output da quattro modelli su 1.600 prompt.
Gli autori hanno raccolto i dati sparsi dell’Arena in un unico set di dati; nei casi in cui l’immagine reale non si classificava al primo posto nelle valutazioni umane, hanno utilizzato l’immagine più votata come riferimento.
Per testare modelli più recenti, hanno campionato 1.000 prompt dai set di addestramento e convalida di COCO, assicurandosi che non ci fosse sovrapposizione con HPDv2, e hanno generato immagini utilizzando nove modelli dalla classifica dell’Arena. Le immagini COCO originali hanno servito da riferimento in questa parte della valutazione.
L’approccio cFreD è stato valutato attraverso quattro metriche statistiche: FID; FDDINOv2; CLIPScore; e CMMD. È stato anche valutato contro quattro metriche apprese addestrate sui dati di preferenza umana: Aesthetic Score; ImageReward; HPSv2; e MPS.
Gli autori hanno valutato la correlazione con il giudizio umano sia da una prospettiva di classificazione che di punteggio: per ogni metrica, sono stati riportati i punteggi del modello e calcolate le classifiche per l’allineamento con i risultati delle valutazioni umane, con cFreD che utilizza DINOv2-G/14 per gli embedding delle immagini e l’encoder di testo ConvNext-B OpenCLIP per gli embedding del testo†.
Il lavoro precedente sull’apprendimento delle preferenze umane ha misurato le prestazioni utilizzando l’accuratezza del rango per elemento, che calcola l’accuratezza della classificazione per ogni coppia immagine-testo prima di calcolare la media dei risultati.
Gli autori hanno invece valutato cFreD utilizzando un’accuratezza del rango globale, che valuta le prestazioni di classificazione complessive nell’intero set di dati; per le metriche statistiche, hanno derivato le classifiche direttamente dai punteggi grezzi; e per le metriche addestrate sulle preferenze umane, hanno prima calcolato la media delle classifiche assegnate a ogni modello su tutti i campioni, poi hanno determinato la classificazione finale da queste medie.
I test iniziali hanno utilizzato dieci framework: GLIDE; COCO; FuseDream; DALLE 2; VQGAN+CLIP; CogView2; Stable Diffusion V1.4; VQ-Diffusion; Stable Diffusion V2.0; e LAFITE.

Classifiche e punteggi dei modelli sul set di test HPDv2 utilizzando metriche statistiche (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e metriche addestrate sulle preferenze umane (Aesthetic Score, ImageReward, HPSv2 e MPS). I migliori risultati sono in grassetto, i secondi migliori sono sottolineati.
Tra i risultati iniziali, gli autori commentano:
‘cFreD raggiunge l’allineamento più alto con le preferenze umane, raggiungendo una correlazione di 0,97. Tra le metriche statistiche, cFreD raggiunge la correlazione più alta e è paragonabile a HPSv2 (0,94), un modello addestrato esplicitamente sulle preferenze umane.
‘In contrasto, cFreD raggiunge una correlazione comparabile o superiore senza alcun addestramento sulle preferenze umane.
‘Questi risultati dimostrano che cFreD fornisce classifiche più affidabili tra modelli diversi rispetto alle metriche automatiche standard e alle metriche addestrate sulle preferenze umane.’
Tra tutte le metriche valutate, cFreD ha raggiunto l’accuratezza del rango più alta (91,1%), dimostrando – sostengono gli autori – un forte allineamento con i giudizi umani.
HPSv2 ha seguito con il 88,9%, mentre FID e FDDINOv2 hanno prodotto punteggi competitivi dell’86,7%. Sebbene le metriche addestrate sulle preferenze umane si allineassero generalmente bene con le valutazioni umane, cFreD si è rivelata la più robusta e affidabile nel complesso.
Di seguito vediamo i risultati del secondo round di test, questa volta sull’Arena PartiPrompts, utilizzando SDXL; Kandinsky 2; Würstchen; e Karlo V1.0.

Classifiche e punteggi dei modelli sull’Arena PartiPrompt utilizzando metriche statistiche (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e metriche addestrate sulle preferenze umane (Aesthetic Score, ImageReward e MPS). I migliori risultati sono in grassetto, i secondi migliori sono sottolineati.
Qui l’articolo afferma:
‘Tra le metriche statistiche, cFreD raggiunge la correlazione più alta con le valutazioni umane (0,73), con FID e FDDINOv2 che raggiungono entrambe una correlazione di 0,70. In contrasto, il punteggio CLIP mostra una correlazione molto bassa (0,12) con i giudizi umani.
‘Nella categoria addestrata sulle preferenze umane, HPSv2 ha l’allineamento più forte, raggiungendo la correlazione più alta (0,83), seguito da ImageReward (0,81) e MPS (0,65). Questi risultati evidenziano che mentre cFreD è una metrica automatica robusta, HPSv2 si distingue come la più efficace nel catturare le tendenze di valutazione umana nell’Arena PartiPrompts.’
Infine, gli autori hanno condotto una valutazione sul set di dati COCO utilizzando nove modelli di testo-immagine moderni: FLUX.1[dev]; Playgroundv2.5; Janus Pro; e varianti di Stable Diffusion come SDv3.5-L Turbo, 3.5-L, 3-M, SDXL, 2.1 e 1.5.
Le classifiche di preferenza umana sono state ottenute dalla classifica del Leaderboard di Text-to-Image, e sono state fornite come punteggi ELO:

Classifiche dei modelli su prompt COCO campionati casualmente utilizzando metriche automatiche (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e metriche addestrate sulle preferenze umane (Aesthetic Score, ImageReward, HPSv2 e MPS). Un’accuratezza del rango inferiore a 0,5 indica più coppie discordanti che concordanti, e i migliori risultati sono in grassetto, i secondi migliori sono sottolineati.
Riguardo a questo round, i ricercatori affermano:
‘Tra le metriche statistiche (FID, FDDINOv2, CLIP, CMMD e la nostra metrica proposta cFreD), solo cFreD mostra una correlazione forte con le preferenze umane, raggiungendo una correlazione di 0,33 e un’accuratezza del rango non banale del 66,67%. ‘Questo risultato pone cFreD come la terza metrica più allineata nel complesso, superata solo dalle metriche addestrate sulle preferenze umane ImageReward, HPSv2 e MPS.
‘In particolare, tutte le altre metriche statistiche mostrano un allineamento molto più debole con le classifiche ELO e, di conseguenza, invertite le classifiche, portando a un’accuratezza del rango inferiore a 0,5.
‘Questi risultati evidenziano che cFreD è sensibile sia alla fedeltà visiva che alla coerenza del prompt, rafforzando il suo valore come alternativa pratica e senza addestramento per la valutazione della generazione di immagini da testo.’
Gli autori hanno anche testato Inception V3 come backbone, attirando l’attenzione sulla sua ubiquità nella letteratura, e hanno scoperto che InceptionV3 si è esibito in modo ragionevole, ma è stato superato da backbone basati su trasformatori come DINOv2-L/14 e ViT-L/16, che si allineano più coerentemente con le classifiche umane – e sostengono che ciò supporta la sostituzione di InceptionV3 negli setup di valutazione moderni.

Tassi di vittoria che mostrano quanto spesso le classifiche di ogni backbone di immagine abbiano corrisposto alle classifiche umane derivate realmente sul set di dati COCO.
Conclusione
È chiaro che mentre le soluzioni con l’uomo nel ciclo sono l’approccio ottimale per lo sviluppo di metriche e funzioni di perdita, la scala e la frequenza degli aggiornamenti necessari a tali schemi renderanno continuamente impraticabili – forse fino a quando la partecipazione pubblica generalizzata alle valutazioni non sarà generalmente incentivata; o, come è stato il caso dei CAPTCHA, imposto.
La credibilità del nuovo sistema degli autori dipende ancora dall’allineamento con il giudizio umano, sebbene a un livello più alto rispetto a molti approcci recenti che coinvolgono la partecipazione umana; e la legittimità di cFreD rimane quindi ancora nei dati di preferenza umana (ovviamente, poiché senza tale punto di riferimento, l’affermazione che cFreD rifletta la valutazione umana sarebbe ingiustificabile).
Sostenere le nostre attuali norme per il ‘realismo’ nell’output generativo in una funzione metrica potrebbe essere un errore a lungo termine, poiché la nostra definizione di questo concetto è attualmente sotto attacco da parte della nuova ondata di sistemi di intelligenza artificiale generativa, e destinata a frequenti e significative revisioni.
* A questo punto inserirei normalmente un esempio illustrativo di video, forse da una recente presentazione accademica; ma sarebbe meschino – chiunque abbia trascorso più di 10-15 minuti a sfogliare l’output di intelligenza artificiale generativa di Arxiv avrà già incontrato video supplementari la cui qualità soggettivamente scarsa indica che la presentazione associata non sarà acclamata come un articolo di riferimento.
† Un totale di 46 modelli di backbone di immagine sono stati utilizzati negli esperimenti, non tutti sono considerati nei risultati grafici. Si prega di fare riferimento all’appendice dell’articolo per un elenco completo; quelli presentati nelle tabelle e nelle figure sono stati elencati.
Pubblicato per la prima volta martedì, 1 aprile 2025


