L'angolo di Anderson
Utilizzo delle allucinazioni AI per valutare il realismo delle immagini

Una nuova ricerca dalla Russia propone un metodo non convenzionale per rilevare immagini non realistiche generate dall’intelligenza artificiale, non migliorando l’accuratezza dei grandi modelli di linguaggio visivo (LVLM), ma sfruttando intenzionalmente i loro tendenza alle allucinazioni.
Il nuovo approccio estrae molteplici "fatti atomici" su un'immagine utilizzando LVLM, quindi applica inferenza del linguaggio naturale (NLI) per misurare sistematicamente le contraddizioni tra queste affermazioni, trasformando di fatto i difetti del modello in uno strumento diagnostico per rilevare immagini che sfidano il buon senso.

Due immagini dal dataset WHOOPS! accanto a dichiarazioni generate automaticamente dal modello LVLM. L'immagine a sinistra è realistica, portando a descrizioni coerenti, mentre l'insolita immagine a destra fa sì che il modello abbia allucinazioni, producendo dichiarazioni contraddittorie o false. Fonte: https://arxiv.org/pdf/2503.15948
Quando si chiede di valutare il realismo della seconda immagine, l'LVLM può vedere che qualcosa è sbagliato, poiché il cammello raffigurato ha tre gobbe, che sono sconosciuto in natura.
Tuttavia, il LVLM inizialmente confonde >2 gobbe con >2 animali, poiché questo è l'unico modo in cui potresti mai vedere tre gobbe in un'unica "immagine di cammello". Poi procede ad allucinare qualcosa di ancora più improbabile di tre gobbe (cioè "due teste") e non descrive mai nei dettagli proprio ciò che sembra aver scatenato i suoi sospetti: l'improbabile gobba in più.
I ricercatori del nuovo lavoro hanno scoperto che i modelli LVLM possono eseguire questo tipo di valutazione in modo nativo e alla pari (o meglio) dei modelli che sono stati messo a punto per un compito di questo tipo. Poiché la messa a punto è complicata, costosa e piuttosto fragile in termini di applicabilità a valle, la scoperta di un uso nativo per uno dei i più grandi ostacoli nell'attuale rivoluzione dell'intelligenza artificiale rappresenta una rinfrescante svolta rispetto alle tendenze generali della letteratura.
Valutazione aperta
L'importanza dell'approccio, affermano gli autori, è che può essere implementato con open source framework. Sebbene un modello avanzato e ad alto investimento come ChatGPT possa (come ammesso dall'articolo) offrire potenzialmente risultati migliori in questo ambito, il vero valore discutibile della letteratura per la maggior parte di noi (e in particolare per le comunità di hobbisti e VFX) risiede nella possibilità di incorporare e sviluppare nuove innovazioni nelle implementazioni locali; al contrario, tutto ciò che è destinato a un sistema API commerciale proprietario è soggetto a ritiro, aumenti arbitrari dei prezzi e politiche di censura che probabilmente riflettono le preoccupazioni aziendali piuttosto che le esigenze e le responsabilità dell'utente.
. nuovo documento è intitolato Non combattere le allucinazioni, usale: stima del realismo delle immagini utilizzando l'NLI sui fatti atomici, e proviene da cinque ricercatori dello Skolkovo Institute of Science and Technology (Skoltech), del Moscow Institute of Physics and Technology e delle aziende russe MTS AI e AIRI. Il lavoro ha un pagina GitHub di accompagnamento.
Metodo
Gli autori utilizzano il linguaggio israeliano/statunitense WHOOPS! Insieme di dati per il progetto:

Esempi di immagini impossibili dal dataset WHOOPS!. È interessante notare come queste immagini assemblino elementi plausibili e come la loro improbabilità debba essere calcolata in base alla concatenazione di queste sfaccettature incompatibili. Fonte: https://whoops-benchmark.github.io/
Il set di dati comprende 500 immagini sintetiche e oltre 10,874 annotazioni, specificamente progettate per testare il ragionamento basato sul buon senso e la comprensione compositiva dei modelli di intelligenza artificiale. È stato creato in collaborazione con progettisti incaricati di generare immagini complesse tramite sistemi di conversione da testo a immagine come Metà viaggio e la serie DALL-E – che produce scenari difficili o impossibili da catturare in modo naturale:

Ulteriori esempi dal set di dati WHOOPS! Fonte: https://huggingface.co/datasets/nlphuji/whoops
Il nuovo approccio funziona in tre fasi: in primo luogo, il LVLM (specificamente LLaVA-v1.6-mistral-7b) viene richiesto di generare più semplici affermazioni, chiamate "fatti atomici", che descrivono un'immagine. Queste affermazioni vengono generate utilizzando Ricerca di fasci diversi, garantendo variabilità negli output.

La ricerca a fascio diversificato produce una maggiore varietà di opzioni di didascalia ottimizzandola per un obiettivo con diversità aumentata. Fonte: https://arxiv.org/pdf/1610.02424
Successivamente, ogni affermazione generata viene sistematicamente confrontata con ogni altra affermazione utilizzando un modello di inferenza del linguaggio naturale, che assegna punteggi che riflettono se le coppie di affermazioni implicano, contraddicono o sono neutrali l'una rispetto all'altra.
Le contraddizioni indicano allucinazioni o elementi irrealistici all'interno dell'immagine:

Schema per la pipeline di rilevamento.
Infine, il metodo aggrega questi punteggi NLI a coppie in un unico "punteggio di realtà " che quantifica la coerenza complessiva delle affermazioni generate.
I ricercatori hanno esplorato diversi metodi di aggregazione, con un approccio basato sul clustering che ha dato i risultati migliori. Gli autori hanno applicato il k-significa raggruppamento algoritmo per separare i punteggi NLI individuali in due cluster e l' baricentro del cluster di valore più basso è stato quindi scelto come metrica finale.
L'utilizzo di due cluster si allinea direttamente con la natura binaria del compito di classificazione, ovvero distinguere le immagini realistiche da quelle irrealistiche. La logica è simile alla semplice scelta del punteggio più basso complessivo; tuttavia, il clustering consente alla metrica di rappresentare la contraddizione media tra più fatti, anziché basarsi su un singolo valore anomalo.
Dati e test
I ricercatori hanno testato il loro sistema sul benchmark di base WHOOPS!, utilizzando la rotazione prova di divisione (Cioè, convalida incrociata). I modelli testati sono stati Flan BLIP2T5-XL e BLIP2 FlanT5-XXL in split e BLIP2 FlanT5-XXL in formato zero-shot (vale a dire, senza formazione aggiuntiva).
Per una linea di base basata sul rispetto delle istruzioni, gli autori hanno sollecitato i LVLM con la frase "È insolito? Per favore, spiegalo brevemente con una frase breve", quale ricerca precedente si è rivelato efficace per individuare immagini non realistiche.
I modelli valutati sono stati LLaVA 1.6 Mistral 7B, LLaVA 1.6 Vigogna 13Be due dimensioni (7/13 miliardi di parametri) di IstruisciBLIP.
La procedura di test si è concentrata su 102 coppie di immagini realistiche e irrealistiche ("strane"). Ogni coppia era composta da un'immagine normale e da una controparte che sfidava il buon senso.
Tre commentatori umani hanno etichettato le immagini, raggiungendo un consenso del 92%, a dimostrazione di un forte consenso umano su cosa costituisse "stranezza". L'accuratezza dei metodi di valutazione è stata misurata in base alla loro capacità di distinguere correttamente tra immagini realistiche e irrealistiche.
Il sistema è stato valutato utilizzando la convalida incrociata a tre livelli, mescolando casualmente i dati con un seed fisso. Gli autori hanno corretto i pesi per i punteggi di implicazione (affermazioni logicamente concordanti) e i punteggi di contraddizione (affermazioni logicamente in conflitto) durante l'addestramento, mentre i punteggi "neutrali" sono stati fissati a zero. L'accuratezza finale è stata calcolata come media di tutte le suddivisioni del test.

Confronto di diversi modelli NLI e metodi di aggregazione su un sottoinsieme di cinque fatti generati, misurati in base all'accuratezza.
Per quanto riguarda i risultati iniziali sopra esposti, il documento afferma:
"Il metodo ['clust'] si distingue come uno dei più performanti. Ciò implica che l'aggregazione di tutti i punteggi di contraddizione è cruciale, piuttosto che concentrarsi solo sui valori estremi. Inoltre, il modello NLI più grande (nli-deberta-v3-large) supera tutti gli altri per tutti i metodi di aggregazione, suggerendo che cattura l'essenza del problema in modo più efficace."
Gli autori hanno scoperto che i pesi ottimali favorivano costantemente la contraddizione rispetto all'implicazione, indicando che le contraddizioni erano più informative per distinguere le immagini non realistiche. Il loro metodo ha superato tutti gli altri metodi zero-shot testati, avvicinandosi molto alle prestazioni del modello BLIP2 ottimizzato:

Prestazioni di vari approcci sul benchmark WHOOPS!. I metodi fine-tuned (ft) sono elencati in alto, mentre i metodi zero-shot (zs) sono elencati sotto. La dimensione del modello indica il numero di parametri e l'accuratezza è utilizzata come metrica di valutazione.
Hanno anche notato, in modo alquanto inaspettato, che InstructBLIP ha funzionato meglio di modelli LLaVA comparabili a parità di prompt. Pur riconoscendo la superiore accuratezza di GPT-4o, l'articolo sottolinea la preferenza degli autori per la dimostrazione di soluzioni pratiche e open source e, a quanto pare, può ragionevolmente rivendicare la novità nello sfruttamento esplicito delle allucinazioni come strumento diagnostico.
Conclusione
Tuttavia, gli autori riconoscono il debito del loro progetto nei confronti del 2024 Punteggio di fede gita, una collaborazione tra l'Università del Texas a Dallas e la Johns Hopkins University.

Illustrazione di come funziona la valutazione FaithScore. Innanzitutto, vengono identificate le affermazioni descrittive all'interno di una risposta generata da LVLM. Quindi, queste affermazioni vengono suddivise in singoli fatti atomici. Infine, i fatti atomici vengono confrontati con l'immagine di input per verificarne l'accuratezza. Il testo sottolineato evidenzia il contenuto descrittivo oggettivo, mentre il testo blu indica affermazioni allucinate, consentendo a FaithScore di fornire una misura interpretabile della correttezza fattuale. Fonte: https://arxiv.org/pdf/2311.01477
FaithScore misura la fedeltà delle descrizioni generate da LVLM verificandone la coerenza rispetto al contenuto dell'immagine, mentre i metodi del nuovo articolo sfruttano esplicitamente le allucinazioni LVLM per rilevare immagini non realistiche attraverso contraddizioni nei fatti generati utilizzando l'inferenza del linguaggio naturale.
Il nuovo lavoro è, naturalmente, dipendente dalle eccentricità degli attuali modelli linguistici e dalla loro disposizione ad allucinare. Se lo sviluppo del modello dovesse mai produrre un modello completamente non allucinatorio, persino i principi generali del nuovo lavoro non sarebbero più applicabili. Tuttavia, questo rimane un prospettiva stimolante.
Prima pubblicazione martedì 25 marzo 2025