Angolo di Anderson

L’illusione ‘Scarica più etichette!’ nella ricerca sull’IA

Published April 23, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

Una visione comune nella ricerca sull’apprendimento automatico attuale è che l’apprendimento automatico stesso possa essere utilizzato per migliorare la qualità delle annotazioni dei set di dati dell’IA – in particolare le didascalie delle immagini destinate all’uso nei modelli linguistici-visivi (VLM). Questa linea di pensiero è guidata dal alto costo dell’annotazione umana e dall’onere aggiuntivo della sorveglianza delle prestazioni degli annotatori.

Argomentabilmente, questo è l’equivalente dell’IA della meme “download più RAM” dei primi anni 2000, che satirizzava la nozione che una limitazione hardware potesse essere risolta con una soluzione basata sul software.

È anche una questione poco considerata; mentre i nuovi modelli di IA attirano un’ampia attenzione sia nella sfera pubblica che in quella commerciale, l’annotazione spesso appare come un dettaglio banale nelle pipeline di apprendimento automatico, oscurata dall’eccitazione che circonda le cornici più ampie.

In realtà, la capacità dei sistemi di apprendimento automatico di riconoscere e riprodurre modelli (il caso d’uso centrale di quasi tutti i sistemi di IA) dipende dalla qualità e dalla coerenza delle annotazioni del mondo reale – etichette e frasi create o giudicate da persone reali, che spesso prendono decisioni soggettive su punti di dati individuali in circostanze non ideali.

Inevitabilmente, i sistemi che cercano di osservare e riprodurre modelli nel comportamento degli annotatori (e quindi sostituire gli annotatori umani e facilitare l’etichettatura precisa su larga scala) non possono sperare di funzionare bene sui dati non contenuti negli esempi presi da osservatori umani. Nulla di “simile” è proprio lo stesso, e l’equivalenza tra domini rimane una ricerca problematica nella visione computerizzata.

Il “dollaro dei dati upstream” deve fermarsi da qualche parte, e in questo caso, è esattamente dove si ferma – con un cervello umano che fa una sorta di distinzione soggettiva per codificare i dati per un sistema artificiale.

Il commercio RAG

Fino a poco tempo fa, le inesattezze derivanti da annotazioni di set di dati poco curate erano, forse, viste come un danno collaterale accettabile nel contesto dei risultati imperfetti ma ancora commercializzabili ottenuti dai sistemi di IA generativa.

In effetti, solo quest’anno uno studio di Singapore ha concluso che le allucinazioni – cioè le occasioni in cui i sistemi di IA inventano cose che minano le nostre intenzioni – sono inevitabili e legate all’architettura concettuale di tali sistemi.

Per contrastare ciò, gli agenti basati su RAG – che possono “verificare” i fatti attraverso ricerche su internet – stanno diventando popolari nella ricerca e nelle soluzioni commerciali applicate. Tuttavia, aggiungono al costo delle risorse e alla latenza delle query; inoltre, le informazioni nuove applicate a un modello addestrato non possono competere con le connessioni più intricate e profondamente intrecciate che caratterizzano i layer nativi in un modello addestrato.

Sarebbe quindi meglio se i dati di annotazione che informano questi modelli fossero significativamente meno difettosi fin dall’inizio, anche se non possono essere perfetti (non da ultimo perché questa attività invade il regno della soggettività umana).

RePOPE

Un nuovo articolo della Germania mette in evidenza i problemi che sorgono dall’affidarsi a set di dati più vecchi e ampiamente utilizzati, concentrandosi in particolare sull’accuratezza e sull’affidabilità delle loro didascalie delle immagini. I risultati degli studiosi suggeriscono che gli errori di etichettatura nei benchmark possono mascherare o rappresentare in modo errato l’allucinazione nei modelli linguistici-visivi.

Dall’articolo, alcuni esempi in cui le didascalie originali non identificavano correttamente gli oggetti nel set di immagini MSCOCO. La revisione manuale del benchmark RePOPE da parte degli studiosi affronta queste carenze, dimostrando il costo del risparmio sulla cura dell’annotazione. Fonte: https://arxiv.org/pdf/2504.15707

Immagina che un modello venga mostrato un’immagine di una scena stradale e gli venga chiesto se c’è una bicicletta. Il modello risponde si. Se il set di dati di riferimento dice che non c’è una bicicletta, il modello viene marcato come sbagliato. Ma se una bicicletta è chiaramente visibile nell’immagine e fu semplicemente mancata durante l’annotazione, allora la risposta del modello era corretta, e il benchmark ha fallito. Errori del genere possono accumularsi in tutto il set di dati, dando un’immagine distorta di quali modelli sono precisi e quali sono inclini all’allucinazione.

Quindi, quando le annotazioni scorrette o ambigue vengono trattate come verità assoluta, i modelli possono sembrare allucinare quando sono corretti, o sembrare precisi quando non lo sono, distorcendo sia la misurazione dell’allucinazione che la classifica delle prestazioni del modello, e rendendo più difficile diagnosticare o affrontare il problema con certezza.

Il nuovo articolo riprende un benchmark ampiamente utilizzato chiamato Polling-based Object Probing Evaluation (POPE), che testa se i modelli linguistici-visivi possono dire correttamente cosa c’è o non c’è in un’immagine.

POPE si basa su etichette del set di dati influente Microsoft COCO: Common Objects in Context (MSCOCO), una raccolta di immagini annotate che è stata a lungo trattata come offrendo un buon livello di accuratezza delle annotazioni.

POPE valuta l’allucinazione degli oggetti nei grandi modelli linguistici-visivi riformulando il problema come un compito di classificazione binaria. Invece di analizzare le didascalie generate, il sistema pone semplici domande si/no al modello su oggetti specifici presenti in un’immagine, utilizzando modelli come ‘C’è un <oggetto> nell’immagine?’.

Esempi di allucinazione degli oggetti nei modelli linguistici-visivi. Le etichette in grassetto indicano oggetti segnalati come presenti nelle annotazioni originali, mentre le etichette rosse mostrano oggetti allucinati dai modelli. L’esempio a sinistra riflette una valutazione basata su istruzioni tradizionali, mentre i tre esempi a destra sono tratti da varianti diverse del benchmark POPE. Fonte: https://aclanthology.org/2023.emnlp-main.20.pdf

Gli oggetti di verità (risposta: Si) vengono accoppiati con oggetti non esistenti campionati (risposta: No), scelti attraverso strategie casuali, frequenti (popolari) o basate sulla co-occorrenza (avversariali). Questo setup consente una valutazione più stabile e insensibile alle prompt dell’allucinazione senza fare affidamento su un’analisi complessa delle didascalie basata su regole.

Gli autori dell’articolo – intitolato RePOPE: Impatto degli errori di annotazione sul benchmark POPE – sfidano l’accuratezza presunta di POPE ricontrollando le etichette sulle immagini del benchmark (cioè MSCOCO) – e trovando che un numero sorprendente è sbagliato o poco chiaro.

Esempi dal set di dati MSCOCO del 2014. Fonte: https://arxiv.org/pdf/1405.0312

Questi errori cambiano il modo in cui i modelli vengono classificati, con alcuni che inizialmente si sono esibiti bene cadendo indietro quando giudicati rispetto alle etichette corrette.

Nei test, gli autori hanno valutato una gamma di modelli linguistici-visivi aperti su entrambi il benchmark POPE originale e la loro versione RePOPE rietichettata.

Secondo l’articolo, le annotazioni corrette hanno portato a cambiamenti significativi nella classifica dei modelli, in particolare nei punteggi F1, con diversi modelli ad alte prestazioni che scendono di posizione sotto RePOPE.

Gli autori sostengono che questo spostamento illustra l’entità in cui gli errori di annotazione possono oscurare il comportamento di allucinazione reale dei modelli e presentano RePOPE come uno strumento più affidabile per valutare la vulnerabilità all’allucinazione.

In un altro esempio dall’articolo, vediamo come le didascalie originali di POPE non riescono a discernere oggetti sottili, come una persona seduta accanto alla cabina di un tram nella foto più a destra, o la sedia oscurata dal giocatore di tennis nella seconda foto da sinistra.

Metodo e test

I ricercatori hanno rietichettato tutte le annotazioni nel set di dati MSCOCO originale, con due etichettatori umani assegnati a ciascun’istanza di dati. Dove si è verificata un’ambiguità riguardo alla qualità delle etichette originali (come negli esempi seguenti), questi risultati sono stati messi da parte dal round di test.

Casi ambigui, in cui le incoerenze di etichettatura in POPE riflettono confini di categoria poco chiari. Ad esempio, un orsacchiotto etichettato come un orso, una motocicletta come una bicicletta, o veicoli aeroportuali come auto. Questi casi sono esclusi da RePOPE a causa della natura soggettiva di tali classificazioni, nonché delle incoerenze nelle etichette originali di MSCOCO.

L’articolo afferma:

‘Gli annotatori originali hanno mancato le persone in secondo piano o dietro il vetro, il giocatore di tennis oscura le “sedie” sullo sfondo e il cole slaw contiene solo una striscia visibile di carota.

‘Per alcuni oggetti, le annotazioni COCO sono altamente incoerenti, probabilmente a causa di definizioni diverse di quegli oggetti utilizzate dagli annotatori originali. La classificazione di un “orsacchiotto” come un “orso”, una motocicletta come una “bicicletta motorizzata”, o un veicolo aeroportuale come un “auto” dipende da definizioni specifiche, portando a incoerenze nelle annotazioni di verità di POPE. Pertanto, etichettiamo le corrispondenti immagini-domande come “ambigue”.’

Risultati della rietichettatura: le domande positive sono condivise tra tutte e tre le varianti di POPE. Tra quelle etichettate come ‘Sì’ in POPE, il 9,3% si è rivelato essere errato e il 13,8% è stato classificato come ambiguo. Per le domande ‘No’, l’1,7% è stato etichettato in modo errato e il 4,3% è stato ambiguo.

Gli autori hanno valutato una gamma di modelli aperti su POPE e su RePOPE, attraverso diverse architetture e dimensioni di modello. I modelli scelti includevano alcune delle principali architetture nella classifica OpenVLM: InternVL2.5 (8B/26B/38B/78B e 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; e PaliGemma2 (3B/10B).

Risultati iniziali: l’alto tasso di errore nelle etichette positive originali porta a un forte calo dei veri positivi in tutti i modelli. I falsi positivi variano tra i sottinsiemi, quasi raddoppiando nel subset casuale, ma rimanendo sostanzialmente invariati nel subset popolare e mostrando una leggera diminuzione nel subset avversario. La rietichettatura ha un effetto significativo sulle classifiche basate su F1. Modelli come Ovis2-4B e Ovis2-8B, che si sono esibiti bene nei subset popolari e avversari in POPE, salgono anche in cima nel subset casuale sotto RePOPE. Si prega di fare riferimento al PDF di origine per una risoluzione migliore.

I grafici dei risultati sopra illustrano come il numero di veri positivi e falsi positivi cambia dopo la correzione delle etichette nel benchmark.

I veri positivi sono calati in tutti i modelli, mostrando che spesso venivano accreditati per risposte corrette quando quelle risposte erano corrette solo sotto etichette difettose, mentre i falsi positivi hanno seguito un modello più variato.

Sul “subset casuale” di POPE, i falsi positivi sono quasi raddoppiati per molti modelli, indicando che un numero significativo di oggetti segnalati come allucinazioni erano in realtà presenti nelle immagini ma erano stati mancati nelle annotazioni originali. In questo caso, molti presunti errori del modello erano in realtà errori di etichettatura del set di dati.

Per il “subset avversario” di POPE, dove le domande si basavano su oggetti che co-occorrono frequentemente, i falsi positivi sono diminuiti. Ciò riflette probabilmente una maggiore possibilità che l’oggetto supposto assente sia effettivamente presente nell’immagine ma lasciato non etichettato.

Sebbene questi spostamenti abbiano influenzato la precisione e il richiamo, le classifiche dei modelli sono rimaste relativamente stabili per entrambe le metriche.

Il punteggio F1 – la principale misura di valutazione di POPE – è stato molto più sensibile alle correzioni delle etichette. Nel subset casuale, i modelli che si sono classificati vicino alla vetta con le etichette originali, come InternVL2.5-8B e -26B, sono scesi in fondo quando valutati con RePOPE. Altri, come Ovis2-4B e -8B, sono saliti in cima.

Un modello simile è emerso nei punteggi di accuratezza, sebbene gli autori notino che potrebbero essere ora distorti, poiché il set di dati corretto contiene un numero disuguale di esempi positivi e negativi.

Gli autori sostengono che l’impatto forte degli errori di annotazione sui risultati del benchmark sottolinea la necessità di dati di alta qualità. Per supportare una valutazione più affidabile dell’allucinazione degli oggetti, hanno rilasciato le etichette corrette su GitHub.

Tuttavia, notano che questa rietichettatura non affronta completamente la saturazione del benchmark, poiché molti modelli raggiungono ancora tassi di veri positivi e veri negativi superiori al 90%. Suggeriscono che ulteriori benchmark, come DASH-B, che utilizza un set di esempi negativi più impegnativo, dovrebbero essere utilizzati insieme a RePOPE.

Conclusione

Questo particolare esperimento è stato possibile grazie alla scala molto piccola del set di dati coinvolto. Dimostrare la stessa ipotesi su set di dati iperscala richiederebbe di lavorare su frammenti molto limitati dei dati; in set di dati molto diversi e grandi, potrebbe risultare quasi impossibile isolare gruppi rappresentativi a livello statistico e coerenti a livello semantico – potenzialmente distorti i risultati.

Anche se fosse possibile, quale rimedio ci sarebbe sotto lo stato attuale dell’arte? L’argomentazione si sposta inevitabilmente verso la necessità di una migliore e più copiosa annotazione umana.

A questo proposito, “migliore” e “più copiosa” esistono come problemi separati, poiché si può ottenere un volume maggiore di annotazioni attraverso economie di basso costo come Amazon Mechanical Turk (AMT). Ovviamente, questa sottoeconomia potenzialmente sfruttatrice porta spesso a risultati inferiori.

In alternativa, si potrebbe affidare i compiti di annotazione a regioni economiche in cui la stessa spesa would produrrebbe un maggior numero di annotazioni. Tuttavia, più l’annotatore è lontano dal caso d’uso previsto del modello che le sue etichette plasmeranno, meno probabile è che il modello risultante si allinei con le esigenze o le aspettative del dominio di destinazione.

Questo rimane quindi una delle sfide più persistenti e irrisolte nell’economia dello sviluppo dell’apprendimento automatico.

Pubblicato per la prima volta mercoledì 23 aprile 2025