Intelligenza artificiale
Valutazione dell’accuratezza storica di ImageNet

Uno studio recente di Google Research e UC Berkeley aggiunge alle critiche di lunga data riguardo alla dipendenza del settore della ricerca sulla visione artificiale (CV) dal dataset venerabile ImageNet e dai suoi numerosi derivati. Dopo una lunga e laboriosa valutazione manuale, gli autori concludono che quasi il 50% degli errori supposti che i migliori modelli commettono nella valutazione della sottinsieme multi-etichetta di ImageNet (dove i modelli attualmente migliori raggiungono più del 97% di accuratezza top-1) non sono in realtà errori.
Dal paper:
‘La nostra analisi rivela che quasi la metà degli errori supposti non sono errori affatto, e scopriamo nuove etichette valide, dimostrando che, senza una revisione attenta, stiamo sottovalutando significativamente le prestazioni di questi modelli.
‘D’altra parte, scopriamo anche che i migliori modelli attuali commettono ancora un numero significativo di errori (40%) che sono ovviamente sbagliati per i revisori umani.’
La misura in cui l’etichettatura errata dei set di dati – in particolare ad opera di lavoratori non qualificati della folla – può influenzare il settore, è stata rivelata dall’approccio meticoloso dello studio alla valutazione delle coppie di immagini/testo in un’ampia parte della storia di ImageNet.

Nella riga superiore, esempi di gravità degli errori: nei primi due esempi, il nuovo modello semplicemente ottiene l’etichetta prevista errata; nel terzo esempio, il nuovo modello identifica un’etichetta multipla mancante (un’etichetta che affronta una nuova categorizzazione dell’immagine); nell’ultima immagine della riga superiore, la previsione del modello è ambigua, perché l’immagine è una mosca-apiforme e non una mosca. Tuttavia, la media delle api appartiene all’ordine degli insetti Diptera, quindi questa eccezione sarebbe quasi impossibile da rilevare, anche per un annotatore esperto. Nella riga inferiore sono riportati quattro esempi di categorie di errori. Source: https://arxiv.org/pdf/2205.04596.pdf
I ricercatori hanno impiegato un piccolo numero di revisori dedicati per valutare meticolosamente i registri storici degli errori nel set di dati ImageNet, scoprendo che molti dei giudizi di errore sono essi stessi in errore – una scoperta che potrebbe revisionare alcuni dei punteggi bassi che molti progetti hanno ottenuto sui benchmark di ImageNet nel corso degli anni.
Poiché ImageNet si consolida nella cultura CV, i ricercatori sostengono che i miglioramenti dell’accuratezza sono considerati produrre rendimenti decrescenti, e che i nuovi modelli che superano l’accuratezza delle etichette stabilite e che suggeriscono nuove etichette (cioè aggiuntive) potrebbero essere puniti, essenzialmente, per non conformità.
‘Ad esempio,’ osservano gli autori. ‘dovremmo penalizzare i modelli per essere i primi a prevedere che un bagel precotto possa essere un bagel, come fa uno dei modelli che esaminiamo in questo lavoro?’

Dal paper, un modello più recente sfida la previsione precedente che l’oggetto nella foto sia un impasto, e suggerisce che l’oggetto sia in realtà già un bagel).
Dal punto di vista di un lavoratore della folla incaricato di identificare un tale oggetto, questo è un dilemma semantico e anche filosofico che può essere risolto solo con l’etichettatura multipla (come spesso accade in subset successivi e iterazioni successive di ImageNet); nel caso sopra, l’oggetto è in realtà sia un impasto che almeno un bagel nascente.

Errori principali (sopra) e minori (sotto) emersi durante il test dei modelli personalizzati nella ricerca. Le etichette originali di ImageNet sono le prime immagini a sinistra.
Le due soluzioni ovvie sono assegnare più risorse all’etichettatura (che è una sfida, all’interno dei vincoli di budget della maggior parte dei progetti di ricerca sulla visione artificiale); e, come enfatizzano gli autori, aggiornare regolarmente i set di dati e le sottinsieme di valutazione delle etichette (che, tra gli altri ostacoli, rischia di interrompere la continuità storica dei benchmark e di disseminare nuove ricerche con qualifiche e avvertenze riguardo all’equivalenza).
Come passo per rimediare alla situazione, i ricercatori hanno sviluppato un nuovo subset di ImageNet chiamato ImageNet-Major (ImageNet-M), che descrivono come ‘un esempio di 68 esempi di “errore principale” dei errori ovvi commessi dai migliori modelli attuali – un esempio in cui i modelli dovrebbero raggiungere la perfezione, ma oggi sono lontani dal farlo.’
Il paper è intitolato Quando l’impasto diventa un bagel? Analisi degli errori rimanenti su ImageNet, e è scritto da quattro autori di Google Research, insieme a Sara Fridovich-Keil di UC Berkeley.
Debito tecnico
I risultati sono importanti perché gli errori rimanenti identificati (o mal identificati) in ImageNet, nei 16 anni dalla sua creazione, lo studio centrale della ricerca, possono rappresentare la differenza tra un modello deployabile e uno che è abbastanza propenso a errori da non poter essere utilizzato su dati live. Come sempre, l’ultimo miglio è critico.
Il settore della ricerca sulla visione artificiale e sulla sintesi di immagini ha effettivamente ‘auto-selezionato’ ImageNet come metrica di benchmark, per una serie di motivi – non ultimo perché un gruppo di primi adottanti, in un momento in cui i set di dati ad alto volume e ben etichettati erano più rari di quanto non lo siano ora, ha prodotto così tante iniziative di ricerca che il test su ImageNet è diventato rapidamente l’unico standard storico ampiamente applicabile per il benchmarking di nuovi framework.
Metodo
Cercando di individuare gli ‘errori rimanenti’ in ImageNet, i ricercatori hanno utilizzato un modello standard ViT (in grado di raggiungere un’accuratezza dell’89,5%) con 3 miliardi di parametri, Vit-3B, pre-addestrato su JFT-3B e ottimizzato su ImageNet-1K.
Utilizzando il dataset ImageNet2012_multilabel, i ricercatori hanno registrato l’accuratezza iniziale multi-etichetta (MLA) di ViT-3B come 96,3%, durante il quale il modello ha commesso 676 errori apparenti. Sono stati questi errori (e anche errori prodotti da un modello Greedy Soups) che gli autori hanno cercato di indagare.
Per valutare i restanti 676 errori, gli autori hanno evitato i lavoratori della folla, osservando che errori di questo tipo possono essere difficili per gli annotatori medi da rilevare, ma hanno assemblato un panel di cinque revisori esperti e creato uno strumento dedicato per consentire a ciascun revisore di vedere a colpo d’occhio la classe prevista; il punteggio previsto; le etichette di verità di base; e l’immagine stessa.

L’interfaccia utente costruita per il progetto.
In alcuni casi, ulteriori ricerche sono state necessarie per risolvere dispute all’interno del panel, e la ricerca di immagini di Google è stata utilizzata come strumento ausiliario.
‘[In] un caso interessante ma non isolato, una previsione di un taxi (con nessun indicatore di taxi ovvio oltre al colore giallo) era presente nell’immagine; abbiamo determinato che la previsione era corretta e non solo un veicolo standard identificando un ponte di riferimento sullo sfondo per localizzare la città, e una successiva ricerca di immagini per taxi in quella città ha prodotto immagini del stesso modello di taxi e design di targa, validando la previsione effettivamente corretta del modello.’
Dopo la revisione iniziale degli errori trovati in diverse fasi della ricerca, gli autori hanno formulato quattro nuovi tipi di errori: errore fine-grained, dove la classe prevista è simile a un’etichetta di verità di base; fine-grained con out-of-vocabulary (OOV), dove il modello identifica un oggetto la cui classe è corretta ma non presente in ImageNet; correlazione spuria, dove l’etichetta prevista è letta fuori contesto dell’immagine; e non-prototipico, dove l’oggetto di verità di base è un esempio specioso della classe che assomiglia all’etichetta prevista.
In alcuni casi, la verità di base non era essa stessa ‘vera’:
‘Dopo la revisione degli errori originali [trovati in ImageNet], abbiamo scoperto che 298 erano corretti o poco chiari, o abbiamo determinato che la verità di base originale era errata o problematica.’
Dopo un’esauriente e complessa serie di esperimenti su una gamma di set di dati, subset e set di convalida, gli autori hanno scoperto che i due modelli in studio sono stati effettivamente considerati corretti (dai revisori umani) per metà degli ‘errori’ che hanno commesso con tecniche convenzionali.
Il paper conclude:
‘In questo paper, abbiamo analizzato ogni errore rimanente che i modelli ViT-3B e Greedy Soups commettono sul set di convalida multi-etichetta di ImageNet.
‘Nel complesso, abbiamo scoperto che: 1) quando un modello di grandi dimensioni e alta accuratezza fa una previsione nuova non fatta da altri modelli, si rivela essere una nuova etichetta multipla corretta quasi la metà delle volte; 2) i modelli ad alta accuratezza non mostrano un modello ovvio negli errori e nelle gravità degli errori che risolvono; 3) i modelli SOTA attuali stanno sostanzialmente eguagliando o superando le prestazioni del miglior esperto umano sul subset multi-etichetta valutato dagli umani; 4) i dati di addestramento rumorosi e le classi non specificate possono essere un fattore limitante la misurazione efficace dei miglioramenti nella classificazione di immagini.’
Pubblicato per la prima volta il 15 maggio 2022.












