Intelligenza Artificiale

Valutazione dell'accuratezza storica di ImageNet

aggiornato on Dicembre 9, 2022

Un nuovo studio di Google Research e UC Berkeley si aggiunge a critica di lunga data per quanto riguarda la dipendenza del settore della ricerca sulla visione artificiale (CV) dal venerabile IMAGEnet set di dati e i suoi numerosi derivati. Dopo una lunga e laboriosa valutazione manuale, gli autori concludono che quasi il 50% dei presunti errori commessi dai migliori modelli nella valutazione di sottoinsiemi multi-etichetta di ImageNet (dove gli attuali modelli con le migliori prestazioni raggiungono oltre il 97% di 1 precisione) non sono effettivamente in errore.

Dalla carta:

'La nostra analisi rivela che quasi la metà dei presunti errori non sono affatto errori e scopriamo nuove valide multi-etichette, dimostrando che, senza un'attenta revisione, stiamo sottovalutando notevolmente le prestazioni di questi modelli.

"D'altra parte, scopriamo anche che i migliori modelli di oggi commettono ancora un numero significativo di errori (40%) che sono ovviamente sbagliati per i revisori umani."

La misura in cui l'etichettatura errata dei set di dati, in particolare da lavoratori non qualificati di crowdsource – potrebbe distorcere il settore, è stato rivelato dall'approccio scrupoloso dello studio alla valutazione degli accoppiamenti immagine/testo in un'ampia fascia della storia di ImageNet.

Nella riga superiore, esempi di gravità dell'errore: nei primi due esempi qui, il nuovo modello sbaglia semplicemente l'etichetta prevista; nel terzo esempio, il nuovo modello identifica una multietichetta precedentemente mancante (un'etichetta che affronta una nuova categorizzazione dell'immagine); nell'immagine finale nella riga superiore, la previsione del modello è ambigua, perché l'immagine è una mosca dell'ape e non una mosca. Tuttavia, l'ape media appartiene all'ordine degli insetti Diptera, e quindi questa eccezione sarebbe quasi impossibile da individuare, anche per un annotatore esperto. Nella riga sottostante ci sono quattro categorie di errori, con esempi. Fonte: https://arxiv.org/pdf/2205.04596.pdf

I ricercatori hanno impiegato un piccolo numero di valutatori dedicati per rivedere scrupolosamente i record di errore storici nella valutazione del set di dati ImageNet, scoprendo che molti dei giudizi di errore sono essi stessi errati - una scoperta che potenzialmente rivede alcuni dei punteggi scarsi che molti progetti hanno ottenuto su Benchmark di ImageNet nel corso degli anni.

Man mano che ImageNet si consolida nella cultura dei CV, i ricercatori sostengono che si ritiene che i miglioramenti nell'accuratezza producano rendimenti decrescenti e che i nuovi modelli che superano l'accuratezza delle etichette stabilite e che suggeriscono nuove (cioè ulteriori) etichette possono essere puniti, essenzialmente, per non -conformità.

'Per esempio,' osservano gli autori. "dovremmo penalizzare i modelli per essere stati i primi a prevedere che un bagel precotto potrebbe essere un bagel, come fa uno dei modelli che esaminiamo in questo lavoro?"

Dall'articolo, un modello più recente sfida la precedente previsione secondo cui l'oggetto nella foto è un impasto e suggerisce che l'oggetto sia in realtà già un bagel).

Dal punto di vista di un lavoratore in crowdsourcing incaricato di identificare un tale oggetto, questo è un dilemma semantico e persino filosofico che può essere risolto solo mediante multi-etichettatura (come spesso accade nei sottoinsiemi successivi e nelle successive iterazioni di ImageNet); nel caso di cui sopra, l'oggetto è infatti sia l'impasto che almeno un bagel nascente.

Errori maggiori (sopra) e minori (sotto) emersi durante il test dei modelli personalizzati nella ricerca. Le etichette ImageNet originali sono le prime immagini a sinistra.

Le due ovvie soluzioni sono assegnare più risorse all'etichettatura (che è una sfida, entro i limiti di budget della maggior parte dei progetti di ricerca sulla visione artificiale); e, come sottolineano gli autori, aggiornare regolarmente i set di dati e i sottoinsiemi di valutazione delle etichette (che, tra gli altri ostacoli, rischia di interrompere la continuità storica dei benchmark "like for like" e di sporcare i nuovi documenti di ricerca con qualifiche e esclusioni di responsabilità in merito all'equivalenza) .

Come passo per porre rimedio alla situazione, i ricercatori hanno sviluppato un nuovo sotto-insieme di dati di ImageNet chiamato ImageNet-Major (ImageNet-M), che descrivono come "una fetta di 68 esempi di "errore grave" degli ovvi errori commessi dalle top model di oggi, una fetta in cui le modelle dovrebbero raggiungere quasi la perfezione, ma oggi sono ben lontane dal farlo".

Il carta è intitolato Quando l'impasto diventa un bagel? Analizzando gli errori rimanenti su ImageNet, ed è scritto da quattro autori di Google Research, insieme a Sara Fridovich-Keil della UC Berkeley.

Debito tecnico

I risultati sono importanti perché i rimanenti errori identificati (o erroneamente identificati) in ImageNet, nei 16 anni dal suo inizio, lo studio centrale della ricerca, possono rappresentare la differenza tra un modello distribuibile e uno che è abbastanza soggetto a errori da poter t lasciarsi andare sui dati in tempo reale. Come sempre, il l'ultimo miglio è fondamentale.

Il settore della ricerca sulla visione artificiale e sulla sintesi delle immagini ha effettivamente "selezionato automaticamente" ImageNet come metrica di riferimento, per una serie di motivi, non ultimo perché un'ondata di utenti precoci, in un momento in cui i set di dati ad alto volume e ben etichettati erano più rari di quanto non siano ora, ha prodotto così tante iniziative di ricerca che i test su ImageNet sono diventati rapidamente l'unico "standard" storico ampiamente applicabile per il benchmarking di nuovi framework.

metodo

Alla ricerca degli "errori rimanenti" in ImageNet, i ricercatori hanno utilizzato uno standard Vit modello (in grado di raggiungere una precisione dell'89.5%) con 3 miliardi di parametri, Vit-3B, preaddestrato su JFT-3B e messo a punto ImageNet-1K.

Usando il ImageNet2012_multilabel set di dati, i ricercatori hanno registrato l'accuratezza multi-etichetta iniziale (MLA) di ViT-3B al 96.3%, durante la quale il modello ha commesso 676 errori apparenti. Sono stati questi errori (e anche gli errori prodotti da un modello Greedy Soups) che gli autori hanno cercato di indagare.

Per valutare i restanti 676 errori, gli autori hanno evitato i crowdworker, osservando che errori di questo tipo possono essere difficile per gli annotatori medi da individuare, ma ha riunito un gruppo di cinque revisori esperti e ha creato uno strumento dedicato per consentire a ciascun revisore di vedere a colpo d'occhio la classe prevista; il punteggio previsto; le etichette della verità fondamentale; e l'immagine stessa.

L'interfaccia utente creata per il progetto.

In alcuni casi, sono state necessarie ulteriori ricerche per risolvere le controversie tra il panel e la ricerca di immagini di Google è stata utilizzata come strumento aggiuntivo.

'[In] un caso interessante ma non isolato, nell'immagine era presente una previsione di un taxi (senza evidenti indicatori di taxi oltre al colore giallo); abbiamo determinato che la previsione fosse correttamente un taxi e non solo un veicolo standard identificando un ponte storico sullo sfondo per localizzare la città, e una successiva ricerca di immagini per i taxi in quella città ha prodotto le immagini dello stesso modello di taxi e design della targa, convalidando la previsione effettivamente corretta del modello.'

Dopo una revisione iniziale degli errori riscontrati in diverse fasi della ricerca, gli autori hanno formulato quattro nuovi tipi di errore: errore a grana fine, dove la classe prevista è simile a un'etichetta di verità fondamentale; a grana fine con fuori vocabolario (OOV), dove il modello identifica un oggetto la cui classe è corretta ma non presente in ImageNet; correlazione spuria, dove l'etichetta prevista viene letta fuori dal contesto dell'immagine; E non prototipico, dove l'oggetto ground reality è un esempio capzioso della classe che ha somiglianza con l'etichetta prevista.

In alcuni casi, la verità fondamentale non era essa stessa "vera":

"Dopo aver esaminato i 676 errori originali [trovati in ImageNet], abbiamo scoperto che 298 erano corretti o poco chiari, oppure abbiamo stabilito che la verità di base originale era errata o problematica."

Dopo un esauriente e complesso ciclo di esperimenti su una serie di set di dati, sottoinsiemi e set di convalida, gli autori hanno scoperto che i due modelli oggetto di studio erano effettivamente ritenuti corretti (dai revisori umani) per metà degli "errori" commessi con le tecniche convenzionali .

Il documento conclude:

'In questo documento, abbiamo analizzato tutti gli errori rimanenti che i modelli ViT-3B e Greedy Soups commettono sul set di convalida multi-etichetta ImageNet.

"Nel complesso, abbiamo scoperto che: 1) quando un modello ampio e ad alta precisione fa una nuova previsione non fatta da altri modelli, finisce per essere una nuova multi-etichetta corretta quasi la metà delle volte; 2) i modelli di maggiore accuratezza non dimostrano uno schema ovvio nelle nostre categorie e la gravità degli errori che risolvono; 3) i modelli SOTA oggi corrispondono ampiamente o superano le prestazioni del miglior essere umano esperto nel sottoinsieme multi-etichetta valutato dall'uomo; 4) i dati di addestramento rumorosi e le classi sotto specificate possono essere un fattore che limita l'effettiva misurazione dei miglioramenti nella classificazione delle immagini.'

Pubblicato per la prima volta il 15 maggio 2022.