Artificiell intelligens

Utvärdering av den historiska noggrannheten i ImageNet

Published May 15, 2022

Updated April 28, 2026

Martin Anderson

En ny studie från Google Research och UC Berkeley tillför långvarig kritik gällande datasektorn för datorseende (CV) och dess beroende av den välkända ImageNet-datamängden och dess många derivat. Efter en stor mängd manuell utvärdering av hög kvalitet drar författarna slutsatsen att nästan 50% av de påstådda felen som de bästa modellerna gör på den multi-etikett-undersökningen av ImageNet (där nuvarande toppmodeller uppnår mer än 97% topp-1-noggrannhet) inte faktiskt är fel.

Från papperet:

‘Vår analys visar att nästan hälften av de påstådda felen inte är fel alls, och vi upptäcker nya giltiga multi-etiketter, vilket visar att vi, utan noggrann granskning, underskattar betydligt prestationen hos dessa modeller.

‘Å andra sidan finner vi också att dagens bästa modeller fortfarande gör ett betydande antal fel (40%) som är uppenbart fel för mänskliga granskare.’

Om fattningen av hur felmärkning av datamängder – särskilt genom outbildade crowdsource-arbetare – kan snedvrida sektorn, avslöjades av studiens noggranna tillvägagångssätt för utvärdering av bild/textrutinerna över en stor del av ImageNets historia.

I den översta raden, exempel på felallvarlighet: i de två första exemplen här, får den nya modellen helt enkelt den förutsagda etiketten fel; i det tredje exemplet identifierar den nya modellen en tidigare saknad multi-etikett (en etikett som tar itu med en ny kategorisering av bilden); i den sista bilden i den översta raden, är modellens förutsägelse tvetydig, eftersom bilden är en fluga och inte en fluga. Men den genomsnittliga bin tillhör insektsordningen Diptera, och sådan undantag skulle vara nästan omöjlig att upptäcka, även för en expertannotator. I raden nedan finns fyra felkategorier, med exempel. Källa: https://arxiv.org/pdf/2205.04596.pdf

Forskarna anställde ett litet antal dedikerade utvärderare för att noggrant granska historiska felregister i ImageNet-datamängden, och fann att många av felbedömningarna i sig är fel – en upptäckt som potentiellt reviderar några av de dåliga poäng som många projekt har fått på ImageNet-benchmark under åren.

Sedan ImageNet etablerat sig i CV-kulturen, hävdar forskarna att förbättringar av noggrannhet anses ge avtagande avkastning, och att nya modeller som överträffar etablerad etikett-noggrannhet, och som föreslår nya (dvs. ytterligare) etiketter, kan bestraffas, i princip, för icke-konformitet.

‘Till exempel,’ observerar författarna. ‘bör vi bestraffa modeller för att vara de första som förutser att en förbakad bagel kan vara en bagel, som en av modellerna vi granskar i det här arbetet gör?’

Från papperet, en nyare modell utmanar tidigare förutsägelse att objektet på fotografiet är deg, och föreslår att objektet faktiskt redan är en bagel).

Från synvinkel av en crowdsource-arbetare som är uppgift att identifiera ett sådant objekt, är detta ett semantiskt och till och med filosofiskt dilemma som bara kan lösas genom multi-etikettering (som ofta förekommer i senare undermängder och efterföljande iterationer av ImageNet); i ovanstående fall är objektet faktiskt både deg och åtminstone en embryonisk bagel.

Stora (ovan) och små (nedan) fel som uppstod när anpassade modeller testades i forskningen. Original ImageNet-etiketter är de första bilderna till vänster.

De två uppenbara lösningarna är att tilldela mer resurser till etikettering (vilket är en utmaning, inom budgetbegränsningarna för de flesta datavetenskapsprojekt); och, som författarna betonar, att regelbundet uppdatera datamängder och etikett-utvärderingsundermängder (vilket, bland andra hinder, riskerar att bryta ‘lika för lika’ historisk kontinuitet av benchmark och att strö ut nya forskningsartiklar med kvalifikationer och förbehåll gällande ekvivalens).

Som ett steg för att lösa situationen, har forskarna utvecklat en ny undermängd av ImageNet som kallas ImageNet-Major (ImageNet-M), som de beskriver som ‘en 68-exempel “stort fel” skiva av de uppenbara felen som dagens toppmodeller gör – en skiva där modellerna borde uppnå nästan fullständig perfektion, men idag är långt ifrån att göra så.’

Papperet papperet heter När blir deg en bagel? Analys av de återstående felen på ImageNet, och är skrivet av fyra författare från Google Research, tillsammans med Sara Fridovich-Keil från UC Berkeley.

Teknisk skuld

Resultaten är viktiga eftersom de återstående felen som identifierats (eller missidentifierats) i ImageNet, under de 16 år sedan dess tillkomst, den centrala studien av forskningen, kan representera skillnaden mellan en distribuerbar modell och en som är felbenägen nog att den inte kan släppas lös på levande data. Som alltid, den sista milen är kritisk.

Datavetenskaps- och bildsyntesforskningssektorn har i princip ‘självvalt’ ImageNet som en benchmark-mätare, av ett antal skäl – inte minst för att en mängd tidiga antagare, vid en tidpunkt då högvolym- och väl-etiketterade datamängder var sällsynta, producerade så många forskningsinitiativ att testning mot ImageNet snabbt blev den enda allmänt tillämpliga historiska ‘standarden’ för benchmarkning av nya ramverk.

Metod

I sökandet efter ‘de återstående felen’ i ImageNet, använde forskarna en standard ViT-modell (kapabel att uppnå en noggrannhet på 89,5%) med 3 miljarder parametrar, Vit-3B, förtränad på JFT-3B och finjusterad på ImageNet-1K.

Med hjälp av ImageNet2012_multilabel-datamängden, registrerade forskarna den initiala multi-etikett-noggrannheten (MLA) för Vit-3B som 96,3%, under vilken modellen gjorde 676 uppenbara fel. Det var dessa fel (och också fel producerade av en Girig Soups-modell) som författarna försökte undersöka.

För att utvärdera de återstående 676 felen, undvek författarna crowdworkers, med iakttagande att fel av den här typen kan vara svåra för genomsnittliga annotatorer att upptäcka, men samlade en panel av fem experträttsligare, och skapade ett dedikerat verktyg för att låta varje granskare se på en gång den förutsagda klassen; den förutsagda poängen; grund-sanningsetiketterna; och bilden i sig.

UI: t byggd för projektet.

I vissa fall var ytterligare forskning nödvändig för att lösa tvister bland panelen, och Google Bildsök användes som ett hjälpmedel.

‘[I] ett intressant men inte isolerat fall, var en förutsägelse av en taxi (med inga uppenbara taxinindikatorer utöver gul färg) närvarande i bilden; vi fastställde förutsägelsen till att vara en taxi och inte bara ett standardfordon genom att identifiera en landmärkebro i bakgrunden för att lokalisera staden, och en efterföljande bildsökning för taxibilar i den staden gav bilder av samma taximodell och skyltutformning, vilket validerade modellens faktiskt korrekta förutsägelse.’

Efter den första granskningen av felen som hittades under flera faser av forskningen, formulerade författarna fyra nya feltyper: fin-granulerat fel, där den förutsagda klassen är liknande en grund-sanningsetikett; fin-granulerat med utom-vokabulär (OOV), där modellen identifierar ett objekt vars klass är korrekt men inte närvarande i ImageNet; spuriös korrelation, där den förutsagda etiketten läses ut ur kontexten av bilden; och icke-prototypisk, där grund-sanningsetiketten är ett tvivelaktigt exempel på klassen som liknar den förutsagda etiketten.

I vissa fall var grund-sanningen inte i sig ‘sann’:

‘Efter granskning av de ursprungliga 676 felen [funna i ImageNet], fann vi att 298 antingen var korrekta eller oklara, eller bestämde att den ursprungliga grund-sanningen var felaktig eller problematisk.’

Efter en uttömmande och komplex serie av experiment över en mängd datamängder, undermängder och valideringsmängder, fann författarna att de två modellerna under studie faktiskt bedömdes som korrekta (av mänskliga granskare) för hälften av ‘felen’ de gjorde under konventionella tekniker.

Papperet sluts:

‘I det här papperet, analyserade vi varje återstående fel som Vit-3B- och Girig Soups-modellerna gör på ImageNet multi-etikett-valideringsmängden.

‘Sammanfattningsvis fann vi att: 1) när en stor, hög-noggrann modell gör en ny förutsägelse som inte görs av andra modeller, slutar den med att vara en korrekt ny multi-etikett nästan hälften av tiden; 2) modeller med högre noggrannhet visar inte en uppenbar mönster i våra kategorier och svårighetsgrad av fel de löser; 3) SOTA-modeller idag matchar eller slår prestationen hos den bästa mänskliga experten på den mänskligt utvärderade multi-etikett-undermängden; 4) bullrig träningsdata och under-specifierade klasser kan vara en faktor som begränsar den effektiva mätningen av förbättringar i bildklassificering.’

Publicerad första gången 15 maj 2022.