Kunstig intelligens

Vurdering av den historiske nøyaktigheten til ImageNet

Published May 15, 2022

Updated April 28, 2026

Martin Anderson

En ny studie fra Google Research og UC Berkeley legger til den langevarige kritikken når det gjelder computer vision (CV) forskningssektorens avhengighet av det velkjente ImageNet datasettet, og dets mange derivater. Etter en stor mengde manuell evaluering, konkluderer forfatterne med at nesten 50% av de påståtte feilene som de beste modellene gjør på multi-label undersettet av ImageNet (hvor nåværende topptreffende modeller oppnår mer enn 97% top-1 nøyaktighet) ikke faktisk er feil.

Fra papiret:

‘Vår analyse avslører at nesten halvparten av de påståtte feilene ikke er feil i det hele tatt, og vi avdekker nye gyldige multi-etiketter, som viser at uten en nøye gjennomgang, underskattar vi betydelig ytelsen til disse modellene.

‘På den andre siden, finner vi også at dagens beste modeller fortsatt gjør en betydelig mengde feil (40%) som er åpenbart feil for menneskelige anmeldere.’

Omfanget av hvilken feilmerking av datasett – spesielt ved hjelp av uerfarne crowdsourcere – kan være skjevning av sektoren, ble avdekket av studiens omfattende tilnærming til evaluering av bilde/tekst-paringer over en stor del av ImageNets historie.

I den øverste raden, eksempler på feilalvorlighet: i de to første eksemplene her, får den nye modellen bare feil den forutsagte etiketten; i det tredje eksemplet, identifiserer den nye modellen en tidligere manglende multi-etikett (en etikett som omhandler en ny kategorisering av bildet); i det siste bildet i den øverste raden, er modellens prediksjon tvetydig, fordi bildet er en blomstflue og ikke en flue. Men den gjennomsnittlige bie hører til Diptera-insektordenen, og så denne unntak ville være nesten umulig å spore, selv for en ekspertannotator. I raden under er fire feilkategorier, med eksempler. Kilde: https://arxiv.org/pdf/2205.04596.pdf

Forskerne anvendte en liten mengde dedikerte evaluatore til å nøye gjennomgå historiske feilregistreringer i ImageNet datasettet, og fant at en stor mengde av feildømmene selv er feil – en oppdagelse som potensielt reviderer noen av de dårlige poengsummene mange prosjekter har oppnådd på ImageNet-benchmarkene over årene.

Da ImageNet etablerer seg i CV-kulturen, hevder forskerne at forbedringer i nøyaktighet gir avtagende avkastning, og at nye modeller som overstiger etablerte etikett-nøyaktighet, og som foreslår nye (dvs. tilleggs-) etiketter, kan straffes, i praksis, for ikke-konformitet.

‘For eksempel,’ observerer forfatterne. ‘bør vi straffe modeller for å være de første til å forutsi at en forbakket bagel kan være en bagel, som en av modellene vi gjennomgår i dette arbeidet gjør?’

Fra papiret, en nyere modell motsier tidligere prediksjon at objektet på bildet er deig, og foreslår at objektet faktisk allerede er en bagel).

Fra synspunktet til en crowdsourcere som er ansvarlig for å identifisere et slikt objekt, er dette en semantisk og til og med filosofisk dilemma som bare kan løses ved hjelp av multi-etikettering (som ofte skjer i senere undersett og påfølgende iterasjoner av ImageNet).

Store (øverst) og mindre (nederst) feil som oppstod når man testet egne modeller i forskningen. Opprinnelige ImageNet-etiketter er de første bildene til venstre.

De to åpenbare løsningene er å tildele flere ressurser til etikettering (som er en utfordring, innenfor budsjetteringsbegrensningene til de fleste computer vision-forskningsprosjekter); og, som forfatterne understreker, å oppdatere datasett og etikett-evaluering undersett regelmessig (som, blant andre hindringer, risikerer å bryte ‘like for like’ historisk kontinuitet av benchmark, og å sprede nye forskningsartikler med kvalifikasjoner og forbehold om ekvivalens).

Som et skritt mot å rette opp situasjonen, har forskerne utviklet en ny underdatasett av ImageNet kalt ImageNet-Major (ImageNet-M), som de beskriver som ‘en 68-eksemplar “stor feil” skive av de åpenbare feilene som dagens beste modeller gjør—a skive hvor modellene bør oppnå nesten fullkommenhet, men i dag er langt ifra å gjøre det.’

Papiret papiret har tittelen Når blir deig en bagel? Analyse av de gjenværende feilene på ImageNet, og er skrevet av fire forfattere fra Google Research, sammen med Sara Fridovich-Keil fra UC Berkeley.

Teknisk gjeld

Funndene er viktige fordi de gjenværende feilene som er identifisert (eller misidentifisert) i ImageNet, i de 16 årene siden dets opphav, den sentrale studien av forskningen, kan representere forskjellen mellom en deploybar modell og en som er feil-utsatt nok til at den ikke kan slippes løs på live-data. Som alltid, er den siste milen kritisk.

Computer vision og bilde-syntese-forskningssektoren har effektivt ‘auto-valgt’ ImageNet som en benchmark-målestokk, av en rekke grunner — ikke minst fordi en rekke tidlige brukere, på en tid hvor høyvolums- og godt-merkede datasett var sjeldnere enn de er nå, produserte så mange forskningsinitiativer at testing mot ImageNet raskt ble den eneste bredt anvendelige historiske ‘standard’ for benchmarking nye rammer.

Metode

I jakten på de ‘gjenværende feilene’ i ImageNet, brukte forskerne en standard ViT modell (i stand til å oppnå en nøyaktighet på 89,5%) med 3 milliarder parametre, Vit-3B, forhåndstreinet på JFT-3B og finjustert på ImageNet-1K.

Ved hjelp av ImageNet2012_multilabel datasettet, registrerte forskerne den initielle multi-etikett-nøyaktigheten (MLA) til ViT-3B som 96,3%, under hvilken modellen gjorde 676 åpenbare feil. Det var disse feilene (og også feil produsert av en Greedy Soups-modell) som forfatterne søkte å undersøke.

For å evaluere de gjenværende 676 feilene, unngikk forfatterne crowdsourcere, og observerte at feil av denne typen kan være vanskelige for gjennomsnittlige annotatorer å spore, men samlet en panel av fem ekspertanmeldere, og lagde et dedikert verktøy for å la hver anmelder se på en gang den forutsagte klassen; den forutsagte scoren; de faktiske etikettene; og bildet selv.

UI-bygget for prosjektet.

I noen tilfeller var videre forskning nødvendig for å løse uenigheter blant panelet, og Google Image-søk ble brukt som et hjelpemiddel.

‘[I] et interessant, men ikke isolert tilfelle, var en prediksjon av en drosje (uten noen åpenbare drosjeindikatorer utover gul farge) til stede i bildet; vi fastslo prediksjonen som korrekt en drosje og ikke bare et standard kjøretøy, ved å identifisere et landemerkebro i bakgrunnen for å lokalisere byen, og en påfølgende bilde-søk etter drosjer i den byen ga bilder av samme drosje-modell og lisensplatedesign, og validerte modellens faktisk korrekte prediksjon.’

Etter den initielle gjennomgangen av feilene funnet over flere faser av forskningen, formulerte forfatterne fire nye feiltyper: fin-grådig feil, hvor den forutsagte klassen er lignende en faktisk etikett; fin-grådig med utenfor-vokabular (OOV), hvor modellen identifiserer et objekt hvis klasse er korrekt, men ikke til stede i ImageNet; spuriøs korrelasjon, hvor den forutsagte etiketten leses utenfor konteksten av bildet; og ikke-prototypisk, hvor den faktiske etiketten er et tvilsomt eksempel på klassen som ligner den forutsagte etiketten.

I visse tilfeller var den faktiske etiketten ikke selv ‘sann’:

‘Etter gjennomgang av de opprinnelige 676 feil [funnet i ImageNet], fant vi at 298 var enten korrekte eller uklare, eller fastslo at den opprinnelige faktiske etiketten var feil eller problematisk.’

Etter en omfattende og kompleks runde av eksperimenter over en rekke datasett, undersett og valideringssett, fant forfatterne at de to modellene under studie faktisk ble funnet korrekte (av menneskelige anmeldere) for halvparten av ‘feilene’ de gjorde under konvensjonelle teknikker.

Papiret konkluderer:

‘I denne artikkelen, analyserte vi hver eneste gjenværende feil som ViT-3B og Greedy Soups-modellene gjør på ImageNet multi-etikett-valideringssettet.

‘Samlet sett fant vi at: 1) når en stor, høy-akkurat modell gjør en ny prediksjon ikke gjort av andre modeller, ender det opp med å være en korrekt ny multi-etikett nesten halvparten av tiden; 2) høyere akkurat modeller viser ikke en åpenbar mønster i våre kategorier og alvorlighetsgrader av feil de løser; 3) SOTA-modeller i dag matcher eller slår ytelsen til den beste ekspert-menneske på menneske-vurderte multi-etikett-undersett; 4) støyende trening-data og under-speficerte klasser kan være en faktor som begrenser den effektive målingen av forbedringer i bilde-klassifisering.’

Først publisert 15. mai 2022.