Kunstmatige intelligentie
De historische nauwkeurigheid van ImageNet beoordelen

Een nieuwe studie van Google Research en UC Berkeley voegt zich bij de langdurige kritiek met betrekking tot de afhankelijkheid van het computer vision (CV) onderzoekssector van het vermaarde ImageNet dataset, en zijn vele afgeleiden. Na een grote hoeveelheid arbeidsintensieve handmatige evaluatie, concluderen de auteurs dat bijna 50% van de vermeende fouten die de beste modellen maken op de multi-label subset evaluatie van ImageNet (waar de huidige top-presterende modellen meer dan 97% top-1 nauwkeurigheid behalen) niet daadwerkelijk fouten zijn.
Uit het paper:
‘Onze analyse onthult dat bijna de helft van de vermeende fouten geen fouten zijn, en we ontdekken nieuwe geldige multi-labels, wat aantoont dat we, zonder zorgvuldige beoordeling, de prestaties van deze modellen aanzienlijk onderschatten.
‘Aan de andere kant vinden we ook dat de beste modellen van vandaag nog steeds een aanzienlijk aantal fouten maken (40%) die voor menselijke beoordelaars duidelijk verkeerd zijn.’
De mate waarin het mislabelen van datasets – met name door ongeschoolde crowdsourced werknemers – de sector kan beïnvloeden, werd onthuld door de pijnlijke aanpak van de studie naar de evaluatie van de image/text-paren over een grote periode van de geschiedenis van ImageNet.

In de bovenste rij, voorbeelden van Fouterniveau: in de eerste twee voorbeelden hier, krijgt het nieuwe model gewoon de voorspelde label verkeerd; in het derde voorbeeld identificeert het nieuwe model een eerder ontbrekende multi-label (een label dat een nieuwe categorisatie van de afbeelding aanspreekt); in de laatste afbeelding in de bovenste rij is de voorspelling van het model ambigu, omdat de afbeelding een bee-fly is en geen vlieg. Echter, de gemiddelde bij behoort tot de Diptera-insectenorde, en dus zou deze uitzondering bijna onmogelijk te herkennen zijn, zelfs voor een expert-annotator. In de rij hieronder zijn vier foutcategorieën met voorbeelden. Source: https://arxiv.org/pdf/2205.04596.pdf
De onderzoekers gebruikten een klein aantal toegewijde beoordelaars om de historische foutrecords in de ImageNet-dataset zorgvuldig te beoordelen en vonden dat een groot deel van de foutbeoordelingen zelf fouten zijn – een ontdekking die mogelijk enkele van de slechte scores die veel projecten in de loop der jaren op ImageNet-benchmarks hebben behaald, herziet.
De onderzoekers zijn van mening dat, naarmate ImageNet zich in de CV-cultuur vestigt, verbeteringen in nauwkeurigheid een afnemend rendement opleveren, en dat nieuwe modellen die de gevestigde labelnauwkeurigheid overschrijden en die nieuwe (d.w.z. extra) labels suggereren, mogelijk worden gestraft, in wezen, voor non-conformiteit.
‘Bijvoorbeeld,’ merken de auteurs op. ‘moeten we modellen bestraffen voor het feit dat ze de eerste zijn om te voorspellen dat een vooraf gebakken bagel een bagel kan zijn, zoals een van de modellen die we in dit onderzoek beoordelen?’

Uit het paper, een nieuw model gaat tegen een eerdere voorspelling in dat het object in de foto deeg is, en suggereert dat het object eigenlijk al een bagel is).
Vanuit het oogpunt van een crowdsourced werknemer die zo’n object moet identificeren, is dit een semantische en zelfs filosofische quaestie die alleen kan worden opgelost door multi-labeling (zoals vaak voorkomt in latere subsets en latere iteraties van ImageNet); in het bovenstaande geval is het object inderdaad zowel deeg als ten minste een embryonale bagel.

Grote (boven) en kleine (onder) fouten die opdoken bij het testen van aangepaste modellen in het onderzoek. Oorspronkelijke ImageNet-labels zijn de eerste afbeeldingen links.
De twee voor de hand liggende oplossingen zijn het toewijzen van meer middelen aan labeling (wat een uitdaging is, binnen de budgettaire beperkingen van de meeste computer vision onderzoeksprojecten); en, zoals de auteurs benadrukken, het regelmatig bijwerken van datasets en label-evaluatiesubsets (wat, onder andere obstakels, het risico loopt om de historische continuïteit van benchmarks te doorbreken en om nieuwe onderzoeksartikelen te bezaaien met kwalificaties en disclaimer met betrekking tot equivalentie).
Als een stap om de situatie te verhelpen, hebben de onderzoekers een nieuwe subset van ImageNet gemaakt, genaamd ImageNet-Major (ImageNet-M), die ze beschrijven als ‘een 68-voorbeeld “grote fout” slice van de voor de hand liggende fouten die de beste modellen van vandaag maken – een slice waarop modellen bijna perfect moeten presteren, maar vandaag verre van doen.’
Het paper heeft als titel Wanneer wordt deeg een bagel? De resterende fouten in ImageNet analyseren, en is geschreven door vier auteurs van Google Research, samen met Sara Fridovich-Keil van UC Berkeley.
Technische schuld
De bevindingen zijn belangrijk omdat de resterende fouten die in ImageNet zijn geïdentificeerd (of verkeerd geïdentificeerd) in de 16 jaar sinds zijn oprichting, het centrale onderwerp van het onderzoek, het verschil kunnen vertegenwoordigen tussen een inzetbaar model en een model dat foutgevoelig genoeg is om niet losgelaten te kunnen worden op live data. Zoals altijd is de laatste mijl kritiek.
De computer vision en image synthesis onderzoekssector heeft effectief ‘zelf-geselecteerd’ ImageNet als een benchmark-metric, om een aantal redenen – niet in het minst omdat een groot aantal vroege aanhangers, op een moment waarop high-volume en goed gelabelde datasets zeldzamer waren dan ze nu zijn, zo veel onderzoeksinitiatieven produceerden dat testen tegen ImageNet snel de enige breed toepasbare historische ‘standaard’ voor het benchmarken van nieuwe frameworks werd.
Methode
Op zoek naar de ‘resterende fouten’ in ImageNet, gebruikten de onderzoekers een standaard ViT model (dat een nauwkeurigheid van 89,5% kan behalen) met 3 miljard parameters, Vit-3B, vooraf getraind op JFT-3B en fijngesteld op ImageNet-1K.
Met behulp van de ImageNet2012_multilabel dataset, registreerden de onderzoekers de initiële multi-label nauwkeurigheid (MLA) van ViT-3B als 96,3%, tijdens welke het model 676 vermeende fouten maakte. Het waren deze fouten (en ook fouten gegenereerd door een Greedy Soups model) die de auteurs wilden onderzoeken.
Om de resterende 676 fouten te evalueren, vermieden de auteurs crowdsworkers, waarbij werd opgemerkt dat fouten van dit type moeilijk voor gemiddelde annotators kunnen zijn om te herkennen, maar verzamelden een panel van vijf expert-beoordelaars, en creëerden een speciaal instrument om elke beoordelaar in één oogopslag de voorspelde klasse te laten zien; de voorspelde score; de grondwaarheidslabels; en de afbeelding zelf.

De UI die voor het project is gebouwd.
In sommige gevallen was verdere onderzoek noodzakelijk om meningsverschillen onder het panel op te lossen, en werd Google Image-zoek gebruikt als een hulpmiddel.
‘[In] een interessant maar niet geïsoleerd geval, was een voorspelling van een taxi (zonder duidelijke taxiteken beyond yellow color) aanwezig in de afbeelding; we hebben vastgesteld dat de voorspelling correct was en geen standaard voertuig was door een landmarkbrug in de achtergrond te identificeren om de stad te localiseren, en een daaropvolgende afbeeldingzoeking voor taxi’s in die stad opleverde afbeeldingen van hetzelfde taximodel en kentekenontwerp, waarmee de voorspelling van het model werd bevestigd.’
Na de initiële beoordeling van de fouten die werden gevonden in verschillende fasen van het onderzoek, formuleerden de auteurs vier nieuwe fouttypen: fijne fout, waar de voorspelde klasse vergelijkbaar is met een grondwaarheidslabel; fijne fout met out-of-vocabulary (OOV), waar het model een object identificeert waarvan de klasse correct is maar niet aanwezig is in ImageNet; spurieuze correlatie, waar de voorspelde label uit de context van de afbeelding wordt gelezen; en non-prototypisch, waar het grondwaarheidsobject een twijfelachtig voorbeeld is van de klasse die op de voorspelde label lijkt.
In sommige gevallen was de grondwaarheid zelf niet ‘waar’:
‘Na beoordeling van de oorspronkelijke 676 fouten [gevonden in ImageNet], vonden we dat 298 ofwel correct of onduidelijk waren, of dat de oorspronkelijke grondwaarheid onjuist of problematisch was.’
Na een uitputtende en complexe ronde van experimenten over een reeks datasets, subsets en validatiesets, vonden de auteurs dat de twee modellen die werden onderzocht, eigenlijk correct werden geacht (door de menselijke beoordelaars) voor de helft van de ‘fouten’ die ze maakten onder conventionele technieken.
Het paper concludeert:
‘In dit paper hebben we elke resterende fout geanalyseerd die de ViT-3B en Greedy Soups modellen maken op de ImageNet multi-label validatie-set.
‘Over het algemeen vonden we dat: 1) wanneer een groot, hoog-nauwkeurigheidsmodel een nieuwe voorspelling maakt die niet door andere modellen wordt gemaakt, het eindigt als een correcte nieuwe multi-label bijna de helft van de tijd; 2) modellen met hogere nauwkeurigheid vertonen geen duidelijk patroon in onze categorieën en ernst van fouten die ze oplossen; 3) SOTA-modellen van vandaag zijn grotendeels gelijk aan of beter dan de prestaties van de beste expert-mens op de door de mens beoordeelde multi-label subset; 4) lawaaierige trainingsdata en onduidelijk gedefinieerde klassen kunnen een factor zijn die de effectieve meting van verbeteringen in imageclassificatie beperkt.’
First published 15th May 2022.












