Umělá inteligence
Hodnocení historické přesnosti ImageNet

Nová studie od Google Research a UC Berkeley přidává k dlouhodobé kritice ohledně závislosti počítačového vidění (CV) výzkumu na uznávaném datasetu ImageNet a jeho mnoha derivátech. Po velké a namáhavé manuální evaluaci autoři dospěli k závěru, že téměř 50 % předpokládaných chyb, které nejlepší modely dělají na multi-label subset evaluaci ImageNet (kde současné nejlepší modely dosahují přes 97% top-1 přesnosti), nejsou ve skutečnosti chyby.
Z paperu:
‘Naše analýza odhalila, že téměř polovina předpokládaných chyb nejsou ve skutečnosti chyby, a objevujeme nové platné multi-labely, což ukazuje, že bez pečlivého přezkumu výrazně podceňujeme výkon těchto modelů.
‘Na druhou stranu jsme také zjistili, že nejlepší modely dneška stále dělají značné množství chyb (40%), které jsou zjevně špatné pro lidské recenzenty.’
Rozsah, v jakém nesprávné označení datasetů – zejména neskilled crowdsource pracovníky – může zkreslovat sektor, byl odhalen pečlivým přístupem k evaluaci image/text pairings napříč velkou částí historie ImageNet.

V horní řadě jsou příklady chybovosti: v prvních dvou případech nový model prostě chybně předpovídá label; ve třetím případě nový model identifikuje dříve chybějící multi-label (label, který řeší novou kategorizaci obrázku); ve čtvrtém obrázku v horní řadě je předpověď modelu nejednoznačná, protože obrázek je bee-fly a ne fly. Nicméně, průměrný včela patří do řádu hmyzu Diptera, a tak by tato výjimka byla téměř nemožná k rozpoznání, i pro odborného annotátora. V řadě níže jsou čtyři kategorie chyb, s příklady. Source: https://arxiv.org/pdf/2205.04596.pdf
Výzkumníci zaměstnávali malé množství dedikovaných evaluatorů, aby namáhavě přezkoumali historické záznamy chyb v ImageNet datasetu, a zjistili, že velké množství chyb je samo o sobě chybné – objev, který potenciálně reviduje některé špatné hodnocení, které mnoho projektů získalo na ImageNet benchmarcích v průběhu let.
Jak ImageNet se upevňuje v CV kultuře, výzkumníci tvrdí, že zlepšení přesnosti přinášejí klesající výnosy, a že nové modely, které překračují zavedenou přesnost labelů a které navrhují nové (tj. další) labely, mohou být trestány, vlastně, za nekonformitu.
‘Například,’ autoři pozorují. ‘Měli bychom trestat modely za to, že jsou první, kdo předpovídá, že předpečený bagel může být bagel, jako jeden z modelů, které jsme přezkoumali v této práci?’

Z paperu, nový model popírá předchozí předpověď, že objekt na fotografii je těsto, a navrhuje, že objekt je ve skutečnosti již bagel).
Z pohledu crowdsourced pracovníka, který má za úkol identifikovat takový objekt, je to semantická a dokonce filozofická záležitost, která může být řešena pouze pomocí multi-labelingu (jako často dochází v pozdějších podmnožinách a následujících iteracích ImageNet).

Hlavní (nahoře) a vedlejší (dole) chyby, které vyšly najevo při testování vlastních modelů ve výzkumu. Původní ImageNet labely jsou první obrázky vlevo.
Dvě zjevné řešení jsou přiřazovat více zdrojů k označení (což je výzvou, v rámci rozpočtových omezení většiny počítačového vidění výzkumných projektů); a, jak autoři zdůrazňují, pravidelně aktualizovat datasety a label evaluace sub-sets (což, mezi jinými překážkami, riskuje porušit ‘like for like’ historickou kontinuitu benchmarcích, a rozptýlit nové výzkumné papíry s kvalifikacemi a upozorněními ohledně ekvivalence).
Jako krok k nápravě situace, výzkumníci vyvinuli nový sub-dataset ImageNet nazvaný ImageNet-Major (ImageNet-M), který popisují jako ’68-příklad “hlavní chyba” slice zjevných chyb, které dělají dnešní nejlepší modely – slice, kde modely by měly dosáhnout téměř dokonalosti, ale dnes jsou daleko od toho.’
Paper paper je nazvaný Kdy se těsto stává bagel? Analýza zbývajících chyb na ImageNet, a je napsán čtyřmi autory z Google Research, spolu se Sarou Fridovich-Keil z UC Berkeley.
Technický dluh
Zjištění jsou důležitá, protože zbývající chyby identifikované (nebo misidentifikované) v ImageNet, v 16 letech od jeho vzniku, centrální studie výzkumu, mohou představovat rozdíl mezi nasaditelným modelem a modelem, který je chybový enough, aby nemohl být uvolněn na živá data. Jako vždy, poslední míli je kritická.
Sektor počítačového vidění a obrazové syntézy výzkumu se efektivní ‘auto-selektován’ ImageNet jako benchmark metriky, z důvodu – nejméně protože raní adoptoři, v době, kdy high-volume a dobře označené datasety byly vzácnější než jsou nyní, produkovali tolik výzkumných iniciativ, že testování proti ImageNet rychle se stalo jediným široce aplikovatelným historickým ‘standardem’ pro benchmarking nových rámců.
Metoda
Hledání ‘zbývajících chyb’ v ImageNet, výzkumníci používali standardní ViT model (schopný dosáhnout přesnosti 89,5%) s 3 miliardami parametrů, Vit-3B, předtrénovaný na JFT-3B a fine-tuned na ImageNet-1K.
Používají ImageNet2012_multilabel dataset, výzkumníci zaznamenali počáteční multi-label přesnost (MLA) ViT-3B jako 96,3%, během které model udělal 676 zjevných chyb. Bylo těchto chyb (a také chyb produkoval Greedy Soups model) že autoři se snažili prozkoumat.
Aby vyhodnotili zbývající 676 chyb, autoři se vyhnuli crowdworkerům, pozorují, že chyby tohoto typu mohou být obtížné pro průměrné annotátory k rozpoznání, ale shromáždili panel pěti odborných recenzentů, a vytvořili dedikovaný nástroj, aby každý recenzent mohl vidět na první pohled předpověděnou třídu; předpověděný skóre; ground truth labely; a obrázek sám.

UI postavený pro projekt.
V některých případech, další výzkum byl nezbytný k řešení sporů mezi panelem, a Google Image search byl použit jako pomocný nástroj.
‘[V] jednom zajímavém, ale ne izolovaném případě, předpověď taxi (s žádnými zjevnými taxi indikátory beyond žlutou barvu) byla přítomna v obrázku; jsme určili předpověď jako správnou taxi a ne jen standardní vozidlo identifikací mostu na pozadí, aby lokalizoval město, a následný image search pro taxi v tomto městě vynesl obrázky stejného taxi modelu a designu licence, validující modelovu skutečně správnou předpověď.’
Po počáteční revizi chyb nalezených přes několik fází výzkumu, autoři formulovali čtyři nové typy chyb: jemnozrnná chyba, kde předpověděná třída je podobná ground-truth labelu; jemnozrnná s out-of-vocabulary (OOV), kde model identifikuje objekt, jehož třída je správná, ale není přítomna v ImageNet; spurious korelace, kde předpověděný label je čten out of kontextu obrázku; a non-prototypická, kde ground truth objekt je specifická instance třídy, která se podobá předpověděnému labelu.
V určitých případech, ground truth nebyl sám o sobě ‘pravdivý’:
‘Po revizi původních 676 chyb [nalezených v ImageNet], jsme našli, že 298 byly buď správné nebo nejasné, nebo určili původní groundtruth nesprávné nebo problematické.’
Po vyčerpávající a komplexní sérii experimentů napříč různými datasety, sub-sets a validačními sadami, autoři zjistili, že dva modely pod studiem byly vlastně považovány za správné (lidskými recenzenty) pro polovinu ‘chyb’, které udělaly konvenčními technikami.
Paper uzavírá:
‘V tomto paperu, jsme analyzovali každou zbývající chybu, kterou ViT-3B a Greedy Soups modely dělají na ImageNet multi-label validaci.
‘Celkově, jsme našli, že: 1) když velký, high-accuracy model dělá novou předpověď, která nebyla provedena jinými modely, skončí jako správná nová multi-label téměř polovinu času; 2) modely s vyšší přesností nevykazují zjevný vzorec v našich kategoriích a závažnosti chyb, které řeší; 3) SOTA modely dneška jsou většinou shodné nebo lepší než výkon nejlepšího lidského recenzenta na human-evaluated multi-label subset; 4) šumivé trénovací data a podspecifikované třídy mohou být faktorem, který omezuje efektivní měření zlepšení v image klasifikaci.’
Poprvé publikováno 15. května 2022.












