Umetna inteligenca

Ocenjevanje zgodovinske točnosti ImageNeta

Posodobljeno on December 9, 2022

Nova študija Google Research in UC Berkeley dopolnjuje dolgoletne kritike glede zanašanja raziskovalnega sektorja računalniškega vida (CV) na častitljivega ImageNet nabor podatkov in njegove številne izpeljanke. Po velikem obsegu delovno intenzivnega ročnega ocenjevanja avtorji ugotavljajo, da skoraj 50 % domnevnih napak, ki jih naredijo najboljši modeli pri ocenjevanju podmnožic z več oznakami v ImageNetu (kjer trenutni najuspešnejši modeli dosegajo več kot 97 % najboljših modelov). 1 natančnost) dejansko niso napačne.

Iz papirja:

„Naša analiza razkriva, da skoraj polovica domnevnih napak sploh ni napak, in odkrivamo nove veljavne večoznak, ki dokazujejo, da brez natančnega pregleda bistveno podcenjujemo učinkovitost teh modelov.

'Po drugi strani pa tudi ugotavljamo, da današnji najboljši modeli še vedno delajo precejšnje število napak (40 %), ki so človeškim pregledovalcem očitno napačne.'

Obseg napačnega označevanja naborov podatkov – zlasti nekvalificirani množični delavci – morda izkrivlja sektor, je razkril skrben pristop študije k vrednotenju parov slike/besedila v velikem delu zgodovine ImageNet.

V zgornji vrstici primeri resnosti napake: v prvih dveh primerih tukaj novi model preprosto dobi napovedano oznako napačno; v tretjem primeru novi model identificira predhodno manjkajočo večoznako (oznaka, ki obravnava novo kategorizacijo slike); na končni sliki v zgornji vrstici je napoved modela dvoumna, ker je slika čebela muha in ne muha. Vendar pa povprečna čebela pripada redu žuželk Diptera, zato bi bilo te izjeme skoraj nemogoče opaziti, tudi za strokovnjaka za označevanje. V spodnji vrstici so štiri kategorije napak s primeri. Vir: https://arxiv.org/pdf/2205.04596.pdf

Raziskovalci so zaposlili majhno število predanih ocenjevalcev, da so skrbno pregledali zgodovinske zapise o napakah v vrednotenju nabora podatkov ImageNet, pri čemer so ugotovili, da je zelo veliko sodb o napakah samih napačnih – odkritje, ki lahko popravi nekatere slabe ocene, ki so jih številni projekti dosegli na Primerjalna merila ImageNet skozi leta.

Ker se ImageNet utrjuje v kulturi življenjepisov, raziskovalci trdijo, da naj bi izboljšave natančnosti prinašale vse manjše donose in da so novi modeli, ki presegajo uveljavljeno natančnost oznak in predlagajo nove (tj. dodatne) oznake, kaznovani v bistvu, ker niso -skladnost.

"Na primer," ugotavljata avtorja. "ali bi morali kaznovati modele, ker so prvi napovedali, da je predpečen bagel lahko bagel, kot to počne eden od modelov, ki ga pregledujemo v tem delu?"

Iz papirja novejši model nasprotuje predhodni napovedi, da je predmet na fotografiji testo, in nakazuje, da je predmet dejansko že pecivo).

Z vidika množičnega delavca, ki je zadolžen za identifikacijo takega predmeta, je to semantična in celo filozofska zagata, ki jo je mogoče rešiti le z večkratnim označevanjem (kot se pogosto zgodi v poznejših podmnožicah in kasnejših iteracijah ImageNet); v zgornjem primeru je objekt res tako testo kot vsaj nastajajoča peciva.

Večje (zgoraj) in manjše (spodaj) napake, ki so se pokazale pri testiranju prilagojenih modelov v raziskavi. Originalne oznake ImageNet so prve slike na levi.

Dve očitni rešitvi sta dodelitev več sredstev za označevanje (kar je izziv v okviru proračunskih omejitev večine raziskovalnih projektov računalniškega vida); in, kot poudarjajo avtorji, redno posodabljati nabore podatkov in označevati podskupine vrednotenja (kar med drugimi ovirami tvega prekinitev zgodovinske kontinuitete primerjalnih vrednosti "podobno za podobno" in zasipavanje novih raziskovalnih člankov s kvalifikacijami in zavrnitvami glede enakovrednosti) .

Kot korak k izboljšanju situacije so raziskovalci razvili nov podnabor podatkov ImageNet, imenovan ImageNet-Major (ImageNet-M), ki ga opisujejo kot 'razrez z 68 primeri 'velike napake' očitnih napak, ki so jih naredile današnje vrhunske manekenke—izrezek, kjer bi modeli morali doseči skoraj popolnost, a danes tega še zdaleč ne dosegajo.'

O papirja je naslovljen Kdaj testo postane pecivo? Analiza preostalih napak na ImageNet, napisali pa so ga štirje avtorji iz Google Research, skupaj s Saro Fridovich-Keil iz UC Berkeley.

Tehnični dolg

Ugotovitve so pomembne, ker lahko preostale napake, ugotovljene (ali napačno identificirane) v ImageNetu v 16 letih od njegove ustanovitve, osrednji študiji raziskave, predstavljajo razliko med uvedljivim modelom in modelom, ki je dovolj nagnjen k napakam, da lahko ne smejo biti objavljeni v živo. Kot vedno, zadnja milja je kritična.

Raziskovalni sektor računalniškega vida in sinteze slik je dejansko "samodejno izbral" ImageNet kot merilo uspešnosti iz več razlogov - nenazadnje zaradi množice prvih uporabnikov, v času, ko so bili obsežni in dobro označeni nabori podatkov redkejši. kot zdaj, so ustvarili toliko raziskovalnih pobud, da je testiranje z ImageNet hitro postalo edini široko uporaben zgodovinski 'standard' za primerjalno analizo novih ogrodij.

Metoda

Pri iskanju 'preostalih napak' v ImageNetu so raziskovalci uporabili standard ViT model (sposoben doseči natančnost 89.5 %) s 3 milijardami parametrov, Vit-3B, predhodno usposobljen na JFT-3B in natančno nastavljen ImageNet-1K.

Uporaba ImageNet2012_multilabel nabora podatkov so raziskovalci zabeležili začetno natančnost več oznak (MLA) ViT-3B kot 96.3 %, pri čemer je model naredil 676 očitnih napak. Prav te napake (in tudi napake, ki jih povzroči model Greedy Soups) so avtorji želeli raziskati.

Za ovrednotenje preostalih 676 napak so se avtorji izognili množičnim delavcem, pri čemer so opazili, da so tovrstne napake lahko težko za opazovanje povprečnih opombevalcev, vendar je sestavil skupino petih strokovnih ocenjevalcev in ustvaril namensko orodje, ki vsakemu ocenjevalcu omogoča, da na prvi pogled vidi predvideni razred; predvideni rezultat; oznake temeljne resnice; in slika sama.

Uporabniški vmesnik, izdelan za projekt.

V nekaterih primerih so bile potrebne nadaljnje raziskave za rešitev sporov med komisijo, Google Iskanje slik pa je bilo uporabljeno kot dodatno orodje.

„[V] enem zanimivem, a ne osamljenem primeru je bila na sliki napoved taksija (brez očitnih indikatorjev taksija razen rumene barve); ugotovili smo, da je predvidevanje pravilno taksi in ne samo standardno vozilo, tako da smo v ozadju identificirali znameniti most, da bi lokalizirali mesto, in naknadno iskanje slik za taksije v tem mestu je dalo slike istega modela taksija in oblikovanje registrske tablice, ki potrjuje dejansko pravilno napoved modela.«

Po začetnem pregledu napak, odkritih v več fazah raziskave, so avtorji oblikovali štiri nove vrste napak: drobnozrnata napaka, kjer je predvideni razred podoben oznaki temeljne resnice; drobno zrnat z izven besednjaka (OOV), kjer model identificira objekt, katerega razred je pravilen, vendar ni prisoten v ImageNet; lažna korelacija, kjer se predvidena oznaka bere izven konteksta slike; in neprototipsko, kjer je osnovni objekt resnice navidezen primer razreda, ki je podoben predvideni oznaki.

V nekaterih primerih temeljna resnica sama po sebi ni bila "resnična":

'Po pregledu prvotnih 676 napak [najdenih v ImageNetu] smo ugotovili, da jih je bilo 298 pravilnih ali nejasnih, ali pa smo ugotovili, da je prvotna temeljna resnica napačna ali problematična.'

Po izčrpnem in zapletenem krogu poskusov v vrsti podatkovnih nizov, podmnožic in validacijskih nizov so avtorji ugotovili, da sta proučevana modela dejansko veljala za pravilna (človeški pregledovalci) za polovico 'napak', ki sta jih naredila pri običajnih tehnikah. .

Dokument zaključuje:

„V tem prispevku smo analizirali vse preostale napake, ki jih naredita modela ViT-3B in Greedy Soups v nizu za preverjanje več oznak ImageNet.

„Na splošno smo ugotovili, da: 1) ko velik, visoko natančen model naredi novo napoved, ki je drugi modeli ne naredijo, je skoraj polovico časa pravilna nova večoznačevanje; 2) modeli z večjo natančnostjo ne prikazujejo očitnega vzorca v naših kategorijah in resnosti napak, ki jih rešujejo; 3) Današnji modeli SOTA se večinoma ujemajo ali prekašajo z zmogljivostjo najboljšega strokovnjaka na podmnožici več oznak, ki jo oceni človek; 4) šumni podatki o vadbi in premalo določeni razredi so lahko dejavnik, ki omejuje učinkovito merjenje izboljšav v klasifikaciji slike.'

Prvič objavljeno 15. maja 2022.

Sorodne teme:Računalniška vizija izrazit Raziskave

Up Next

NeRF: Izziv urejanja vsebine polj nevralnega sevanja

Ne zamudite

Raziskovalci napajajo mikroprocesor z algami, svetlobo in vodo

Martin Anderson

Pisec o strojnem učenju, umetni inteligenci in velikih podatkih.
Osebno spletno mesto: martinanderson.ai
Kontakt: [e-pošta zaščitena]
Twitter: @manders_ai