Tekoäly

ImageNetin historiallisen tarkkuuden arviointi

Päivitetty on Joulukuu 9, 2022

Google Researchin ja UC Berkeleyn uusi tutkimus lisää pitkäaikainen kritiikki tietokonenäön (CV) -tutkimuksen alan riippuvuudesta kunnioitettaviin IMAGEnet tietojoukko ja sen monet johdannaiset. Pitkän työvoimavaltaisen manuaalisen arvioinnin jälkeen kirjoittajat päättelevät, että lähes 50 % oletetuista virheistä, joita parhaat mallit tekevät ImageNetin usean etiketin osajoukkoarvioinnissa (jossa nykyiset parhaiten toimivat mallit saavuttavat yli 97 % 1 tarkkuus) eivät ole varsinaisesti virheellisiä.

Paperista:

"Analyysimme paljastaa, että lähes puolet oletetuista virheistä ei ole ollenkaan virheitä, ja löydämme uusia kelvollisia monimerkkisiä merkintöjä, jotka osoittavat, että ilman huolellista tarkastelua aliarvioimme merkittävästi näiden mallien suorituskykyä.

"Toisaalta huomaamme myös, että nykypäivän parhaat mallit tekevät edelleen huomattavan määrän (40 %) virheitä, jotka ovat ilmeisen vääriä arvioijien silmissä."

Missä määrin tietojoukkojen virheellinen merkintä – erityisesti kouluttamattomien joukkolähdetyöntekijöiden toimesta – saattaa vääristää alaa, paljastui tutkimuksen huolellinen lähestymistapa kuva/teksti-parien arvioinnissa ImageNetin laajassa historiassa.

Ylärivillä esimerkkejä virheiden vakavuudesta: kahdessa ensimmäisessä esimerkissä uusi malli yksinkertaisesti saa ennustetun etiketin väärin; kolmannessa esimerkissä uusi malli identifioi aiemmin puuttuvan monitunnisteen (tunnisteen, joka koskee kuvan uutta luokittelua); viimeisessä ylärivin kuvassa mallin ennustus on epäselvä, koska kuva on mehiläiskärpäs eikä kärpäs. Keskimääräinen mehiläinen kuuluu kuitenkin Diptera-hyönteisryhmään, joten tätä poikkeusta olisi lähes mahdoton havaita edes asiantuntijalle. Alla olevalla rivillä on neljä virheluokkaa esimerkkeineen. Lähde: https://arxiv.org/pdf/2205.04596.pdf

Tutkijat käyttivät pientä joukkoa omistautuneita arvioijia tarkastelemaan huolellisesti historiallisia virhetietueita ImageNet-tietojoukon arvioinnissa ja havaitsivat, että monet virhearvioinnit ovat itsessään virheitä – löytö, joka mahdollisesti muuttaa joitakin monien hankkeiden heikkoja pistemääriä. ImageNetin vertailuarvot vuosien varrella.

Kun ImageNet juurtuu CV-kulttuuriin, tutkijat väittävät, että tarkkuuden parannusten uskotaan tuovan heikkenevää tuottoa ja että uusia malleja, jotka ylittävät vakiintuneen tarratarkkuuden ja jotka ehdottavat uusia (eli lisä)tarroja, voidaan rangaista lähinnä laiminlyönnistä. - vaatimustenmukaisuus.

'Esimerkiksi,' kirjoittajat huomioivat. "Pitäisikö meidän rangaista malleja siitä, että he ovat ensimmäiset ennustaneet, että esipaistettu bageli voi olla bageli, kuten yksi tässä työssä tarkastelemistamme malleista tekee?"

Paperin mukaan uudempi malli uhmaa ennakkoennustetta, että valokuvassa oleva esine on taikina, ja ehdottaa, että esine on itse asiassa jo bagel.

Sellaisen objektin tunnistamiseen tehtävän joukkolähdetyöntekijän näkökulmasta tämä on semanttinen ja jopa filosofinen pulma, joka voidaan ratkaista vain useilla merkinnöillä (kuten usein tapahtuu ImageNetin myöhemmissä osajoukoissa ja myöhemmissä iteraatioissa); yllä olevassa tapauksessa esine on todellakin sekä taikina että ainakin syntymässä oleva bagel.

Suuret (yllä) ja pienet (alla) virheet, jotka ilmenivät tutkimuksessa räätälöityjä malleja testattaessa. Alkuperäiset ImageNet-tarrat ovat ensimmäiset kuvat vasemmalla.

Kaksi ilmeistä ratkaisua ovat enemmän resurssien osoittaminen merkintöihin (mikä on haaste useimpien tietokonenäön tutkimushankkeiden budjettirajoitusten puitteissa). ja, kuten kirjoittajat korostavat, päivittämään säännöllisesti tietokokonaisuuksia ja merkintöjen arvioinnin osajoukkoja (jotka muiden esteiden ohella uhkaavat rikkoa vertailuarvojen historiallisen jatkuvuuden "samankaltaisesta" ja täynnä uusia tutkimuspapereita vastaavuuteen liittyvillä tarkennuksilla ja vastuuvapauslausekkeilla) .

Askeleena tilanteen korjaamiseksi tutkijat ovat kehittäneet ImageNetin uuden aliaineiston ns. ImageNet-Major (ImageNet-M), jota he kuvaavat nimellä "68 esimerkin "suuren virheen" siivu nykypäivän huippumallien ilmeisistä virheistä - siivu, jossa mallien pitäisi saavuttaa lähes täydellisyyttä, mutta nykyään se on kaukana siitä."

- paperi on otsikko Milloin taikinasta tulee bagel? Analysoimme ImageNetin jäljellä olevia virheitä, ja sen on kirjoittanut neljä Google Researchin kirjailijaa yhdessä Sara Fridovich-Keilin kanssa UC Berkeleystä.

Tekninen velka

Löydökset ovat tärkeitä, koska jäljelle jääneet virheet, jotka on tunnistettu (tai väärin tunnistettu) ImageNetissä 16 vuoden aikana sen perustamisesta, tutkimuksen keskeisessä tutkimuksessa, voivat edustaa eroa käyttöön otettavan mallin ja sellaisen mallin välillä, joka on tarpeeksi virhealtis, jotta se ei voi. t päästää irti reaaliaikaisesta datasta. Kuten aina, viimeinen kilometri on kriittinen.

Tietokonenäön ja kuvasynteesin tutkimussektori on tehokkaasti "automaattisesti valinnut" ImageNetin vertailumittariksi useista syistä – ei vähiten siksi, että varhaisten omaksujien ihottuma aikana, jolloin suuren volyymin ja hyvin merkityt tietojoukot olivat harvinaisempia. kuin nyt, tuottivat niin paljon tutkimushankkeita, että ImageNet-testauksesta tuli nopeasti ainoa laajalti sovellettava historiallinen "standardi" uusien kehysten vertailuun.

Menetelmä

Etsiessään "jäljellä olevia virheitä" ImageNetissä tutkijat käyttivät standardia ViT malli (joka pystyy saavuttamaan 89.5 prosentin tarkkuuden 3 miljardilla parametrilla), Vit-3B, esikoulutettu JFT-3B ja hienosäädetty päälle ImageNet-1K.

Käyttäen ImageNet2012_multilabel Tutkijat kirjasivat ViT-3B:n alkuperäisen monimerkkitarkkuuden (MLA) 96.3 %:ksi, jonka aikana malli teki 676 ilmeistä virhettä. Juuri näitä virheitä (ja myös Greedy Soups -mallin tuottamia virheitä) kirjoittajat yrittivät tutkia.

Arvioidakseen loput 676 virhettä kirjoittajat välttelivät joukkotyöntekijöitä ja havaitsivat, että tämän tyyppiset virheet voivat olla vaikea keskivertokirjoittajat havaitsivat, mutta kokosi viiden asiantuntija-arvioijan paneelin ja loi erityisen työkalun, jonka avulla jokainen arvioija näki yhdellä silmäyksellä ennustetun luokan; ennustettu pistemäärä; perustotuustarrat; ja itse kuva.

Projektia varten rakennettu käyttöliittymä.

Joissakin tapauksissa lisätutkimus oli tarpeen paneelin välisten kiistojen ratkaisemiseksi, ja Googlen kuvahakua käytettiin apuvälineenä.

"[Yhdessä] mielenkiintoisessa, mutta ei yksittäistapauksessa, kuvassa oli ennustus taksista (ilman selkeitä taksin ilmaisimia keltaisen värin lisäksi); määritimme ennusteen olevan oikein taksitaksi eikä vain tavallinen ajoneuvo tunnistamalla taustalla maamerkkisillan kaupungin paikallistamiseksi, ja myöhempi taksien kuvahaku kyseisessä kaupungissa tuotti kuvia samasta taksimallista ja rekisterikilven suunnittelu, joka vahvistaa mallin todella oikean ennusteen.

Tutkittuaan alustavasti tutkimuksen useissa vaiheissa löydetyt virheet, kirjoittajat muotoilivat neljä uutta virhetyyppiä: hienorakeinen virhe, jossa ennustettu luokka on samanlainen kuin totuustunniste; hienorakeinen sanaston ulkopuolella (OOV), jossa malli identifioi objektin, jonka luokka on oikea, mutta jota ei ole ImageNetissä; väärä korrelaatio, jossa ennustettu otsikko luetaan irti kuvan kontekstista; ja ei-prototyyppinen, jossa perustotuusobjekti on harhaanjohtava esimerkki luokasta, joka muistuttaa ennustettua etikettiä.

Tietyissä tapauksissa perustotuus ei itse ollut "tosi":

"Tarkastettuamme alkuperäiset 676 virhettä [löytyi ImageNetistä], huomasimme, että 298 oli joko oikeita tai epäselviä tai totesi alkuperäisen totuuden virheelliseksi tai ongelmalliseksi."

Tehtyään kattavan ja monimutkaisen kokeen useilla tietojoukoilla, osajoukkoilla ja validointisarjoilla, kirjoittajat havaitsivat, että tutkittavat kaksi mallia pitivät itse asiassa oikeina (ihmisarvioijat) puoleen niistä "virheistä", joita he tekivät tavanomaisilla tekniikoilla. .

Paperin lopputulos:

"Tässä artikkelissa analysoimme kaikkia jäljellä olevia virheitä, joita ViT-3B- ja Greedy Soups -mallit tekevät ImageNet-monimerkkivalidointisarjassa.

”Kaiken kaikkiaan havaitsimme, että: 1) kun suuri, erittäin tarkka malli tekee uudenlaisen ennusteen, jota muut mallit eivät ole tehneet, se on lähes puolet ajasta oikea uusi monimerkki; 2) korkeamman tarkkuuden mallit eivät osoita ilmeistä mallia luokissamme ja niiden ratkaisemissa virheiden vakavuusasteessa; 3) SOTA-mallit vastaavat nykyään suurelta osin tai päihittävät parhaan asiantuntija-ihmisen suorituskyvyn ihmisen arvioimassa monimerkkiosajoukossa; 4) meluisat harjoitustiedot ja alimääritellyt luokat voivat olla tekijä, joka rajoittaa kuvan luokituksen parannuksien tehokasta mittaamista.

Julkaistu ensimmäisen kerran 15.

Liittyvät aiheet:Tietokoneen visio varustellun tutkimus

Seuraavaksi

NeRF: Neuraalisten säteilykenttien sisällön muokkaamisen haaste

Älä missaa

Tutkijoiden tehomikroprosessori, jossa on leviä, valoa ja vettä

Martin Anderson

Kirjoittaja koneoppimisesta, tekoälystä ja big datasta.
Henkilökohtainen sivusto: martinanderson.ai
Ottaa yhteyttä: [sähköposti suojattu]
Twitter: @manders_ai