Tekoäly
ImageNetin historiallisen tarkkuuden arviointi
Google Researchin ja UC Berkeleyn uusi tutkimus lisää pitkäaikainen kritiikki tietokonenäön (CV) -tutkimuksen alan riippuvuudesta kunnioitettaviin IMAGEnet tietojoukko ja sen monet johdannaiset. Pitkän työvoimavaltaisen manuaalisen arvioinnin jälkeen kirjoittajat päättelevät, että lähes 50 % oletetuista virheistä, joita parhaat mallit tekevät ImageNetin usean etiketin osajoukkoarvioinnissa (jossa nykyiset parhaiten toimivat mallit saavuttavat yli 97 % 1 tarkkuus) eivät ole varsinaisesti virheellisiä.
Paperista:
"Analyysimme paljastaa, että lähes puolet oletetuista virheistä ei ole ollenkaan virheitä, ja löydämme uusia kelvollisia monimerkkisiä merkintöjä, jotka osoittavat, että ilman huolellista tarkastelua aliarvioimme merkittävästi näiden mallien suorituskykyä.
"Toisaalta huomaamme myös, että nykypäivän parhaat mallit tekevät edelleen huomattavan määrän (40 %) virheitä, jotka ovat ilmeisen vääriä arvioijien silmissä."
Missä määrin tietojoukkojen virheellinen merkintä – erityisesti kouluttamattomien joukkolähdetyöntekijöiden toimesta – saattaa vääristää alaa, paljastui tutkimuksen huolellinen lähestymistapa kuva/teksti-parien arvioinnissa ImageNetin laajassa historiassa.
Tutkijat käyttivät pientä joukkoa omistautuneita arvioijia tarkastelemaan huolellisesti historiallisia virhetietueita ImageNet-tietojoukon arvioinnissa ja havaitsivat, että monet virhearvioinnit ovat itsessään virheitä – löytö, joka mahdollisesti muuttaa joitakin monien hankkeiden heikkoja pistemääriä. ImageNetin vertailuarvot vuosien varrella.
Kun ImageNet juurtuu CV-kulttuuriin, tutkijat väittävät, että tarkkuuden parannusten uskotaan tuovan heikkenevää tuottoa ja että uusia malleja, jotka ylittävät vakiintuneen tarratarkkuuden ja jotka ehdottavat uusia (eli lisä)tarroja, voidaan rangaista lähinnä laiminlyönnistä. - vaatimustenmukaisuus.
'Esimerkiksi,' kirjoittajat huomioivat. "Pitäisikö meidän rangaista malleja siitä, että he ovat ensimmäiset ennustaneet, että esipaistettu bageli voi olla bageli, kuten yksi tässä työssä tarkastelemistamme malleista tekee?"
Sellaisen objektin tunnistamiseen tehtävän joukkolähdetyöntekijän näkökulmasta tämä on semanttinen ja jopa filosofinen pulma, joka voidaan ratkaista vain useilla merkinnöillä (kuten usein tapahtuu ImageNetin myöhemmissä osajoukoissa ja myöhemmissä iteraatioissa); yllä olevassa tapauksessa esine on todellakin sekä taikina että ainakin syntymässä oleva bagel.
Kaksi ilmeistä ratkaisua ovat enemmän resurssien osoittaminen merkintöihin (mikä on haaste useimpien tietokonenäön tutkimushankkeiden budjettirajoitusten puitteissa). ja, kuten kirjoittajat korostavat, päivittämään säännöllisesti tietokokonaisuuksia ja merkintöjen arvioinnin osajoukkoja (jotka muiden esteiden ohella uhkaavat rikkoa vertailuarvojen historiallisen jatkuvuuden "samankaltaisesta" ja täynnä uusia tutkimuspapereita vastaavuuteen liittyvillä tarkennuksilla ja vastuuvapauslausekkeilla) .
Askeleena tilanteen korjaamiseksi tutkijat ovat kehittäneet ImageNetin uuden aliaineiston ns. ImageNet-Major (ImageNet-M), jota he kuvaavat nimellä "68 esimerkin "suuren virheen" siivu nykypäivän huippumallien ilmeisistä virheistä - siivu, jossa mallien pitäisi saavuttaa lähes täydellisyyttä, mutta nykyään se on kaukana siitä."
- paperi on otsikko Milloin taikinasta tulee bagel? Analysoimme ImageNetin jäljellä olevia virheitä, ja sen on kirjoittanut neljä Google Researchin kirjailijaa yhdessä Sara Fridovich-Keilin kanssa UC Berkeleystä.
Tekninen velka
Löydökset ovat tärkeitä, koska jäljelle jääneet virheet, jotka on tunnistettu (tai väärin tunnistettu) ImageNetissä 16 vuoden aikana sen perustamisesta, tutkimuksen keskeisessä tutkimuksessa, voivat edustaa eroa käyttöön otettavan mallin ja sellaisen mallin välillä, joka on tarpeeksi virhealtis, jotta se ei voi. t päästää irti reaaliaikaisesta datasta. Kuten aina, viimeinen kilometri on kriittinen.
Tietokonenäön ja kuvasynteesin tutkimussektori on tehokkaasti "automaattisesti valinnut" ImageNetin vertailumittariksi useista syistä – ei vähiten siksi, että varhaisten omaksujien ihottuma aikana, jolloin suuren volyymin ja hyvin merkityt tietojoukot olivat harvinaisempia. kuin nyt, tuottivat niin paljon tutkimushankkeita, että ImageNet-testauksesta tuli nopeasti ainoa laajalti sovellettava historiallinen "standardi" uusien kehysten vertailuun.
Menetelmä
Etsiessään "jäljellä olevia virheitä" ImageNetissä tutkijat käyttivät standardia ViT malli (joka pystyy saavuttamaan 89.5 prosentin tarkkuuden 3 miljardilla parametrilla), Vit-3B, esikoulutettu JFT-3B ja hienosäädetty päälle ImageNet-1K.
Käyttäen ImageNet2012_multilabel Tutkijat kirjasivat ViT-3B:n alkuperäisen monimerkkitarkkuuden (MLA) 96.3 %:ksi, jonka aikana malli teki 676 ilmeistä virhettä. Juuri näitä virheitä (ja myös Greedy Soups -mallin tuottamia virheitä) kirjoittajat yrittivät tutkia.
Arvioidakseen loput 676 virhettä kirjoittajat välttelivät joukkotyöntekijöitä ja havaitsivat, että tämän tyyppiset virheet voivat olla vaikea keskivertokirjoittajat havaitsivat, mutta kokosi viiden asiantuntija-arvioijan paneelin ja loi erityisen työkalun, jonka avulla jokainen arvioija näki yhdellä silmäyksellä ennustetun luokan; ennustettu pistemäärä; perustotuustarrat; ja itse kuva.
Joissakin tapauksissa lisätutkimus oli tarpeen paneelin välisten kiistojen ratkaisemiseksi, ja Googlen kuvahakua käytettiin apuvälineenä.
"[Yhdessä] mielenkiintoisessa, mutta ei yksittäistapauksessa, kuvassa oli ennustus taksista (ilman selkeitä taksin ilmaisimia keltaisen värin lisäksi); määritimme ennusteen olevan oikein taksitaksi eikä vain tavallinen ajoneuvo tunnistamalla taustalla maamerkkisillan kaupungin paikallistamiseksi, ja myöhempi taksien kuvahaku kyseisessä kaupungissa tuotti kuvia samasta taksimallista ja rekisterikilven suunnittelu, joka vahvistaa mallin todella oikean ennusteen.
Tutkittuaan alustavasti tutkimuksen useissa vaiheissa löydetyt virheet, kirjoittajat muotoilivat neljä uutta virhetyyppiä: hienorakeinen virhe, jossa ennustettu luokka on samanlainen kuin totuustunniste; hienorakeinen sanaston ulkopuolella (OOV), jossa malli identifioi objektin, jonka luokka on oikea, mutta jota ei ole ImageNetissä; väärä korrelaatio, jossa ennustettu otsikko luetaan irti kuvan kontekstista; ja ei-prototyyppinen, jossa perustotuusobjekti on harhaanjohtava esimerkki luokasta, joka muistuttaa ennustettua etikettiä.
Tietyissä tapauksissa perustotuus ei itse ollut "tosi":
"Tarkastettuamme alkuperäiset 676 virhettä [löytyi ImageNetistä], huomasimme, että 298 oli joko oikeita tai epäselviä tai totesi alkuperäisen totuuden virheelliseksi tai ongelmalliseksi."
Tehtyään kattavan ja monimutkaisen kokeen useilla tietojoukoilla, osajoukkoilla ja validointisarjoilla, kirjoittajat havaitsivat, että tutkittavat kaksi mallia pitivät itse asiassa oikeina (ihmisarvioijat) puoleen niistä "virheistä", joita he tekivät tavanomaisilla tekniikoilla. .
Paperin lopputulos:
"Tässä artikkelissa analysoimme kaikkia jäljellä olevia virheitä, joita ViT-3B- ja Greedy Soups -mallit tekevät ImageNet-monimerkkivalidointisarjassa.
”Kaiken kaikkiaan havaitsimme, että: 1) kun suuri, erittäin tarkka malli tekee uudenlaisen ennusteen, jota muut mallit eivät ole tehneet, se on lähes puolet ajasta oikea uusi monimerkki; 2) korkeamman tarkkuuden mallit eivät osoita ilmeistä mallia luokissamme ja niiden ratkaisemissa virheiden vakavuusasteessa; 3) SOTA-mallit vastaavat nykyään suurelta osin tai päihittävät parhaan asiantuntija-ihmisen suorituskyvyn ihmisen arvioimassa monimerkkiosajoukossa; 4) meluisat harjoitustiedot ja alimääritellyt luokat voivat olla tekijä, joka rajoittaa kuvan luokituksen parannuksien tehokasta mittaamista.
Julkaistu ensimmäisen kerran 15.