Connect with us

Arvioiden historiallinen tarkkuus ImageNetissä

Tekoäly

Arvioiden historiallinen tarkkuus ImageNetissä

mm

Google Researchin ja UC Berkeley:n uusi tutkimus lisää pitkään jatkuneeseen kritiikkiin tietokoneen näön (CV) tutkimuksen alalla, joka perustuu vankkaan ImageNet-datasetiin ja sen moniin johdannaisiin. Pitkän ja työlään manuaalisen arvioinnin jälkeen tutkijat toteavat, että lähes 50 % parhaiden mallien tekemistä virheistä ImageNetin monimerkkisen alijoukon arvioinnissa (jossa nykyiset parhaat mallit saavuttavat yli 97 %:n top-1 -tarkin luokittelun) eivät ole virheitä lainkaan.

Tutkimuksesta:

‘Analyysimme paljastaa, että lähes puolet virheistä eivät ole virheitä lainkaan, ja me löysimme uusia voimassa olevia monimerkkejä, osoittaen, että ilman huolellista tarkastelua aliarvioimme näiden mallien suorituskykyä.

‘Toisaalta me myös havaitsemme, että nykyiset parhaat mallit tekevät edelleen merkittävän määrän virheitä (40 %), jotka ovat ilmeisiä virheitä ihmisten arvioijien mielestä.’

Tutkimuksessa paljastui, miten datan virheellinen merkintä – erityisesti ei-ammattitaitoisten joukkorahoituksen työntekijöiden toimesta – voi vääristää alaa, kun tutkijat käyttivät perusteellista lähestymistapaa arvioidakseen kuvatekstipareja laajan aikajakson ajan ImageNetin historiassa.

<img class="wp-image-181496 size-full" src="https://www.unite.ai/wp-content/uploads/2022/05/mistakes-and-categories-imagenet.jpg" alt="Ylärivissä esimerkkejä virheiden vakavuudesta: kahdessa ensimmäisessä esimerkissä uusi malli antaa vain virheellisen ennusteen; kolmannessa esimerkissä uusi malli tunnistaa aiemmin puuttuvan monimerkin (merkin, joka kohdistuu uuteen kuvan luokitteluun); viimeisessä kuvassa ylärivissä mallin ennuste on epäselvä, koska kuva esittää bee-flya eikä flya. Kuitenkin keskivertotoukka kuuluu Diptera-hyönteisten lahkoon, joten tämä poikkeus olisi lähes mahdoton havaita, jopa asiantuntijan annotoijalle. Lähde: https://arxiv.org/pdf/2205.04596.pdf

Tutkijat käyttivät pieniä määriä omistautuneita arvioijoita tarkastellakseen työlään ImageNet-datasetin virheellisiä arvioita, ja he löysivät, että suuri osa virheistä on itse asiassa virheellisiä – havainto, joka voi muuttaa joitakin huonoja tuloksia, joita monilla projekteilla on saavutettu ImageNet-benchmarkien aikana.

Koska ImageNet vakiintuu CV-kulttuurissa, tutkijat väittävät, että tarkin luokittelun parantaminen voi tuottaa vähenevän hyödyn, ja että uudet mallit, jotka ylittävät vakiintuneen merkin tarkin luokittelun ja ehdottavat uusia (eli lisää) merkkejä, voidaan rangaista – käytännössä epäsovinnaisuudesta.

‘Esimerkiksi,’ tutkijat huomauttavat. ‘pitäisikö meidän rangaista malleja siitä, että ne ennustavat, että esikypsennetty bageli on bageli, kuten yksi tutkimassamme malleista tekee?’

Tutkimuksesta, uudempi malli haastaa aiemman ennusteen, jonka mukaan kuvan esine on taikina, ja ehdottaa, että esine on itse asiassa jo bageli).

Tutkimuksesta, uudempi malli haastaa aiemman ennusteen, jonka mukaan kuvan esine on taikina, ja ehdottaa, että esine on itse asiassa jo bageli).

Joukkorahoituksen työntekijän näkökulmasta tämä on semanttinen ja jopa filosofinen ongelma, joka voidaan ratkaista vain monimerkinnällä (kuten usein tapahtuu myöhemmissä alijoukoissa ja myöhemmissä ImageNetin iteraatioissa).

Suuret (yläpuolella) ja pienet (alapuolella) virheet, jotka ilmestyivät testatessa mukautettuja malleja tutkimuksessa. Alkuperäiset ImageNet-merkit ovat ensimmäiset kuvat vasemmalla.

Suuret (yläpuolella) ja pienet (alapuolella) virheet, jotka ilmestyivät testatessa mukautettuja malleja tutkimuksessa. Alkuperäiset ImageNet-merkit ovat ensimmäiset kuvat vasemmalla.

Kaksi ilmeistä ratkaisua ovat merkitsemisen resurssien lisääminen (joka on haaste, useimmissa tietokoneen näön tutkimushankkeiden budjettirajoituksissa) ja, kuten tutkijat korostavat, datasetien ja merkin arviointialijoukkojen säännöllinen päivittäminen (joka, muun muassa, riski rikkoa “samanlainen kuin edellinen” historiallinen jatkuvuus benchmarkien ja tutkimuspaperien kanssa, ja lisätä uusia tutkimuspaperien lauseita ja varoituksia koskien vertailukelpoisuutta).

Tutkijat ovat kehittäneet uuden aladatasetin ImageNetistä, jota he kutsuvat ImageNet-Major (ImageNet-M), ja kuvaavat sitä ’68-esimerkin “suuri virhe” -viipale, jossa mallit tulisi saavuttaa lähes täydellisyys, mutta nykyisin ovat kaukana siitä.’

Tutkimus tutkimus on otsikoitu Milloin taikina tulee bageliksi? Analyysi ImageNetin jäljellä olevista virheistä, ja sitä ovat kirjoittaneet neljä Google Researchin tutkijaa yhdessä Sara Fridovich-Keilin kanssa UC Berkeleystä.

Tekninen velka

Tutkimuksen tulokset ovat tärkeitä, koska ImageNetissä havaitut virheet (tai väärät virheet) 16 vuoden aikana voivat edustaa eroa käyttöön otettavien mallien ja virhealttiiden mallien välillä, jotka eivät voi toimia suorittamalla live-dataa. Kuten aina, viimeinen maili on kriittinen.

Tietokoneen näön ja kuvansynteesin tutkimusalalla on käytännössä “automaattisesti valinnut” ImageNetin benchmark-mittariksi useista syistä – ei vähiten siksi, että varhaiset käyttäjät, aikana jolloin suuret ja hyvin merkityt datasetit olivat harvinaisia, tuottivat niin monta tutkimushanketta, että testaus ImageNetiä vasten tuli nopeasti ainoaksi laajasti sovellettavaksi historialliseksi “standardiksi” uusien kehysrakenteiden benchmarkkaamiseen.

Menetelmä

Etsiessään ImageNetin “jäljellä olevia virheitä”, tutkijat käyttivät standard ViT-mallia (joka pystyy saavuttamaan 89,5 %:n tarkin luokittelu) 3 miljardin parametrin kanssa, Vit-3B, joka on esikoulutettu JFT-3B:ssa ja hienosäädetty ImageNet-1K:ssa.

Käyttäen ImageNet2012_multilabel-datasetiä, tutkijat merkittivät ViT-3B:n alkuperäisen monimerkkiluokittelun (MLA) 96,3 %:ksi, jolloin malli teki 676 ilmeistä virhettä. Nämä virheet (ja myös Greedy Soups -mallin virheet) olivat niitä, joita tutkijat pyrkivät tutkimaan.

Virheiden arvioimiseksi tutkijat välttivät joukkorahoituksen työntekijöitä, huomauttaen, että näiden virheiden kaltaiset virheet voivat olla vaikeita keskivertotasoisen annotoijan havaita, mutta kokosivat paneelin viidestä asiantuntija-arvioijasta ja loivat omistautuneen työkalun, jotta kunkin arvioijan voisi nähdä yhdellä silmäyksellä ennustetun luokan; ennustetun tuloksen; alkuperäisen merkin; ja kuvan itsensä.

Käyttöliittymä, joka tehtiin hankkeelle.

Käyttöliittymä, joka tehtiin hankkeelle.

Joidenkin tapausten kohdalla edellytettiin lisätutkimusta ratkaistaaksesi riitoja paneelin jäsenten välillä, ja Google Image -haku oli käytössä apuvälineenä.

‘[Yhdessä] mielenkiintoisessa, mutta ei eristetyssä tapauksessa, taksin ennuste (jossa ei ollut ilmeisiä taksin merkkejä muuta kuin keltaista väriä) oli kuvassa; me todensimme ennusteen oikein olevan taksiksi eikä pelkästään standardiajoneuvona, tunnistamalla taustalla olevan maamerkin, jotta voitiin paikantaa kaupunki, ja seuraava kuva-haku taksien kaupungissa antoi saman taksimallin ja rekisterikilven suunnittelun kuvia, vahvistaen mallin oikean ennusteen.’

Virheiden alkuperäisen tarkastelun jälkeen useassa tutkimuksen vaiheessa tutkijat muodostivat neljä uutta virhetyyppiä: hienojakoinen virhe, jossa ennustettu luokka on samankaltainen kuin alkuperäinen merkin luokka; hienojakoinen ulkopuolella sanastoa (OOV), jossa malli tunnistaa esineen, jonka luokka on oikein, mutta ei ole mukana ImageNetissä; epäilyttävä yhteys, jossa ennustettu merkin luokka luetaan kuvan asiayhteydestä; ja ei-prototyypillinen, jossa alkuperäinen merkin luokka on epäilyttävä esimerkki luokasta, joka muistuttaa ennustettua luokkaa.

Joidenkin tapausten kohdalla alkuperäinen merkin luokka ei ollut itse asiassa “oikein”:

‘Alkuperäisten 676 virheen tarkastelun jälkeen [ImageNetissä] havaittiin, että 298 olivat joko oikein tai epäselviä tai määriteltiin alkuperäisen merkin luokan virheelliseksi tai ongelmallisiksi.’

Perusteellisen ja monimutkaisen kokeiden sarjan jälkeen useissa dataseteissä, alijoukoissa ja validointijoukoissa tutkijat totesivat, että kaksi tutkimassa olevaa mallia olivat itse asiassa oikein (ihmisten arvioijien mukaan) puolella virheistä, joita ne tekivät perinteisillä menetelmillä.

Tutkimus johtaa siihen, että:

‘Tässä tutkimuksessa analysoimme jokaisen jäljellä olevan virheen, jonka ViT-3B- ja Greedy Soups -mallit tekevät ImageNetin monimerkkivalidointijoukossa.

‘Yhteenvetona havaitsemme, että: 1) kun suuri, korkean tarkin luokittelun malli tekee uuden ennusteen, jota muut mallit eivät tee, se osoittautuu uudeksi oikeaksi monimerkiksi lähes puolella tapauksista; 2) korkeamman tarkin luokittelun mallit eivät näytä ilmeistä kaavaa virheiden luokissa ja vakavuudessa, joita ne ratkaisevat; 3) nykyiset parhaat mallit ovat pääosin vastaamassa tai ylittävät parhaiden asiantuntijoiden suorituskykyä ihmisarvioituissa monimerkkijoukoissa; 4) meluisa koulutusdata ja alimääritellyt luokat voivat olla tekijöitä, jotka rajoittavat parannusten tehokasta mittaamista kuvien luokittelussa.’

 

Julkaistu ensimmäisen kerran 15. toukokuuta 2022.

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]