csonk Az ImageNet történeti pontosságának felmérése - Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

Az ImageNet történeti pontosságának felmérése

mm
korszerűsített on

A Google Research és a UC Berkeley új tanulmánya hozzáteszi régóta tartó kritika a számítógépes látás (CV) kutatási szektornak a tiszteletreméltóságra való támaszkodását illetően ImageNet adatkészletet és számos származékát. Sok munkaigényes manuális értékelés után a szerzők arra a következtetésre jutottak, hogy a legjobb modellek által elkövetett feltételezett hibák közel 50%-a az ImageNet többcímkés részhalmazának értékelése során (ahol a jelenlegi legjobban teljesítő modellek több mint 97%-át érik el) 1 pontossággal) valójában nem tévednek.

A papírból:

„Elemzésünkből kiderül, hogy a feltételezett hibák közel fele egyáltalán nem hiba, és új érvényes többcímkéket fedezünk fel, ami azt mutatja, hogy alapos áttekintés nélkül jelentősen alábecsüljük e modellek teljesítményét.

"Másrészt azt is tapasztaljuk, hogy a mai legjobb modellek még mindig jelentős számú hibát (40%) követnek el, amelyek nyilvánvalóan rosszak az emberi értékelők számára."

Az adatkészletek téves címkézésének mértéke – különösen szakképzetlen crowdsource munkások – lehet, hogy torzítja a szektort, derült ki a tanulmánynak a kép/szöveg párosítások értékelésének alapos megközelítéséből, az ImageNet történetének nagy skáláján.

A felső sorban példák a hiba súlyosságára: az első két példában az új modell egyszerűen rosszul kapja meg az előre jelzett címkét; a harmadik példában az új modell egy korábban hiányzó többcímkét azonosít (a kép újszerű kategorizálására szolgáló címkét); a felső sorban lévő utolsó képen a modell előrejelzése kétértelmű, mert a kép egy méhlégy és nem egy légy. Az átlagos méh azonban a kétszárnyú rovarok rendjébe tartozik, így ezt a kivételt még egy szakértő annotátor számára is szinte lehetetlen lenne észrevenni. Az alábbi sorban négy hibakategória látható példákkal. Forrás: https://arxiv.org/pdf/2205.04596.pdf

A felső sorban példák a hiba súlyosságára: az első két példában az új modell egyszerűen rosszul kapja meg az előre jelzett címkét; a harmadik példában az új modell egy korábban hiányzó többcímkét azonosít (a kép újszerű kategorizálására szolgáló címkét); a felső sorban lévő utolsó képen a modell előrejelzése kétértelmű, mert a kép egy méhlégy és nem egy légy. Az átlagos méh azonban a kétszárnyú rovarok rendjébe tartozik, így ezt a kivételt még egy szakértő annotátor számára is szinte lehetetlen lenne észrevenni. Az alábbi sorban négy hibakategória látható példákkal.  Forrás: https://arxiv.org/pdf/2205.04596.pdf

A kutatók kis számú elkötelezett értékelőt alkalmaztak az ImageNet adatkészlet-kiértékelés történeti hibarekordjainak gondos áttekintésére, és megállapították, hogy a hibák nagy része maga is tévedés – ez a felfedezés, amely potenciálisan felülvizsgálja a sok projekt által elért gyenge pontozást. Az ImageNet benchmarkok az évek során.

Ahogy az ImageNet beépült az önéletrajzi kultúrába, a kutatók azt állítják, hogy a pontosság javulása csökkenő hozamot eredményez, és hogy az új modellek, amelyek túllépik a bevált címkepontosságot, és új (azaz további) címkéket javasolnak, alapvetően büntetést kaphatnak azért, mert nem. -megfelelőség.

'Például,' a szerzők megfigyelik. „Büntessük-e a modelleket azért, mert elsőként jósolják meg, hogy egy elősütött bagel bejgli lehet, ahogyan az ebben a munkában áttekintett modellek egyike teszi?”

A papír szerint egy újabb modell megcáfolja azt az előzetes jóslatot, hogy a fényképen látható tárgy tészta, és azt sugallja, hogy a tárgy valójában már egy bagel.

A papír szerint egy újabb modell megcáfolja azt az előzetes jóslatot, hogy a fényképen látható tárgy tészta, és azt sugallja, hogy a tárgy valójában már egy bagel.

Az ilyen objektumok azonosításával megbízott, tömeges forrásból származó munkás szempontjából ez egy szemantikai, sőt filozófiai nehézség, amelyet csak többszörös címkézéssel lehet feloldani (ahogy ez gyakran előfordul az ImageNet későbbi részhalmazaiban és azt követő iterációiban); a fenti esetben a tárgy valóban egyszerre tészta és legalább egy születőben lévő bagel.

Főbb (fent) és kisebb (lent) hibák, amelyek a kutatásban az egyedi modellek tesztelésekor merültek fel. Az eredeti ImageNet címkék az első képek a bal oldalon.

Főbb (fent) és kisebb (lent) hibák, amelyek a kutatásban az egyedi modellek tesztelésekor merültek fel. Az eredeti ImageNet címkék az első képek a bal oldalon.

A két kézenfekvő megoldás az, hogy több erőforrást rendelnek a címkézéshez (ami kihívást jelent a legtöbb számítógépes látáskutatási projekt költségvetési korlátai között); és – amint azt a szerzők hangsúlyozzák – rendszeresen frissíteni kell az adatkészleteket és a címkék értékelési részhalmazait (ami egyéb akadályok mellett azt kockáztatja, hogy megtörik a benchmarkok „hasonló hasonlóért” történeti folytonosságát, és teleszórják az új kutatási dokumentumokat az egyenértékűségre vonatkozó minősítésekkel és felelősségkizárásokkal) .

A helyzet orvoslásának lépéseként a kutatók kifejlesztették az ImageNet új aladatbázisát, ún. ImageNet-Major (ImageNet-M), amelyet úgy írnak le '68 példából álló „nagy hiba” szelete a mai csúcsmodellek által elkövetett nyilvánvaló hibákból – egy olyan szelet, ahol a modelleknek közel tökéletességet kell elérniük, de ma még messze nem így tesznek.

A papír címet viseli Mikor lesz a tésztából bagel? Az ImageNet fennmaradó hibáinak elemzése, és a Google Research négy szerzője, valamint Sara Fridovich-Keil (UC Berkeley) írta.

Műszaki adósság

Az eredmények azért fontosak, mert az ImageNetben, a kutatás központi tanulmánya, az indulása óta eltelt 16 év során azonosított (vagy tévesen azonosított) fennmaradó hibák jelenthetik a különbséget egy telepíthető modell és egy olyan modell között, amely elég hibás ahhoz, hogy képes legyen. t szabadon engedni az élő adatokon. Mint mindig, a az utolsó mérföld kritikus.

A számítógépes látás- és képszintézis-kutatási szektor hatékonyan „automatikusan kiválasztotta” az ImageNet mérőszámot, számos okból – nem utolsósorban azért, mert a korai alkalmazók kiütése miatt ritkábbak voltak a nagy mennyiségű és jól címkézett adatkészletek. mint most, annyi kutatási kezdeményezést hoztak létre, hogy az ImageNettel való tesztelés hamar az egyetlen széles körben alkalmazható történelmi „szabvány” lett az új keretrendszerek benchmarkolásához.

Módszer

Az ImageNet „fennmaradó hibáit” keresve a kutatók egy szabványt használtak ViT modell (89.5%-os pontosság elérésére képes 3 milliárd paraméterrel), Vit-3B, előképzett JFT-3B és finomhangoljuk ImageNet-1K.

az ImageNet2012_multilabel A kutatók a ViT-3B kezdeti többcímkés pontosságát (MLA) 96.3%-ban rögzítették, amely során a modell 676 látszólagos hibát követett el. A szerzők ezeket a hibákat (és a Greedy Soups modell által előidézett hibákat is) igyekeztek kivizsgálni.

A fennmaradó 676 hiba értékeléséhez a szerzők elkerülték a tömegmunkásokat, megfigyelve, hogy az ilyen típusú hibák nehéz hogy az átlagos jegyzők észrevegyék, de összeállított egy öt szakértői bírálóból álló testületet, és létrehozott egy dedikált eszközt, amely lehetővé teszi, hogy minden lektor egy pillantással lássa az előre jelzett osztályt; a várható pontszám; az alapigazság címkéi; és maga a kép.

A projekthez készült felhasználói felület.

A projekthez készült felhasználói felület.

Egyes esetekben további kutatásra volt szükség a testület közötti viták megoldásához, és a Google Képkeresőt kiegészítő eszközként használták.

„[Egy] érdekes, de nem elszigetelt esetben egy taxira vonatkozó előrejelzés (a sárga színen kívül a taxikabin jelzőfényei nélkül) jelen volt a képen; úgy határoztuk meg, hogy a jóslat helyesen egy taxi, és nem csak egy szabványos jármű, mivel a háttérben egy nevezetes hidat azonosítottunk a város lokalizálása érdekében, és az adott városban található taxikra vonatkozó későbbi képkeresés ugyanannak a taximodellnek a képét eredményezte. rendszámtábla tervét, igazolva a modell ténylegesen helyes előrejelzését.

A kutatás több szakaszában talált hibák kezdeti áttekintése után a szerzők négy újszerű hibatípust fogalmaztak meg: finomszemcsés hiba, ahol a megjósolt osztály hasonló egy alapigazság címkéhez; finomszemcsés szókincsből (OOV), ahol a modell olyan objektumot azonosít, amelynek osztálya helyes, de nem szerepel az ImageNetben; hamis összefüggés, ahol az előrejelzett címkét a kép kontextusából kiolvassák; és nem prototípus, ahol az alapigazság objektum egy álpélda az osztályra, amely hasonlít a megjósolt címkére.

Bizonyos esetekben az alapigazság maga nem volt „igaz”:

"Az [ImageNetben talált] eredeti 676 hiba áttekintése után azt találtuk, hogy 298 helyes vagy nem egyértelmű, vagy az eredeti alapigazságot helytelennek vagy problémásnak találtuk."

Egy sor adathalmazon, részhalmazon és validációs halmazon végzett kimerítő és összetett kísérletek után a szerzők azt találták, hogy a vizsgált két modellt a hagyományos technikákkal elkövetett „hibák” felében helyesnek ítélték (az emberi felülvizsgálók). .

A lap a következőket zárja:

„Ebben a cikkben minden fennmaradó hibát elemeztünk, amelyet a ViT-3B és a Greedy Soups modellek elkövetnek az ImageNet többcímkés validációs készletén.

„Összességében azt találtuk, hogy: 1) amikor egy nagy, nagy pontosságú modell olyan újszerű előrejelzést ad, amelyet más modellek nem készítettek, az esetek majdnem felében egy helyes új többcímkés; 2) a nagyobb pontosságú modellek nem mutatnak nyilvánvaló mintát kategóriáinkban és az általuk megoldott hibák súlyosságában; 3) A SOTA-modellek manapság nagymértékben megegyeznek a legjobb szakértő ember teljesítményével, vagy felülmúlják az ember által értékelt többcímkés részhalmazt; 4) a zajos képzési adatok és az alul meghatározott osztályok korlátozhatják a képbesorolás javításának hatékony mérését.

 

Első megjelenés: 15. május 2022.