cung Vlerësimi i saktësisë historike të ImageNet - Unite.AI
Lidhu me ne

Inteligjenca artificiale

Vlerësimi i saktësisë historike të ImageNet

mm
Përditësuar on

Një studim i ri nga Google Research dhe UC Berkeley shton kritika e gjatë në lidhje me mbështetjen e sektorit të kërkimit të vizionit kompjuterik (CV) te të nderuarit ImageNet të dhënat e të dhënave dhe derivatet e tij të shumta. Pas një vlerësimi manual shumë intensiv të punës, autorët arrijnë në përfundimin se pothuajse 50% e gabimeve të supozuara që bëjnë modelet më të mira në vlerësimin e nëngrupeve me shumë etiketa të ImageNet (ku modelet aktuale me performancë të lartë arrijnë më shumë se 97% 1 saktësi) në fakt nuk janë gabim.

Nga gazeta:

“Analiza jonë zbulon se gati gjysma e gabimeve të supozuara nuk janë fare gabime dhe ne zbulojmë shumë etiketa të reja të vlefshme, duke demonstruar se, pa rishikim të kujdesshëm, ne po nënvlerësojmë ndjeshëm performancën e këtyre modeleve.

“Nga ana tjetër, ne gjithashtu zbulojmë se modelet më të mira të sotme ende bëjnë një numër të konsiderueshëm gabimesh (40%) që janë padyshim të gabuara për recensuesit njerëzorë.

Shkalla në të cilën etiketimi i gabuar i grupeve të të dhënave - veçanërisht nga punëtorë të pakualifikuar në crowdsource – mund të jetë shtrembëruar sektori, u zbulua nga qasja e përpiktë e studimit për vlerësimin e çifteve imazh/tekst në një pjesë të madhe të historisë së ImageNet.

Në rreshtin e sipërm, shembuj të ashpërsisë së gabimit: në dy shembujt e parë këtu, modeli i ri thjesht e ka gabim etiketën e parashikuar; në shembullin e tretë, modeli i ri identifikon një shumë-etiketë të munguar më parë (një etiketë që trajton një kategorizim të ri të imazhit); në imazhin përfundimtar në rreshtin e sipërm, parashikimi i modeles është i paqartë, sepse fotografia është një mizë blete dhe jo një mizë. Megjithatë, bleta mesatare i përket rendit të insekteve Diptera, dhe kështu ky përjashtim do të ishte pothuajse i pamundur të dallohej, madje edhe për një shënues ekspert. Në rreshtin më poshtë janë katër kategori gabimesh, me shembuj. Burimi: https://arxiv.org/pdf/2205.04596.pdf

Në rreshtin e sipërm, shembuj të ashpërsisë së gabimit: në dy shembujt e parë këtu, modeli i ri thjesht e ka gabim etiketën e parashikuar; në shembullin e tretë, modeli i ri identifikon një shumë-etiketë të munguar më parë (një etiketë që trajton një kategorizim të ri të imazhit); në imazhin përfundimtar në rreshtin e sipërm, parashikimi i modeles është i paqartë, sepse fotografia është një mizë blete dhe jo një mizë. Megjithatë, bleta mesatare i përket rendit të insekteve Diptera, dhe kështu ky përjashtim do të ishte pothuajse i pamundur të dallohej, madje edhe për një shënues ekspert. Në rreshtin më poshtë janë katër kategori gabimesh, me shembuj.  Burimi: https://arxiv.org/pdf/2205.04596.pdf

Studiuesit punësuan një numër të vogël vlerësuesish të dedikuar për të shqyrtuar me kujdes të dhënat e gabimeve historike në vlerësimin e të dhënave të ImageNet, duke gjetur se një pjesë e madhe e gjykimeve të gabimeve janë vetë në gabim - një zbulim që potencialisht rishikon disa nga pikët e dobëta që kanë marrë shumë projekte në Standardet ImageNet ndër vite.

Ndërsa ImageNet futet në kulturën e CV-së, studiuesit pretendojnë se përmirësimet në saktësi mendohet se sjellin kthime në rënie dhe se modelet e reja që tejkalojnë saktësinë e vendosur të etiketës dhe që sugjerojnë etiketa të reja (dmth. shtesë) mund të ndëshkohen, në thelb, për jo -konformiteti.

'Për shembull,' autorët vëzhgojnë. 'A duhet t'i penalizojmë modelet për të qenë të parët që parashikojnë se një bagel i pjekur paraprakisht mund të jetë një bagel, siç bën një nga modelet që shqyrtojmë në këtë punë?'

Nga letra, një model më i ri kundërshton parashikimin e mëparshëm se objekti në foto është brumë dhe sugjeron që objekti është në të vërtetë tashmë një bagel).

Nga letra, një model më i ri kundërshton parashikimin e mëparshëm se objekti në foto është brumë dhe sugjeron që objekti është në të vërtetë tashmë një bagel).

Nga këndvështrimi i një punonjësi të ngarkuar me burime të shumta, i ngarkuar me identifikimin e një objekti të tillë, ky është një problem semantik, madje edhe filozofik, që mund të zgjidhet vetëm me shumë etiketim (siç ndodh shpesh në nënbashkësitë e mëvonshme dhe përsëritjet e mëvonshme të ImageNet); në rastin e mësipërm, objekti është me të vërtetë edhe brumë dhe të paktën një bagel që po lind.

Gabime të mëdha (sipër) dhe të vogla (më poshtë) që u shfaqën gjatë testimit të modeleve me porosi në hulumtim. Etiketat origjinale ImageNet janë imazhet e para në të majtë.

Gabime të mëdha (sipër) dhe të vogla (më poshtë) që u shfaqën gjatë testimit të modeleve me porosi në hulumtim. Etiketat origjinale ImageNet janë imazhet e para në të majtë.

Dy zgjidhjet e dukshme janë caktimi i më shumë burimeve për etiketimin (që është një sfidë, brenda kufizimeve buxhetore të shumicës së projekteve kërkimore të vizionit kompjuterik); dhe, siç theksojnë autorët, për të përditësuar rregullisht grupet e të dhënave dhe etiketimin e nën-grupeve të vlerësimit (të cilat, midis pengesave të tjera, rrezikojnë të thyejnë vazhdimësinë historike "si për të ngjashme" të standardeve, dhe të mbushin punimet e reja kërkimore me kualifikime dhe mohime në lidhje me ekuivalencën) .

Si një hap për të korrigjuar situatën, studiuesit kanë zhvilluar një nën-bashkësi të re të të dhënave të ImageNet të quajtur ImageNet-Major (ImageNet-M), të cilën ata e përshkruajnë si "Një pjesë "gabim i madh" me 68 shembuj të gabimeve të dukshme të bëra nga modelet kryesore të sotme—një pjesë ku modelet duhet të arrijnë afërsisht përsosmërinë, por sot janë shumë larg nga ta bëjnë këtë.'

La letër titullohet Kur brumi bëhet bagel? Duke analizuar gabimet e mbetura në ImageNet, dhe është shkruar nga katër autorë nga Google Research, së bashku me Sara Fridovich-Keil nga UC Berkeley.

Borxhi Teknik

Gjetjet janë të rëndësishme sepse gabimet e mbetura të identifikuara (ose të keqidentifikuara) në ImageNet, në 16 vitet që nga fillimi i tij, studimi qendror i kërkimit, mund të përfaqësojë ndryshimin midis një modeli të dislokueshëm dhe atij që është mjaftueshëm i prirur ndaj gabimeve saqë mundet' të mos lihen të lirë në të dhënat e drejtpërdrejta. Si gjithmonë, milja e fundit është kritike.

Sektori i kërkimit për vizionin kompjuterik dhe sintezën e imazhit ka "përzgjedhur automatikisht" ImageNet si një metrikë standarde, për një sërë arsyesh – jo më pak për shkak të një numri të madh të adoptuesve të hershëm, në një kohë ku grupet e të dhënave me vëllim të lartë dhe të etiketuara mirë ishin më të rralla se sa janë tani, prodhuan kaq shumë iniciativa kërkimore sa testimi kundër ImageNet u bë shpejt i vetmi 'standard' historik gjerësisht i zbatueshëm për krahasimin e kornizave të reja.

Metoda e dërgesës

Duke kërkuar "gabimet e mbetura" në ImageNet, studiuesit përdorën një standard ViT model (i aftë për të arritur një saktësi prej 89.5%) me 3 miliardë parametra, Vit-3B, të trajnuar më parë JFT-3B dhe të akorduara mirë ImageNet-1K.

Përdorimi ImageNet2012_multilabel Të dhënat e të dhënave, studiuesit regjistruan saktësinë fillestare me shumë etiketa (MLA) të ViT-3B si 96.3%, gjatë së cilës modeli bëri 676 gabime të dukshme. Ishin këto gabime (dhe gjithashtu gabime të prodhuara nga një model i Greedy Soups) që autorët kërkuan të hetonin.

Për të vlerësuar 676 gabimet e mbetura, autorët shmangën punëtorët e grumbullimit, duke vërejtur se gabimet e këtij lloji mund të jenë i vështirë për të dalluar shënuesit mesatarë, por mblodhi një panel prej pesë recensues ekspertësh dhe krijoi një mjet të dedikuar për të lejuar çdo recensues të shohë me një shikim klasën e parashikuar; rezultati i parashikuar; etiketat e së vërtetës bazë; dhe vetë imazhi.

UI i ndërtuar për projektin.

UI i ndërtuar për projektin.

Në disa raste, kërkime të mëtejshme ishin të nevojshme për të zgjidhur mosmarrëveshjet midis panelit dhe kërkimi i imazhit në Google u përdor si një mjet shtesë.

'[Në] një rast interesant, por jo të izoluar, një parashikim i një taksie (pa tregues të dukshëm të taksisë përtej ngjyrës së verdhë) ishte i pranishëm në imazh; ne përcaktuam që parashikimi të ishte saktë një taksi dhe jo vetëm një automjet standard duke identifikuar një urë historike në sfond për të lokalizuar qytetin dhe një kërkim i mëpasshëm imazhi për taksitë në atë qytet nxori imazhet e të njëjtit model taksie dhe Dizajni i targave, duke vërtetuar parashikimin real të saktë të modelit.'

Pas shqyrtimit fillestar të gabimeve të gjetura në disa faza të hulumtimit, autorët formuluan katër lloje të reja gabimesh: gabim i imët, ku klasa e parashikuar është e ngjashme me një emërtim të së vërtetës bazë; i imët me fjalor jashtë fjalorit (OOV), ku modeli identifikon një objekt, klasa e të cilit është e saktë, por jo e pranishme në ImageNet; korrelacion i rremë, ku etiketa e parashikuar lexohet jashtë kontekstit të imazhit; dhe jo prototipike, ku objekti i së vërtetës bazë është një shembull i veçantë i klasës që ka ngjashmëri me etiketën e parashikuar.

Në disa raste, e vërteta bazë nuk ishte në vetvete 'e vërtetë':

"Pas shqyrtimit të 676 gabimeve origjinale [të gjetura në ImageNet], ne zbuluam se 298 ishin ose të sakta ose të paqarta, ose përcaktuam se e vërteta origjinale ishte e pasaktë ose problematike."

Pas një raundi shterues dhe kompleks eksperimentesh në një sërë grupesh të dhënash, nëngrupesh dhe grupesh vërtetimi, autorët zbuluan se dy modelet në studim u konsideruan në të vërtetë të sakta (nga recensuesit njerëzorë) për gjysmën e 'gabimeve' që ata bënë sipas teknikave konvencionale. .

Gazeta përfundon:

Në këtë punim, ne analizuam çdo gabim të mbetur që bëjnë modelet ViT-3B dhe Greedy Soups në grupin e vlefshmërisë me shumë etiketa ImageNet.

'Në përgjithësi, ne zbuluam se: 1) kur një model i madh dhe me saktësi të lartë bën një parashikim të ri që nuk është bërë nga modele të tjera, ai përfundon të jetë një shumë etiketë e re e saktë pothuajse në gjysmën e kohës; 2) modelet me saktësi më të lartë nuk demonstrojnë një model të dukshëm në kategoritë tona dhe ashpërsinë e gabimeve që ata zgjidhin; 3) Modelet SOTA sot në masë të madhe përputhen ose mposhtin performancën e njeriut më të mirë ekspert në nëngrupin me shumë etiketa të vlerësuara nga njeriu; 4) Të dhënat e zhurmshme të trajnimit dhe klasat e paspecifikuara mund të jenë një faktor që kufizon matjen efektive të përmirësimeve në klasifikimin e imazheve.'

 

Botuar për herë të parë më 15 maj 2022.