Inteligență artificială

Evaluarea acurateței istorice a ImageNet

Published May 15, 2022

Updated April 28, 2026

Martin Anderson

O nouă studiu de la Google Research și UC Berkeley adaugă la criticile de lungă durată cu privire la dependența sectorului de cercetare a viziunii calculate (CV) de setul de date venerabil ImageNet și de numeroasele sale derivate. După o evaluare manuală laborioasă, autorii concluzionează că aproape 50% din presupusele greșeli pe care cele mai bune modele le fac pe subsetul de evaluare multi-etichetă al ImageNet (unde modelele actuale de top obțin mai mult de 97% acuratețe top-1) nu sunt de fapt erori.

Din lucrare:

‘Analiza noastră arată că aproape jumătate din presupusele greșeli nu sunt greșeli deloc, și descoperim noi etichete valabile multi-etichetă, demonstrând că, fără o revizuire atentă, subestimăm semnificativ performanța acestor modele.

‘Pe de altă parte, găsim și că cele mai bune modele actuale încă fac un număr semnificativ de greșeli (40%) care sunt evident greșite pentru recenzorii umani.’

Extinderea la care etichetarea incorectă a seturilor de date – în special de către lucrătorii necalificați de crowdsource – poate fi distorsionată sectorul, a fost dezvăluită de abordarea meticuloasă a studiului de evaluare a perechilor imagine/text dintr-o mare parte a istoriei ImageNet.

În rândul superior, exemple de severitate a greșelilor: în primele două exemple, noul model pur și simplu greșește eticheta predictivă; în al treilea exemplu, noul model identifică o etichetă multi-etichetă lipsă anterior (o etichetă care abordează o nouă categorizare a imaginii); în ultima imagine din rândul superior, predicția modelului este ambiguă, deoarece poza este o muscă-bee și nu o muscă. Cu toate acestea, musca medie aparține ordinului de insecte Diptera, și astfel această excepție ar fi aproape imposibil de detectat, chiar și pentru un annotator expert. În rândul de mai jos sunt patru categorii de greșeli, cu exemple. Source: https://arxiv.org/pdf/2205.04596.pdf

Cercetătorii au angajat un număr mic de evaluatori dedicați pentru a revizui cu atenție înregistrările istorice de erori din setul de date ImageNet, constatând că o mare parte a judecăților de eroare sunt ele însele erori – o descoperire care poate revizui unele dintre scorurile slabe pe care multe proiecte le-au obținut pe benchmark-urile ImageNet de-a lungul anilor.

Pe măsură ce ImageNet se înrădăcinează în cultura CV, cercetătorii susțin că îmbunătățirile acurateței sunt considerate a avea randamente descrescătoare, și că noile modele care depășesc acuratețea etichetelor stabilite și care sugerează noi etichete (adică etichete suplimentare) pot fi pedepsite, în esență, pentru non-conformism.

‘De exemplu,’ autorii observă. ‘trebuie să pedepsim modelele pentru a fi primele care prezic că un bagel pre-copt poate fi un bagel, așa cum face unul dintre modelele pe care le revizuim în acest studiu?’

Din lucrare, un model mai nou sfidează predicția anterioară că obiectul din poză este aluat, și sugerează că obiectul este de fapt un bagel).

Din punctul de vedere al unui lucrător de crowdsource însărcinat cu identificarea unui astfel de obiect, aceasta este o problemă semantică și chiar filosofică care poate fi rezolvată numai prin multi-etichetare (așa cum se întâmplă adesea în subseturile ulterioare și în iterațiile ulterioare ale ImageNet);

Greșeli majore (deasupra) și minore (dedesubt) care au apărut la testarea modelelor personalizate în cercetare. Etichetele originale ImageNet sunt primele imagini din stânga.

Cele două soluții evidente sunt de a aloca mai multe resurse pentru etichetare (care este o provocare, în cadrul limitelor bugetare ale majorității proiectelor de cercetare a viziunii calculate); și, așa cum subliniază autorii, de a actualiza în mod regulat seturile de date și subseturile de evaluare a etichetelor (care, printre alte obstacole, riscă să întrerupă continuitatea istorică a benchmark-urilor și să împrăștie noile lucrări de cercetare cu calificări și declarații cu privire la echivalență).

Ca o etapă pentru a remedia situația, cercetătorii au dezvoltat un nou subset de date al ImageNet numit ImageNet-Major (ImageNet-M), pe care îl descriu ca ‘o felie de 68 de exemple de “greșeli majore” ale greșelilor evidente făcute de modelele de top de astăzi — o felie în care modelele ar trebui să atingă aproape perfecțiunea, dar astăzi sunt departe de a o face.’

Lucrarea este intitulată Când devine aluatul un bagel? Analizarea greșelilor rămase pe ImageNet, și a fost scrisă de patru autori de la Google Research, împreună cu Sara Fridovich-Keil de la UC Berkeley.

Datoria tehnică

Descoperirile sunt importante deoarece erorile rămase identificate (sau identificate greșit) în ImageNet, în cei 16 ani de la înființarea sa, reprezintă diferența dintre un model implementabil și unul care este suficient de eronat încât nu poate fi lansat pe date live. Ca întotdeauna, ultimul milă este critic.

Sectorul de cercetare a viziunii calculate și a sintezei de imagini a “auto-selectat” ImageNet ca metrică de benchmark, dintr-un număr de motive — nu în ultimul rând pentru că o serie de adoptatori timpurii, într-o perioadă în care seturile de date de volum mare și bine etichetate erau mai rare decât sunt acum, au produs atât de multe inițiative de cercetare care au testat împotriva ImageNet, încât a devenit rapid singurul “standard” istoric larg aplicabil pentru benchmarking-ul noilor cadre.

Metodă

În căutarea “greșelilor rămase” în ImageNet, cercetătorii au utilizat un model standard ViT (capabil să atingă o acuratețe de 89,5%) cu 3 miliarde de parametri, Vit-3B, pre-antrenat pe JFT-3B și reglat pe ImageNet-1K.

Utilizând setul de date ImageNet2012_multilabel, cercetătorii au înregistrat acuratețea inițială multi-etichetă (MLA) a ViT-3B ca fiind 96,3%, în timpul căreia modelul a făcut 676 de greșeli aparente. Au fost aceste greșeli (și greșelile produse de un model Greedy Soups) pe care autorii au căutat să le investigheze.

Pentru a evalua greșelile rămase 676, autorii au evitat lucrătorii de crowd, observând că greșelile de acest tip pot fi dificile pentru annotatorii obișnuiți să le detecteze, dar au adunat un panel de cinci recenzori experți și au creat un instrument dedicat pentru a permite fiecărui recenzor să vadă la o privire imaginea; eticheta predictivă; eticheta adevărului; și imaginea în sine.

Interfața utilizatorului construită pentru proiect.

În unele cazuri, a fost necesară o cercetare suplimentară pentru a rezolva disputele dintre panel, și s-a utilizat căutarea Google Imagine ca instrument auxiliar.

‘[În] un caz interesant, dar nu izolat, o predicție a unui taxi (fără indicatori evidenți de taxi în afara culorii galbene) a fost prezentă în imagine; am determinat că predicția a fost corectă și nu doar un vehicul standard prin identificarea unui pod de marcaj în fundal pentru a localiza orașul, și o căutare ulterioară de imagini pentru taxiuri în acel oraș a produs imagini ale aceluiași model de taxi și design de număr de înmatriculare, validând predicția corectă a modelului.’

După revizuirea inițială a greșelilor găsite în mai multe faze ale cercetării, autorii au formulat patru tipuri noi de greșeli: eroare fină, în care clasa predictivă este similară cu o etichetă de adevăr; fină cu vocabular ieșit din uz (OOV), în care modelul identifică un obiect a cărui clasă este corectă, dar nu este prezentă în ImageNet; corelație spurioasă, în care eticheta predictivă este citită în afara contextului imaginii; și non-prototipic, în care obiectul de adevăr este un exemplu specios al clasei care se aseamănă cu eticheta predictivă.

În anumite cazuri, adevărul nu a fost el însuși “adevărat”:

‘După revizuirea greșelilor inițiale de 676 [găsite în ImageNet], am găsit că 298 erau corecte sau neclare, sau am determinat că adevărul inițial era incorect sau problematic.’

După o serie exhaustivă și complexă de experimente pe o gamă largă de seturi de date, subseturi și seturi de validare, autorii au constatat că cele două modele sub studiu au fost considerate corecte (de către recenzorii umani) pentru jumătate din “greșelile” pe care le-au făcut în tehnici convenționale.

Lucrarea concluzionează:

‘În acest studiu, am analizat fiecare greșeală rămasă pe care modelele ViT-3B și Greedy Soups o fac pe setul de validare multi-etichetă ImageNet.

‘În general, am găsit că: 1) atunci când un model de mare acuratețe face o predicție nouă pe care nu o face niciun alt model, aceasta se dovedește a fi o nouă etichetă corectă aproape jumătate din timp; 2) modelele cu acuratețe mai mare nu prezintă un model evident în categoriile și gravitățile greșelilor pe care le rezolvă; 3) modelele SOTA de astăzi sunt în mare măsură la fel ca sau depășesc performanța celui mai bun expert uman pe subsetul multi-etichetă evaluat de om; 4) datele de antrenare zgomotoase și clasele sub-specificate pot fi un factor care limitează măsurarea îmbunătățirilor în clasificarea imaginilor.’

Publicat pentru prima dată pe 15 mai 2022.