Sztuczna inteligencja

Ocena historycznej dokładności ImageNet

Published May 15, 2022

Updated April 28, 2026

Martin Anderson

Nowe badanie przeprowadzone przez Google Research i UC Berkeley dodaje do długotrwałej krytyki dotyczącej sektora badań nad widzeniem komputerowym (CV) w zakresie uzależnienia od cenionego zestawu danych ImageNet i jego pochodnych. Po długotrwałej, pracochłonnej ocenie ręcznej, autorzy stwierdzają, że niemal 50% błędów, które najlepsze modele popełniają w ocenie wieloetykietowej podzestawu ImageNet (gdzie obecnie najlepsze modele osiągają ponad 97% dokładności top-1), nie są tak naprawdę błędami.

Z artykułu:

‘Nasza analiza ujawnia, że niemal połowa rzekomych błędów nie jest błędami w ogóle, i odkrywamy nowe ważne etykiety wieloetykietowe, demonstrując, że bez starannej oceny znacznie zaniżamy wydajność tych modeli.

‘Z drugiej strony, stwierdzamy również, że najlepsze modele nadal popełniają znaczną liczbę błędów (40%), które są oczywiście błędne dla ludzkich recenzentów.’

Zakres, w jakim błędne oznaczanie zestawów danych – szczególnie przez nieumiejętnych pracowników crowdsourcingowych – może wpływać na sektor, ujawniono dzięki starannej ocenie par obrazu/tekstu w dużym zakresie historii ImageNet.

W pierwszym rzędzie, przykłady ciężkości błędu: w pierwszych dwóch przykładach nowy model po prostu źle przewiduje etykietę; w trzecim przykładzie nowy model identyfikuje wcześniej brakującą etykietę wieloetykietową (etykietę, która odnosi się do nowej kategoryzacji obrazu); w ostatnim obrazie w pierwszym rzędzie, przewidywanie modelu jest niejednoznaczne, ponieważ obraz jest muchą-błyskiem i nie muchą. Jednakże, przeciętna mucha należy do rzędu owadów Diptera, więc ta wyjątek byłby prawie niemożliwy do zauważenia, nawet dla eksperta-annotatora. W rzędzie poniżej są cztery kategorie błędów, z przykładami. Źródło: https://arxiv.org/pdf/2205.04596.pdf

Badacze zatrudnili niewielką liczbę dedykowanych oceniających, aby starannie przeglądać historyczne rekordy błędów w ocenie zestawu danych ImageNet, stwierdzając, że wiele z tych ocen błędów jest sama w błędzie – odkrycie, które potencjalnie rewizuje niektóre z niskich wyników, które wiele projektów uzyskało w benchmarkach ImageNet na przestrzeni lat.

Podczas gdy ImageNet utrwala się w kulturze CV, badacze twierdzą, że poprawa dokładności jest uważana za przynoszącą malejące zwroty, i że nowe modele, które przekraczają ustalone dokładności etykiet, i które sugerują nowe (tj. dodatkowe) etykiety, mogą być karane za niezgodność.

‘Na przykład,’ autorzy zauważają. ‘Czy powinniśmy karać modele za to, że są pierwszymi, które przewidują, że pre-upteczony bagel może być baglem, jak jeden z modeli, których przeglądamy w tej pracy?’

Z artykułu, nowszy model sprzeciwia się poprzednim przewidywaniom, że obiekt na zdjęciu jest ciastem, i sugeruje, że obiekt jest już baglem).

Z punktu widzenia pracownika crowdsourcingowego, który ma za zadanie identyfikować taki obiekt, jest to dylemat semantyczny i filozoficzny, który może być rozwiązany tylko przez wieloetykietowanie (co często występuje w późniejszych podzbiorach i następnych iteracjach ImageNet); w powyższym przypadku obiekt jest zarówno ciastem, jak i przynajmniej zalążkiem bagla.

Poważne (powyżej) i mniejsze (poniżej) błędy, które pojawiły się podczas testowania niestandardowych modeli w badaniu. Oryginalne etykiety ImageNet są pierwszymi obrazami po lewej.

Dwie oczywiste rozwiązania to przydzielenie większych zasobów do oznaczania (co jest wyzwaniem w ramach ograniczeń budżetowych większości projektów badań nad widzeniem komputerowym); oraz, jak autorzy podkreślają, regularne aktualizowanie zestawów danych i podzbiorów oceny etykiet (co, między innymi przeszkodami, naraża na złamanie historycznej ciągłości benchmarków i zanieczyszcza nowe prace badawcze kwalifikacjami i zastrzeżeniami dotyczącymi równoważności).

Jako krok w kierunku rozwiązania sytuacji, badacze opracowali nowy podzbiór ImageNet o nazwie ImageNet-Major (ImageNet-M), który opisują jako ’68-przykładowy “poważny błąd” skrawek oczywistych błędów popełnianych przez dzisiejsze najlepsze modele — skrawek, w którym modele powinny osiągać niemal perfekcję, ale dzisiaj są daleko od tego.’

Artykuł artykuł nosi tytuł Kiedy ciasto staje się baglem? Analiza pozostałych błędów w ImageNet, i został napisany przez czterech autorów z Google Research, wraz z Sarą Fridovich-Keil z UC Berkeley.

Dług techniczny

Odkrycia są ważne, ponieważ pozostałe błędy zidentyfikowane (lub nieprawidłowo zidentyfikowane) w ImageNet, w ciągu 16 lat od jego powstania, mogą stanowić różnicę między wdrożonym modelem a modelem, który jest podatny na błędy i nie może być wypuszczony na żywe dane. Jak zawsze, ostatni mil jest krytyczny.

Sektor badań nad widzeniem komputerowym i syntezą obrazu skutecznie “wybrał” ImageNet jako miarę benchmarkową, z powodu wielu powodów — nie tylko dlatego, że wczesni adopterzy, w czasie, gdy zestawy danych o dużej objętości i dobrze oznaczone były rzadsze niż teraz, wyprodukowali wiele inicjatyw badawczych, które testowanie przeciwko ImageNet szybko stało się jedyną powszechnie stosowaną historyczną “normą” dla benchmarkowania nowych ram.

Metoda

W poszukiwaniu “pozostałych błędów” w ImageNet, badacze użyli standardowego modelu ViT (zdolnego do osiągnięcia dokładności 89,5%) z 3 miliardami parametrów, Vit-3B, wstępnie wyszkolonego na JFT-3B i dostosowanego do ImageNet-1K.

Używając zestawu danych ImageNet2012_multilabel, badacze zarejestrowali początkową dokładność wieloetykietową (MLA) ViT-3B jako 96,3%, podczas którego model popełnił 676 oczywistych błędów. To właśnie te błędy (oraz błędy wyprodukowane przez model Greedy Soups) autorzy starali się zbadania.

Aby ocenić pozostałe 676 błędów, autorzy uniknęli pracowników crowdsourcingowych, obserwując, że błędy tego typu mogą być trudne do zauważenia przez przeciętnych annotatorów, ale zebraли panel pięciu ekspertów-recenzentów i stworzyli dedykowane narzędzie, aby umożliwić każdemu recenzentowi zobaczyć na pierwszy rzut oka przewidywaną klasę; przewidywaną ocenę; etykiety podstawowej prawdy; i sam obraz.

Interfejs użytkownika zbudowany dla projektu.

W niektórych przypadkach konieczne było dalsze badanie w celu rozwiązania sporów wśród panelu, a Google Image search został użyty jako pomocnicze narzędzie.

‘[W] jednym interesującym, ale nie odizolowanym przypadku, przewidywanie taksówki (bez oczywistych wskaźników taksówki poza żółtym kolorem) było obecne na obrazie; ustaliliśmy, że przewidywanie było poprawne i nie było po prostu standardowym pojazdem, identyfikując punkt orientacyjny mostu w tle, aby zlokalizować miasto, a następnie wyszukując w Google Images taksówki w tym mieście, co potwierdziło poprawne przewidywanie modelu.’

Po początkowej ocenie błędów znalezionych w kilku fazach badań, autorzy sformułowali cztery nowe typy błędów: błąd drobnoziarnisty, w którym przewidywana klasa jest podobna do etykiety podstawowej prawdy; błąd drobnoziarnisty z poza słownictwem (OOV), w którym model identyfikuje obiekt, którego klasa jest poprawna, ale nieobecna w ImageNet; korelacja pozorna, w której przewidywana etykieta jest odczytywana poza kontekstem obrazu; i nieprototypowy, w którym obiekt podstawowej prawdy jest podejrzanym przykładem klasy, która przypomina przewidywaną etykietę.

W pewnych przypadkach podstawowa prawda sama w sobie nie była “prawdziwa”:

‘Po przeglądzie oryginalnych 676 błędów [znalezionych w ImageNet], stwierdziliśmy, że 298 były albo poprawne, albo niejasne, albo ustaliliśmy, że oryginalna podstawowa prawda była niepoprawna lub problematyczna.’

Po wyczerpującej i złożonej serii eksperymentów na różnych zestawach danych, podzbiorach i zbiorach walidacyjnych, autorzy stwierdzili, że dwa badane modele były uznane za poprawne (przez ludzkich recenzentów) w połowie “błędów”, które popełniły przy użyciu konwencjonalnych technik.

Artykuł kończy się:

‘W tym artykule, przeanalizowaliśmy każdy pozostały błąd, który modele ViT-3B i Greedy Soups popełniają w ocenie wieloetykietowej walidacyjnej ImageNet.

‘Ogólnie, stwierdziliśmy, że: 1) gdy duży, wysokodokładny model robi nowe przewidywanie, które nie zostało zrobione przez inne modele, kończy się to poprawną nową etykietą wieloetykietową prawie w połowie przypadków; 2) modele o wyższej dokładności nie wykazują oczywistego wzorca w naszych kategoriach i ciężkości błędów, które rozwiązują; 3) najlepsze modele dzisiaj w dużej mierze odpowiadają lub przewyższają wydajność najlepszych ludzkich ekspertów w ocenianej przez ludzi podzbiorze wieloetykietowym; 4) szumy w danych szkoleniowych i niesprecyzowane klasy mogą być czynnikiem ograniczającym skuteczne pomiarowanie popraw w klasyfikacji obrazu.’

Pierwotnie opublikowane 15 maja 2022.