Stummel Bewertung der historischen Genauigkeit von ImageNet – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

Bewertung der historischen Genauigkeit von ImageNet

mm
Aktualisiert on

Eine neue Studie von Google Research und der UC Berkeley ergänzt langjährige Kritik in Bezug auf die Abhängigkeit des Computer Vision (CV)-Forschungssektors vom Ehrwürdigen IMAGEnet Datensatz und seine vielen Ableitungen. Nach vielen arbeitsintensiven manuellen Auswertungen kommen die Autoren zu dem Schluss, dass fast 50 % der vermeintlichen Fehler, die die besten Modelle bei der Multi-Label-Teilmengenauswertung von ImageNet machen (bei der die aktuell leistungsstärksten Modelle mehr als 97 % der besten Modelle erzielen), 1 Genauigkeit) sind eigentlich nicht fehlerhaft.

Aus dem Papier:

„Unsere Analyse zeigt, dass fast die Hälfte der vermeintlichen Fehler überhaupt keine Fehler sind, und wir entdecken neue gültige Multilabels, was zeigt, dass wir ohne sorgfältige Prüfung die Leistung dieser Modelle deutlich unterschätzen.“

„Andererseits stellen wir auch fest, dass die besten Modelle von heute immer noch eine erhebliche Anzahl von Fehlern (40 %) machen, die für menschliche Prüfer offensichtlich falsch sind.“

Das Ausmaß der Fehlkennzeichnung von Datensätzen – insbesondere durch ungelernte Crowdsource-Mitarbeiter – könnte den Sektor verzerren, ergab der sorgfältige Ansatz der Studie zur Bewertung der Bild-/Textpaare über einen großen Teil der Geschichte von ImageNet.

In der oberen Reihe Beispiele für die Fehlerschwere: In den ersten beiden Beispielen hier erhält das neue Modell einfach die vorhergesagte Bezeichnung falsch; Im dritten Beispiel identifiziert das neue Modell ein zuvor fehlendes Multi-Label (ein Label, das eine neuartige Kategorisierung des Bildes anspricht); Im letzten Bild in der oberen Reihe ist die Vorhersage des Modells nicht eindeutig, da es sich bei dem Bild um eine Bienenfliege und nicht um eine Fliege handelt. Allerdings gehört die durchschnittliche Biene zur Ordnung der Diptera-Insekten, und daher wäre diese Ausnahme selbst für einen erfahrenen Kommentator kaum zu erkennen. In der Zeile unten sind vier Fehlerkategorien mit Beispielen aufgeführt. Quelle: https://arxiv.org/pdf/2205.04596.pdf

In der oberen Reihe Beispiele für die Fehlerschwere: In den ersten beiden Beispielen hier erhält das neue Modell einfach die vorhergesagte Bezeichnung falsch; Im dritten Beispiel identifiziert das neue Modell ein zuvor fehlendes Multi-Label (ein Label, das eine neuartige Kategorisierung des Bildes anspricht); Im letzten Bild in der oberen Reihe ist die Vorhersage des Modells nicht eindeutig, da es sich bei dem Bild um eine Bienenfliege und nicht um eine Fliege handelt. Allerdings gehört die durchschnittliche Biene zur Ordnung der Diptera-Insekten, und daher wäre diese Ausnahme selbst für einen erfahrenen Kommentator kaum zu erkennen. In der Zeile unten sind vier Fehlerkategorien mit Beispielen aufgeführt.  Quelle: https://arxiv.org/pdf/2205.04596.pdf

Die Forscher beschäftigten eine kleine Anzahl engagierter Gutachter mit der sorgfältigen Überprüfung historischer Fehleraufzeichnungen bei der Auswertung von ImageNet-Datensätzen und stellten fest, dass viele der Fehlerbeurteilungen selbst fehlerhaft sind – eine Entdeckung, die möglicherweise einige der schlechten Bewertungen, die viele Projekte erzielt haben, revidiert ImageNet-Benchmarks im Laufe der Jahre.

Da sich ImageNet in der CV-Kultur festigt, gehen die Forscher davon aus, dass Verbesserungen der Genauigkeit zu sinkenden Erträgen führen und dass neue Modelle, die über die etablierte Label-Genauigkeit hinausgehen und neue (d. h. zusätzliche) Labels vorschlagen, im Wesentlichen für die Nichteinhaltung bestraft werden könnten -Konformität.

'Zum Beispiel,' beobachten die Autoren. „Sollten wir Modelle dafür bestrafen, dass sie als erste vorhersagen, dass ein vorgebackener Bagel ein Bagel sein könnte, wie es eines der Modelle tut, die wir in dieser Arbeit untersuchen?“

Aus der Arbeit geht hervor, dass ein neueres Modell der vorherigen Vorhersage, dass es sich bei dem Objekt auf dem Foto um Teig handelt, widerspricht und nahelegt, dass es sich bei dem Objekt tatsächlich bereits um einen Bagel handelt.

Aus der Arbeit geht hervor, dass ein neueres Modell der vorherigen Vorhersage, dass es sich bei dem Objekt auf dem Foto um Teig handelt, widerspricht und nahelegt, dass es sich bei dem Objekt tatsächlich bereits um einen Bagel handelt.

Aus der Sicht eines Crowdsourcing-Mitarbeiters, der mit der Identifizierung eines solchen Objekts beauftragt ist, handelt es sich um ein semantisches und sogar philosophisches Dilemma, das nur durch Mehrfachbezeichnung gelöst werden kann (wie es in späteren Teilmengen und nachfolgenden Iterationen von ImageNet häufig vorkommt); Im obigen Fall handelt es sich bei dem Objekt tatsächlich sowohl um Teig als auch zumindest um einen entstehenden Bagel.

Große (oben) und kleinere (unten) Fehler, die beim Testen benutzerdefinierter Modelle in der Forschung auftraten. Original-ImageNet-Labels sind die ersten Bilder auf der linken Seite.

Große (oben) und kleinere (unten) Fehler, die beim Testen benutzerdefinierter Modelle in der Forschung auftraten. Original-ImageNet-Labels sind die ersten Bilder auf der linken Seite.

Die beiden offensichtlichen Lösungen bestehen darin, mehr Ressourcen für die Kennzeichnung bereitzustellen (was angesichts der Budgetbeschränkungen der meisten Computer-Vision-Forschungsprojekte eine Herausforderung darstellt); und, wie die Autoren betonen, die regelmäßige Aktualisierung von Datensätzen und die Kennzeichnung von Bewertungsuntergruppen (was neben anderen Hindernissen das Risiko birgt, die historische Kontinuität von Benchmarks auf gleicher Basis zu zerstören und neue Forschungsarbeiten mit Qualifikationen und Haftungsausschlüssen hinsichtlich der Gleichwertigkeit zu überhäufen). .

Um Abhilfe zu schaffen, haben die Forscher einen neuen Unterdatensatz von ImageNet entwickelt ImageNet-Major (ImageNet-M), das sie als beschreiben „Ein Ausschnitt aus 68 Beispielen für „große Fehler“ der offensichtlichen Fehler heutiger Topmodels – ein Ausschnitt, in dem Models nahezu Perfektion erreichen sollten, heute aber weit davon entfernt sind.“

Das Krepppapier ist betitelt Wann wird aus Teig ein Bagel? Analyse der verbleibenden Fehler auf ImageNetund wurde von vier Autoren von Google Research zusammen mit Sara Fridovich-Keil von der UC Berkeley verfasst.

Technische Schulden

Die Ergebnisse sind wichtig, da die verbleibenden Fehler, die in ImageNet in den 16 Jahren seit seiner Einführung, der zentralen Studie der Forschung, identifiziert (oder falsch identifiziert) wurden, den Unterschied zwischen einem einsetzbaren Modell und einem Modell darstellen können, das so fehleranfällig ist, dass es funktionieren kann. Lassen Sie sich nicht auf Live-Daten ein. Wie immer, die Die letzte Meile ist entscheidend.

Der Bereich der Computer-Vision- und Bildsyntheseforschung hat ImageNet aus mehreren Gründen praktisch automatisch als Benchmark-Metrik ausgewählt – nicht zuletzt, weil es zu einer Zeit, in der großvolumige und gut gekennzeichnete Datensätze seltener waren, eine Flut von Early Adopters gab als sie heute sind, haben so viele Forschungsinitiativen hervorgebracht, dass Tests mit ImageNet schnell zum einzigen allgemein anwendbaren historischen „Standard“ für das Benchmarking neuer Frameworks wurden.

Versandart

Um die „verbleibenden Fehler“ in ImageNet zu ermitteln, verwendeten die Forscher einen Standard ViT Modell (kann eine Genauigkeit von 89.5 % erreichen) mit 3 Milliarden Parametern, Vit-3B, vortrainiert auf JFT-3B und fein abgestimmt ImageNet-1K.

Verwendung der ImageNet2012_multilabel Im Datensatz erfassten die Forscher die anfängliche Multi-Label-Genauigkeit (MLA) von ViT-3B mit 96.3 %, wobei das Modell 676 offensichtliche Fehler machte. Es waren diese Fehler (und auch Fehler, die durch ein Greedy-Soups-Modell hervorgerufen wurden), die die Autoren untersuchen wollten.

Um die verbleibenden 676 Fehler zu bewerten, haben die Autoren Crowdworker gemieden, da sie festgestellt haben, dass Fehler dieser Art auftreten können schwer für durchschnittliche Kommentatoren zu erkennen, sondern stellte ein Gremium aus fünf Experten-Rezensenten zusammen und erstellte ein spezielles Tool, das es jedem Rezensenten ermöglichte, auf einen Blick die vorhergesagte Klasse zu erkennen; die vorhergesagte Punktzahl; die Grundwahrheitsbezeichnungen; und das Bild selbst.

Die für das Projekt erstellte Benutzeroberfläche.

Die für das Projekt erstellte Benutzeroberfläche.

In einigen Fällen waren weitere Recherchen erforderlich, um Streitigkeiten innerhalb des Gremiums beizulegen, und die Google-Bildersuche wurde als zusätzliches Tool verwendet.

„[In] einem interessanten, aber nicht isolierten Fall war die Vorhersage eines Taxis (ohne offensichtliche Taxi-Anzeigen außer der gelben Farbe) im Bild vorhanden; Wir stellten fest, dass es sich bei der Vorhersage korrekt um ein Taxi und nicht nur um ein Standardfahrzeug handelte, indem wir eine markante Brücke im Hintergrund identifizierten, um die Stadt zu lokalisieren. Eine anschließende Bildsuche nach Taxis in dieser Stadt ergab Bilder desselben Taximodells und „Das Design des Nummernschilds bestätigt die tatsächlich korrekte Vorhersage des Modells.“

Nach einer ersten Überprüfung der in mehreren Phasen der Forschung gefundenen Fehler formulierten die Autoren vier neuartige Fehlertypen: feinkörniger Fehler, wobei die vorhergesagte Klasse einem Ground-Truth-Label ähnelt; feinkörnig mit Out-of-Vocabulary (OOV), wobei das Modell ein Objekt identifiziert, dessen Klasse korrekt ist, aber in ImageNet nicht vorhanden ist; Scheinkorrelation, wobei die vorhergesagte Bezeichnung außerhalb des Bildkontexts gelesen wird; Und nicht vorbildgerecht, wobei das Ground-Truth-Objekt ein fadenscheiniges Beispiel der Klasse ist, die Ähnlichkeit mit der vorhergesagten Bezeichnung aufweist.

In bestimmten Fällen war die Grundwahrheit selbst nicht „wahr“:

„Nach der Überprüfung der ursprünglichen 676 Fehler [gefunden in ImageNet] stellten wir fest, dass 298 entweder richtig oder unklar waren oder dass die ursprüngliche Grundwahrheit falsch oder problematisch war.“

Nach einer umfassenden und komplexen Reihe von Experimenten mit einer Reihe von Datensätzen, Teilmengen und Validierungssätzen stellten die Autoren fest, dass die beiden untersuchten Modelle (von den menschlichen Gutachtern) in Bezug auf die Hälfte der „Fehler“, die sie mit herkömmlichen Techniken machten, tatsächlich als korrekt erachtet wurden .

Das Papier kommt zu dem Schluss:

„In diesem Artikel haben wir jeden verbleibenden Fehler analysiert, den die Modelle ViT-3B und Greedy Soups im ImageNet-Multi-Label-Validierungssatz machen.“

„Insgesamt haben wir Folgendes herausgefunden: 1) Wenn ein großes, hochpräzises Modell eine neuartige Vorhersage macht, die von anderen Modellen nicht gemacht wurde, handelt es sich am Ende fast in der Hälfte der Fälle um eine korrekte neue Multi-Label; 2) Modelle mit höherer Genauigkeit zeigen kein offensichtliches Muster in unseren Kategorien und der Schwere der Fehler, die sie lösen; 3) SOTA-Modelle erreichen heute weitgehend die Leistung des besten menschlichen Experten in der von Menschen bewerteten Multi-Label-Untergruppe; 4) Verrauschte Trainingsdaten und unterspezifizierte Klassen können ein Faktor sein, der die effektive Messung von Verbesserungen bei der Bildklassifizierung einschränkt.

 

Erstveröffentlichung am 15. Mai 2022.