Andersons Blickwinkel
Beurteilung der historischen Genauigkeit von ImageNet

Eine neue Studie von Google Research und der Universität von Kalifornien, Berkeley, fügt der langjährigen Kritik an der Abhängigkeit des Computer-Vision-(CV)-Forschungssektors von dem renommierten ImageNet-Datensatz und seinen vielen Ableitungen hinzu. Nach einer sehr arbeitsintensiven manuellen Bewertung kommen die Autoren zu dem Schluss, dass fast 50% der vermeintlichen Fehler, die die besten Modelle bei der Bewertung des multi-label-Teilbereichs von ImageNet (wo aktuelle Top-Modelle mehr als 97% Top-1-Genauigkeit erreichen) machen, tatsächlich keine Fehler sind.
Aus dem Papier:
‘Unsere Analyse zeigt, dass fast die Hälfte der vermeintlichen Fehler tatsächlich keine Fehler sind, und wir entdecken neue gültige multi-labels, was zeigt, dass wir ohne sorgfältige Überprüfung die Leistung dieser Modelle erheblich unterschätzen.’
‘Andererseits finden wir auch, dass die besten Modelle heute immer noch eine erhebliche Anzahl von Fehlern (40%) machen, die offensichtlich falsch sind für menschliche Bewerteter.’
Das Ausmaß, in dem die Fehlbeschriftung von Datensätzen – insbesondere durch unqualifizierte Crowdsourcing-Mitarbeiter – den Sektor beeinflussen könnte, wurde durch den anspruchsvollen Ansatz der Studie zur Bewertung der Bild-Text-Paarungen über einen großen Teil der Geschichte von ImageNet aufgedeckt.

In der ersten Reihe Beispiele für Fehlerhäufigkeit: in den ersten beiden Beispielen hier macht das neue Modell einfach die vorhergesagte Kennzeichnung falsch; im dritten Beispiel identifiziert das neue Modell eine zuvor fehlende multi-label (eine Kennzeichnung, die eine neue Kategorisierung des Bildes anspricht); im letzten Bild in der ersten Reihe ist die Vorhersage des Modells mehrdeutig, da das Bild ein Schwebfliege und kein Fliege ist. Allerdings gehört die durchschnittliche Biene zur Ordnung der Diptera-Insekten, und somit wäre diese Ausnahme fast unmöglich zu erkennen, selbst für einen Experten-Annotator. In der zweiten Reihe vier Fehlerkategorien mit Beispielen. Quelle: https://arxiv.org/pdf/2205.04596.pdf
Die Forscher beschäftigten eine kleine Anzahl von engagierten Bewertern, um historische Fehleraufzeichnungen im ImageNet-Datensatz sorgfältig zu überprüfen und fanden heraus, dass viele der Fehlurteile selbst fehlerhaft sind – eine Entdeckung, die möglicherweise einige der schlechten Bewertungen, die viele Projekte im Laufe der Jahre bei den ImageNet-Benchmarks erhalten haben, revidiert.
Da ImageNet in der CV-Kultur verankert ist, argumentieren die Forscher, dass Verbesserungen der Genauigkeit als abnehmende Renditen angesehen werden und dass neue Modelle, die etablierte Label-Genauigkeit überschreiten und neue (d. h. zusätzliche) Labels vorschlagen, im Grunde genommen für ihre Nonkonformität bestraft werden.
‘Zum Beispiel’, bemerken die Autoren. ‘sollten wir Modelle bestrafen, weil sie als erste vorhersagen, dass ein vorgebackener Bagel tatsächlich ein Bagel ist, wie es eines der Modelle tut, die wir in dieser Arbeit überprüfen?’

Aus dem Papier, ein neueres Modell widerspricht der vorherigen Vorhersage, dass das Objekt im Bild Teig ist, und schlägt vor, dass das Objekt tatsächlich bereits ein Bagel ist).
Von der Perspektive eines Crowdsourcing-Mitarbeiters, der mit der Identifizierung eines solchen Objekts beauftragt ist, ist dies ein semantisches und sogar philosophisches Dilemma, das nur durch Multi-Labeling (wie es oft in späteren Teilbereichen und nachfolgenden Iterationen von ImageNet vorkommt) gelöst werden kann; in diesem Fall ist das Objekt tatsächlich sowohl Teig als auch mindestens ein angehender Bagel.

Große (oben) und kleine (unten) Fehler, die bei der Überprüfung von benutzerdefinierten Modellen in der Forschung auftraten. Die ursprünglichen ImageNet-Labels sind die ersten Bilder links.
Die beiden offensichtlichen Lösungen sind, mehr Ressourcen für die Beschriftung bereitzustellen (was eine Herausforderung innerhalb der Budgetbeschränkungen der meisten Computer-Vision-Forschungsprojekte darstellt); und, wie die Autoren betonen, regelmäßig Datensätze und Label-Bewertungs-Teilmengen zu aktualisieren (was unter anderem das Risiko birgt, die historische Kontinuität der Benchmarks zu gefährden und neue Forschungsarbeiten mit Qualifizierungen und Vorbehalten hinsichtlich der Äquivalenz zu belasten).
Als Schritt zur Lösung des Problems haben die Forscher einen neuen Teilbereich von ImageNet namens ImageNet-Major (ImageNet-M) entwickelt, den sie als ‘eine 68-Beispiel-“großer Fehler”-Scheibe der offensichtlichen Fehler, die heutige Top-Modelle machen – eine Scheibe, bei der Modelle nahezu perfekt sein sollten, aber heute noch weit davon entfernt sind’ beschreiben.
Das Papier trägt den Titel Wann wird Teig ein Bagel? Analyse der verbleibenden Fehler in ImageNet und wurde von vier Autoren von Google Research und Sara Fridovich-Keil von der Universität von Kalifornien, Berkeley, verfasst.
Technische Schulden
Die Ergebnisse sind wichtig, weil die verbleibenden Fehler, die in ImageNet identifiziert (oder falsch identifiziert) wurden, in den 16 Jahren seit seiner Einführung, die zentrale Studie der Forschung, den Unterschied zwischen einem einsetzbaren Modell und einem fehlerhaften Modell darstellen können, das nicht auf Live-Daten losgelassen werden kann. Wie immer ist der letzte Meile kritisch.
Der Computer-Vision- und Bildsynthese-Forschungssektor hat sich effektiv selbst für ImageNet als Benchmark-Metrik entschieden, aus einer Reihe von Gründen – nicht zuletzt, weil eine Reihe von frühen Anwendern, zu einer Zeit, als hochvolumige und gut beschriftete Datensätze seltener waren als sie es jetzt sind, so viele Forschungsinitiativen produzierten, dass das Testen gegen ImageNet schnell zur einzigen breit anwendbaren historischen “Norm” für die Bewertung neuer Frameworks wurde.
Methode
Bei der Suche nach den “verbleibenden Fehlern” in ImageNet verwendeten die Forscher ein Standard-ViT-Modell (das eine Genauigkeit von 89,5% erreichen kann) mit 3 Milliarden Parametern, Vit-3B, das auf JFT-3B vorgebildet und auf ImageNet-1K fein abgestimmt wurde.
Unter Verwendung des ImageNet2012_multilabel-Datensatzes zeichneten die Forscher die anfängliche multi-label-Genauigkeit (MLA) von ViT-3B als 96,3% auf, während das Modell 676 offensichtliche Fehler machte. Es waren diese Fehler (und auch Fehler, die von einem Greedy-Soups-Modell produziert wurden), die die Autoren untersuchen wollten.
Um die verbleibenden 676 Fehler zu bewerten, vermieden die Autoren Crowdsourcing-Mitarbeiter, da sie feststellten, dass Fehler dieser Art für durchschnittliche Annotatoren schwierig zu erkennen sein können, und versammelten stattdessen eine Gruppe von fünf Experten-Bewertern und erstellten ein spezielles Tool, um jedem Bewerteter die vorhergesagte Klasse, die vorhergesagte Punktzahl, die Ground-Truth-Labels und das Bild selbst anzuzeigen.

Die Benutzeroberfläche, die für das Projekt erstellt wurde.
In einigen Fällen war weitere Forschung erforderlich, um Meinungsverschiedenheiten innerhalb der Gruppe zu klären, und Google-Bildsuche wurde als Hilfsmittel verwendet.
‘[In] einem interessanten, aber nicht isolierten Fall, war eine Vorhersage eines Taxis (ohne offensichtliche Taxikennzeichen außer der gelben Farbe) im Bild vorhanden; wir stellten fest, dass die Vorhersage tatsächlich ein Taxi war und nicht nur ein Standardfahrzeug, indem wir eine Landmarke-Brücke im Hintergrund identifizierten, um die Stadt zu lokalisieren, und eine anschließende Bildsuche nach Taxis in dieser Stadt ergab Bilder des gleichen Taximodells und der gleichen Kennzeichen-Designs, was die tatsächlich korrekte Vorhersage des Modells bestätigte.’
Nach der anfänglichen Überprüfung der Fehler, die über mehrere Phasen der Forschung gefunden wurden, formulierten die Autoren vier neue Fehlerarten: fein granulierte Fehler, bei denen die vorhergesagte Klasse der Ground-Truth-Klasse ähnlich ist; fein granulierte mit out-of-vocabulary (OOV), bei denen das Modell ein Objekt identifiziert, dessen Klasse korrekt ist, aber nicht in ImageNet vorhanden ist; spuriose Korrelation, bei der die vorhergesagte Kennzeichnung aus dem Kontext des Bildes gelesen wird; und nicht-prototypisch, bei dem das Ground-Truth-Objekt ein spezifisches Beispiel der Klasse ist, die der vorhergesagten Kennzeichnung ähnelt.
In bestimmten Fällen war die Ground-Truth selbst nicht “wahr”:
‘Nach der Überprüfung der ursprünglichen 676 Fehler [in ImageNet] fanden wir, dass 298 entweder korrekt oder unklar waren oder die ursprüngliche Ground-Truth falsch oder problematisch war.’
Nach einer umfassenden und komplexen Runde von Experimenten über eine Reihe von Datensätzen, Teilbereichen und Validierungsmengen fanden die Autoren heraus, dass die beiden Modelle, die untersucht wurden, tatsächlich für die Hälfte der “Fehler”, die sie unter herkömmlichen Techniken machten, als korrekt angesehen wurden (durch die menschlichen Bewerteter).
Das Papier schließt:
‘In diesem Papier haben wir jeden verbleibenden Fehler analysiert, den das ViT-3B- und das Greedy-Soups-Modell im ImageNet-Multi-Label-Validierungs-Teilbereich machen.
‘Insgesamt fanden wir, dass: 1) wenn ein großes, hochgenaues Modell eine neue Vorhersage macht, die nicht von anderen Modellen gemacht wird, es fast die Hälfte der Zeit eine korrekte neue Multi-Label-Vorhersage ist; 2) Modelle mit höherer Genauigkeit zeigen kein offensichtliches Muster in unseren Kategorien und Schweregraden der Fehler, die sie lösen; 3) SOTA-Modelle heute sind größtenteils mit der Leistung des besten Experten auf dem human-evaluierten Multi-Label-Teilbereich vergleichbar oder übertreffen sie; 4) lautere Trainingsdaten und nicht spezifizierte Klassen können ein Faktor sein, der die effektive Messung von Verbesserungen in der Bildklassifizierung limitiert.’
Erstveröffentlicht am 15. Mai 2022.












