Connect with us

Beurteilung der historischen Genauigkeit von ImageNet

Künstliche Intelligenz

Beurteilung der historischen Genauigkeit von ImageNet

mm

Eine neue Studie von Google Research und UC Berkeley fügt der langjährigen Kritik an der Abhängigkeit des Sektors der Computer-Vision-Forschung (CV) von dem renommierten ImageNet-Datensatz und seinen vielen Derivaten hinzu. Nach einer sehr arbeitsintensiven manuellen Bewertung kommen die Autoren zu dem Schluss, dass fast 50 % der vermeintlichen Fehler, die die besten Modelle bei der multi-label-Subset-Bewertung von ImageNet (wo aktuelle Top-Modelle mehr als 97 % Top-1-Genauigkeit erreichen) machen, tatsächlich keine Fehler sind.

Von dem Papier:

‘Unsere Analyse zeigt, dass fast die Hälfte der vermeintlichen Fehler tatsächlich keine Fehler sind, und wir entdecken neue gültige Multi-Labels, was zeigt, dass wir ohne sorgfältige Überprüfung die Leistung dieser Modelle erheblich unterschätzen.’

‘Andererseits stellen wir auch fest, dass die besten Modelle heute immer noch eine erhebliche Anzahl von Fehlern (40 %) machen, die für menschliche Bewertung offensichtlich falsch sind.’

Das Ausmaß, in dem die Falschbeschriftung von Datensätzen – insbesondere durch unqualifizierte Crowdsourcing-Mitarbeiter – den Sektor beeinflussen kann, wurde durch den anspruchsvollen Ansatz der Studie zur Bewertung der Bild-/Text-Paare über einen großen Teil der Geschichte von ImageNet aufgedeckt.

In der ersten Reihe Beispiele für Fehlerhäufigkeit: In den ersten beiden Beispielen hier erhält das neue Modell einfach das vorhergesagte Label falsch; im dritten Beispiel identifiziert das neue Modell ein zuvor fehlendes Multi-Label (ein Label, das eine neue Kategorisierung des Bildes anspricht); im letzten Bild in der ersten Reihe ist die Vorhersage des Modells mehrdeutig, da das Bild eine Schwebfliege und keine Fliege ist. Allerdings gehört die durchschnittliche Biene zur Insektenordnung Diptera, und so wäre diese Ausnahme sogar für einen Experten-Annotator fast unmöglich zu erkennen. In der Reihe darunter sind vier Fehlertypen mit Beispielen. Quelle: https://arxiv.org/pdf/2205.04596.pdf

In der ersten Reihe Beispiele für Fehlerhäufigkeit: In den ersten beiden Beispielen hier erhält das neue Modell einfach das vorhergesagte Label falsch; im dritten Beispiel identifiziert das neue Modell ein zuvor fehlendes Multi-Label (ein Label, das eine neue Kategorisierung des Bildes anspricht); im letzten Bild in der ersten Reihe ist die Vorhersage des Modells mehrdeutig, da das Bild eine Schwebfliege und keine Fliege ist. Allerdings gehört die durchschnittliche Biene zur Insektenordnung Diptera, und so wäre diese Ausnahme sogar für einen Experten-Annotator fast unmöglich zu erkennen. In der Reihe darunter sind vier Fehlertypen mit Beispielen. Quelle: https://arxiv.org/pdf/2205.04596.pdf

Die Forscher beschäftigten eine kleine Anzahl von engagierten Bewertungsexperten, um historische Fehleraufzeichnungen in der ImageNet-Datensatzbewertung sorgfältig zu überprüfen und stellten fest, dass eine große Anzahl der Fehlurteile selbst fehlerhaft sind – eine Entdeckung, die möglicherweise einige der schlechten Bewertungen, die viele Projekte im Laufe der Jahre bei ImageNet-Benchmarks erhalten haben, revidiert.

Wie ImageNet in der CV-Kultur verankert ist, argumentieren die Forscher, dass Verbesserungen der Genauigkeit zu abnehmenden Erträgen führen und dass neue Modelle, die die etablierte Label-Genauigkeit überschreiten und neue (d. h. zusätzliche) Labels vorschlagen, im Wesentlichen für ihre Nonkonformität bestraft werden.

‘Zum Beispiel’, bemerken die Autoren. ‘sollten wir Modelle bestrafen, weil sie als erste vorhersagen, dass ein vorgebackener Bagel ein Bagel sein kann, wie es eines der Modelle tut, die wir in dieser Arbeit überprüfen?’

Aus dem Papier, ein neueres Modell widerspricht der vorherigen Vorhersage, dass das Objekt im Foto Teig ist, und schlägt vor, dass das Objekt tatsächlich bereits ein Bagel ist).

Aus dem Papier, ein neueres Modell widerspricht der vorherigen Vorhersage, dass das Objekt im Foto Teig ist, und schlägt vor, dass das Objekt tatsächlich bereits ein Bagel ist).

Aus der Sicht eines Crowdsourcing-Mitarbeiters, der mit der Identifizierung eines solchen Objekts beauftragt ist, ist dies ein semantisches und sogar philosophisches Dilemma, das nur durch Multi-Labeling (wie es oft in späteren Subsets und nachfolgenden Iterationen von ImageNet der Fall ist) gelöst werden kann; in diesem Fall ist das Objekt tatsächlich sowohl Teig als auch mindestens ein angehender Bagel.

Größere (oben) und kleinere (unten) Fehler, die bei der Erprobung von benutzerdefinierten Modellen in der Forschung auftraten. Die ursprünglichen ImageNet-Labels sind die ersten Bilder links.

Größere (oben) und kleinere (unten) Fehler, die bei der Erprobung von benutzerdefinierten Modellen in der Forschung auftraten. Die ursprünglichen ImageNet-Labels sind die ersten Bilder links.

Die beiden offensichtlichen Lösungen sind, mehr Ressourcen für die Beschriftung bereitzustellen (was innerhalb der Budgetbeschränkungen der meisten Computer-Vision-Forschungsprojekte eine Herausforderung darstellt) und, wie die Autoren betonen, regelmäßig Datensätze und Label-Bewertungssubsets zu aktualisieren (was unter anderem das Risiko birgt, die historische Kontinuität der Benchmarks zu gefährden und neue Forschungsarbeiten mit Qualifizierungen und Vorbehalten hinsichtlich der Äquivalenz zu belasten).

Als Schritt zur Behebung der Situation haben die Forscher ein neues Sub-Datenset von ImageNet namens ImageNet-Major (ImageNet-M) entwickelt, das sie als ‘eine 68-Beispiel-“großer Fehler”-Scheibe der offensichtlichen Fehler, die die heutigen Top-Modelle machen – eine Scheibe, bei der Modelle nahezu perfekt sein sollten, dies aber heute noch nicht tun.’ beschreiben.

Das Papier trägt den Titel Wann wird Teig ein Bagel? Analyse der verbleibenden Fehler in ImageNet und wurde von vier Autoren von Google Research zusammen mit Sara Fridovich-Keil von UC Berkeley verfasst.

Technische Schulden

Die Ergebnisse sind wichtig, weil die verbleibenden Fehler, die in ImageNet identifiziert (oder falsch identifiziert) wurden, in den 16 Jahren seit seiner Einführung, der zentrale Studie der Forschung, den Unterschied zwischen einem einsetzbaren Modell und einem fehleranfälligen Modell darstellen können, das nicht auf Live-Daten losgelassen werden kann. Wie immer ist der letzte Meile entscheidend.

Der Sektor der Computer-Vision- und Bildsynthese-Forschung hat sich effektiv selbst für ImageNet als Benchmark-Metrik ausgewählt, aus einer Reihe von Gründen – nicht zuletzt, weil eine Reihe von frühen Anwendern zu einer Zeit, als hochvolumige und gut beschriftete Datensätze seltener waren als sie es jetzt sind, so viele Forschungsinitiativen produzierten, dass das Testen gegen ImageNet schnell zum einzigen allgemein anwendbaren historischen “Standard” für die Bewertung neuer Frameworks wurde.

Methode

Bei der Suche nach den “verbleibenden Fehlern” in ImageNet verwendeten die Forscher ein Standard-ViT-Modell (das eine Genauigkeit von 89,5 % erreichen kann) mit 3 Milliarden Parametern, Vit-3B, das auf JFT-3B vorgebildet und auf ImageNet-1K fein abgestimmt wurde.

Mit dem ImageNet2012_multilabel-Datensatz ermittelten die Forscher die anfängliche Multi-Label-Genauigkeit (MLA) von ViT-3B als 96,3 %, bei der das Modell 676 offensichtliche Fehler machte. Es waren diese Fehler (und auch Fehler, die von einem Greedy-Soups-Modell produziert wurden), die die Autoren untersuchen wollten.

Um die verbleibenden 676 Fehler zu bewerten, vermeiden die Autoren Crowdsourcing-Mitarbeiter und bemerken, dass Fehler dieser Art für durchschnittliche Annotatoren schwierig zu erkennen sein können, aber eine Gruppe von fünf Experten-Bewertungsexperten zusammengestellt und ein spezielles Tool erstellt, um es jedem Bewertungsexperten zu ermöglichen, auf einen Blick die vorhergesagte Klasse, die vorhergesagte Punktzahl, die Ground-Truth-Labels und das Bild selbst zu sehen.

Die Benutzeroberfläche, die für das Projekt erstellt wurde.

Die Benutzeroberfläche, die für das Projekt erstellt wurde.

In einigen Fällen war weitere Recherche erforderlich, um Meinungsverschiedenheiten innerhalb der Gruppe zu klären, und Google-Bildsuche wurde als Hilfsmittel eingesetzt.

‘[In] einem interessanten, aber nicht isolierten Fall war eine Vorhersage eines Taxis (ohne offensichtliche Taxihinweise außer der Farbe Gelb) im Bild vorhanden; wir stellten fest, dass die Vorhersage tatsächlich ein Taxi und kein Standardfahrzeug war, indem wir eine Landmarke-Brücke im Hintergrund identifizierten, um die Stadt zu lokalisieren, und eine anschließende Bildsuche nach Taxis in dieser Stadt ergab Bilder des gleichen Taximodells und des gleichen Kennzeichendesigns, was die tatsächlich korrekte Vorhersage des Modells bestätigte.’

Nach der anfänglichen Überprüfung der Fehler, die über mehrere Phasen der Forschung gefunden wurden, formulierten die Autoren vier neue Fehlertypen: feinkörniger Fehler, bei dem die vorhergesagte Klasse der Ground-Truth-Label ähnlich ist; feinkörnig mit out-of-vocabulary (OOV), bei dem das Modell ein Objekt identifiziert, dessen Klasse korrekt ist, aber nicht in ImageNet vorhanden ist; spuriose Korrelation, bei der die vorhergesagte Label aus dem Kontext des Bildes gelesen wird; und nicht-prototypisch, bei dem das Ground-Truth-Objekt ein speziöses Beispiel der Klasse ist, die der vorhergesagten Label ähnelt.

In bestimmten Fällen war die Ground-Truth selbst nicht “wahr”:

‘Nach der Überprüfung der ursprünglichen 676 Fehler [in ImageNet] stellten wir fest, dass 298 entweder korrekt oder unklar waren oder die ursprüngliche Ground-Truth falsch oder problematisch war.’

Nach einer erschöpfenden und komplexen Runde von Experimenten über eine Reihe von Datensätzen, Subsets und Validierungssätzen stellten die Autoren fest, dass die beiden untersuchten Modelle tatsächlich für die Hälfte der “Fehler”, die sie unter herkömmlichen Techniken machten, als korrekt angesehen wurden.

Das Papier schließt:

‘In diesem Papier haben wir jeden verbleibenden Fehler analysiert, den das ViT-3B- und das Greedy-Soups-Modell im ImageNet-Multi-Label-Validierungsset machen.’

‘Insgesamt haben wir festgestellt, dass: 1) wenn ein großes, hochgenaues Modell eine neue Vorhersage macht, die von anderen Modellen nicht gemacht wird, es fast die Hälfte der Zeit ein korrektes neues Multi-Label ist; 2) Modelle mit höherer Genauigkeit zeigen kein offensichtliches Muster in unseren Kategorien und Schweregraden der Fehler, die sie lösen; 3) SOTA-Modelle heute sind im Wesentlichen gleich oder besser als die Leistung des besten menschlichen Experten im human-evaluierten Multi-Label-Subset; 4) lautere Trainingsdaten und nicht spezifizierte Klassen können ein Faktor sein, der die effektive Messung von Verbesserungen in der Bildklassifizierung begrenzt.’

 

Erstveröffentlicht am 15. Mai 2022.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.