talon Évaluation de la précision historique d'ImageNet - Unite.AI
Suivez nous sur

Intelligence artificielle

Évaluation de l'exactitude historique d'ImageNet

mm
Le kit de préparation mis à jour on

Une nouvelle étude de Google Research et UC Berkeley ajoute à critique de longue date concernant la dépendance du secteur de la recherche en vision par ordinateur (CV) à l'égard du vénérable ImageNet ensemble de données, et ses nombreux dérivés. Après de nombreuses évaluations manuelles à forte intensité de main-d'œuvre, les auteurs concluent que près de 50 % des erreurs supposées commises par les meilleurs modèles lors de l'évaluation du sous-ensemble multi-étiquettes d'ImageNet (où les modèles les plus performants actuels atteignent plus de 97 % 1 précision) ne sont pas réellement erronés.

Du papier:

«Notre analyse révèle que près de la moitié des erreurs supposées ne sont pas du tout des erreurs, et nous découvrons de nouveaux multi-labels valides, démontrant que, sans examen approfondi, nous sous-estimons considérablement les performances de ces modèles.

"D'un autre côté, nous constatons également que les meilleurs modèles d'aujourd'hui commettent encore un nombre important d'erreurs (40 %) qui sont manifestement erronées pour les examinateurs humains."

La mesure dans laquelle le mauvais étiquetage des ensembles de données - en particulier par des travailleurs participatifs non qualifiés – peut-être biaiser le secteur, a été révélé par l'approche minutieuse de l'étude à l'évaluation des appariements image/texte à travers une large bande de l'histoire d'ImageNet.

Dans la rangée du haut, des exemples de gravité d'erreur : dans les deux premiers exemples ici, le nouveau modèle se trompe simplement sur l'étiquette prédite ; dans le troisième exemple, le nouveau modèle identifie une multi-étiquette précédemment manquante (une étiquette qui adresse une nouvelle catégorisation de l'image) ; dans l'image finale de la rangée du haut, la prédiction du modèle est ambiguë, car l'image est une mouche d'abeille et non une mouche. Cependant, l'abeille moyenne appartient à l'ordre des insectes diptères, et cette exception serait donc presque impossible à repérer, même pour un annotateur expert. Dans la ligne ci-dessous se trouvent quatre catégories d'erreurs, avec des exemples. Source : https://arxiv.org/pdf/2205.04596.pdf

Dans la rangée du haut, des exemples de gravité d'erreur : dans les deux premiers exemples ici, le nouveau modèle se trompe simplement sur l'étiquette prédite ; dans le troisième exemple, le nouveau modèle identifie une multi-étiquette précédemment manquante (une étiquette qui adresse une nouvelle catégorisation de l'image) ; dans l'image finale de la rangée du haut, la prédiction du modèle est ambiguë, car l'image est une mouche d'abeille et non une mouche. Cependant, l'abeille moyenne appartient à l'ordre des insectes diptères, et cette exception serait donc presque impossible à repérer, même pour un annotateur expert. Dans la ligne ci-dessous se trouvent quatre catégories d'erreurs, avec des exemples.  Source : https://arxiv.org/pdf/2205.04596.pdf

Les chercheurs ont employé un petit nombre d'évaluateurs dédiés pour examiner minutieusement les enregistrements d'erreurs historiques dans l'évaluation des ensembles de données ImageNet, constatant qu'un grand nombre des jugements d'erreur sont eux-mêmes erronés - une découverte qui révise potentiellement certaines des mauvaises notes que de nombreux projets ont obtenues sur Références ImageNet au fil des ans.

Alors qu'ImageNet s'enracine dans la culture CV, les chercheurs soutiennent que l'on pense que les améliorations de la précision produisent des rendements décroissants, et que les nouveaux modèles qui dépassent la précision établie des étiquettes et qui suggèrent que de nouvelles étiquettes (c'est-à-dire supplémentaires) pourraient être punies, essentiellement, pour non -conformité.

'Par exemple,' observent les auteurs. "devrions-nous pénaliser les modèles pour avoir été les premiers à prédire qu'un bagel précuit pourrait être un bagel, comme le fait l'un des modèles que nous examinons dans ce travail ?"

D'après l'article, un modèle plus récent défie les prédictions antérieures selon lesquelles l'objet sur la photo est de la pâte et suggère que l'objet est en fait déjà un bagel).

D'après l'article, un modèle plus récent défie les prédictions antérieures selon lesquelles l'objet sur la photo est de la pâte et suggère que l'objet est en fait déjà un bagel).

Du point de vue d'un travailleur collaboratif chargé d'identifier un tel objet, il s'agit d'un dilemme sémantique et même philosophique qui ne peut être résolu que par le multi-étiquetage (comme cela se produit souvent dans les sous-ensembles ultérieurs et les itérations ultérieures d'ImageNet) ; dans le cas ci-dessus, l'objet est bien à la fois de la pâte et au moins un bagel naissant.

Erreurs majeures (ci-dessus) et mineures (ci-dessous) apparues lors du test de modèles personnalisés dans la recherche. Les étiquettes ImageNet originales sont les premières images sur la gauche.

Erreurs majeures (ci-dessus) et mineures (ci-dessous) apparues lors du test de modèles personnalisés dans la recherche. Les étiquettes ImageNet originales sont les premières images sur la gauche.

Les deux solutions évidentes sont d'affecter plus de ressources à l'étiquetage (ce qui est un défi, dans les limites budgétaires de la plupart des projets de recherche en vision par ordinateur) ; et, comme le soulignent les auteurs, de mettre régulièrement à jour les ensembles de données et d'étiqueter les sous-ensembles d'évaluation (ce qui, entre autres obstacles, risque de rompre la continuité historique "à l'identique" des références, et de jeter dans les nouveaux articles de recherche des qualifications et des avertissements concernant l'équivalence) .

Afin de remédier à la situation, les chercheurs ont développé un nouveau sous-ensemble de données d'ImageNet appelé ImageNet-Major (ImageNet-M), qu'ils décrivent comme "une tranche de 68 exemples d'"erreurs majeures" parmi les erreurs évidentes commises par les meilleurs modèles d'aujourd'hui - une tranche où les modèles devraient atteindre la perfection, mais qui sont aujourd'hui loin d'y parvenir."

Les papier est intitulé Quand la pâte devient-elle un bagel ? Analyse des erreurs restantes sur ImageNet, et est écrit par quatre auteurs de Google Research, ainsi que Sara Fridovich-Keil de l'UC Berkeley.

Dette technique

Les résultats sont importants car les erreurs restantes identifiées (ou mal identifiées) dans ImageNet, au cours des 16 années écoulées depuis sa création, l'étude centrale de la recherche, peuvent représenter la différence entre un modèle déployable et un modèle suffisamment sujet aux erreurs pour qu'il puisse ' ne soyez pas lâché sur les données en direct. Comme toujours, le le dernier kilomètre est critique.

Le secteur de la recherche sur la vision par ordinateur et la synthèse d'images a effectivement "auto-sélectionné" ImageNet comme métrique de référence, pour un certain nombre de raisons, notamment en raison d'une vague d'adopteurs précoces, à une époque où les ensembles de données volumineux et bien étiquetés étaient plus rares. qu'ils ne le sont maintenant, ont produit tellement d'initiatives de recherche que les tests par rapport à ImageNet sont rapidement devenus la seule « norme » historique largement applicable pour l'analyse comparative de nouveaux cadres.

Method

À la recherche des "erreurs restantes" dans ImageNet, les chercheurs ont utilisé une norme Vit modèle (capable d'atteindre une précision de 89.5%) avec 3 milliards de paramètres, Vit-3B, préformé sur JFT-3B et affiné sur ImageNet-1K.

Le ImageNet2012_multilabel ensemble de données, les chercheurs ont enregistré la précision multi-étiquettes initiale (MLA) de ViT-3B à 96.3%, au cours de laquelle le modèle a commis 676 erreurs apparentes. Ce sont ces erreurs (et aussi les erreurs produites par un modèle Greedy Soups) que les auteurs ont cherché à étudier.

Pour évaluer les 676 erreurs restantes, les auteurs ont évité les crowdworkers, observant que des erreurs de ce type peuvent être difficile pour les annotateurs moyens à repérer, mais a réuni un panel de cinq examinateurs experts et a créé un outil dédié pour permettre à chaque examinateur de voir en un coup d'œil la classe prédite ; le score prévu ; les étiquettes de vérité terrain ; et l'image elle-même.

L'interface utilisateur créée pour le projet.

L'interface utilisateur créée pour le projet.

Dans certains cas, des recherches supplémentaires ont été nécessaires pour résoudre les différends au sein du panel, et la recherche d'images Google a été utilisée comme outil complémentaire.

« [Dans] un cas intéressant mais non isolé, une prédiction d'un taxi (sans indicateur de taxi évident au-delà de la couleur jaune) était présente dans l'image ; nous avons déterminé que la prédiction était correctement un taxi et pas seulement un véhicule standard en identifiant un pont historique en arrière-plan afin de localiser la ville, et une recherche d'image ultérieure pour les taxis dans cette ville a donné les images du même modèle de taxi et conception de la plaque d'immatriculation, validant la prédiction réellement correcte du modèle.

Après un examen initial des erreurs trouvées au cours de plusieurs phases de la recherche, les auteurs ont formulé quatre nouveaux types d'erreurs : erreur fine, où la classe prédite est similaire à une étiquette de vérité terrain ; à grain fin avec hors vocabulaire (OOV), où le modèle identifie un objet dont la classe est correcte mais pas présente dans ImageNet ; fausse corrélation, où l'étiquette prédite est lue hors du contexte de l'image ; et non-prototypique, où l'objet de vérité terrain est un exemple spécieux de la classe qui ressemble à l'étiquette prédite.

Dans certains cas, la vérité de terrain n'était pas elle-même « vraie » :

"Après examen des 676 erreurs d'origine [trouvées dans ImageNet], nous avons constaté que 298 étaient soit correctes, soit peu claires, ou ont déterminé que la vérité de base d'origine était incorrecte ou problématique."

Après une série d'expériences exhaustives et complexes sur une gamme d'ensembles de données, de sous-ensembles et d'ensembles de validation, les auteurs ont constaté que les deux modèles à l'étude étaient en fait jugés corrects (par les examinateurs humains) pour la moitié des "erreurs" qu'ils ont commises avec les techniques conventionnelles. .

Le papier conclut :

«Dans cet article, nous avons analysé toutes les erreurs restantes commises par les modèles ViT-3B et Greedy Soups sur l'ensemble de validation multi-étiquettes ImageNet.

«Globalement, nous avons constaté que : 1) lorsqu'un grand modèle de haute précision fait une nouvelle prédiction qui n'est pas faite par d'autres modèles, il finit par être un nouveau multi-label correct presque la moitié du temps ; 2) les modèles de précision supérieure ne présentent pas de modèle évident dans nos catégories et la gravité des erreurs qu'ils résolvent ; 3) Les modèles SOTA d'aujourd'hui correspondent ou dépassent largement les performances du meilleur expert humain sur le sous-ensemble multi-étiquettes évalué par l'homme ; 4) les données de formation bruyantes et les classes sous-spécifiées peuvent être un facteur limitant la mesure efficace des améliorations de la classification des images.

 

Première publication le 15 mai 2022.