Suivez nous sur

Évaluation de l'exactitude historique d'ImageNet

Intelligence Artificielle

Évaluation de l'exactitude historique d'ImageNet

mm

Une nouvelle Ă©tude de Google Research et UC Berkeley ajoute Ă  critique de longue date concernant la dĂ©pendance du secteur de la recherche en vision par ordinateur (CV) au vĂ©nĂ©rable ImageNet ensemble de donnĂ©es, et ses nombreux dĂ©rivĂ©s. Après de nombreuses Ă©valuations manuelles Ă  forte intensitĂ© de main-d'Ĺ“uvre, les auteurs concluent que près de 50 % des erreurs supposĂ©es commises par les meilleurs modèles lors de l'Ă©valuation du sous-ensemble multi-Ă©tiquettes d'ImageNet (oĂą les modèles les plus performants actuels atteignent plus de 97 % 1 prĂ©cision) ne sont pas rĂ©ellement erronĂ©s.

Du papier:

«Notre analyse révèle que près de la moitié des erreurs supposées ne sont pas du tout des erreurs, et nous découvrons de nouveaux multi-labels valides, démontrant que, sans examen approfondi, nous sous-estimons considérablement les performances de ces modèles.

« D’un autre côté, nous constatons également que les meilleurs modèles actuels commettent encore un nombre important d’erreurs (40 %) qui sont manifestement erronées pour les examinateurs humains. »

La mesure dans laquelle le mauvais étiquetage des ensembles de données - en particulier par des travailleurs participatifs non qualifiés – pourrait fausser le secteur, a révélé l'approche minutieuse de l'étude visant à évaluer les paires image/texte sur une grande partie de l'histoire d'ImageNet.

Dans la rangĂ©e du haut, des exemples de gravitĂ© d'erreur : dans les deux premiers exemples ici, le nouveau modèle se trompe simplement sur l'Ă©tiquette prĂ©dite ; dans le troisième exemple, le nouveau modèle identifie une multi-Ă©tiquette prĂ©cĂ©demment manquante (une Ă©tiquette qui adresse une nouvelle catĂ©gorisation de l'image) ; dans l'image finale de la rangĂ©e du haut, la prĂ©diction du modèle est ambiguĂ«, car l'image est une mouche d'abeille et non une mouche. Cependant, l'abeille moyenne appartient Ă  l'ordre des insectes diptères, et cette exception serait donc presque impossible Ă  repĂ©rer, mĂŞme pour un annotateur expert. Dans la ligne ci-dessous se trouvent quatre catĂ©gories d'erreurs, avec des exemples. Source : https://arxiv.org/pdf/2205.04596.pdf

Dans la rangĂ©e supĂ©rieure, des exemples de gravitĂ© d'erreur : dans les deux premiers exemples, le nouveau modèle se trompe simplement sur l'Ă©tiquette prĂ©dite ; dans le troisième exemple, il identifie une Ă©tiquette multiple prĂ©cĂ©demment manquante (une Ă©tiquette qui correspond Ă  une nouvelle catĂ©gorisation de l'image) ; dans la dernière image de la rangĂ©e supĂ©rieure, la prĂ©diction du modèle est ambiguĂ«, car l'image reprĂ©sente une abeille-mouche et non une mouche. Cependant, l'abeille moyenne appartient Ă  l'ordre des diptères, et cette exception serait donc presque impossible Ă  repĂ©rer, mĂŞme pour un annotateur expert. La rangĂ©e ci-dessous prĂ©sente quatre catĂ©gories d'erreurs, accompagnĂ©es d'exemples.  Source : https://arxiv.org/pdf/2205.04596.pdf

Les chercheurs ont employé un petit nombre d'évaluateurs dédiés pour examiner minutieusement les enregistrements d'erreurs historiques dans l'évaluation des ensembles de données ImageNet, constatant qu'un grand nombre des jugements d'erreur sont eux-mêmes erronés - une découverte qui révise potentiellement certaines des mauvaises notes que de nombreux projets ont obtenues sur Références ImageNet au fil des ans.

Alors qu'ImageNet s'enracine dans la culture CV, les chercheurs soutiennent que l'on pense que les améliorations de la précision produisent des rendements décroissants, et que les nouveaux modèles qui dépassent la précision établie des étiquettes et qui suggèrent que de nouvelles étiquettes (c'est-à-dire supplémentaires) pourraient être punies, essentiellement, pour non -conformité.

'Par exemple,' observent les auteurs. « Devrions-nous pénaliser les modèles qui sont les premiers à prédire qu'un bagel précuit peut être un bagel, comme le fait l'un des modèles que nous examinons dans ce travail ? »

D'après l'article, un modèle plus récent défie les prédictions antérieures selon lesquelles l'objet sur la photo est de la pâte et suggère que l'objet est en fait déjà un bagel).

D'après l'article, un modèle plus récent défie les prédictions antérieures selon lesquelles l'objet sur la photo est de la pâte et suggère que l'objet est en fait déjà un bagel).

Du point de vue d'un travailleur collaboratif chargé d'identifier un tel objet, il s'agit d'un dilemme sémantique et même philosophique qui ne peut être résolu que par le multi-étiquetage (comme cela se produit souvent dans les sous-ensembles ultérieurs et les itérations ultérieures d'ImageNet) ; dans le cas ci-dessus, l'objet est bien à la fois de la pâte et au moins un bagel naissant.

Erreurs majeures (ci-dessus) et mineures (ci-dessous) apparues lors du test de modèles personnalisés dans la recherche. Les étiquettes ImageNet originales sont les premières images sur la gauche.

Erreurs majeures (ci-dessus) et mineures (ci-dessous) apparues lors du test de modèles personnalisés dans la recherche. Les étiquettes ImageNet originales sont les premières images sur la gauche.

Les deux solutions évidentes sont d'allouer davantage de ressources à l'étiquetage (ce qui constitue un défi, compte tenu des contraintes budgétaires de la plupart des projets de recherche en vision par ordinateur) et, comme le soulignent les auteurs, de mettre à jour régulièrement les ensembles de données et les sous-ensembles d'évaluation des étiquettes (ce qui, entre autres obstacles, risque de rompre la continuité historique « à l'identique » des repères et de parsemer les nouveaux articles de recherche de qualifications et d'avertissements concernant l'équivalence).

Afin de remédier à la situation, les chercheurs ont développé un nouveau sous-ensemble de données d'ImageNet appelé ImageNet-Major (ImageNet-M), qu'ils décrivent comme « Une tranche de 68 exemples d'« erreurs majeures » parmi les erreurs évidentes commises par les meilleurs mannequins d'aujourd'hui, une tranche où les mannequins devraient atteindre une quasi-perfection, mais où ils sont aujourd'hui loin d'y parvenir. »

Construction papier est intitulé Quand la pâte devient-elle un bagel ? Analyse des erreurs restantes sur ImageNet, et est écrit par quatre auteurs de Google Research, ainsi que Sara Fridovich-Keil de l'UC Berkeley.

Dette technique

Ces résultats sont importants car les erreurs restantes identifiées (ou mal identifiées) dans ImageNet, au cours des 16 années écoulées depuis sa création, l'étude centrale de la recherche, peuvent représenter la différence entre un modèle déployable et un modèle suffisamment sujet aux erreurs pour ne pas pouvoir être appliqué aux données réelles. Comme toujours, le dernier kilomètre est critique.

Le secteur de la recherche en vision par ordinateur et en synthèse d'images a effectivement « auto-sélectionné » ImageNet comme mesure de référence, pour un certain nombre de raisons, notamment parce qu'une vague d'adopteurs précoces, à une époque où les ensembles de données volumineux et bien étiquetés étaient plus rares qu'aujourd'hui, a produit tellement d'initiatives de recherche que les tests par rapport à ImageNet sont rapidement devenus la seule « norme » historique largement applicable pour l'évaluation comparative de nouveaux cadres.

Méthode

Pour rechercher les « erreurs restantes » dans ImageNet, les chercheurs ont utilisé une méthode standard Vit modèle (capable d'atteindre une précision de 89.5%) avec 3 milliards de paramètres, Vit-3B, préformé sur JFT-3B et affiné sur ImageNet-1K.

Le ImageNet2012_multilabel ensemble de données, les chercheurs ont enregistré la précision multi-étiquettes initiale (MLA) de ViT-3B à 96.3%, au cours de laquelle le modèle a commis 676 erreurs apparentes. Ce sont ces erreurs (et aussi les erreurs produites par un modèle Greedy Soups) que les auteurs ont cherché à étudier.

Pour Ă©valuer les 676 erreurs restantes, les auteurs ont Ă©vitĂ© les crowdworkers, observant que des erreurs de ce type peuvent ĂŞtre difficile pour les annotateurs moyens Ă  repĂ©rer, mais a rĂ©uni un panel de cinq examinateurs experts et a créé un outil dĂ©diĂ© pour permettre Ă  chaque examinateur de voir en un coup d'Ĺ“il la classe prĂ©dite ; le score prĂ©vu ; les Ă©tiquettes de vĂ©ritĂ© terrain ; et l'image elle-mĂŞme.

L'interface utilisateur créée pour le projet.

L'interface utilisateur créée pour le projet.

Dans certains cas, des recherches supplémentaires ont été nécessaires pour résoudre les différends au sein du panel, et la recherche d'images Google a été utilisée comme outil complémentaire.

« [Dans] un cas intéressant mais non isolé, une prédiction d'un taxi (sans indicateurs de taxi évidents au-delà de la couleur jaune) était présente dans l'image ; nous avons déterminé que la prédiction était correctement un taxi et pas seulement un véhicule standard en identifiant un pont historique en arrière-plan afin de localiser la ville, et une recherche d'images ultérieure pour les taxis dans cette ville a donné les images du même modèle de taxi et de la même conception de plaque d'immatriculation, validant la prédiction réellement correcte du modèle. »

Après un examen initial des erreurs trouvĂ©es au cours de plusieurs phases de la recherche, les auteurs ont formulĂ© quatre nouveaux types d'erreurs : erreur fine, oĂą la classe prĂ©dite est similaire Ă  une Ă©tiquette de vĂ©ritĂ© terrain ; Ă  grain fin avec hors vocabulaire (OOV), oĂą le modèle identifie un objet dont la classe est correcte mais pas prĂ©sente dans ImageNet ; fausse corrĂ©lation, oĂą l'Ă©tiquette prĂ©dite est lue hors du contexte de l'image ; et non-prototypique, oĂą l'objet de vĂ©ritĂ© terrain est un exemple spĂ©cieux de la classe qui ressemble Ă  l'Ă©tiquette prĂ©dite.

Dans certains cas, la vérité fondamentale n’était pas elle-même « vraie » :

« Après avoir examiné les 676 erreurs originales [trouvées dans ImageNet], nous avons constaté que 298 d'entre elles étaient soit correctes, soit peu claires, ou que la vérité fondamentale originale était incorrecte ou problématique. »

Après une série exhaustive et complexe d'expériences sur une gamme d'ensembles de données, de sous-ensembles et d'ensembles de validation, les auteurs ont découvert que les deux modèles étudiés étaient en fait considérés comme corrects (par les examinateurs humains) pour la moitié des « erreurs » qu'ils avaient commises avec les techniques conventionnelles.

Le papier conclut :

«Dans cet article, nous avons analysé toutes les erreurs restantes commises par les modèles ViT-3B et Greedy Soups sur l'ensemble de validation multi-étiquettes ImageNet.

« Dans l'ensemble, nous avons constaté que : 1) lorsqu'un modèle de grande taille et de haute précision fait une nouvelle prédiction non faite par d'autres modèles, il s'avère être un nouveau multi-label correct presque la moitié du temps ; 2) les modèles de plus grande précision ne démontrent pas de modèle évident dans nos catégories et la gravité des erreurs qu'ils résolvent ; 3) les modèles SOTA actuels égalent ou surpassent largement les performances du meilleur expert humain sur le sous-ensemble multi-label évalué par l'homme ; 4) les données d'entraînement bruyantes et les classes sous-spécifiées peuvent être un facteur limitant la mesure efficace des améliorations dans la classification des images. »

 

Première publication le 15 mai 2022.

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai