Connect with us

Évaluation de l’exactitude historique d’ImageNet

Intelligence artificielle

Évaluation de l’exactitude historique d’ImageNet

mm

Une nouvelle étude de Google Research et UC Berkeley s’ajoute à la critique de longue date concernant la dépendance du secteur de la recherche en vision par ordinateur (CV) à l’égard du vénérable ImageNet dataset, et de ses nombreux dérivés. Après une évaluation manuelle fastidieuse, les auteurs concluent que près de 50% des erreurs supposées que les meilleurs modèles font sur le sous-ensemble d’évaluation multi-étiquettes d’ImageNet (où les modèles actuels les plus performants atteignent plus de 97% de précision top-1) ne sont pas réellement des erreurs.

Du papier :

‘Notre analyse révèle que près de la moitié des erreurs supposées ne sont pas des erreurs du tout, et nous découvrons de nouvelles étiquettes multi-valides, démontrant que, sans examen attentif, nous sous-estimons considérablement les performances de ces modèles.

‘D’un autre côté, nous constatons également que les meilleurs modèles d’aujourd’hui font encore un nombre important d’erreurs (40%) qui sont manifestement fausses aux yeux des réviseurs humains.’

L’étendue à laquelle la mauvaise étiquetage des datasets – en particulier par des travailleurs de crowdsourcing non qualifiés – peut fausser le secteur, a été révélée par l’approche minutieuse de l’étude pour l’évaluation des paires image/texte sur une large partie de l’histoire d’ImageNet.

Dans la rangée supérieure, des exemples de gravité des erreurs : dans les deux premiers exemples, le nouveau modèle se trompe simplement sur l'étiquette prédite ; dans le troisième exemple, le nouveau modèle identifie une étiquette multi-étiquette manquante (une étiquette qui aborde une nouvelle catégorisation de l'image) ; dans la dernière image de la rangée supérieure, la prédiction du modèle est ambiguë, car l'image est un moucheron et non une mouche. Cependant, la moyenne des abeilles appartient à l'ordre des insectes Diptera, et donc cette exception serait presque impossible à détecter, même pour un annotateur expert. Dans la rangée ci-dessous, quatre catégories d'erreurs, avec des exemples. Source : https://arxiv.org/pdf/2205.04596.pdf

Dans la rangée supérieure, des exemples de gravité des erreurs : dans les deux premiers exemples, le nouveau modèle se trompe simplement sur l’étiquette prédite ; dans le troisième exemple, le nouveau modèle identifie une étiquette multi-étiquette manquante (une étiquette qui aborde une nouvelle catégorisation de l’image) ; dans la dernière image de la rangée supérieure, la prédiction du modèle est ambiguë, car l’image est un moucheron et non une mouche. Cependant, la moyenne des abeilles appartient à l’ordre des insectes Diptera, et donc cette exception serait presque impossible à détecter, même pour un annotateur expert. Dans la rangée ci-dessous, quatre catégories d’erreurs, avec des exemples. Source : https://arxiv.org/pdf/2205.04596.pdf

Les chercheurs ont employé un petit nombre d’évaluateurs dédiés pour examiner avec soin les dossiers d’erreurs historiques dans l’évaluation du dataset ImageNet, constatant que de nombreuses erreurs de jugement sont elles-mêmes erronées – une découverte qui pourrait réviser certaines des mauvaises évaluations que de nombreux projets ont obtenues sur les benchmarks d’ImageNet au fil des ans.

Alors qu’ImageNet s’ancre dans la culture CV, les chercheurs soutiennent que les améliorations de l’exactitude sont censées donner des rendements décroissants, et que les nouveaux modèles qui dépassent l’exactitude des étiquettes établies, et qui suggèrent de nouvelles étiquettes (c’est-à-dire des étiquettes supplémentaires) peuvent être pénalisés, essentiellement, pour non-conformité.

‘Par exemple,’ les auteurs observent. ‘devrions-nous pénaliser les modèles pour être les premiers à prédire qu’un bagel pré-cuit peut être un bagel, comme l’un des modèles que nous examinons dans ce travail le fait ?’

Du papier, un nouveau modèle défie la prédiction antérieure que l'objet de la photo est de la pâte, et suggère que l'objet est en fait déjà un bagel).

Du papier, un nouveau modèle défie la prédiction antérieure que l’objet de la photo est de la pâte, et suggère que l’objet est en fait déjà un bagel).

Du point de vue d’un travailleur de crowdsourcing chargé d’identifier un tel objet, c’est un dilemme sémantique et même philosophique qui ne peut être résolu que par une étiquetage multi-étiquettes (comme cela se produit souvent dans les sous-ensembles ultérieurs et les itérations ultérieures d’ImageNet) ; dans le cas ci-dessus, l’objet est en fait à la fois de la pâte et au moins un bagel naissant.

Erreurs majeures (ci-dessus) et mineures (ci-dessous) qui sont apparues lors du test de modèles personnalisés dans la recherche. Les étiquettes d'origine d'ImageNet sont les premières images à gauche.

Erreurs majeures (ci-dessus) et mineures (ci-dessous) qui sont apparues lors du test de modèles personnalisés dans la recherche. Les étiquettes d’origine d’ImageNet sont les premières images à gauche.

Les deux solutions évidentes sont d’affecter plus de ressources à l’étiquetage (ce qui est un défi, dans les contraintes budgétaires de la plupart des projets de recherche en vision par ordinateur) ; et, comme les auteurs le soulignent, de mettre à jour régulièrement les datasets et les sous-ensembles d’évaluation des étiquettes (ce qui, parmi d’autres obstacles, risque de rompre la continuité historique des benchmarks, et de parsemer les nouvelles publications de recherche de qualifications et de réserves concernant l’équivalence).

Dans un effort pour remédier à la situation, les chercheurs ont développé un nouveau sous-ensemble d’ImageNet appelé ImageNet-Major (ImageNet-M), qu’ils décrivent comme ‘un exemple de 68 “erreurs majeures” évidentes commises par les meilleurs modèles d’aujourd’hui – un exemple où les modèles devraient atteindre la perfection, mais où ils sont loin de le faire.’

Le papier est intitulé Quand la pâte devient-elle un bagel ? Analyse des erreurs restantes sur ImageNet, et est écrit par quatre auteurs de Google Research, ainsi que Sara Fridovich-Keil de UC Berkeley.

Dette technique

Les résultats sont importants car les erreurs restantes identifiées (ou mal identifiées) dans ImageNet, dans les 16 années depuis sa création, l’étude centrale de la recherche, peuvent représenter la différence entre un modèle déployable et un modèle sujet à des erreurs qui ne peut pas être utilisé sur des données en direct. Comme toujours, le dernier kilomètre est critique.

Le secteur de la recherche en vision par ordinateur et en synthèse d’images a effectivement ‘sélectionné’ ImageNet comme mesure de référence, pour un certain nombre de raisons – pas seulement parce que les premiers adeptes, à une époque où les datasets de haute qualité et bien étiquetés étaient plus rares qu’ils ne le sont maintenant, ont produit de nombreuses initiatives de recherche qui ont testé ImageNet, ce qui est devenu rapidement la seule norme historique largement applicable pour les nouvelles architectures.

Méthode

À la recherche des ‘erreurs restantes’ dans ImageNet, les chercheurs ont utilisé un modèle ViT standard (capable d’atteindre une précision de 89,5%) avec 3 milliards de paramètres, Vit-3B, pré-entraîné sur JFT-3B et affiné sur ImageNet-1K.

En utilisant le dataset ImageNet2012_multilabel, les chercheurs ont enregistré la précision multi-étiquettes initiale (MLA) de ViT-3B à 96,3%, pendant laquelle le modèle a fait 676 erreurs apparentes. Ce sont ces erreurs (et également les erreurs produites par un modèle Greedy Soups) que les auteurs ont cherché à étudier.

Pour évaluer les 676 erreurs restantes, les auteurs ont évité les travailleurs de crowdsourcing, observant que les erreurs de ce type peuvent être difficiles pour les annotateurs moyens à détecter, mais ont assemblé un panel de cinq réviseurs experts, et ont créé un outil dédié pour permettre à chaque réviseur de voir d’un seul coup l’étiquette prédite ; le score prédit ; les étiquettes de vérité terrain ; et l’image elle-même.

L'interface utilisateur construite pour le projet.

L’interface utilisateur construite pour le projet.

Dans certains cas, des recherches supplémentaires ont été nécessaires pour résoudre les désaccords entre le panel, et la recherche d’images Google a été utilisée comme outil auxiliaire.

‘[Dans] un cas intéressant mais non isolé, une prédiction d’un taxi (sans indicateur de taxi évident au-delà de la couleur jaune) était présente dans l’image ; nous avons déterminé que la prédiction était correcte et non simplement un véhicule standard en identifiant un pont emblématique dans l’arrière-plan pour localiser la ville, et une recherche d’images ultérieure pour les taxis dans cette ville a donné des images du même modèle de taxi et de la même conception de plaque d’immatriculation, validant la prédiction correcte du modèle.’

Après l’examen initial des erreurs trouvées au cours de plusieurs phases de la recherche, les auteurs ont formulé quatre nouveaux types d’erreurs : erreur fine, où la classe prédite est similaire à une étiquette de vérité terrain ; erreur fine avec des mots hors du vocabulaire (OOV), où le modèle identifie un objet dont la classe est correcte mais n’est pas présente dans ImageNet ; corrélation spurieuse, où l’étiquette prédite est lue hors du contexte de l’image ; et non-prototypique, où l’objet de vérité terrain est un exemple spéieux de la classe qui ressemble à l’étiquette prédite.

Dans certains cas, la vérité terrain n’était pas elle-même ‘vraie’ :

‘Après examen des 676 erreurs originales [trouvées dans ImageNet], nous avons constaté que 298 étaient soit correctes, soit peu claires, ou que la vérité terrain originale était incorrecte ou problématique.’

Après un tour d’expériences exhaustif et complexe sur une gamme de datasets, de sous-ensembles et de jeux de validation, les auteurs ont constaté que les deux modèles sous étude étaient en fait considérés comme corrects (par les réviseurs humains) pour la moitié des ‘erreurs’ qu’ils faisaient sous les techniques conventionnelles.

Le papier conclut :

‘Dans ce papier, nous avons analysé chaque erreur restante que les modèles ViT-3B et Greedy Soups font sur le sous-ensemble de validation multi-étiquettes d’ImageNet.

‘Dans l’ensemble, nous avons constaté que : 1) lorsqu’un grand modèle à haute précision fait une prédiction nouvelle non faite par d’autres modèles, il s’avère être une nouvelle étiquette multi-étiquette correcte presque la moitié du temps ; 2) les modèles à plus haute précision ne montrent pas de modèle évident dans nos catégories et nos niveaux de gravité d’erreurs ; 3) les modèles SOTA d’aujourd’hui correspondent en grande partie ou dépassent les performances du meilleur expert humain sur le sous-ensemble multi-étiquettes évalué par l’homme ; 4) les données de formation bruyantes et les classes mal spécifiées peuvent être un facteur limitant la mesure effective des améliorations de la classification d’images.’

 

Publié pour la première fois le 15 mai 2022.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.