Inteligencia artificial

Evaluando la precisión histórica de ImageNet

Published May 15, 2022

Updated April 28, 2026

Martin Anderson

Un nuevo estudio de Google Research y UC Berkeley suma a la crítica de larga data respecto a la dependencia del sector de investigación de visión por computadora (CV) en el venerable conjunto de datos ImageNet y sus muchos derivados. Después de una gran cantidad de evaluación manual laboriosa, los autores concluyen que casi el 50% de los supuestos errores que cometen los mejores modelos en la evaluación de subconjuntos de etiquetas múltiples de ImageNet (donde los modelos con mejor rendimiento actual logran más del 97% de precisión en la parte superior) no son en realidad errores.

Del papel:

‘Nuestro análisis revela que casi la mitad de los supuestos errores no son errores en absoluto, y descubrimos nuevas etiquetas múltiples válidas, demostrando que, sin una revisión cuidadosa, estamos subestimando significativamente el rendimiento de estos modelos.

‘Por otro lado, también encontramos que los mejores modelos actuales todavía cometen un número significativo de errores (40%) que son obviamente incorrectos para los revisores humanos.’

El grado en que la mala etiquetado de conjuntos de datos – particularmente por trabajadores de multitud no calificados – puede estar sesgando el sector, se reveló por el enfoque exhaustivo del estudio para la evaluación de los pares de imagen/texto en una gran parte de la historia de ImageNet.

En la fila superior, ejemplos de gravedad de errores: en los dos primeros ejemplos, el nuevo modelo simplemente obtiene la etiqueta predicha incorrecta; en el tercer ejemplo, el nuevo modelo identifica una etiqueta múltiple previamente perdida (una etiqueta que aborda una nueva categorización de la imagen); en la última imagen de la fila superior, la predicción del modelo es ambigua, porque la imagen es una mosca-bee y no una mosca. Sin embargo, la abeja promedio pertenece al orden de insectos Diptera, y así esta excepción sería casi imposible de detectar, incluso para un annotador experto. En la fila debajo hay cuatro categorías de errores, con ejemplos. Fuente: https://arxiv.org/pdf/2205.04596.pdf

Los investigadores emplearon a un pequeño número de evaluadores dedicados para revisar exhaustivamente los registros de errores históricos en la evaluación del conjunto de datos ImageNet, encontrando que muchos de los juicios de error son en sí mismos incorrectos – un descubrimiento que potencialmente revisa algunas de las bajas puntuaciones que muchos proyectos han obtenido en las pruebas de ImageNet a lo largo de los años.

A medida que ImageNet se arraiga en la cultura de CV, los investigadores sostienen que las mejoras en la precisión producen rendimientos decrecientes, y que los nuevos modelos que superan la precisión de las etiquetas establecidas, y que sugieren nuevas etiquetas (es decir, etiquetas adicionales) pueden estar siendo castigados, esencialmente, por no conformidad.

‘Por ejemplo,’ observan los autores. ‘¿Debemos castigar a los modelos por ser los primeros en predecir que un bagel prehorneado puede ser un bagel, como uno de los modelos que revisamos en este trabajo hace?’

Del papel, un modelo más nuevo desafía la predicción previa de que el objeto en la foto es masa, y sugiere que el objeto es en realidad un bagel).

Desde el punto de vista de un trabajador de multitud encargado de identificar dicho objeto, esto es un dilema semántico y filosófico que solo se puede resolver mediante la etiquetado múltiple (como a menudo ocurre en subconjuntos posteriores y en iteraciones posteriores de ImageNet); en el caso anterior, el objeto es en realidad tanto masa como un bagel naciente.

Errores importantes (arriba) y menores (abajo) que surgieron al probar modelos personalizados en la investigación. Las etiquetas originales de ImageNet son las primeras imágenes de la izquierda.

Las dos soluciones obvias son asignar más recursos a la etiquetado (lo que es un desafío, dentro de las limitaciones presupuestarias de la mayoría de los proyectos de investigación de visión por computadora); y, como enfatizan los autores, actualizar regularmente los conjuntos de datos y los subconjuntos de evaluación de etiquetas (lo que, entre otros obstáculos, arriesga romper la continuidad histórica de las pruebas, y esparcir nuevos artículos de investigación con calificaciones y descargos sobre la equivalencia).

Como un paso para remediar la situación, los investigadores han desarrollado un nuevo subconjunto de ImageNet llamado ImageNet-Major (ImageNet-M), que describen como ‘un ejemplo de 68 “errores importantes” de los errores obvios cometidos por los mejores modelos de hoy – un ejemplo donde los modelos deberían lograr la perfección, pero hoy están lejos de hacerlo.’

El papel se titula ¿Cuándo se convierte la masa en un bagel? Analizando los errores restantes en ImageNet, y está escrito por cuatro autores de Google Research, junto con Sara Fridovich-Keil de UC Berkeley.

Deuda técnica

Los hallazgos son importantes porque los errores restantes identificados (o mal identificados) en ImageNet, en los 16 años desde su creación, el estudio central de la investigación, pueden representar la diferencia entre un modelo desplegable y uno que es propenso a errores y no se puede dejar suelto en datos en vivo. Como siempre, el último kilómetro es crítico.

El sector de investigación de visión por computadora y síntesis de imágenes ha seleccionado efectivamente a ImageNet como una métrica de referencia, por una serie de razones – no menos porque una oleada de adoptantes tempranos, en un momento en que los conjuntos de datos de alta volumen y bien etiquetados eran más raros de lo que son ahora, produjeron tantas iniciativas de investigación que probar contra ImageNet se convirtió rápidamente en el único estándar histórico ampliamente aplicable para la medición de nuevos marcos.

Método

En busca de los ‘errores restantes’ en ImageNet, los investigadores utilizaron un modelo ViT estándar (capaz de lograr una precisión del 89,5%) con 3 mil millones de parámetros, Vit-3B, preentrenado en JFT-3B y ajustado en ImageNet-1K.

Utilizando el conjunto de datos ImageNet2012_multilabel, los investigadores registraron la precisión inicial de etiquetas múltiples (MLA) de ViT-3B como 96,3%, durante el cual el modelo cometió 676 errores aparentes. Fueron estos errores (y también errores producidos por un modelo Greedy Soups) los que los autores buscaron investigar.

Para evaluar los 676 errores restantes, los autores evitaron a los trabajadores de multitud, observando que errores de este tipo pueden ser difíciles para los annotadores promedio detectar, pero reunieron un panel de cinco revisores expertos, y crearon una herramienta dedicada para permitir que cada revisor viera de un vistazo la clase predicha; la puntuación predicha; las etiquetas de verdad; y la imagen en sí.

La interfaz de usuario construida para el proyecto.

En algunos casos, se necesitó más investigación para resolver disputas entre el panel, y se utilizó la búsqueda de Google Image como herramienta auxiliar.

‘[En] un caso interesante pero no aislado, una predicción de un taxi (con ningún indicador de taxi obvio más allá del color amarillo) estaba presente en la imagen; determinamos que la predicción era correcta y no solo un vehículo estándar, al identificar un puente de referencia en el fondo para localizar la ciudad, y una búsqueda de imagen posterior de taxis en esa ciudad produjo imágenes del mismo modelo de taxi y diseño de matrícula, validando la predicción correcta del modelo.’

Después de la revisión inicial de los errores encontrados durante varias fases de la investigación, los autores formularon cuatro tipos de errores nuevos: error de grano fino, donde la clase predicha es similar a una etiqueta de verdad; grano fino con fuera del vocabulario (OOV), donde el modelo identifica un objeto cuya clase es correcta pero no está presente en ImageNet; correlación espuria, donde la etiqueta predicha se lee fuera de contexto de la imagen; y no prototípico, donde el objeto de verdad es un ejemplo especioso de la clase que se asemeja a la etiqueta predicha.

En ciertos casos, la verdad no era en sí misma ‘verdadera’:

‘Después de la revisión de los 676 errores originales [encontrados en ImageNet], encontramos que 298 eran correctos o poco claros, o determinamos que la verdad original era incorrecta o problemática.’

Después de una ronda exhaustiva y compleja de experimentos en una variedad de conjuntos de datos, subconjuntos y conjuntos de validación, los autores encontraron que los dos modelos bajo estudio fueron en realidad considerados correctos (por los revisores humanos) para la mitad de los ‘errores’ que cometieron bajo técnicas convencionales.

El papel concluye:

‘En este papel, analizamos cada error restante que los modelos ViT-3B y Greedy Soups cometen en el conjunto de validación de etiquetas múltiples de ImageNet.

‘En general, encontramos que: 1) cuando un modelo grande y de alta precisión hace una predicción novedosa que no hacen otros modelos, resulta ser una etiqueta múltiple correcta casi la mitad de las veces; 2) los modelos de mayor precisión no demuestran un patrón obvio en nuestras categorías y gravedad de errores que resuelven; 3) los modelos SOTA de hoy están empatando o superando el rendimiento del mejor experto humano en el subconjunto de etiquetas múltiples evaluado por humanos; 4) los datos de entrenamiento ruidosos y las clases subespecificadas pueden ser un factor que limita la medición efectiva de mejoras en la clasificación de imágenes.’

Publicado por primera vez el 15 de mayo de 2022.