Ángulo de Anderson

La ilusión de ‘Descargar más etiquetas’ en la investigación de IA

Published April 23, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

Una visión común en la investigación actual de aprendizaje automático es que el propio aprendizaje automático se puede utilizar para mejorar la calidad de las anotaciones de los conjuntos de datos de IA – particularmente las leyendas de imágenes destinadas a su uso en modelos de lenguaje y visión (VLM). Esta línea de pensamiento está impulsada por el alto costo de la anotación humana y la carga adicional de supervisar el rendimiento de los anotadores.

Arguablemente, esto es el equivalente de IA de la broma de principios de 2000 ‘descargar más RAM’, que satirizaba la noción de que una limitación de hardware podría resolverse con una solución basada en software.

También es un problema subestimado; mientras que los nuevos modelos de IA atraen una amplia atención en las esferas pública y comercial, la anotación a menudo parece ser un detalle trivial en las tuberías de aprendizaje automático, eclipsada por la emoción que rodea los marcos más amplios.

En realidad, la capacidad de los sistemas de aprendizaje automático para reconocer y reproducir patrones (el caso de uso central de casi todos los sistemas de IA) depende de la calidad y coherencia de las anotaciones del mundo real – etiquetas y frases que son creadas o adjudicadas por personas reales, que a menudo toman decisiones subjetivas sobre puntos de datos individuales en circunstancias no ideales.

Inevitablemente, los sistemas que buscan observar y reproducir patrones en el comportamiento de los anotadores (y reemplazar así a los anotadores humanos y facilitar la etiquetado preciso a gran escala) no pueden esperar funcionar bien con datos no contenidos en los ejemplos tomados de observadores humanos. Nada es ‘similar’ al mismo, y la equivalencia entre dominios sigue siendo una búsqueda problemática en visión por computadora.

El ‘dólar de datos upstream’ tiene que detenerse en algún lugar, y en este caso, es exactamente donde se detiene – con un cerebelo humano que hace algún tipo de distinción subjetiva para codificar datos para un sistema artificial.

El comercio de RAG

Hasta hace poco, las inexactitudes que surgían de las anotaciones de los conjuntos de datos poco curados se consideraban, quizás, daños colaterales aceptables en el contexto de los resultados imperfectos pero aún comercializables obtenidos de los sistemas de IA generativos.

De hecho, solo este año, un estudio de Singapur concluyó que las alucinaciones – es decir, las ocasiones en que los sistemas de IA inventan cosas que socavan nuestras intenciones – son inevitables y están vinculadas a la arquitectura conceptual de dichos sistemas.

Para contrarrestar esto, los agentes basados en RAG – que pueden ‘verificar’ hechos a través de búsquedas en Internet – están ganando popularidad en la investigación y las soluciones comerciales aplicadas. Sin embargo, agregan al costo de recursos y a la latencia en las consultas; además, la información novedosa aplicada a un modelo entrenado no puede competir con las conexiones más intrincadas e interconectadas que caracterizan las capas nativas en un modelo entrenado.

Por lo tanto, sería mejor si los datos de anotación que informan estos modelos fueran significativamente menos defectuosos en primer lugar, incluso si no pueden ser perfectos (no menos porque esta actividad se adentra en el ámbito de la subjetividad humana).

RePOPE

Un nuevo artículo de Alemania destaca los problemas que surgen al confiar en conjuntos de datos más antiguos y ampliamente utilizados, centrándose particularmente en la precisión y confiabilidad de sus leyendas de imágenes. Los hallazgos de los investigadores sugieren que los errores de etiqueta en las pruebas de referencia pueden ocultar o tergiversar las alucinaciones en los modelos de lenguaje y visión.

Del nuevo artículo, algunos ejemplos donde las leyendas originales no lograron identificar correctamente los objetos en el conjunto de datos de imágenes MSCOCO. La revisión manual de los investigadores del conjunto de datos de referencia POPE aborda estas deficiencias, demostrando el costo de ahorrar dinero en la curación de anotaciones. Fuente: https://arxiv.org/pdf/2504.15707

Imagínese que se le muestra a un modelo una imagen de una escena de calle y se le pregunta si hay una bicicleta en ella. El modelo responde sí. Si el conjunto de datos de referencia dice que no hay bicicleta, el modelo se marca incorrecto. Pero si una bicicleta es claramente visible en la imagen y se pasó por alto durante la anotación, entonces la respuesta del modelo era correcta, y el conjunto de datos de referencia ha fallado. Errores como este pueden acumularse en todo el conjunto de datos, dando una imagen distorsionada de qué modelos son precisos y cuáles son propensos a alucinaciones.

Así, cuando las anotaciones incorrectas o ambiguas se tratan como verdad absoluta, los modelos pueden parecer alucinar cuando son correctos, o parecer precisos cuando no lo son, distorsionando tanto la medición de la alucinación como la clasificación del rendimiento del modelo, y dificultando diagnosticar o abordar el problema con certeza.

El nuevo artículo revisita una prueba de referencia ampliamente utilizada llamada Polling-based Object Probing Evaluation (POPE), que prueba si los modelos de lenguaje y visión pueden decir correctamente qué está o no está en una imagen.

POPE se basa en etiquetas del influyente Microsoft COCO: Common Objects in Context (MSCOCO) conjunto de datos, una colección de imágenes anotadas que ha sido tratada durante mucho tiempo como ofreciendo un buen nivel de precisión de anotación.

POPE evalúa la alucinación de objetos en grandes modelos de lenguaje y visión reformulando el problema como una tarea de clasificación binaria. En lugar de analizar leyendas generadas, el sistema formula preguntas simples sí/no al modelo sobre si objetos específicos están presentes en una imagen, utilizando plantillas como ‘¿Hay un <objeto> en la imagen?’.

Ejemplos de alucinación de objetos en modelos de lenguaje y visión. Las etiquetas en negrita indican objetos marcados como presentes en las anotaciones originales, mientras que las etiquetas en rojo muestran objetos alucinados por los modelos. El ejemplo de la izquierda refleja una evaluación tradicional basada en instrucciones, mientras que los tres ejemplos de la derecha son de diferentes variantes del conjunto de datos de referencia POPE. Fuente: https://aclanthology.org/2023.emnlp-main.20.pdf

La verdad absoluta de los objetos (respuesta: Sí) se empareja con objetos no existentes muestreados (respuesta: No), elegidos a través de estrategias aleatorias, frecuentes (populares) o basadas en co-ocurrencia (adversariales). Este diseño permite una evaluación más estable y menos sensible a las preguntas de la alucinación sin depender de un análisis complejo de leyendas basado en reglas.

Los autores del nuevo artículo – titulado RePOPE: Impacto de los errores de anotación en el conjunto de datos de referencia POPE – desafían la precisión supuesta de POPE volviendo a comprobar las etiquetas en las imágenes del conjunto de datos de referencia (es decir, MSCOCO) – y encontrando que un número sorprendente es incorrecto o ambiguo.

Ejemplos del conjunto de datos MSCOCO de 2014. Fuente: https://arxiv.org/pdf/1405.0312

Estos errores cambian la forma en que se clasifican los modelos, con algunos que inicialmente funcionaron bien cayendo detrás cuando se juzgan con etiquetas corregidas.

En las pruebas, los autores evaluaron una serie de modelos de lenguaje y visión de peso abierto en ambos el conjunto de datos de referencia original POPE y su versión reetiquetada RePOPE.

Según el artículo, las anotaciones corregidas condujeron a cambios notables en las clasificaciones de los modelos, particularmente en puntuaciones F1, con varios modelos de alto rendimiento en POPE cayendo en posición bajo RePOPE.

Los autores sostienen que este cambio ilustra la medida en que los errores de anotación pueden ocultar el comportamiento real de alucinación de los modelos, y presentan RePOPE como una herramienta más confiable para evaluar la vulnerabilidad a la alucinación.

En otro ejemplo del nuevo artículo, vemos cómo las leyendas originales de POPE no logran discernir objetos sutiles, como una persona sentada junto a la cabina de un tranvía en la foto de la derecha, o la silla oculta por el jugador de tenis en la segunda foto de la izquierda.

Método y pruebas

Los investigadores reetiquetaron todas las anotaciones en el conjunto de datos original MSCOCO, con dos etiquetadores humanos asignados a cada instancia de datos. Donde surgió ambigüedad sobre la calidad de las etiquetas originales (como en los ejemplos a continuación), estos resultados se excluyeron de la ronda de pruebas.

Casos ambiguos, donde las inconsistencias de etiquetado en POPE reflejan límites de categoría poco claros. Por ejemplo, un oso de peluche etiquetado como oso, una motocicleta como bicicleta o vehículos de aeropuerto como coches. Estos casos se excluyen de RePOPE debido a la naturaleza subjetiva de tales clasificaciones, así como a las inconsistencias en las etiquetas originales de MSCOCO.

El artículo establece:

‘Los anotadores originales pasaron por alto a las personas en el fondo o detrás de vidrio, el jugador de tenis oculta las ‘sillas’ en el fondo y la ensalada de col contiene solo una pequeña franja visible de zanahoria.

‘Para algunos objetos, las anotaciones de COCO son altamente inconsistentes, probablemente debido a definiciones diferentes de esos objetos utilizadas por los anotadores originales. La clasificación de un ‘oso de peluche’ como ‘oso’, una motocicleta como bicicleta motorizada o un vehículo de aeropuerto como ‘coche’ depende de definiciones específicas, lo que lleva a inconsistencias en las anotaciones de verdad absoluta de POPE. Por lo tanto, etiquetamos las parejas de imagen-pregunta correspondientes como ‘ambiguas’.’

Resultados de la reetiquetación: las preguntas positivas son compartidas por todas las tres variantes de POPE. Entre las etiquetadas como ‘Sí’ en POPE, el 9,3 por ciento resultaron ser incorrectas y el 13,8 por ciento se clasificaron como ambiguas. Para las preguntas ‘No’, el 1,7 por ciento estaban mal etiquetadas y el 4,3 por ciento eran ambiguas.

Los autores evaluaron una serie de modelos de peso abierto en POPE y en RePOPE, en diversas arquitecturas y tamaños de modelo. Los modelos elegidos incluyeron algunos de las arquitecturas líderes en la clasificación OpenVLM: InternVL2.5 (8B/26B/38B/78B y 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; y PaliGemma2 (3B/10B).

Resultados iniciales: la alta tasa de error en las etiquetas positivas originales conduce a una caída pronunciada en los verdaderos positivos en todos los modelos. Los falsos positivos varían en los subconjuntos, casi duplicándose en el subconjunto aleatorio, pero permaneciendo en gran medida sin cambios en el subconjunto popular y mostrando una ligera disminución en el subconjunto adversarial. La reetiquetación tiene un efecto importante en las clasificaciones basadas en F1. Modelos como Ovis2-4B y Ovis2-8B, que funcionaron bien en las particiones populares y adversarias en POPE, también suben a la parte superior en el subconjunto aleatorio bajo RePOPE. Consulte el PDF de origen para una mejor resolución.

Los gráficos de resultados anteriores ilustran cómo cambian el número de verdaderos positivos y falsos positivos después de corregir las etiquetas en el conjunto de datos de referencia.

Los verdaderos positivos disminuyeron en todos los modelos, lo que muestra que a menudo se les acreditaba por respuestas correctas cuando esas respuestas eran correctas solo bajo etiquetas defectuosas, mientras que los falsos positivos siguieron un patrón más variado.

En la versión ‘aleatoria’ de POPE, los falsos positivos casi duplicaron para muchos modelos, lo que indica que un número significativo de objetos marcados como alucinaciones estaban en realidad presentes en las imágenes pero se pasaron por alto en las anotaciones originales. En este caso, muchos errores supuestos del modelo fueron en realidad errores de etiquetado del conjunto de datos.

Para la versión ‘adversarial’ de POPE, donde las preguntas se basaron en objetos que frecuentemente co-ocurren, los falsos positivos disminuyeron. Esto probablemente refleje una mayor probabilidad de que el objeto supuestamente ausente estuviera en realidad en la imagen pero no estuviera etiquetado.

Aunque estos cambios afectaron la precisión y el recuerdo, las clasificaciones de los modelos permanecieron relativamente estables para ambas métricas.

La puntuación F1 – la principal medida de evaluación de POPE – fue mucho más sensible a las correcciones de etiquetas. En el subconjunto aleatorio, los modelos que se clasificaron cerca de la parte superior bajo las etiquetas originales, como InternVL2.5-8B y -26B, cayeron a la parte inferior cuando se calificaron con RePOPE. Otros, como Ovis2-4B y -8B, subieron a la parte superior.

Un patrón similar surgió en las puntuaciones de precisión, aunque los autores señalan que estas pueden estar sesgadas ahora, ya que el conjunto de datos corregido contiene un número desigual de ejemplos positivos y negativos.

Los autores argumentan que el fuerte impacto de los errores de anotación en los resultados del conjunto de datos de referencia subraya la necesidad de datos de alta calidad. Para apoyar una evaluación más confiable de la alucinación de objetos, han publicado las etiquetas corregidas en GitHub.

Sin embargo, señalan que esta reetiquetación no aborda completamente la saturación del conjunto de datos de referencia, ya que muchos modelos aún logran tasas de verdaderos positivos y verdaderos negativos por encima del 90%. Sugieren que se deben utilizar conjuntos de datos de referencia adicionales, como DASH-B, que utiliza un conjunto más desafiante de ejemplos negativos, junto con RePOPE.

Conclusión

Este experimento particular fue posible gracias a la pequeña escala del conjunto de datos involucrado. Probar la misma hipótesis en conjuntos de datos de hipercala requeriría trabajar en fragmentos muy limitados de los datos; en conjuntos de datos grandes y muy diversos, podría resultar casi imposible aislar grupos estadísticamente representativos y semánticamente coherentes – lo que podría sesgar los resultados.

Incluso si fuera posible, ¿qué remedio habría bajo el estado actual de la técnica? El argumento se mueve inevitablemente hacia la necesidad de una mejor y más copiosa anotación humana.

En este sentido, ‘mejor’ y ‘más copiosa’ existen como problemas separados en sí mismos, ya que se puede obtener un mayor volumen de anotaciones a través de economías de carrera hacia abajo como Amazon Mechanical Turk (AMT). Obviamente, esta subeconomía potencialmente explotadora a menudo conduce a resultados inferiores.

Alternativamente, se podrían asignar tareas de anotación a regiones económicas donde el mismo gasto produciría una mayor cantidad de anotaciones. Sin embargo, cuanto más alejado esté el anotador del caso de uso previsto del modelo que sus etiquetas darán forma, menos probable es que el modelo resultante se alinee con las necesidades o expectativas del dominio objetivo.

Esto sigue siendo uno de los desafíos más persistentes y no resueltos en la economía del desarrollo de aprendizaje automático.

Publicado por primera vez el miércoles 23 de abril de 2025