El ángulo de Anderson
La ilusión de «¡Descarga más etiquetas!» en la investigación de IA

Una visión común en la investigación actual sobre aprendizaje automático es que el aprendizaje automático en sí mismo puede ser usado para mejorar La calidad de las anotaciones de conjuntos de datos de IA, en particular las descripciones de imágenes destinadas a su uso en modelos de visión y lenguaje (VLM). Esta línea de pensamiento está impulsada por... Alto costo de anotación humana y la carga añadida de supervisión Rendimiento del anotador.
Podría decirse que este es el equivalente en inteligencia artificial de principios de la década de 2000. Meme de 'descarga más RAM', que satirizaba la noción de que una limitación de hardware podía resolverse con una solución basada en software.
También es un tema poco valorado: si bien los nuevos modelos de IA atraen una atención generalizada en las esferas pública y comercial, la anotación a menudo parece ser un detalle trivial en los procesos de aprendizaje automático, eclipsado por el entusiasmo que rodea a marcos más amplios.
En verdad, la capacidad de los sistemas de aprendizaje automático para reconocer y reproducir patrones (el caso de uso central de casi todos los sistemas de IA) es dependiente sobre la calidad y la consistencia de las anotaciones del mundo real: etiquetas y frases creadas o juzgadas por personas reales, que a menudo hacen juicios subjetivos sobre puntos de datos individuales en circunstancias no ideales.
Inevitablemente, los sistemas que buscan observar y reproducir patrones en el comportamiento de los anotadores (y, por lo tanto, reemplazar a los anotadores humanos y facilitar un etiquetado preciso a escala) no pueden esperar tener un buen desempeño con datos. no está contenida en los ejemplos tomados de observadores humanos. Nada "similar" es exactamente igual, y la equivalencia entre dominios sigue siendo un búsqueda problemática en visión por computadora.
El 'dinero de los datos ascendentes' tiene que parar en algún lugar, y en este caso, es exactamente ahí donde termina: con un cerebelo humano haciendo algún tipo de distinción subjetiva para codificar datos para un sistema artificial.
El comercio de RAG
Hasta hace poco, las inexactitudes derivadas de anotaciones de conjuntos de datos mal conservados se consideraban, tal vez, un daño colateral aceptable en el contexto de los resultados imperfectos, pero aún comercializables, obtenidos a partir de sistemas de IA generativa.
De hecho, sólo este año un estudio de Singapur Concluido que alucinaciones – es decir, las ocasiones en que los sistemas de IA inventan cosas que socavan nuestras intenciones – son inevitables y están ligadas a la arquitectura conceptual de dichos sistemas.
Para contrarrestar esto, Agentes basados en RAG Las herramientas de análisis de datos (que permiten verificar datos mediante búsquedas en internet) se están popularizando en la investigación y en soluciones comerciales aplicadas. Sin embargo, incrementan el coste de los recursos y la latencia de las consultas; además, la información novedosa aplicada a un modelo entrenado no puede competir con las conexiones más complejas y profundamente entrelazadas que caracterizan las capas nativas de un modelo entrenado.
Por lo tanto, sería mejor si los datos de anotación que informan estos modelos fueran significativamente menos defectuosos desde el principio, incluso si no pueden ser perfectos (sobre todo porque esta actividad invade el ámbito de la subjetividad humana).
RePOPE
Un nuevo artículo alemán destaca los problemas que surgen al depender de conjuntos de datos antiguos y ampliamente utilizados, centrándose en particular en la precisión y fiabilidad de los títulos de las imágenes. Los hallazgos de los investigadores sugieren que los errores de etiquetado en los parámetros de referencia pueden enmascarar o distorsionar las alucinaciones en los modelos de visión-lenguaje.

El nuevo artículo presenta algunos ejemplos en los que los títulos originales no identificaron correctamente los objetos en el conjunto de datos de imágenes MSCOCO. La revisión manual del conjunto de datos de referencia POPE, realizada por los investigadores, corrige estas deficiencias, demostrando el coste de ahorrar en la curación de anotaciones. Fuente: https://arxiv.org/pdf/2504.15707
Imaginemos que a una modelo se le muestra una imagen de una escena callejera y se le pregunta si hay una bicicleta en ella. La modelo responde: siSi el conjunto de datos de referencia indica que no hay bicicleta, el modelo se marca Mal. Pero si una bicicleta es claramente visible En la imagen, y simplemente se omitió durante la anotación, la respuesta del modelo fue correcta y el punto de referencia falló. Errores como este pueden acumularse en un conjunto de datos, lo que distorsiona la imagen de qué modelos son precisos y cuáles son propensos a alucinaciones.
Por lo tanto, cuando se tratan anotaciones incorrectas o ambiguas como verdad fundamental, los modelos pueden parecer que alucinan cuando son correctos o parecer precisos cuando no lo son, lo que distorsiona tanto la medición de la alucinación como la clasificación del desempeño del modelo y dificulta el diagnóstico o la solución del problema con certeza.
El nuevo documento retoma un parámetro de referencia ampliamente utilizado llamado Evaluación de sondeo de objetos basada en sondeo (POPE), que prueba si los modelos de visión-lenguaje pueden decir correctamente qué hay o no hay en una imagen.
POPE se basa en etiquetas de los influyentes Microsoft COCO: Objetos comunes en contexto Conjunto de datos (MSCOCO), una colección de imágenes anotadas que durante mucho tiempo se ha considerado que ofrece un buen nivel de precisión de anotación.
POPE evalúa la alucinación de objetos en grandes modelos de visión-lenguaje al reformular el problema como un tarea de clasificación binariaEn lugar de analizar los subtítulos generados, el sistema plantea preguntas simples. si no preguntas al modelo sobre si hay objetos específicos presentes en una imagen, utilizando plantillas como 'Hay una '¿en la imagen?'.

Ejemplos de alucinación de objetos en modelos de visión-lenguaje. Las etiquetas en negrita indican los objetos marcados como presentes en las anotaciones originales, mientras que las etiquetas en rojo muestran los objetos alucinados por los modelos. El ejemplo de la izquierda refleja una evaluación tradicional basada en instrucciones, mientras que los tres ejemplos de la derecha se extraen de diferentes variantes del parámetro POPE. Fuente: https://aclanthology.org/2023.emnlp-main.20.pdf
Objetos de verdad fundamental (respuesta: Sí) se emparejan con objetos inexistentes muestreados (respuesta: No), elegidos a través de sorteos aleatorios y frecuentes (popular), o basado en coocurrencia (adversario) estrategias. Esta configuración permite una evaluación de la alucinación más estable y sin necesidad de indicaciones, sin depender de un análisis complejo de subtítulos basado en reglas.
Los autores de la nuevo documento – titulado RePOPE: Impacto de los errores de anotación en el índice de referencia POPE – cuestionar la supuesta exactitud de POPE volviendo a verificar las etiquetas en las imágenes de referencia (es decir, MSCOCO) y descubriendo que un número sorprendente de ellas son erróneas o poco claras.

Ejemplos del conjunto de datos MSCOCO 2014. Fuente: https://arxiv.org/pdf/1405.0312
Estos errores cambian la forma en que se clasifican los modelos: algunos que inicialmente funcionaron bien quedan rezagados cuando se los evalúa con etiquetas corregidas.
En las pruebas, los autores evaluaron una gama de modelos de visión y lenguaje de peso abierto tanto en el punto de referencia POPE original como en su versión reetiquetada. RePOPE versión.
Según el artículo, las anotaciones corregidas provocaron cambios notables en las clasificaciones de los modelos, particularmente en F1 puntuaciones, con varios modelos de alto rendimiento bajo POPE cayendo en posición bajo RePOPE.
Los autores sostienen que este cambio ilustra hasta qué punto los errores de anotación pueden oscurecer el comportamiento alucinatorio real de los modelos y presentan RePOPE como una herramienta más confiable para evaluar la vulnerabilidad a las alucinaciones.

En otro ejemplo del nuevo artículo, vemos cómo los títulos originales de POPE no logran discernir objetos sutiles, como una persona sentada junto a la cabina de un tranvía en la foto más a la derecha, o la silla oculta por el jugador de tenis en la segunda foto desde la izquierda.
Método y pruebas
Los investigadores reetiquetaron todas las anotaciones del conjunto de datos original de MSCOCO, asignando dos etiquetadores humanos a cada instancia de datos. Cuando surgió ambigüedad sobre la calidad de las etiquetas originales (como en los ejemplos a continuación), estos resultados se descartaron de la ronda de pruebas.

Casos ambiguos, donde las inconsistencias en el etiquetado en POPE reflejan límites de categoría poco claros. Por ejemplo, un oso de peluche etiquetado como oso, una motocicleta como bicicleta o vehículos de aeropuerto como coches. Estos casos se excluyeron de RePOPE debido a la naturaleza subjetiva de dichas clasificaciones, así como a las inconsistencias en las etiquetas originales de MSCOCO.
El documento dice:
'Los anotadores originales omitieron personas en el fondo o detrás de un vidrio, el jugador de tenis oculta las 'sillas' en el fondo y la ensalada de col contiene solo una pequeña franja visible de una zanahoria.
Para algunos objetos, las anotaciones COCO presentan una alta inconsistencia, probablemente debido a las diferentes definiciones de dichos objetos utilizadas por los anotadores originales. La clasificación de un "oso de peluche" como "oso", una motocicleta como una "bicicleta" motorizada o un vehículo de aeropuerto como un "coche" depende de definiciones específicas, lo que genera inconsistencias en las anotaciones de la verdad fundamental de POPE. Por lo tanto, anotamos los pares imagen-pregunta correspondientes como "ambiguos".

Resultados de la reanotación: Las preguntas afirmativas se comparten en las tres variantes de POPE. Entre las preguntas etiquetadas como "Sí" en POPE, el 9.3 % resultaron incorrectas y el 13.8 % se clasificaron como ambiguas. En cuanto a las preguntas "No", el 1.7 % fueron mal etiquetadas y el 4.3 % fueron ambiguas.
Los autores evaluaron una gama de modelos de peso abierto en POPE y RePOPE, en diversas arquitecturas y tamaños de modelo. Los modelos seleccionados incluyeron algunas de las arquitecturas líderes en el OpenVLM tabla de clasificación: Pasante VL2.5 (8B/26B/38B/78B and 8B-MPO/26B-MPO); LLaVA-Siguiente; Vicuña; mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; y PaliGemma2 (3B/10B).

Resultados iniciales: la alta tasa de error en las etiquetas positivas originales provoca una fuerte caída de los verdaderos positivos en todos los modelos. Los falsos positivos varían entre los subconjuntos, casi duplicándose en el subconjunto aleatorio, pero manteniéndose prácticamente sin cambios en el subconjunto popular, y muestran una ligera disminución en el subconjunto adversarial. El reetiquetado tiene un efecto importante en las clasificaciones basadas en F1. Modelos como Ovis2-4B y Ovis2-8B, que obtuvieron buenos resultados en las divisiones popular y adversarial en POPE, también destacan en el subconjunto aleatorio con RePOPE. Consulte el PDF original para una mejor resolución.
Los gráficos de resultados anteriores ilustran cómo cambia el número de verdaderos positivos y falsos positivos después de corregir las etiquetas en el punto de referencia.
Los verdaderos positivos disminuyeron en todos los modelos, lo que demuestra que a menudo se les atribuía el mérito por respuestas correctas cuando éstas solo eran correctas bajo etiquetas erróneas, mientras que los falsos positivos siguieron un patrón más variado.
En la versión 'random' de POPE, los falsos positivos casi duplicado Para muchos modelos, esto indica que un número significativo de objetos marcados como alucinaciones estaban presentes en las imágenes, pero no se habían detectado en las anotaciones originales. En este caso, muchos supuestos errores del modelo eran, en realidad, errores de etiquetado del conjunto de datos.
En la versión adversarial de POPE, donde las preguntas se basaban en objetos que frecuentemente coexisten, los falsos positivos disminuyeron. Esto probablemente refleja una mayor probabilidad de que el objeto supuestamente ausente fuera... realmente en la imagen pero se fue sin etiqueta.
Aunque estos cambios afectaron la precisión y la recuperación, las clasificaciones de los modelos se mantuvieron relativamente estables para ambas métricas.
La puntuación F1, principal medida de evaluación de POPE, fue mucho más sensible a las correcciones de etiquetas. En el subconjunto aleatorio, los modelos que ocupaban una posición cercana a la cima con las etiquetas originales, como InternVL2.5-8B y -26B, descendieron a la parte inferior al ser evaluados con RePOPE. Otros, como Ovis2-4B y -8B, subieron a la cima.
Un patrón similar surgió en los puntajes de precisión, aunque los autores señalan que ahora pueden estar sesgados, ya que el conjunto de datos corregido contiene un número desigual de ejemplos positivos y negativos.
Los autores argumentan que el fuerte impacto de los errores de anotación en los resultados de referencia subraya la necesidad de datos de alta calidad. Para respaldar una evaluación más fiable de la alucinación de objetos, han... Se publicaron las etiquetas corregidas en GitHub.
Sin embargo, señalan que este nuevo etiquetado no aborda por completo la saturación del índice de referencia, ya que muchos modelos aún alcanzan tasas de verdaderos positivos y verdaderos negativos superiores al 90 %. Sugieren que se consideren índices de referencia adicionales, como GUIÓN B, que utiliza un conjunto más desafiante de ejemplos negativos, debería utilizarse junto con RePOPE.
Conclusión
Este experimento en particular fue posible gracias a la escala muy pequeña del conjunto de datos utilizado. Demostrar la misma hipótesis en conjuntos de datos a hiperescala implicaría trabajar con fragmentos muy limitados de los datos; en conjuntos de datos grandes y muy diversos, podría resultar casi imposible aislar agrupaciones estadísticamente representativas y semánticamente coherentes, lo que podría distorsionar los resultados.
Incluso si fuera posible, ¿qué solución habría con el estado actual de la técnica? El argumento inevitablemente retrocede hacia la necesidad de una anotación humana mejor y más abundante.
En este sentido, «mejor» y «más abundante» existen como problemas separados, ya que se puede obtener un mayor volumen de anotaciones mediante economías de carrera hacia el abismo, como Amazon Mechanical Turk (AMT). Obviamente, esto potencialmente explotador subeconomía frecuentemente conduce a resultados inferiores.
Como alternativa, se podrían subcontratar las tareas de anotación a regiones económicas donde el mismo gasto generaría una mayor cantidad de anotaciones. Sin embargo, cuanto más alejado esté el anotador del caso de uso previsto del modelo que sus etiquetas configurarán, menos probable será que el modelo resultante se ajuste a las necesidades o expectativas del dominio objetivo.
Por lo tanto, este sigue siendo uno de los desafíos más persistentes y no resueltos en la economía del desarrollo del aprendizaje automático.
Primera publicación: miércoles 23 de abril de 2025