Inteligencia artificial

Los modelos de aprendizaje profundo pueden tener dificultades para reconocer imágenes generadas por IA

Published September 1, 2022

Updated April 26, 2026

Martin Anderson

Los hallazgos de un nuevo artículo indican que la inteligencia artificial de última generación es significativamente menos capaz de reconocer e interpretar imágenes sintetizadas por IA que las personas, lo que puede ser un problema en un clima futuro donde los modelos de aprendizaje automático se entrenen cada vez más con datos sintéticos, y donde no necesariamente se sabrá si los datos son “reales” o no.

Aquí vemos el modelo de predicción resnext101_32x8d_wsl luchando en la categoría ‘bagel’. En las pruebas, se consideró que había ocurrido un fallo de reconocimiento si la palabra objetivo principal (en este caso ‘bagel’) no estaba incluida en los cinco resultados predichos principales. Fuente: https://arxiv.org/pdf/2208.10760.pdf

La nueva investigación probó dos categorías de marcos de reconocimiento de visión por computadora: reconocimiento de objetos y respuesta a preguntas visuales (VQA).

A la izquierda, éxitos y fracasos de inferencia de un sistema de reconocimiento de objetos; a la derecha, tareas de VQA diseñadas para sondear la comprensión de escenas y imágenes de IA de una manera más exploratoria y significativa. Fuentes: https://arxiv.org/pdf/2105.05312.pdf y https://arxiv.org/pdf/1505.00468.pdf

De los diez modelos de última generación probados en conjuntos de datos curados generados por marcos de síntesis de imágenes DALL-E 2 y Midjourney, el modelo con mejor rendimiento pudo lograr solo el 60% y el 80% de precisión en los cinco principales en las dos tipos de pruebas, mientras que ImageNet, entrenado en datos no sintéticos del mundo real, puede lograr respectivamente el 91% y el 99% en las mismas categorías, mientras que el rendimiento humano es generalmente notablemente más alto.

Al abordar problemas relacionados con cambio de distribución (también conocido como ‘deriva del modelo’, donde los modelos de predicción experimentan una capacidad predictiva disminuida cuando se mueven de los datos de entrenamiento a ‘datos reales’), el artículo establece:

Los humanos pueden reconocer las imágenes generadas y responder preguntas sobre ellas con facilidad. Concluimos que a) los modelos profundos luchan por comprender el contenido generado, y pueden hacerlo mejor después de una afinación, y b) hay un gran cambio de distribución entre las imágenes generadas y las fotografías reales. El cambio de distribución parece ser dependiente de la categoría.

Dada la cantidad de imágenes sintéticas que ya inundan Internet tras la sensacional apertura de la semana pasada del poderoso modelo de síntesis de difusión latente Stable Diffusion, surge naturalmente la posibilidad de que, a medida que las ‘imágenes falsas’ inunden los conjuntos de datos estándar de la industria como Common Crawl, las variaciones en la precisión a lo largo de los años puedan verse afectadas significativamente por ‘imágenes irreales’.

Aunque los datos sintéticos han sido aclamados como el potencial salvador del sector de investigación de visión por computadora, que a menudo carece de recursos y presupuestos para la curación a gran escala, la nueva oleada de imágenes de Stable Diffusion (junto con el aumento general de imágenes sintéticas desde el advenimiento y la comercialización de DALL-E 2) es poco probable que vengan con etiquetas, anotaciones y hashtags que los distingan como ‘falsos’ en el momento en que los sistemas de visión por computadora los recopilen de Internet.

La velocidad de desarrollo en los marcos de síntesis de imágenes de código abierto ha superado notablemente nuestra capacidad para categorizar imágenes de estos sistemas, lo que ha llevado a un interés creciente en sistemas de detección de ‘imágenes falsas’, similares a los sistemas de detección de deepfakes, pero encargados de evaluar imágenes completas en lugar de secciones de caras.

El nuevo artículo se titula ¿Cuán buenos son los modelos profundos para comprender las imágenes generadas?, y proviene de Ali Borji de la startup de aprendizaje automático de San Francisco Quintic AI.

Datos

El estudio precede a la liberación de Stable Diffusion, y los experimentos utilizan datos generados por DALL-E 2 y Midjourney en 17 categorías, que incluyen elefante, hongo, pizza, pretzel, tractor y conejo.

Ejemplos de las imágenes de las que los sistemas de reconocimiento y VQA probados tuvieron que identificar el concepto clave más importante.

Las imágenes se obtuvieron a través de búsquedas en la web y en Twitter, y, de acuerdo con las políticas de DALL-E 2 (al menos, en ese momento), no incluían imágenes con caras humanas. Solo se eligieron imágenes de buena calidad, reconocibles por humanos.

Se curaron dos conjuntos de imágenes, uno para cada tarea de reconocimiento de objetos y VQA.

Número de imágenes presentes en cada categoría probada para el reconocimiento de objetos.

Probando el reconocimiento de objetos

Para las pruebas de reconocimiento de objetos, se probaron diez modelos, todos entrenados en ImageNet: AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Inception_V3, Deit, y ResNext_WSL.

Algunas de las clases en los sistemas probados eran más granulares que otras, lo que hizo necesaria la aplicación de enfoques promediados. Por ejemplo, ImageNet contiene tres clases relacionadas con ‘relojes’, y fue necesario definir algún tipo de métrica arbitraria, donde la inclusión de cualquier ‘reloj’ de cualquier tipo en los cinco etiquetas obtenidas principales para cualquier imagen se consideró un éxito en ese caso.

Rendimiento por modelo en 17 categorías.

El modelo con mejor rendimiento en esta ronda fue resnext101_32x8d_ws, que logró cerca del 60% para el primer resultado (es decir, las veces que su predicción preferida entre cinco suposiciones fue el concepto correcto encarnado en la imagen), y el 80% para los cinco principales (es decir, el concepto deseado estaba al menos incluido en las cinco suposiciones del modelo sobre la imagen).

El autor sugiere que este buen rendimiento se debe a que el modelo se entrenó para la predicción débilmente supervisada de hashtags en plataformas de redes sociales. Sin embargo, estos resultados líderes, según el autor, están notablemente por debajo de lo que ImageNet puede lograr en datos reales, es decir, el 91% y el 99%. Sugiere que esto se debe a una gran disparidad entre la distribución de imágenes de ImageNet (que también se extraen de la web) y las imágenes generadas.

Las cinco categorías más difíciles para el sistema, en orden de dificultad, fueron cometa, tortuga, ardilla, gafas de sol y casco. El artículo señala que la categoría cometa a menudo se confunde con globo, paracaídas y paraguas, aunque estas distinciones son trivialmente fáciles para los observadores humanos.

Ciertas categorías, incluidas cometa y tortuga, causaron un fallo universal en todos los modelos, mientras que otras (notablemente pretzel y tractor) resultaron en un éxito casi universal en todos los modelos probados.

Categorías polarizantes: algunas de las categorías objetivo elegidas o bien confundieron a todos los modelos, o bien fueron bastante fáciles para que todos los modelos las identificaran.

Los autores postulan que estos hallazgos indican que todos los modelos de reconocimiento de objetos pueden compartir fortalezas y debilidades similares.

Probando la respuesta a preguntas visuales

A continuación, el autor probó modelos de VQA en preguntas abiertas y de forma libre de VQA, con preguntas binarias (es decir, preguntas a las que la respuesta solo puede ser ‘sí’ o ‘no’). El artículo señala que los modelos de VQA de última generación pueden lograr el 95% de precisión en el conjunto de datos VQA-v2.

Para esta fase de pruebas, el autor curó 50 imágenes y formuló 241 preguntas alrededor de ellas, 132 de las cuales tenían respuestas positivas y 109 negativas. La longitud promedio de la pregunta fue de 5,12 palabras.

Esta ronda utilizó el modelo OFA, un marco agnóstico de tarea y modalidad para probar la comprensión de tareas, y que recientemente fue el líder en la prueba estándar de VQA-v2. El modelo OFA logró una precisión del 77,27% en las imágenes generadas, en comparación con su propia puntuación del 94,7% en el conjunto de pruebas estándar de VQA-v2.

Preguntas y resultados de ejemplo de la sección de VQA de las pruebas. ‘GT” es ‘Verdad en el suelo’, es decir, la respuesta correcta.

El autor del artículo sugiere que parte de la razón puede ser que las imágenes generadas contienen conceptos semánticos ausentes en el conjunto de datos VQA-v2, y que las preguntas escritas para las pruebas de VQA pueden ser más desafiantes que el estándar general de preguntas de VQA-v2, aunque cree que la primera razón es más probable.

¿LSD en el flujo de datos?

Opinión

La nueva proliferación de imágenes sintetizadas por IA, que pueden presentar conjunciones y abstracciones instantáneas de conceptos centrales que no existen en la naturaleza, y que serían prohibitivamente costosas de producir mediante métodos convencionales, podría presentar un problema particular para los sistemas de recopilación de datos débilmente supervisados, que pueden no ser capaces de fallar de manera elegante, en gran medida porque no fueron diseñados para manejar grandes cantidades de datos sintéticos no etiquetados.

En tales casos, puede haber un riesgo de que estos sistemas acorralen un porcentaje de ‘extrañas’ imágenes sintéticas en categorías incorrectas simplemente porque las imágenes presentan objetos distintos que no realmente pertenecen juntos.

‘Astronauta montando un caballo’ quizás se ha convertido en la imagen más emblemática de la nueva generación de sistemas de síntesis de imágenes – pero estas ‘relaciones irreales’ podrían entrar en sistemas de detección reales a menos que se tome cuidado. Fuente: https://twitter.com/openai/status/1511714545529614338?lang=en

A menos que se pueda prevenir en la etapa de preprocesamiento antes del entrenamiento, dichas tuberías automatizadas podrían llevar a asociaciones improbables o incluso grotescas que se entrenen en los sistemas de aprendizaje automático, degradando su eficacia, y arriesgándose a pasar asociaciones de alto nivel a sistemas y subcategorías posteriores.

Alternativamente, las imágenes sintéticas desconectadas podrían tener un ‘efecto de enfriamiento’ en la precisión de los sistemas posteriores, en el caso de que surjan nuevas arquitecturas o enmiendas que intenten dar cuenta de las imágenes sintéticas ‘ad hoc’, y que tiren la red demasiado lejos.

En cualquier caso, las imágenes sintéticas en la era posterior a Stable Diffusion podrían resultar ser un dolor de cabeza para el sector de investigación de visión por computadora, cuyos esfuerzos hicieron posible la creación de estas extrañas creaciones y capacidades – no menos porque pone en peligro la esperanza del sector de que la recopilación y curación de datos pueda eventualmente ser mucho más automatizada de lo que es actualmente, y mucho menos costosa y tediosa.

Publicado por primera vez el 1 de septiembre de 2022.

Related Topics:image synthesis research Synthesis AI synthetic data

Martin Anderson

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.

Unite.AI

Los modelos de aprendizaje profundo pueden tener dificultades para reconocer imágenes generadas por IA

Datos

Probando el reconocimiento de objetos

Probando la respuesta a preguntas visuales

¿LSD en el flujo de datos?

You may like