Ángulo de Anderson
Los modelos de aprendizaje profundo pueden tener dificultades para reconocer imágenes generadas por IA

Los hallazgos de un nuevo artículo indican que la inteligencia artificial de vanguardia es significativamente menos capaz de reconocer e interpretar imágenes sintetizadas por IA que las personas, lo que puede ser una preocupación en un clima futuro donde los modelos de aprendizaje automático se entrenen cada vez más en datos sintéticos y no se sepa necesariamente si los datos son “reales” o no.

Aquí vemos el modelo de predicción resnext101_32x8d_wsl luchando en la categoría ‘bagel’. En las pruebas, se consideró que había ocurrido un fallo de reconocimiento si la palabra objetivo principal (en este caso ‘bagel’) no estaba incluida en los cinco resultados predictivos principales. Source: https://arxiv.org/pdf/2208.10760.pdf
La nueva investigación probó dos categorías de marcos de reconocimiento de visión por computadora: reconocimiento de objetos y respuesta a preguntas visuales (VQA).

A la izquierda, éxitos y fracasos de inferencia de un sistema de reconocimiento de objetos; a la derecha, tareas de VQA diseñadas para probar la comprensión de la IA de escenas y imágenes de una manera más exploratoria y significativa. Sources: https://arxiv.org/pdf/2105.05312.pdf y https://arxiv.org/pdf/1505.00468.pdf
De diez modelos de vanguardia probados en conjuntos de datos curados generados por marcos de síntesis de imágenes como DALL-E 2 y Midjourney, el modelo que mejor se desempeñó pudo lograr solo el 60% y el 80% de precisión en los cinco primeros intentos en las dos pruebas, mientras que ImageNet, entrenado en datos no sintéticos del mundo real, puede lograr respectivamente el 91% y el 99% en las mismas categorías, mientras que el desempeño humano es generalmente mucho mayor.
Al abordar cuestiones relacionadas con el desplazamiento de distribución (también conocido como “deriva del modelo”, donde los modelos de predicción experimentan una capacidad predictiva disminuida cuando se mueven de los datos de entrenamiento a “datos reales”), el artículo establece:
Los humanos pueden reconocer las imágenes generadas y responder preguntas sobre ellas con facilidad. Concluimos que a) los modelos profundos luchan por comprender el contenido generado, y pueden mejorar después de un ajuste fino, y b) hay un gran desplazamiento de distribución entre las imágenes generadas y las fotografías reales. El desplazamiento de distribución parece ser dependiente de la categoría.
Dada la cantidad de imágenes sintéticas que ya inundan Internet después de la sensacional apertura de la poderosa modelo de síntesis de difusión estable latente, surge naturalmente la posibilidad de que, a medida que las “imágenes falsas” inunden los conjuntos de datos estándar de la industria como Common Crawl, las variaciones en la precisión a lo largo de los años podrían verse afectadas significativamente por “imágenes irreales”.
Aunque los datos sintéticos han sido elogiados como el potencial salvador del sector de investigación de visión por computadora, que a menudo carece de recursos y presupuestos para la curación a gran escala, la nueva oleada de imágenes de Stable Diffusion (junto con el aumento general de imágenes sintéticas desde la aparición y comercialización de DALL-E 2) es poco probable que venga con etiquetas, anotaciones y hashtags útiles que los distingan como “falsos” en el momento en que los sistemas de visión por computadora los raspen de Internet.
La velocidad de desarrollo en los marcos de síntesis de imágenes de código abierto ha superado notablemente nuestra capacidad para categorizar imágenes de estos sistemas, lo que ha llevado a un interés creciente en los sistemas de detección de “imágenes falsas”, similares a los sistemas de detección de deepfakes, pero encargados de evaluar imágenes enteras en lugar de secciones de caras.
El nuevo artículo se titula ¿Qué tan buenos son los modelos profundos para comprender las imágenes generadas?, y proviene de Ali Borji de la startup de aprendizaje automático de San Francisco Quintic AI.
Datos
El estudio precede a la liberación de Stable Diffusion, y los experimentos utilizan datos generados por DALL-E 2 y Midjourney en 17 categorías, incluyendo elefante, hongo, pizza, pretzel, tractor y conejo.

Ejemplos de las imágenes de las que los sistemas de reconocimiento y VQA probados debían identificar el concepto clave más importante.
Las imágenes se obtuvieron a través de búsquedas en la web y en Twitter, y, de acuerdo con las políticas de DALL-E 2 (al menos, en ese momento), no incluían imágenes con caras humanas. Solo se eligieron imágenes de buena calidad, reconocibles por humanos.
Se curaron dos conjuntos de imágenes, uno para cada tarea de reconocimiento de objetos y VQA.

El número de imágenes presentes en cada categoría probada para el reconocimiento de objetos.
Probando el reconocimiento de objetos
Para las pruebas de reconocimiento de objetos, se probaron diez modelos, todos entrenados en ImageNet: AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Inception_V3, Deit, y ResNext_WSL.
Algunas de las clases en los sistemas probados eran más granulares que otras, lo que requirió la aplicación de enfoques promediados. Por ejemplo, ImageNet contiene tres clases relacionadas con “relojes”, y fue necesario definir algún tipo de métrica arbitraria, donde la inclusión de cualquier “reloj” de cualquier tipo en los cinco primeros resultados obtenidos para cualquier imagen se consideró un éxito en ese caso.

Rendimiento por modelo en 17 categorías.
El modelo que mejor se desempeñó en esta ronda fue resnext101_32x8d_ws, logrando casi el 60% para el primer intento (es decir, las veces que su predicción preferida entre cinco suposiciones fue el concepto correcto encarnado en la imagen), y el 80% para los cinco primeros intentos (es decir, el concepto deseado estaba al menos incluido en las cinco suposiciones del modelo sobre la imagen).
El autor sugiere que este buen desempeño se debe a que el modelo se entrenó para la predicción débilmente supervisada de hashtags en plataformas de redes sociales. Sin embargo, estos resultados líderes, según el autor, son notablemente inferiores a lo que ImageNet puede lograr en datos reales, es decir, el 91% y el 99%. Sugiere que esto se debe a una gran disparidad entre la distribución de las imágenes de ImageNet (que también se raspan de la web) y las imágenes generadas.
Las cinco categorías más difíciles para el sistema, en orden de dificultad, fueron cometa, tortuga, ardilla, gafas de sol y casco. El artículo señala que la clase cometa a menudo se confunde con globo, paracaídas y paraguas, aunque estas distinciones son trivialmente fáciles de distinguir para los observadores humanos.
Ciertas categorías, incluyendo cometa y tortuga, causaron un fracaso universal en todos los modelos, mientras que otras (notablemente pretzel y tractor) resultaron en casi un éxito universal en todos los modelos probados.

Categorías polarizantes: algunas de las categorías objetivo elegidas o bien confundieron a todos los modelos o fueron bastante fáciles de identificar para todos los modelos.
Los autores postulan que estos hallazgos indican que todos los modelos de reconocimiento de objetos pueden compartir fortalezas y debilidades similares.
Probando la respuesta a preguntas visuales
A continuación, el autor probó los modelos de VQA en VQA abierto y libre, con preguntas binarias (es decir, preguntas a las que la respuesta solo puede ser “sí” o “no”). El artículo señala que los modelos de VQA de vanguardia recientes pueden lograr el 95% de precisión en el conjunto de datos VQA-v2.
Para esta etapa de las pruebas, el autor curó 50 imágenes y formuló 241 preguntas sobre ellas, 132 de las cuales tenían respuestas positivas y 109 negativas. La longitud promedio de la pregunta fue de 5,12 palabras.
Esta ronda utilizó el modelo OFA, un marco agnóstico de tarea y modalidad para probar la comprensión de la tarea, y fue recientemente el líder en la prueba estándar de VQA-v2. El modelo OFA logró una precisión del 77,27% en las imágenes generadas, en comparación con su propia puntuación del 94,7% en el conjunto de datos de prueba estándar de VQA-v2.

Preguntas y resultados de ejemplo de la sección de VQA de las pruebas. ‘GT” es ‘Verdad fundamental’, es decir, la respuesta correcta.
El autor del artículo sugiere que parte de la razón puede ser que las imágenes generadas contienen conceptos semánticos ausentes en el conjunto de datos de VQA-v2, y que las preguntas escritas para las pruebas de VQA pueden ser más desafiantes que el estándar general de las preguntas de VQA-v2, aunque cree que la primera razón es más probable.
LSD en el flujo de datos?
Opinión
La nueva proliferación de imágenes sintetizadas por IA, que pueden presentar conjunciones y abstracciones instantáneas de conceptos centrales que no existen en la naturaleza, y que serían prohibitivamente costosas de producir mediante métodos convencionales, podría presentar un problema particular para los sistemas de recolección de datos débilmente supervisados, que pueden no ser capaces de fallar de manera elegante, en gran medida porque no fueron diseñados para manejar grandes cantidades de datos sintéticos no etiquetados.
En tales casos, puede haber un riesgo de que estos sistemas corralen un porcentaje de “extrañas” imágenes sintéticas en categorías incorrectas simplemente porque las imágenes presentan objetos distintos que no realmente pertenecen juntos.

Un ‘astronauta montando un caballo’ ha sido quizás la imagen más emblemática de la nueva generación de sistemas de síntesis de imágenes, pero estas ‘relaciones irreales’ podrían entrar en sistemas de detección reales a menos que se tome precaución. Fuente: https://twitter.com/openai/status/1511714545529614338?lang=en
A menos que se pueda prevenir en la etapa de preprocesamiento antes del entrenamiento, estos sistemas automatizados podrían conducir a asociaciones improbables o incluso grotescas entrenadas en los sistemas de aprendizaje automático, degradando su eficacia y arriesgándose a pasar asociaciones de alto nivel a sistemas y categorías posteriores.
Alternativamente, las imágenes sintéticas desconectadas podrían tener un “efecto de enfriamiento” en la precisión de los sistemas posteriores, en el evento de que surjan nuevas arquitecturas o se modifiquen las existentes para tener en cuenta las imágenes sintéticas ad hoc, y se capture un alcance demasiado amplio.
En cualquier caso, las imágenes sintéticas en la era posterior a Stable Diffusion podrían ser un dolor de cabeza para el sector de investigación de visión por computadora, cuyos esfuerzos hicieron posible la creación de estas extrañas capacidades, no menos porque pone en peligro la esperanza del sector de que la recolección y curación de datos puedan ser eventualmente mucho más automatizadas de lo que lo son actualmente, y mucho menos costosas y tediosas.
Publicado por primera vez el 1 de septiembre de 2022.












