Inteligencia Artificial
Un sistema de detección para marcos de trabajo de sÃntesis de imagen pura como DALL-E 2

Nuevo Segun una investigacion de la Universidad de California en Berkeley ofrece un método para determinar si la salida de la nueva generación de marcos de sÃntesis de imágenes, como Open AI's DALL-E2y de Google Imagen y Regiones – puede detectarse como 'no real', mediante el estudio de la geometrÃa, las sombras y los reflejos que aparecen en las imágenes sintetizadas.
Al estudiar las imágenes generadas por indicaciones de texto en DALL-E 2, los investigadores descubrieron que, a pesar del impresionante realismo del que es capaz la arquitectura, se producen algunas incoherencias persistentes relacionadas con la representación de la perspectiva global, la creación y disposición de las sombras y especialmente con respecto a la representación de objetos reflejados.
El documento dice:
Las estructuras [geométricas], las sombras proyectadas y los reflejos en las superficies reflejadas no son totalmente consistentes con la geometrÃa de perspectiva esperada de las escenas naturales. Las estructuras geométricas y las sombras son, en general, localmente consistentes, pero globalmente inconsistentes.
"Los reflejos, por otro lado, a menudo se representan de manera inverosÃmil, presumiblemente porque son menos comunes en el conjunto de datos de imágenes de entrenamiento".

La falta de intersecciones consistentes entre el objeto renderizado y la representación de su reflejo es actualmente una forma confiable de detectar una imagen DALL-E 2, según el nuevo estudio. Fuente: https://arxiv.org/pdf/2206.14617.pdf
El artÃculo representa una incursión temprana en lo que eventualmente podrÃa convertirse en un aspecto digno de mención en la comunidad de investigación en visión por computadora: la detección por sÃntesis de imágenes.
Desde la llegada de los deepfakes en 2017, detección de deepfake (principalmente de codificador automático salida de paquetes tales como ProfundoFaceLab y Intercambio cara) se ha convertido en un activo y competitivo lÃnea académica, con varios artÃculos y metodologÃas que se enfocan en la evolución de los 'informes' de rostros sintetizados en secuencias de video reales.
Sin embargo, hasta la aparición muy reciente de los sistemas de generación de imágenes entrenados a hiperescala, la salida de los sistemas de solicitud de texto como CLIP no representaba ninguna amenaza para el status quo de la 'fotorrealidad'. Los autores del nuevo artÃculo creen que esto está a punto de cambiar, y que incluso las inconsistencias que han descubierto en la salida de DALL-E 2 pueden no hacer mucha diferencia en el potencial de las imágenes de salida para engañar a los espectadores.
Los autores afirman*:
"[Tales] fallas pueden no importar mucho al sistema visual humano, que se ha encontrado sorprendentemente inepto en ciertos juicios geométricos, incluidas las inconsistencias en iluminación, oscuridad, reflexiones, posición de visualización y distorsión de la perspectiva.'
Credibilidad que se desvanece
El primer examen forense de los autores de la salida de DALL-E 2 se relaciona con la proyección en perspectiva, la forma en que la posición de los bordes rectos en objetos y texturas cercanos debe resolverse uniformemente en un "punto de fuga".

A la izquierda, las lÃneas paralelas en el mismo plano se resuelven en un punto de fuga común; a la derecha, múltiples puntos de fuga en el mismo plano y planos paralelos definen una lÃnea de fuga (representada en rojo).
Para probar la consistencia de DALL-E 2 en este sentido, los autores utilizaron DALL-E 2 para generar 25 imágenes sintetizadas de cocinas, un espacio familiar que, incluso en viviendas bien equipadas, suele estar lo suficientemente confinado como para proporcionar múltiples puntos de fuga posibles para un variedad de objetos y texturas.
Examinar la salida del indicador 'una foto de una cocina con piso de baldosas', los investigadores encontraron que a pesar de una representación generalmente convincente en cada caso (salvo algunos artefactos extraños y más pequeños que no están relacionados con la perspectiva), los objetos representados nunca parecen converger correctamente.
Los autores señalan que, si bien cada conjunto de lÃneas paralelas del patrón de baldosas son consistentes y se cruzan en un único punto de fuga (azul en la imagen a continuación), el punto de fuga de la encimera (cian) no está de acuerdo con las dos lÃneas de fuga (roja ) y el punto de fuga derivado de los mosaicos.
Los autores observan que incluso si la encimera no estuviera paralela a las baldosas, el punto de fuga cian deberÃa resolverse en la lÃnea de fuga (roja) definida por los puntos de fuga de las baldosas del piso.
El documento dice:
“Si bien la perspectiva en estas imágenes es, de manera impresionante, consistente localmente, no es consistente globalmente. Este mismo patrón se encontró en cada una de las 25 imágenes de cocinas sintetizadas.'
Análisis forense de sombras
Como sabe cualquiera que haya trabajado alguna vez con el trazado de rayos, las sombras también tienen puntos de fuga potenciales, lo que indica una iluminación de fuente única o múltiple. Para las sombras exteriores a la luz del sol intensa, uno esperarÃa que las sombras en todas las facetas de una imagen se resuelvan consistentemente en la única fuente de luz (el sol).
Al igual que con el experimento anterior, los investigadores crearon 25 imágenes DALL-E 2 con el mensaje 'tres cubos en una acera fotografiados en un dÃa soleado', asà como otros 25 con el aviso ''tres cubos en una acera fotografiados en un dÃa nublado'.

En la fila superior, imágenes creadas a partir del mensaje de los investigadores 'tres cubos en una acera fotografiados en un dÃa nublado'; en la fila inferior, imágenes creadas a partir del mensaje 'tres cubos en una acera fotografiados en un dÃa soleado'.
Los investigadores señalan que cuando se representan condiciones nubladas, DALL-E 2 es capaz de representar las sombras asociadas más difusas de una manera convincente y plausible, quizás sobre todo porque es probable que este tipo de sombra prevalezca más en las imágenes del conjunto de datos en las que el marco fue entrenado.
Sin embargo, algunas de las fotos 'soleadas', encontraron los autores, no concordaban con una escena iluminada por una sola fuente de luz.
Para la imagen de arriba, las generaciones se han convertido a escala de grises para mayor claridad y muestran cada objeto con su propio "sol" dedicado.
Aunque es posible que el espectador promedio no detecte tales anomalÃas, algunas de las imágenes generadas tenÃan ejemplos más manifiestos de "fallo de sombra":
Si bien algunas de las sombras simplemente están en el lugar equivocado, muchas de ellas, curiosamente, corresponden al tipo de discrepancia visual que se produce en el modelado CGI cuando la frecuencia de muestreo de una luz virtual es demasiado baja.
Reflexiones en DALL-E 2
Los resultados más condenatorios en términos de análisis forense se produjeron cuando los autores probaron la capacidad de DALL-E 2 para crear superficies altamente reflectantes, lo cual es un cálculo engorroso también en el trazado de rayos CGI y otros algoritmos de renderizado tradicionales.
Para este experimento, los autores produjeron 25 imágenes DALL-E 2 con el mensaje "una foto de un dinosaurio de juguete y su reflejo en un espejo de tocador".
En todos los casos, informan los autores, la imagen especular del juguete renderizado estaba de alguna manera desconectada del aspecto y la disposición del dinosaurio de juguete 'real'. Los autores afirman que el problema era resistente a las variaciones en el mensaje de texto y parece ser una debilidad fundamental en el sistema.
Parece haber una lógica en algunos de los errores: el primer y el tercer ejemplo en la fila superior parecen mostrar un dinosaurio que es duplicada muy bien, pero no reflejado.
Los autores comentan:
"A diferencia de las sombras proyectadas y las estructuras geométricas de las secciones anteriores, DALL·E-2 se esfuerza por sintetizar reflejos plausibles, presumiblemente porque tales reflejos son menos comunes en su conjunto de datos de imagen de entrenamiento".
Fallas como estas pueden solucionarse en futuros modelos de texto a imagen que puedan revisar de manera más efectiva la lógica semántica general de su salida, y que podrán imponer reglas fÃsicas abstractas en escenas que, hasta cierto punto, han sido ensamblado a partir de caracterÃsticas pertinentes a la palabra en el espacio latente del sistema.
A la luz de una tendencia creciente hacia arquitecturas de sÃntesis cada vez más grandes, los autores concluyen:
'[Es] solo una cuestión de tiempo antes de que los motores de sÃntesis de pintura por texto aprendan a representar imágenes con una perspectiva coherente completa. Hasta ese momento, sin embargo, los análisis forenses geométricos pueden resultar útiles para analizar estas imágenes.'
* Mi conversión de las citas en lÃnea de los autores a hipervÃnculos.
Publicado por primera vez el 30 de junio de 2022.