Inteligencia artificial
El Beneficio No Intencionado de Mapear el Espacio Latente de un GAN

Mientras intentaban mejorar la calidad y la fidelidad de las imágenes generadas por IA, un grupo de investigadores de China y Australia han descubierto inadvertidamente un método para controlar interactivamente el espacio latente de una Red Adversaria Generativa (GAN) – la misteriosa matriz calculativa detrás de la nueva ola de técnicas de síntesis de imágenes que están a punto de revolucionar las películas, los videojuegos y las redes sociales, y muchos otros sectores del entretenimiento y la investigación.
Su descubrimiento, un subproducto del objetivo central del proyecto, permite a un usuario explorar arbitraria e interactivamente el espacio latente de un GAN con un ratón, como si estuviera pasando por un video o hojear un libro.

Un extracto del video acompañante de los investigadores (ver incrustación al final del artículo para muchos más ejemplos). Note que el usuario está manipulando las transformaciones con un cursor de ‘agarrar’ (arriba a la izquierda). Fuente: https://www.youtube.com/watch?v=k7sG4XY5rIc
El método utiliza ‘mapas de calor’ para indicar qué áreas de una imagen deben mejorarse mientras el GAN pasa por el mismo conjunto de datos miles (o cientos de miles) de veces. Los mapas de calor están destinados a mejorar la calidad de la imagen al decirle al GAN dónde se equivoca, para que su próximo intento sea mejor; pero, coincidentemente, esto también proporciona un ‘mapa’ del espacio latente completo que se puede navegar moviendo un ratón.

Atención visual espacial enfatizada a través de GradCAM, que indica áreas que necesitan atención imponiendo colores brillantes. Fuente: https://arxiv.org/pdf/2112.00718.pdf
El artículo se llama Mejorar el Equilibrio de GAN al Aumentar la Conciencia Espacial, y proviene de investigadores de la Universidad China de Hong Kong y la Universidad Nacional de Australia. Además del artículo, el video y otros materiales se pueden encontrar en la página del proyecto.
El trabajo es incipiente y actualmente está limitado a imágenes de baja resolución (256×256), pero es una prueba de concepto que promete abrir la ‘caja negra’ del espacio latente, y llega en un momento en que múltiples proyectos de investigación están trabajando en esa puerta en busca de un mayor control sobre la síntesis de imágenes.
Aunque dichas imágenes son atractivas (y puedes ver más de ellas, en mejor resolución, en el video incrustado al final de este artículo), lo que es quizás más significativo es que el proyecto ha encontrado una forma de crear una mejor calidad de imagen, y potencialmente hacerlo más rápido, al decirle al GAN específicamente dónde se equivoca durante el entrenamiento.
Pero, como Adversarial indica, un GAN no es una entidad única, sino más bien un conflicto desigual entre autoridad y trabajo. Para entender qué mejoras han hecho los investigadores en este respecto, veamos cómo se ha caracterizado esta guerra hasta ahora.
La Pobre Suerte del Generador
Si alguna vez has sido acosado por la idea de que algún gran artículo de ropa que compraste fue producido en una fábrica en un país explotado, o tuviste un jefe o cliente que te decía que ‘Lo hagas de nuevo’ sin decirte nunca qué estaba mal con tu último intento, ahórrate un poco de lástima para la parte Generador de una Red Adversaria Generativa.

El Generador es el caballo de batalla que te ha estado deleitando durante los últimos cinco años o más, ayudando a los GAN a crear personas fotorealistas que no existen, mejorar juegos de video antiguos a resolución 4k, y convertir footage de hace un siglo en salida HD a color completo a 60fps, entre otras novedades de IA asombrosas.

Desde crear caras fotorealistas de personas irreales hasta restaurar footage antiguo y revivificar videojuegos de archivo, GAN ha estado ocupado en los últimos años.
El Generador pasa por todos los datos de entrenamiento una y otra vez (como imágenes de caras, para hacer un GAN que pueda crear fotos de personas aleatorias y no existentes), una foto a la vez, durante días o incluso semanas, hasta que es capaz de crear imágenes que son tan convincentes como las fotos genuinas que estudió.
Así que, ¿cómo sabe el Generador que está haciendo algún progreso, cada vez que intenta crear una imagen que sea mejor que su intento anterior?
El Generador tiene un jefe del infierno.

La Opacidad Despiadada del Discriminador
El trabajo del Discriminador es decirle al Generador que no hizo lo suficientemente bien al crear una imagen que sea auténtica con respecto a los datos originales, y decirle Lo hagas de nuevo. El Discriminador no le dice al Generador qué estaba mal con el último intento del Generador; solo echa un vistazo privado, compara la imagen generada con las imágenes de origen (también de forma privada) y asigna una puntuación a la imagen.
La puntuación nunca es lo suficientemente buena. El Discriminador no dejará de decir ‘Lo hagas de nuevo’ hasta que los científicos de investigación lo apaguen (cuando juzguen que el entrenamiento adicional no mejorará la salida).
De esta manera, ausente cualquier crítica constructiva, y armado solo con una puntuación cuya métrica es un misterio, el Generador debe adivinar aleatoriamente qué partes o aspectos de la imagen causaron una puntuación más alta que antes. Esto lo llevará por muchas rutas insatisfactorias más antes de que cambie algo lo suficientemente positivo como para obtener una puntuación más alta.
El Discriminador como Tutor y Mentor
La innovación proporcionada por la nueva investigación es esencialmente que el Discriminador ahora indica al Generador qué partes de la imagen fueron insatisfactorias, para que el Generador pueda centrarse en esas áreas en su próxima iteración, y no desechar las secciones que fueron calificadas más altas. La naturaleza de la relación se ha transformado de combativa a colaborativa.

Para remediar la disparidad de conocimiento entre el Discriminador y el Generador, los investigadores utilizaron GradCAM como un mecanismo capaz de formular los conocimientos del Discriminador en una ayuda de retroalimentación visual para el próximo intento del Generador.
El nuevo método de entrenamiento de ‘equilibrio’ se llama EqGAN. Para la máxima reproducibilidad, los investigadores incorporaron técnicas y métodos existentes con configuraciones predeterminadas, incluyendo el uso de la arquitectura StyleGan2.

La arquitectura de EqGAN. La codificación espacial del Generador está alineada con la conciencia espacial del Discriminador, con muestras aleatorias de mapas de calor espacial (ver imagen anterior) codificadas de nuevo en el generador a través de la capa de codificación espacial (SEL). GradCAM es el mecanismo por el cual los mapas de atención del Discriminador están disponibles para el generador.
GradCAM produce mapas de calor (ver imágenes anteriores) que reflejan la crítica del Discriminador sobre la última iteración, y los hace disponibles para el Generador.
Una vez que el modelo está entrenado, el mapeo permanece como un artefacto de este proceso cooperativo, pero también se puede utilizar para explorar el código latente final de manera interactiva, como se demuestra en el video del proyecto de los investigadores (ver abajo).
EqGAN
El proyecto utilizó varios conjuntos de datos populares, incluyendo los conjuntos de datos LSUN Cat y Churches, así como el conjunto de datos FFHQ. El video a continuación también presenta ejemplos de manipulación facial y felina utilizando EqGAN.
Todas las imágenes se redujeron a 256×256 antes de entrenar EqGAN en la implementación oficial de StyleGAN2. El modelo se entrenó con un tamaño de lote de 64 en 8 GPU hasta que el Discriminador había sido expuesto a más de 25 millones de imágenes.
Al probar los resultados del sistema en muestras seleccionadas con la distancia de Frechet Inception (FID), los autores establecieron una métrica llamada Indicador de Desequilibrio (DI) – el grado en que el Discriminador retiene su ventaja de conocimiento sobre el Generador, con el objetivo de reducir esa brecha.
En los tres conjuntos de datos entrenados, la nueva métrica mostró una disminución útil después de codificar la conciencia espacial en el Generador, con un equilibrio mejorado demostrado tanto por FID como por DI.

Los investigadores concluyen:
‘Esperamos que este trabajo pueda inspirar más investigaciones sobre el equilibrio de GAN y desarrollar métodos novedosos para mejorar la calidad de la síntesis de imágenes a través de la manipulación del equilibrio de GAN. También realizaremos más investigaciones teóricas sobre este tema en el futuro.’
Y continúan:
‘Los resultados cualitativos muestran que nuestro método logra que el Generador se concentre en regiones específicas. Los experimentos en varios conjuntos de datos validan que nuestro método mitiga el desequilibrio en el entrenamiento de GAN y mejora sustancialmente la calidad general de la síntesis de imágenes. El modelo resultante con conciencia espacial también permite la manipulación interactiva de la imagen de salida.’
Echa un vistazo al video a continuación para más detalles sobre el proyecto y más ejemplos de exploración dinámica y interactiva del espacio latente en un GAN.
11:12am 4th Dec 2021 – Corregida la URL de GradCAM y se han limpiado las referencias circundantes.












