talón El beneficio no deseado de mapear el espacio latente de una GAN - Unite.AI
Contáctanos

Inteligencia artificial

El beneficio no deseado de mapear el espacio latente de una GAN

mm
Actualizado on

Al tratar de mejorar la calidad y la fidelidad de las imágenes generadas por IA, un grupo de investigadores de China y Australia descubrió sin darse cuenta un método para controlar de forma interactiva el espacio latente de un Red de Publicidad Generativa (GAN): la misteriosa matriz de cálculo detrás de la nueva ola de técnicas de síntesis de imágenes que revolucionarán las películas, los juegos y las redes sociales, y muchos otros sectores del entretenimiento y la investigación.

Su descubrimiento, un subproducto del objetivo central del proyecto, permite a un usuario explorar de forma arbitraria e interactiva el espacio latente de una GAN con un mouse, como si estuviera recorriendo un video u hojeando un libro.

Un extracto del video adjunto de los investigadores (ver incrustado al final del artículo). Tenga en cuenta que el usuario está manipulando las transformaciones con un cursor de 'agarrar' (arriba a la izquierda). Fuente: https://www.youtube.com/watch?v=k7sG4XY5rIc

Un extracto del video adjunto de los investigadores (vea la inserción al final del artículo para ver muchos más ejemplos). Tenga en cuenta que el usuario está manipulando las transformaciones con un cursor de 'agarrar' (arriba a la izquierda). Fuente: https://www.youtube.com/watch?v=k7sG4XY5rIc

El método utiliza 'mapas de calor' para indicar qué áreas de una imagen deben mejorarse a medida que la GAN ejecuta el mismo conjunto de datos miles (o cientos de miles) de veces. Los mapas de calor están destinados a mejorar la calidad de la imagen al decirle a la GAN dónde está fallando, para que su próximo intento sea mejor; pero, casualmente, esto también proporciona un 'mapa' de todo el espacio latente que se puede navegar moviendo el mouse.

Atención visual espacial enfatizada a través de GradCAM, que indica las áreas que necesitan atención mediante la imposición de colores brillantes. Estas muestras se generan en el proyecto de los investigadores con una implementación predeterminada de StyleGan2. Fuente: https://arxiv.org/pdf/2112.00718.pdf

Atención visual espacial enfatizada a través de GradCAM, que indica las áreas que necesitan atención mediante la imposición de colores brillantes. Fuente: https://arxiv.org/pdf/2112.00718.pdf

El se llama Mejorar el equilibrio de GAN aumentando la conciencia espacial, y proviene de investigadores de la Universidad China de Hong Kong y la Universidad Nacional de Australia. Además del documento, el video y otros materiales se pueden encontrar en la página del proyecto.

El trabajo es incipiente y actualmente se limita a imágenes de baja resolución (256 × 256), pero es una prueba de concepto que promete abrir la 'caja negra' del espacio latente, y llega en un momento en que múltiples proyectos de investigación están martillando. en esa puerta en busca de un mayor control sobre la síntesis de imágenes.

Aunque tales imágenes son atractivas (y puede ver más de ellas, en mejor resolución, en el video incrustado al final de este artículo), lo que quizás sea más significativo es que el proyecto ha encontrado una manera de crear una calidad de imagen mejorada y potencialmente para hacerlo más rápido, diciéndole al GAN ​​específicamente dónde está fallando durante el entrenamiento.

Pero como Adversarial indica, una GAN no es una sola entidad, sino un conflicto desigual entre la autoridad y el trabajo pesado. Para entender qué mejoras han hecho los investigadores al respecto, veamos cómo se ha caracterizado esta guerra hasta ahora.

La lamentable situación del generador

Si alguna vez te ha obsesionado la idea de que una gran prenda nueva que compraste se produjo en un taller clandestino en un país explotado, o si tu jefe o cliente te decía '¡Hazlo de nuevo!' sin decirle nunca lo que estaba mal con su último intento, ahorre un poco de lástima por el Generador parte de una Red Adversaria Generativa.

El generador es el caballo de batalla que lo ha deleitado durante los últimos cinco años al ayudar a las GAN a crear gente fotorrealista que no existe, videojuegos antiguos de lujo a resolución 4k, y convertir material de archivo centenario en salida HD a todo color a 60 fps, entre otras maravillosas novedades de IA.

Desde la creación de rostros fotorrealistas de personas irreales hasta la restauración de imágenes antiguas y la reactivación de videojuegos de archivo, GAN ha estado ocupado en los últimos años.

Desde la creación de rostros fotorrealistas de personas irreales hasta la restauración de imágenes antiguas y la reactivación de videojuegos de archivo, GAN ha estado ocupado en los últimos años.

El Generador ejecuta todos los datos de entrenamiento una y otra vez (como imágenes de rostros, para crear un GAN que pueda crear fotos de personas aleatorias e inexistentes), una foto a la vez, durante días o incluso semanas. hasta que sea capaz de crear imágenes tan convincentes como las fotos genuinas que estudió.

Entonces, ¿cómo sabe el Generador que está haciendo algún progreso cada vez que intenta crear una imagen que es mejor que su intento anterior?

El Generador tiene un jefe del infierno.

La opacidad despiadada del discriminador

El trabajo del Discriminado es decirle al Generador que no lo hizo lo suficientemente bien en la creación de una imagen que es auténtica a los datos originales, y para Hazlo de nuevo. El Discriminador no le dice al Generador qué se equivocó con el último intento del Generador; simplemente lo mira en privado, compara la imagen generada con las imágenes de origen (nuevamente, en privado) y asigna una puntuación a la imagen.

la puntuación es nunca suficientemente bueno. El Discriminador no deja de decir 'Hazlo otra vez' hasta que los científicos de investigación lo apaguen (cuando juzguen que la capacitación adicional no mejorará más el resultado).

De esta forma, en ausencia de cualquier crítica constructiva, y armado únicamente con una puntuación cuya métrica es un misterio, el Generador debe adivinar al azar qué partes o aspectos de la imagen provocaron una puntuación más alta que antes. Esto lo llevará por muchas otras rutas insatisfactorias antes de que cambie algo lo suficientemente positivo como para obtener una puntuación más alta.

El discriminador como tutor y mentor

La innovación proporcionada por la nueva investigación es esencialmente que el Discriminador ahora le indica al Generador qué partes de la imagen no eran satisfactorias, para que el Generador pueda concentrarse en esas áreas en su próxima iteración y no descartar las secciones que obtuvieron una calificación más alta. La naturaleza de la relación ha pasado de ser combativa a ser colaborativa.

Para remediar la disparidad de percepción entre el Discriminador y el Generador, los investigadores utilizaron GradCAM como un mecanismo capaz de formular las percepciones del Discriminador en una ayuda de retroalimentación visual para el próximo intento del Generador.

El nuevo método de entrenamiento de 'equilibrio' se llama EqGAN. Para una máxima reproducibilidad, los investigadores incorporaron técnicas y métodos existentes en configuraciones predeterminadas, incluido el uso del EstiloGan2 .

La arquitectura de EqGAN. La codificación espacial del Generador está alineada con la conciencia espacial del Discriminador, con muestras aleatorias de mapas de calor espaciales (ver imagen anterior) codificados nuevamente en el generador a través de la capa de codificación espacial (SEL). GradCAM es el mecanismo por el cual los mapas de atención del Discriminador se ponen a disposición del generador.

La arquitectura de EqGAN. La codificación espacial del Generador está alineada con la conciencia espacial del Discriminador, con muestras aleatorias de mapas de calor espaciales (ver imagen anterior) codificados nuevamente en el generador a través de la capa de codificación espacial (SEL). GradCAM es el mecanismo por el cual los mapas de atención del Discriminador se ponen a disposición del generador.

GradCAM produce mapas de calor (vea las imágenes de arriba) que reflejan la crítica del Discriminador de la última iteración y lo ponen a disposición del Generador.

Una vez que se entrena el modelo, el mapeo permanece como un artefacto de este proceso cooperativo, pero también se puede usar para explorar el código latente final de la manera interactiva que se muestra en el video del proyecto de los investigadores (ver más abajo).

EqGAN

El proyecto utilizó varios conjuntos de datos populares, incluidos los conjuntos de datos LSUN Cat e Churches, así como el FFHQ conjunto de datos El video a continuación también presenta ejemplos de manipulación facial y felina usando EqGAN.

Todas las imágenes se redimensionaron a 256 × 256 antes de entrenar a EqGAN en la implementación oficial de StyleGAN2. El modelo se entrenó en un tamaño de lote de 64 sobre 8 GPU hasta que Discriminator estuvo expuesto a más de 25 millones de imágenes.

Probar los resultados del sistema en muestras seleccionadas con distancia de inicio de Frechet (DEFENSOR), los autores establecieron una métrica llamada Indicador de desequilibrio (DI): el grado en que el Discriminador retiene su ventaja de conocimiento sobre el Generador, con el objetivo de reducir esa brecha.

En los tres conjuntos de datos entrenados, la nueva métrica mostró una caída útil después de codificar la conciencia espacial en el Generador, con un equilibrio mejorado demostrado tanto por FID como por DI.

Los investigadores concluyen:

“Esperamos que este trabajo pueda inspirar más trabajos de revisión del equilibrio GAN y desarrollar métodos más novedosos para mejorar la calidad de la síntesis de imágenes mediante la maniobra del equilibrio GAN. También llevaremos a cabo más investigaciones teóricas sobre este tema en el trabajo futuro.'

Y continúa:

“Los resultados cualitativos muestran que nuestro método [obliga al Generador] a concentrarse en regiones específicas con éxito. Los experimentos en varios conjuntos de datos validan que nuestro método mitiga el desequilibrio en el entrenamiento GAN y mejora sustancialmente la calidad general de la síntesis de imágenes. El modelo resultante con conciencia espacial también permite la manipulación interactiva de la imagen de salida.'

Mire el video a continuación para obtener más detalles sobre el proyecto y más ejemplos de exploración dinámica e interactiva del espacio latente en una GAN.

Mejora del equilibrio de GAN mediante el aumento de la conciencia espacial

 

 

11:12 a. m., 4 de diciembre de 2021: se corrigió la URL de GradCAM y se arregló la referencia circundante.