Connect with us

Orquestando la síntesis facial con segmentación semántica

Inteligencia artificial

Orquestando la síntesis facial con segmentación semántica

mm

El problema de inventar caras humanas con una Red Adversaria Generativa (GAN) es que los datos del mundo real que alimentan las imágenes falsas vienen con accesorios no deseados e inseparables, como el cabello en la cabeza (y / o cara), fondos y varios tipos de “mobiliario” facial, como gafas, sombreros y pendientes; y que estos aspectos periféricos de la personalidad inevitablemente se vuelven parte de una identidad “fusional”.

Bajo las arquitecturas GAN más comunes, estos elementos no se pueden abordar en su propio espacio dedicado, sino que están bastante asociados con la cara en (o alrededor) de la que están incrustados.

Tampoco es posible dictar o afectar la apariencia de subsecciones de una cara creada por una GAN, como estrechar los ojos, alargar la nariz o cambiar el color del cabello de la manera que un artista de esbozo policial podría.

Sin embargo, el sector de investigación de síntesis de imágenes está trabajando en ello:

Nueva investigación sobre la generación de caras basada en GAN ha separado las diversas secciones de una faz en áreas distintas, cada una con su propio 'generador', trabajando en concierto con otros generadores para la imagen. En la fila del medio, vemos la 'mapa de características' orquestadora que construye áreas adicionales de la cara. Fuente: https://arxiv.org/pdf/2112.02236.pdf

Nueva investigación sobre la generación de caras basada en GAN ha separado las diversas secciones de una faz en áreas distintas, cada una con su propio ‘generador’, trabajando en concierto con otros generadores para la imagen. En la fila del medio, vemos la ‘mapa de características’ orquestadora que construye áreas adicionales de la cara. Fuente: https://arxiv.org/pdf/2112.02236.pdf

En un nuevo artículo, investigadores del brazo estadounidense de la multinacional tecnológica china ByteDance han utilizado la segmentación semántica para dividir las partes constituyentes de la cara en secciones discretas, cada una de las cuales se le asigna su propio generador, para que sea posible lograr un mayor grado de desentrelazamiento. O, al menos, desentrelazamiento perceptual.

El artículo se titula SemanticStyleGAN: Aprendizaje de priores generativos composicionales para síntesis y edición de imágenes controlables, y viene acompañado de una página del proyecto con contenido multimedia riqueza que presenta múltiples ejemplos de las diversas transformaciones de grano fino que se pueden lograr cuando los elementos faciales y de cabeza se aíslan de esta manera.

La textura facial, el estilo y el color del cabello, la forma y el color de los ojos, y muchos otros aspectos de las características generadas por GAN que antes eran indisolubles ahora pueden desentrelazarse, aunque la calidad de la separación y el nivel de instrumentalidad probablemente variarán en diferentes casos. Fuente: https://semanticstylegan.github.io/

La textura facial, el estilo y el color del cabello, la forma y el color de los ojos, y muchos otros aspectos de las características generadas por GAN que antes eran indisolubles ahora pueden desentrelazarse de facto, aunque la calidad de la separación y el nivel de instrumentalidad probablemente variarán en diferentes casos. Fuente: https://semanticstylegan.github.io/

El espacio latente incontrolable

Una Red Adversaria Generativa entrenada para generar caras, como el StyleGan2 generador que alimenta el sitio web popular thispersondoesnotexist.com, forma relaciones complejas entre las ‘características’ (no en el sentido facial) que deriva del análisis de miles de caras del mundo real, para aprender a hacer caras humanas realistas por sí mismo.

Estos procesos clandestinos son ‘códigos latentes’, colectivamente el espacio latente. Son difíciles de analizar y, en consecuencia, difíciles de instrumentalizar.

La semana pasada, un nuevo proyecto de síntesis de imágenes emergió que intenta ‘cartografiar’ este espacio casi oculto durante el proceso de entrenamiento en sí, y luego utilizar esos mapas para navegarlo de manera interactiva, y se han propuesto varias soluciones para obtener un control más profundo del contenido sintetizado por GAN.

Se ha logrado algún progreso, con una oferta diversa de arquitecturas GAN que intentan ‘alcanzar’ el espacio latente de alguna manera y controlar las generaciones faciales desde allí. Esfuerzos como InterFaceGAN, StyleFlow, GANSpace y StyleRig, entre otras ofertas en un flujo constante de nuevos artículos.

Lo que todos tienen en común es un grado limitado de desentrelazamiento; los ingeniosos controles deslizantes para varios aspectos (como ‘cabello’ o ‘expresión’) tienden a arrastrar el fondo y / o otros elementos al proceso de transformación, y ninguno de ellos (incluido el artículo discutido aquí) ha resuelto el problema del cabello neural temporal.

Dividiendo y conquistando el espacio latente

En cualquier caso, la investigación de ByteDance toma un enfoque diferente: en lugar de intentar discernir los misterios de una sola GAN que opera sobre una imagen de cara generada completa, SemanticStyleGAN formula un enfoque basado en el diseño, donde las caras se ‘componen’ por procesos generadores separados.

Para lograr esta distinción de características faciales, SemanticStyleGAN utiliza Características de Fourier para generar un mapa de segmentación semántica (distinciones de topografía facial cruda, mostradas hacia la parte inferior derecha de la imagen a continuación) para aislar las áreas faciales que recibirán atención individual y dedicada.

Arquitectura del nuevo enfoque, que impone una capa intersticial de segmentación semántica sobre la cara, efectivamente convirtiendo el marco en un orquestador de múltiples generadores para diferentes facetas de una imagen.

Arquitectura del nuevo enfoque, que impone una capa intersticial de segmentación semántica sobre la cara, efectivamente convirtiendo el marco en un orquestador de múltiples generadores para diferentes facetas de una imagen.

Los mapas de segmentación se generan para las imágenes falsas que se presentan sistemáticamente al discriminador de GAN para su evaluación a medida que el modelo mejora, y a las imágenes de origen (no falsas) utilizadas para el entrenamiento.

Al comienzo del proceso, un Perceptrón Multicapa (MLP) mapea inicialmente códigos latentes elegidos al azar, que luego se utilizarán para controlar los pesos de los varios generadores que tomarán el control de una sección de la imagen de la cara que se producirá.

Cada generador crea un mapa de características y un mapa de profundidad simulado a partir de las características de Fourier que se alimentan a él upstream. Esta salida es la base para las máscaras de segmentación.

La red de renderización downstream solo está condicionada por los mapas de características anteriores, y ahora sabe cómo generar una máscara de segmentación de mayor resolución, facilitando la producción final de la imagen.

Finalmente, un discriminador bifurcado supervisa la distribución concatenada de las imágenes RGB (que son, para nosotros, el resultado final) y las máscaras de segmentación que les han permitido separarse.

Con SemanticStyleGAN, no hay perturbaciones visuales no deseadas cuando se ‘ajustan’ los cambios de características faciales, porque cada característica facial se ha entrenado por separado dentro del marco de orquestación.

Sustituyendo fondos

Debido a que la intención del proyecto es obtener un mayor control del entorno generado, el proceso de renderización / composición incluye un generador de fondo entrenado en imágenes reales.

Una razón convincente por la que los fondos no se arrastran a las manipulaciones faciales en SemanticStyleGAN es que están sentados en una capa más distante, y son completos, aunque parcialmente ocultos por las caras superpuestas.

Una razón convincente por la que los fondos no se arrastran a las manipulaciones faciales en SemanticStyleGAN es que están sentados en una capa más distante, y son completos, aunque parcialmente ocultos por las caras superpuestas.

Dado que los mapas de segmentación darán como resultado caras sin fondos, estos fondos ‘de caída’ no solo proporcionan contexto, sino que también están configurados para ser apropiados, en términos de iluminación, para las caras superpuestas.

Entrenamiento y datos

Los modelos ‘realistas’ se entrenaron en las 28,000 imágenes iniciales en CelebAMask-HQ, redimensionadas a 256×256 píxeles para acomodar el espacio de entrenamiento (es decir, la VRAM disponible, que dicta un tamaño de lote máximo por iteración).

Se entrenaron varios modelos, y se experimentaron con diversas herramientas, conjuntos de datos y arquitecturas durante el proceso de desarrollo y varias pruebas de ablación. El modelo más grande y productivo del proyecto presentó una resolución de 512×512, entrenado durante 2,5 días en ocho GPU NVIDIA Tesla V100. Después del entrenamiento, la generación de una sola imagen tarda 0,137 s en una GPU lobe sin paralelización.

Los experimentos de estilo de dibujos animados / anime demostrados en los muchos videos de la página del proyecto (ver enlace anterior) se derivan de varios conjuntos de datos de caras populares, incluyendo Toonify, MetFaces y Bitmoji.

¿Una solución provisional?

Los autores sostienen que no hay razón por la que SemanticStyleGAN no pueda aplicarse a otros dominios, como paisajes, coches, iglesias y todos los demás ‘dominios de prueba’ predeterminados a los que se someten rutinariamente las nuevas arquitecturas al comienzo de sus carreras.

Sin embargo, el artículo reconoce que a medida que aumenta el número de clases para un dominio (como ‘coche’, ‘farola de la calle’, ‘peatón’, ‘edificio’, ‘coche’ etc.), este enfoque pieza por pieza podría volverse inviable de varias maneras, sin más trabajo en optimización. El conjunto de datos urbanos CityScapes, por ejemplo, tiene 30 clases en 8 categorías.

Es difícil decir si el interés actual en conquistar el espacio latente de manera más directa está condenado al fracaso, como la alquimia; o si los códigos latentes eventualmente serán descifrables y controlables, un desarrollo que podría hacer que este enfoque más ‘externamente complejo’ sea redundante.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.