Inteligencia artificial

Orquestando la síntesis facial con la segmentación semántica

Actualizado on 9 de diciembre de 2022

El problema de inventar rostros humanos con un Red de Publicidad Generativa (GAN) es que los datos del mundo real que alimentan las imágenes falsas vienen con accesorios no deseados e inseparables, como cabello en la cabeza (y/o cara), fondos y varios tipos de muebles faciales, como anteojos, sombreros, y aretes; y que estos aspectos periféricos de la personalidad se vinculan inevitablemente en una identidad "fusionada".

Bajo las arquitecturas GAN más comunes, estos elementos no son direccionables en su propio espacio dedicado, sino que están estrechamente asociados con la cara (o alrededor) en la que están incrustados.

Por lo general, tampoco es posible dictar o afectar la apariencia de subsecciones de un rostro creado por una GAN, como entrecerrar los ojos, alargar la nariz o cambiar el color del cabello de la forma en que lo haría un dibujante de la policía.

Sin embargo, el sector de investigación en síntesis de imágenes está trabajando en ello:

Una nueva investigación sobre la generación de rostros basada en GAN ha separado las distintas secciones de un rostro en distintas áreas, cada una con su propio 'generador', que trabaja en concierto con otros generadores de la imagen. En la fila del medio, vemos el 'mapa de características' de orquestación construyendo áreas adicionales de la cara. Fuente: https://arxiv.org/pdf/2112.02236.pdf

Una nueva investigación sobre la generación de rostros basada en GAN ha separado las diversas secciones de un rostro en distintas áreas, cada una con su propio 'generador', que trabaja en concierto con otros generadores de la imagen. En la fila del medio, vemos el 'mapa de características' de orquestación construyendo áreas adicionales de la cara. Fuente: https://arxiv.org/pdf/2112.02236.pdf

En un nuevo , investigadores del brazo estadounidense del gigante tecnológico multinacional chino ByteDance han utilizado la segmentación semántica para dividir las partes constituyentes de la cara en secciones discretas, a cada una de las cuales se le asigna su propio generador, de modo que es posible lograr un mayor grado de desenredo. O al menos, perceptivo desenredo.

El se titula SemanticStyleGAN: Aprendizaje de antecedentes generativos compositivos para la síntesis y edición de imágenes controlables, y está acompañado por una rica en medios página del proyecto presenta múltiples ejemplos de las diversas transformaciones de grano fino que se pueden lograr cuando los elementos faciales y de la cabeza se aíslan de esta manera.

La textura facial, el estilo y el color del cabello, la forma y el color de los ojos y muchos otros aspectos de las características generadas por GAN que alguna vez fueron indisolubles ahora pueden ser de facto desenredado, aunque es probable que la calidad de la separación y el nivel de instrumentalidad varíen según los casos. Fuente: https://semanticstylegan.github.io/

El espacio latente ingobernable

Una Red Adversaria Generativa entrenada para generar rostros, como el EstiloGan2 generador que impulsa el popular sitio web thispersondoesnotexist.com – forma complejas interrelaciones entre las 'características' (no en el sentido facial) que se deriva del análisis de miles de rostros del mundo real, para aprender a hacer rostros humanos realistas.

Estos procesos clandestinos son 'códigos latentes', colectivamente los espacio latente. Son difíciles de analizar y, en consecuencia, difíciles de instrumentalizar.

La semana pasada surgió un nuevo proyecto diferente de síntesis de imágenes que intenta 'mapear' este espacio casi oculto durante el proceso de entrenamiento en sí, y luego use esos mapas para navegar de forma interactiva, y se han propuesto varias otras soluciones para obtener un control más profundo del contenido sintetizado por GAN.

Se han logrado algunos avances, con una oferta diversa de arquitecturas GAN que intentan 'alcanzar' el espacio latente de alguna manera y controlar las generaciones faciales desde allí. Tales esfuerzos incluyen InterfazGAN, EstiloFlujo, GANEspacioy EstiloRig, entre otras ofertas en un flujo constantemente productivo de nuevos periódicos.

Lo que todos tienen en común son grados limitados de desenredo; los ingeniosos controles deslizantes de la GUI para varias facetas (como 'cabello' o 'expresión') tienden a arrastrar el fondo y/u otros elementos al proceso de transformación, y ninguno de ellos (incluido el artículo que se analiza aquí) ha resuelto el problema de la temporalidad. pelo neural.

Dividiendo y conquistando el espacio latente

En cualquier caso, la investigación de ByteDance adopta un enfoque diferente: en lugar de tratar de discernir los misterios de una sola GAN que opera sobre una imagen de rostro generada completa, SemanticStyleGAN formula un enfoque basado en el diseño, donde los rostros están "compuestos" por procesos generadores separados.

Para lograr esta distinción de características (faciales), SemanticStyleGAN utiliza Características de Fourier para generar un mapa de segmentación semántica (distinciones toscamente coloreadas de la topografía facial, que se muestran hacia la parte inferior derecha de la imagen a continuación) para aislar las áreas faciales que recibirán atención individual y dedicada.

Arquitectura del nuevo enfoque, que impone una capa intersticial de segmentación semántica en la cara, convirtiendo efectivamente el marco en un orquestador de múltiples generadores para diferentes facetas de una imagen.

Los mapas de segmentación se generan para las imágenes falsas que se presentan sistemáticamente al discriminador de GAN para su evaluación a medida que mejora el modelo, y para las imágenes de origen (no falsas) utilizadas para el entrenamiento.

Al inicio del proceso, un Perceptrón multicapa (MLP) mapea inicialmente códigos latentes elegidos al azar, que luego se utilizarán para controlar los pesos de los diversos generadores, cada uno de los cuales tomará el control de una sección de la imagen de la cara que se va a producir.

Cada generador crea un mapa de características y un mapa de profundidad simulado a partir de las características de Fourier que se alimentan aguas arriba. Esta salida es la base para las máscaras de segmentación.

La red de renderizado descendente solo está condicionada por los mapas de características anteriores y ahora sabe cómo generar una máscara de segmentación de mayor resolución, lo que facilita la producción final de la imagen.

Finalmente, un discriminador bifurcado supervisa la distribución concatenada tanto de las imágenes RGB (que son para nosotros el resultado final) como de las máscaras de segmentación que han permitido separarlas.

Con SemanticStyleGAN, no hay perturbaciones visuales no deseadas cuando se 'marcan' cambios en las características faciales, porque cada característica facial se entrenó por separado dentro del marco de orquestación.

Sustitución de fondos

Debido a que la intención del proyecto es obtener un mayor control del entorno generado, el proceso de renderizado/composición incluye un generador de fondo entrenado en imágenes reales.

Una razón convincente por la que los fondos no se ven arrastrados a las manipulaciones faciales en SemanticStyleGAN es que están ubicados en una capa más distante y están completos, aunque parcialmente ocultos por las caras superpuestas.

Dado que los mapas de segmentación darán como resultado rostros sin fondos, estos fondos 'colocados' no solo brindan contexto, sino que también están configurados para ser apropiados, en términos de iluminación, para los rostros superpuestos.

Entrenamiento y Datos

Los modelos 'realistas' fueron entrenados en las 28,000 imágenes iniciales en CelebAMask-HQ, redimensionado a 256×256 píxeles para acomodar el espacio de entrenamiento (es decir, la VRAM disponible, que dicta un tamaño de lote máximo por iteración).

Se entrenaron varios modelos y se experimentaron diversas herramientas, conjuntos de datos y arquitecturas durante el proceso de desarrollo y varias pruebas de ablación. El modelo productivo más grande del proyecto presentaba una resolución de 512 × 512, entrenado durante 2.5 días en ocho GPU NVIDIA Tesla V100. Después del entrenamiento, la generación de una sola imagen tarda 0.137 s en una GPU de lóbulo sin paralelización.

Los experimentos con más dibujos animados/estilo anime que se muestran en los muchos videos en la página del proyecto (ver enlace arriba) se derivan de varios conjuntos de datos populares basados en rostros, que incluyen toonificar, MetRostrosy Bitmoji.

¿Una solución provisional?

Los autores sostienen que no hay ninguna razón por la que SemanticStyleGAN no pueda aplicarse a otros dominios, como paisajes, automóviles, iglesias y todos los demás dominios de prueba "predeterminados" a los que se someten rutinariamente las nuevas arquitecturas al principio de sus carreras.

Sin embargo, el documento admite que a medida que aumenta el número de clases para un dominio (como 'auto', 'farola', 'peatonal', 'edificio', 'auto' etc.), este enfoque fragmentario podría volverse inviable de varias maneras, sin más trabajo de optimización. El conjunto de datos urbanos CityScapes, por ejemplo, tiene 30 clases en 8 categorías.

Es difícil decir si el interés actual por conquistar el espacio latente de manera más directa está tan condenado como la alquimia; o si los códigos latentes eventualmente serán descifrables y controlables, un desarrollo que podría hacer que este tipo de enfoque más 'externamente complejo' sea redundante.

Hasta la próxima

Síntesis de imágenes humanas a partir de ondas de radio reflejadas

No Te Lo

Sistema de IA identifica a pacientes con COVID-19 que requieren UCI

Martin anderson

Escritor sobre aprendizaje automático, inteligencia artificial y big data.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai