Inteligencia artificial
GAN como renderizador de rostros para ‘CGI tradicional’

Opinión Cuando las Redes Generativas Adversarias (GAN) demostraron por primera vez su capacidad para reproducir rostros 3D realistas, el avance desencadenó una fiebre del oro por el potencial no explotado de las GAN para crear videos con rostros humanos temporalmente consistentes.
En algún lugar del espacio latente de la GAN, parecía que debía haber un orden y una racionalidad ocultos – un esquema de lógica semántica nascente, enterrado en los códigos latentes, que permitiría a una GAN generar múltiples vistas y múltiples interpretaciones (como cambios de expresión) del mismo rostro – y posteriormente ofrecer un método de video profundo convincente en el tiempo que dejaría a los autoencoders fuera de combate.
La salida de alta resolución sería trivial, en comparación con los entornos de baja resolución como los que obligan a DeepFaceLab y FaceSwap a operar, mientras que la ‘zona de intercambio’ de un rostro (en flujos de trabajo de autoencoders) se convertiría en la ‘zona de creación’ de una GAN, informada por un puñado de imágenes de entrada, o incluso solo una imagen.
No habría más discrepancia entre los rostros ‘de intercambio’ y ‘anfitrión’, porque la totalidad de la imagen se generarían desde cero, incluyendo el cabello, las mandíbulas y las extremidades más externas de los rasgos faciales, que a menudo resultan un desafío para los ‘deepfakes’ tradicionales de autoencoders.
El invierno de la video facial GAN
Como resultó, no iba a ser tan fácil. En última instancia, la desentanglement resultó ser el problema central y sigue siendo el desafío principal. ¿Cómo mantener una identidad facial distinta y cambiar su pose o expresión sin reunir un corpus de miles de imágenes de referencia que enseñen a una red neuronal qué sucede cuando se realizan estos cambios, de la manera que los sistemas de autoencoders hacen de manera tan laboriosa?
Más bien, el pensamiento posterior en la investigación de síntesis y realización facial GAN fue que una identidad de entrada podría ser sometida a transformaciones genéricas, teleológicas, templadas que no son específicas de la identidad. Un ejemplo de esto sería aplicar una expresión a un rostro GAN que no estuviera presente en ninguna de las imágenes de esa persona que la GAN conoce.

Del papel de 2022 Tensor-based Emotion Editing in the StyleGAN Latent Space, se aplican expresiones templadas a un rostro de entrada del conjunto de datos FFHQ. Fuente: https://arxiv.org/pdf/2205.06102.pdf
Es obvio que un enfoque de ‘talla única’ no puede cubrir la diversidad de expresiones faciales únicas de un individuo. Nosotros nos preguntamos si una sonrisa tan única como la de Jack Nicholson o Willem Dafoe podría recibir una interpretación fiel bajo la influencia de tales códigos latentes de ‘media expresión’.

¿Quién es este encantador extraño latino? Aunque el método GAN produce un rostro más ‘realista’ y de mayor resolución, la transformación no está informada por múltiples imágenes del mundo real del actor, como es el caso con DeepFaceLab, que se entrena extensivamente en una base de datos de miles de dichas imágenes, y en consecuencia la semejanza se ve comprometida. Aquí (fondo) un modelo DeepFaceLab se importa a DeepFaceLive, una implementación de streaming del popular y controvertido software. Ejemplos de https://www.youtube.com/watch?v=9tr35y-yQRY (2022) y https://arxiv.org/pdf/2205.06102.pdf.
Varios editores de expresiones faciales GAN se han presentado en los últimos años, la mayoría de ellos tratando con identidades desconocidas, donde la fidelidad de las transformaciones es imposible de conocer para el lector casual, ya que estos no son rostros familiares.

Identidades oscuras transformadas en la oferta de 2020 Cascade-EF-GAN. Fuente: https://arxiv.org/pdf/2003.05905.pdf
Quizás el editor de rostros GAN que ha recibido el mayor interés (y citas) en los últimos tres años es InterFaceGAN, que puede realizar travesías en el espacio latente en códigos latentes relacionados con la pose (ángulo de la cámara/rostro), expresión, edad, raza, género y otras cualidades esenciales.
Las capacidades de ‘morphing’ al estilo de los años 80 de InterFaceGAN y marcos similares son principalmente una forma de ilustrar el camino hacia la transformación como una imagen se proyecta nuevamente a través de un código latente apropiado (como ‘edad’). En términos de producir metraje de video con continuidad temporal, dichos esquemas hasta la fecha han calificado como ‘desastres impresionantes’.
Si se suma a eso la dificultad de crear cabello temporalmente consistente, y el hecho de que la técnica de exploración/manipulación de códigos latentes no tiene pautas temporales innatas para trabajar (y es difícil saber cómo inyectar dichas pautas en un marco diseñado para acomodar y generar imágenes fijas, y que no tiene disposición nativa para la salida de video), podría ser lógico concluir que GAN no es Todo lo que Necesitas ™ para la síntesis de video facial.
Por lo tanto, esfuerzos posteriores han producido mejoras incrementales en la desentanglement, mientras que otros han agregado otras convenciones en visión por computadora como una ‘capa de orientación’, como el uso de segmentación semántica como mecanismo de control en el documento de finales de 2021 SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing.

Segmentación semántica como método de instrumentalidad del espacio latente en SemanticStyleGAN. Fuente: https://semanticstylegan.github.io/
Orientación paramétrica
La comunidad de investigación de síntesis facial GAN se dirige cada vez más hacia el uso de rostros CGI paramétricos ‘tradicionales’ como un método para guiar y dar orden a los códigos latentes impresionantes pero indisciplinados en el espacio latente de una GAN.
Aunque los primitivos faciales paramétricos han sido un elemento básico de la investigación de visión por computadora durante más de veinte años, el interés en este enfoque ha crecido últimamente, con el aumento del uso de primitivos CGI Skinned Multi-Person Linear Model (SMPL), un enfoque iniciado por el Instituto Max Planck y ILM, y desde entonces mejorado con el marco Sparse Trained Articulated Human Body Regressor (STAR).

SMPL (en este caso una variante llamada SMPL-X) puede imponer una malla paramétrica CGI que se ajusta a la pose estimada (incluyendo expresiones, según sea necesario) de la totalidad del cuerpo humano que figura en una imagen, lo que permite realizar nuevas operaciones en la imagen utilizando la malla paramétrica como una guía volumétrica o perceptual. Fuente: https://arxiv.org/pdf/1904.05866.pdf
El desarrollo más aclamado en esta línea ha sido la iniciativa Rendering with Style de Disney de 2019, que fusionó el uso de mapas de textura tradicionales con imágenes generadas por GAN, en un intento de crear una salida animada mejorada, al estilo de ‘deepfakes’.

Lo antiguo se encuentra con lo nuevo, en el enfoque híbrido de GAN de Disney. Fuente: https://www.youtube.com/watch?v=TwpLqTmvqVk
El enfoque de Disney impone facetas CGI renderizadas tradicionalmente en una red StyleGAN2 para ‘pintar’ sujetos faciales humanos en ‘áreas problemáticas’, donde la consistencia temporal es un problema para la generación de video – áreas como la textura de la piel.

El flujo de trabajo de Rendering with Style.
Dado que la cabeza CGI paramétrica que guía este proceso se puede ajustar y cambiar para adaptarse al usuario, el rostro generado por GAN puede reflejar esos cambios, incluyendo cambios de pose y expresión.
Aunque se diseñó para casar la instrumentalidad de CGI con el realismo natural de los rostros GAN, al final, los resultados demuestran lo peor de ambos mundos, y todavía no logran mantener la textura del cabello y ni siquiera la posición de las características básicas consistentes:

Un nuevo tipo de valle inquietante surge de Rendering with Style, aunque el principio todavía tiene algún potencial.
El documento de 2020 StyleRig: Rigging StyleGAN for 3D Control over Portrait Images toma un enfoque cada vez más popular, con el uso de modelos faciales morfables tridimensionales (3DMM) como proxies para alterar características en un entorno StyleGAN, en este caso a través de una red de ajuste novel llamada RigNet:

Los 3DMM se utilizan como proxies para interpretaciones del espacio latente en StyleRig. Fuente: https://arxiv.org/pdf/2004.00121.pdf
Sin embargo, como de costumbre con estas iniciativas, los resultados hasta la fecha parecen limitados a manipulaciones de pose mínimas, y cambios de expresión/affecto ‘no informados’.

StyleRig mejora el nivel de control, aunque el cabello temporalmente consistente sigue siendo un desafío sin resolver. Fuente: https://www.youtube.com/watch?v=eaW_P85wQ9k
Salida similar se puede encontrar en MOST-GAN de Mitsubishi Research, un documento de 2021 que utiliza 3DMM no lineales como una arquitectura de desentanglement, pero que también lucha para lograr un movimiento dinámico y consistente.
La investigación más reciente que intenta instrumentalidad y desentanglement es One-Shot Face Reenactment on Megapixels, que nuevamente utiliza cabezas paramétricas 3DMM como una interfaz amigable para StyleGAN.

En el flujo de trabajo de MegaFR de One-Shot Face Reenactment, la red realiza síntesis facial combinando una imagen del mundo real invertida con parámetros tomados de un modelo 3DMM renderizado. Fuente: https://arxiv.org/pdf/2205.13368.pdf
OSFR pertenece a una clase creciente de editores de rostros GAN que buscan desarrollar flujos de trabajo de edición lineal al estilo de Photoshop/After Effects, donde el usuario puede ingresar una imagen deseada en la que se pueden aplicar transformaciones, en lugar de buscar en el espacio latente códigos latentes relacionados con una identidad.
Nuevamente, las expresiones paramétricas representan un método general y no personalizado para inyectar expresión, lo que lleva a manipulaciones que parecen ‘inquietantes’ de una manera no siempre positiva.
Al igual que el trabajo anterior, OSFR puede inferir poses casi originales a partir de una sola imagen, y también realizar ‘frontalización’, donde una imagen con pose descentrada se traduce en una imagen de pasaporte:

Imágenes originales (arriba) y inferidas de pasaporte de una de las implementaciones de OSFR detalladas en el nuevo documento.
En la práctica, este tipo de inferencia es similar a algunos de los principios de fotogrametría que subyacen a los Campos de Radiación Neural (NeRF), excepto que la geometría aquí debe definirse por una sola foto, en lugar de las 3-4 vistas que permiten a NeRF interpretar las poses intersticiales ausentes y crear escenas neuronales 3D explorables que presentan humanos.
(Sin embargo, NeRF tampoco es Todo lo que Necesitas ™, ya que conlleva un conjunto casi completamente diferente de obstáculos para GAN en términos de producción de síntesis de video facial)
¿Tiene GAN un lugar en la síntesis de video facial?
Lograr expresiones dinámicas y poses fuera de la distribución a partir de una sola imagen de origen parece ser una obsesión alquímica en la investigación de síntesis facial GAN en este momento, principalmente porque las GAN son el único método actualmente capaz de producir rostros neuronales de alta resolución y fidelidad relativamente alta: aunque los marcos de deepfakes de autoencoders pueden entrenarse en una multitud de poses y expresiones del mundo real, deben operar en resoluciones de entrada/salida restringidas por la VRAM, y requieren un ‘anfitrión’; mientras que NeRF está igualmente limitado, y – a diferencia de los otros dos enfoques – actualmente no tiene metodologías establecidas para cambiar expresiones faciales, y sufre de una editabilidad limitada en general.
Parece que la única forma de avanzar para un sistema de síntesis de rostros CGI/GAN preciso es que una nueva iniciativa encuentre alguna manera de ensamblar una entidad de identidad de múltiples fotos dentro del espacio latente, donde un código latente para la identidad de una persona no tenga que viajar todo el camino a través del espacio latente para explotar parámetros de pose no relacionados, sino que pueda referirse a sus propias imágenes relacionadas (del mundo real) como referencias para transformaciones.
Incluso en tal caso, o incluso si se entrenara una red StyleGAN completa en un conjunto de rostros de una sola identidad (similar a los conjuntos de entrenamiento que utilizan los autoencoders), la lógica semántica faltante probablemente aún necesitaría ser proporcionada por tecnologías auxiliares como la segmentación semántica o los rostros 3DMM paramétricos, que, en tal escenario, al menos tendrían más material para trabajar.











