Inteligencia Artificial
GAN como renderizador de rostros para CGI 'tradicional'

Opinión Cuando las redes generativas antagónicas (GAN) demostraron por primera vez su capacidad para reproducir de forma asombrosa realista Rostros 3D, el advenimiento desencadenó una fiebre del oro por el potencial no explotado de las GAN para crear videos temporalmente consistentes con rostros humanos.
En algún lugar del espacio latente de la GAN, parecía que había deben ser orden oculto y racionalidad: un esquema de lógica semántica naciente, enterrado en los códigos latentes, que permitiría a una GAN generar múltiples puntos de vista e interpretaciones consistentes (como cambios de expresión) del mismo cara, y posteriormente ofrecer un método de video falso falso temporalmente convincente que explotaría codificadores automáticos Fuera del agua.
La salida de alta resolución sería trivial, en comparación con los entornos de baja resolución similares a barrios marginales en los que las restricciones de la GPU obligan a operar a DeepFaceLab y FaceSwap, mientras que la "zona de intercambio" de una cara (en flujos de trabajo de autoencoder) se convertiría en la "zona de creación" de una GAN, informada por un puñado de imágenes de entrada, o incluso solo una sola imagen.
Ya no habría más desajustes entre las caras 'swap' y 'host', porque el totalidad Se generaría una parte de la imagen desde cero, incluido el cabello, las líneas de la mandíbula y las extremidades más externas de los lineamientos faciales, que con frecuencia resultan un desafío para los deepfakes autoencoder "tradicionales".
El invierno de vídeos faciales de GAN
Como se supo, no iba a ser tan fácil. Por último, desenredo resultó ser el tema central y sigue siendo el principal desafío. ¿Cómo se puede mantener una identidad facial distinta y cambiar su pose o expresión sin reunir un corpus de miles de imágenes de referencia que le enseñen a una red neuronal lo que sucede cuando se promulgan estos cambios, de la forma en que lo hacen tan laboriosamente los sistemas de codificación automática?
Más bien, el pensamiento posterior en la investigación de síntesis y promulgación facial de GAN fue que una identidad de entrada podría quizás estar sujeta a cambios teleológicos, genéricos, plantilla transformaciones que no son específicas de la identidad. Un ejemplo de esto sería aplicar una expresión a un rostro GAN que no estaba presente en ninguna de las imágenes de esa persona que conoce el GAN.

A partir del artículo de 2022 Edición de emociones basada en tensores en el espacio latente de StyleGAN, las expresiones con plantilla se aplican a una cara de entrada del conjunto de datos FFHQ. Fuente: https://arxiv.org/pdf/2205.06102.pdf
Es evidente que un enfoque universal no puede abarcar la diversidad de expresiones faciales únicas de cada individuo. Cabe preguntarse si una sonrisa tan singular como la de Jack Nicholson o Willem Dafoe podría recibir una interpretación fiel bajo la influencia de estos códigos latentes de expresión media.

¿Quién es este encantador desconocido latino? Aunque el método GAN produce un rostro más realista y de mayor resolución, la transformación no se basa en múltiples imágenes reales del actor, como ocurre con DeepFaceLab, que se entrena extensamente con una base de datos de miles de imágenes similares, por lo que el parecido se ve comprometido. Aquí (al fondo) se importa un modelo de DeepFaceLab a cara profunda en vivo, una implementación de transmisión del popular y controvertido software. Los ejemplos son de https://www.youtube.com/watch?v=9tr35y-yQRY (2022) y https://arxiv.org/pdf/2205.06102.pdf.
En los últimos años se han presentado varios editores de expresiones faciales de GAN, la mayoría de ellos lidiando con identidades desconocidas, donde la fidelidad de las transformaciones es imposible de conocer para el lector casual, ya que no se trata de rostros familiares.

Identidades oscuras transformadas en la oferta de 2020 Cascade-EF-GAN. Fuente: https://arxiv.org/pdf/2003.05905.pdf
Quizás el editor de rostros de GAN que ha recibido más interés (y citas) en los últimos tres años es InterfazGAN, que puede realizar recorridos espaciales latentes en códigos latentes relacionados con la pose (ángulo de la cámara/rostro), expresión, edad, raza, género y otras cualidades esenciales.
Las capacidades de "morphing" de InterFaceGAN y otros frameworks similares, al estilo de los años 1980, sirven principalmente para ilustrar el proceso de transformación a medida que una imagen se reproyecta mediante un código latente adecuado (como la "edad"). En cuanto a la producción de secuencias de vídeo con continuidad temporal, estos esquemas se han calificado hasta la fecha de "desastres impresionantes".
Si a eso le sumas el Dificultad para crear cabello temporalmente consistente., y el hecho de que la técnica de exploración/manipulación de código latente no tiene pautas temporales innatas con las que trabajar (y es difícil saber cómo inyectar tales pautas en un marco diseñado para acomodar y generar imágenes fijas, y que no tiene una disposición nativa). para salida de video), podría ser lógico concluir que GAN no es All You Need™ para la síntesis de video facial.
Por lo tanto, los esfuerzos posteriores han dado como resultado mejoras incrementales en el desenredo, mientras que otros han incorporado otras convenciones en la visión por computadora como una 'capa de guía', como el uso de la segmentación semántica como mecanismo de control a fines de 2021. SemanticStyleGAN: Aprendizaje de antecedentes generativos compositivos para la síntesis y edición de imágenes controlables.

La segmentación semántica como método de instrumentalidad espacial latente en SemanticStyleGAN. Fuente: https://semanticstylegan.github.io/
Guía paramétrica
La comunidad de investigación de síntesis facial GAN se está orientando cada vez más hacia el uso de rostros CGI paramétricos "tradicionales" como método para guiar y poner orden en los impresionantes pero rebeldes códigos latentes en el espacio latente de una GAN.
Aunque las primitivas faciales paramétricas han sido un elemento básico de la investigación de visión por computadora durante más de veinte años, el interés en este enfoque ha crecido últimamente, con el aumento del uso del modelo lineal de varias personas con piel (SMPL) Primitivos CGI, un enfoque promovido por el Instituto Max Planck e ILM, y desde entonces mejorado con el regresor de cuerpo humano articulado de entrenamiento disperso (STAR) marco de referencia.

SMPL (en este caso una variante denominada SMPL-X) puede imponer una malla paramétrica CGI que concuerde con la pose estimada (incluidas las expresiones, según sea necesario) de la totalidad del cuerpo humano que aparece en una imagen, lo que permite realizar nuevas operaciones en la imagen utilizando la malla paramétrica como volumétrico o perceptivo. guía. Fuente: https://arxiv.org/pdf/1904.05866.pdf
El desarrollo más aclamado en esta línea ha sido el de Disney de 2019. Renderizado con estilo iniciativa, que fusionó el uso de mapas de textura tradicionales con imágenes generadas por GAN, en un intento de crear una salida animada mejorada, al "estilo deepfake".

Lo antiguo se encuentra con lo nuevo en el enfoque híbrido de Disney para los deepfakes generados por GAN. Fuente: https://www.youtube.com/watch?v=TwpLqTmvqVk
El enfoque de Disney impone facetas CGI renderizadas de manera tradicional en una red StyleGAN2 para 'repintar' sujetos faciales humanos en 'áreas problemáticas', donde la consistencia temporal es un problema para la generación de videos, áreas como la textura de la piel.

El flujo de trabajo Renderizado con estilo.
Dado que la cabeza CGI paramétrica que guía este proceso se puede ajustar y cambiar para adaptarse al usuario, la cara generada por GAN puede reflejar esos cambios, incluidos los cambios de pose y expresión de la cabeza.
Aunque se diseñó para unir la instrumentación de CGI con el realismo natural de las caras GAN, al final, los resultados demuestran lo peor de ambos mundos y aún no logran mantener la textura del cabello e incluso el posicionamiento de las características básicas consistentes:

Un nuevo tipo de valle inquietante emerge de Rendering with Style, aunque el principio aún tiene cierto potencial.
El StyleRig: Rigging StyleGAN para control 3D sobre imágenes de retrato adopta un enfoque cada vez más popular, con el uso de modelos tridimensionales de rostros transformables (3DMM) como proxies para alterar las características en un entorno StyleGAN, en este caso a través de una nueva red de rigging llamada RigNet:

Los 3DMM se presentan como proxies para las interpretaciones del espacio latente en StyleRig. Fuente: https://arxiv.org/pdf/2004.00121.pdf
Sin embargo, como es habitual con estas iniciativas, los resultados hasta la fecha parecen limitarse a manipulaciones mínimas de poses y cambios de expresión/afecto "desinformados".

StyleRig mejora el nivel de control, aunque el cabello temporalmente consistente sigue siendo un desafío sin resolver. Fuente: https://www.youtube.com/watch?v=eaW_P85wQ9k
Se pueden encontrar resultados similares en Mitsubishi Research. MÁS GAN, Un 2021 que utiliza 3DMM no lineales como arquitectura de desenredado, pero que también lucha para lograr un movimiento dinámico y consistente.
La última investigación para intentar la instrumentalidad y el desenredo es Recreación facial de una toma en megapíxeles, que nuevamente usa cabezales paramétricos 3DMM como una interfaz amigable para StyleGAN.

En el flujo de trabajo MegaFR de One-Shot Face Reenactment, la red realiza una síntesis facial al combinar una imagen invertida del mundo real con parámetros tomados de un modelo 3DMM renderizado. Fuente: https://arxiv.org/pdf/2205.13368.pdf
OSFR pertenece a una clase creciente de editores de rostros GAN que buscan desarrollar flujos de trabajo de edición lineal al estilo de Photoshop/After Effects donde el usuario puede ingresar una imagen deseada en la que se pueden aplicar transformaciones, en lugar de buscar códigos latentes relacionados con el espacio latente. una identidad.
Nuevamente, las expresiones paramétricas representan un método general y no personalizado de inyectar expresión, lo que conduce a manipulaciones que parecen "extrañas" en su propio sentido, no siempre positivo.
Al igual que trabajos anteriores, OSFR puede inferir poses casi originales a partir de una sola imagen, y también realizar "frontalización", donde una imagen posada descentrada se traduce en una foto policial:

Imágenes de fichas policiales originales (arriba) e inferidas de una de las implementaciones de OSFR detalladas en el nuevo documento.
En la práctica, este tipo de inferencia es similar a algunos de los principios de la fotogrametría que sustentan Campos de radiación neuronal (NeRF), excepto que la geometría aquí debe estar definida por una sola foto, en lugar de los 3-4 puntos de vista que permiten a NeRF interpretar las poses intersticiales que faltan y crear escenas 3D neuronales explorables con humanos.
(Sin embargo, NeRF tampoco es All You Need™, ya que tiene una casi conjunto completamente diferente de obstáculos a GAN en términos de producción de síntesis de video facial)
¿Tiene GAN un lugar en la síntesis de video facial?
Conseguir expresiones dinámicas y poses fuera de distribución a partir de una única imagen fuente parece ser una obsesión similar a la alquimia en la investigación de síntesis facial GAN en este momento, principalmente porque las GAN son el único método actualmente capaz de generar rostros neuronales de resolución bastante alta y fidelidad relativamente alta: aunque los marcos deepfake con autocodificador pueden entrenarse en una multitud de poses y expresiones del mundo real, deben operar con resoluciones de entrada/salida restringidas por VRAM y requieren un "host"; mientras que NeRF está igualmente restringido y, a diferencia de los otros dos enfoques, actualmente no tiene metodologías establecidas para cambiar las expresiones faciales y, en general, sufre de una editabilidad limitada.
Parece que la única manera de avanzar hacia un sistema de síntesis facial CGI/GAN preciso es que una nueva iniciativa encuentre alguna forma de ensamblar una entidad de identidad con múltiples fotografías dentro del espacio latente, donde un código latente para la identidad de una persona no tenga que viajar a través de todo el espacio latente para explotar parámetros de pose no relacionados, sino que pueda referirse a sus propias imágenes relacionadas (del mundo real) como referencias para las transformaciones.
Incluso en tal caso, o incluso si una red StyleGAN completa se entrenara en un conjunto de caras de identidad única (similar a los conjuntos de entrenamiento que usan los codificadores automáticos), la lógica semántica faltante probablemente aún tendría que ser proporcionada por tecnologías adjuntas como segmentación semántica o caras 3DMM paramétricas, que, en tal escenario, al menos tendrían más material con el que trabajar.