talón GAN como renderizador de rostros para CGI 'tradicional' - Unite.AI
Contáctanos

Inteligencia artificial

GAN como renderizador de rostros para CGI 'tradicional'

mm
Actualizado on

Opinión Cuando las redes generativas antagónicas (GAN) demostraron por primera vez su capacidad para reproducir de forma asombrosa realista Rostros 3D, el advenimiento desencadenó una fiebre del oro por el potencial no explotado de las GAN para crear videos temporalmente consistentes con rostros humanos.

En algún lugar del espacio latente de la GAN, parecía que había debe ser orden oculto y racionalidad: un esquema de lógica semántica naciente, enterrado en los códigos latentes, que permitiría a una GAN generar múltiples puntos de vista e interpretaciones consistentes (como cambios de expresión) del mismo cara, y posteriormente ofrecer un método de video falso falso temporalmente convincente que explotaría codificadores automáticos Fuera del agua.

La salida de alta resolución sería trivial, en comparación con los entornos de baja resolución similares a los de los barrios marginales en los que las limitaciones de la GPU obligan a operar a DeepFaceLab y FaceSwap, mientras que la "zona de intercambio" de una cara (en los flujos de trabajo del codificador automático) se convertiría en la "zona de creación". de una GAN, informada por un puñado de imágenes de entrada, o incluso por una sola imagen.

No habría más desajuste entre las caras 'intercambio' y 'anfitrión', porque el totalidad Todas las partes de la imagen se generarían desde cero, incluido el cabello, la línea de la mandíbula y las extremidades más externas de los lineamientos faciales, lo que con frecuencia resulta un desafío para los deepfakes con codificador automático "tradicionales".

El invierno de vídeos faciales de GAN

Como se supo, no iba a ser tan fácil. Por último, desenredo resultó ser el tema central y sigue siendo el principal desafío. ¿Cómo se puede mantener una identidad facial distinta y cambiar su pose o expresión sin reunir un corpus de miles de imágenes de referencia que le enseñen a una red neuronal lo que sucede cuando se promulgan estos cambios, de la forma en que lo hacen tan laboriosamente los sistemas de codificación automática?

Más bien, el pensamiento posterior en la investigación de síntesis y promulgación facial de GAN fue que una identidad de entrada podría quizás estar sujeta a cambios teleológicos, genéricos, plantilla transformaciones que no son específicas de la identidad. Un ejemplo de esto sería aplicar una expresión a un rostro GAN que no estaba presente en ninguna de las imágenes de esa persona que conoce el GAN.

Del artículo de 2022 Edición de emociones basada en tensores en el espacio latente de StyleGAN, las expresiones con plantilla se aplican a una cara de entrada del conjunto de datos FFHQ. Fuente: https://arxiv.org/pdf/2205.06102.pdf

A partir del artículo de 2022 Edición de emociones basada en tensores en el espacio latente de StyleGAN, las expresiones con plantilla se aplican a una cara de entrada del conjunto de datos FFHQ. Fuente: https://arxiv.org/pdf/2205.06102.pdf

Es obvio que un enfoque de "talla única" no puede cubrir la diversidad de expresiones faciales únicas de un individuo. Tenemos que preguntarnos si una sonrisa tan única como la de Jack Nicholson o la de Willem Dafoe podría alguna vez recibir una interpretación fiel bajo la influencia de códigos latentes de 'expresión media promedio'.

¿Quién es este encantador extranjero latino? Aunque el método GAN produce una cara más realista y de mayor resolución, la transformación no está informada por múltiples imágenes del mundo real del actor, como es el caso de DeepFaceLab, que entrena extensamente y, a menudo, con algún costo en una base de datos de miles de tales imágenes. Aquí (fondo) se importa un modelo de DeepFaceLab a DeepFaceLive, una implementación de transmisión del software popular y controvertido. Los ejemplos son de https://www.youtube.com/watch?v=9tr35y-yQRY (2022) y https://arxiv.org/pdf/2205.06102.pdf.

¿Quién es este encantador extranjero latino? Aunque el método GAN produce una cara más 'realista' y de mayor resolución, la transformación no está informada por múltiples imágenes del mundo real del actor, como es el caso de DeepFaceLab, que entrena ampliamente en una base de datos de miles de imágenes de este tipo. y en consecuencia la semejanza está comprometida. Aquí (fondo) se importa un modelo de DeepFaceLab a cara profunda en vivo, una implementación de transmisión del popular y controvertido software. Los ejemplos son de https://www.youtube.com/watch?v=9tr35y-yQRY (2022) y https://arxiv.org/pdf/2205.06102.pdf.

En los últimos años se han presentado varios editores de expresiones faciales de GAN, la mayoría de ellos lidiando con identidades desconocidas, donde la fidelidad de las transformaciones es imposible de conocer para el lector casual, ya que no se trata de rostros familiares.

Identidades oscuras transformadas en la oferta de 2020 Cascade-EF-GAN. Fuente: https://arxiv.org/pdf/2003.05905.pdf

Identidades oscuras transformadas en la oferta de 2020 Cascade-EF-GAN. Fuente: https://arxiv.org/pdf/2003.05905.pdf

Quizás el editor de rostros de GAN que ha recibido más interés (y citas) en los últimos tres años es InterfazGAN, que puede realizar recorridos espaciales latentes en códigos latentes relacionados con la pose (ángulo de la cámara/rostro), expresión, edad, raza, género y otras cualidades esenciales.

Demostración de InterFaceGAN (CVPR 2020)

Las capacidades de 'transformación' al estilo de la década de 1980 de InterFaceGAN y marcos similares son principalmente una forma de ilustrar el camino hacia la transformación a medida que una imagen se reproyecta a través de un código latente apropiado (como 'edad'). En términos de producción de secuencias de video con continuidad temporal, tales esquemas hasta la fecha han sido calificados como 'desastres impresionantes'.

Si a eso le sumas el Dificultad para crear cabello temporalmente consistente., y el hecho de que la técnica de exploración/manipulación de código latente no tiene pautas temporales innatas con las que trabajar (y es difícil saber cómo inyectar tales pautas en un marco diseñado para acomodar y generar imágenes fijas, y que no tiene una disposición nativa). para salida de video), podría ser lógico concluir que GAN no es All You Need™ para la síntesis de video facial.

Por lo tanto, los esfuerzos posteriores han dado como resultado mejoras incrementales en desenredo, mientras que otros se han aprovechado de otras convenciones en la visión por computadora como una 'capa de guía', como el uso de la segmentación semántica como mecanismo de control a fines de 2021. SemanticStyleGAN: Aprendizaje de antecedentes generativos compositivos para la síntesis y edición de imágenes controlables.

La segmentación semántica como método de instrumentalidad espacial latente en SemanticStyleGAN. Fuente: https://semanticstylegan.github.io/

La segmentación semántica como método de instrumentalidad espacial latente en SemanticStyleGAN. Fuente: https://semanticstylegan.github.io/

Guía paramétrica

La comunidad de investigación de síntesis facial de GAN se orienta cada vez más hacia el uso de rostros CGI paramétricos 'tradicionales' como método para guiar y ordenar los códigos latentes impresionantes pero rebeldes en el espacio latente de GAN.

Aunque las primitivas faciales paramétricas han sido un elemento básico de la investigación de visión por computadora durante más de veinte años, el interés en este enfoque ha crecido últimamente, con el aumento del uso del modelo lineal de varias personas con piel (SMPL) Primitivos CGI, un enfoque promovido por el Instituto Max Planck e ILM, y desde entonces mejorado con el regresor de cuerpo humano articulado de entrenamiento disperso (STAR) marco de referencia.

SMPL (en este caso, una variante llamada SMPL-X) puede imponer una malla paramétrica CGI que concuerde con la pose estimada (incluidas las expresiones, según sea necesario) de la totalidad del cuerpo humano que aparece en una imagen, lo que permite realizar nuevas operaciones en la imagen utilizando la malla paramétrica como guía volumétrica o perceptiva. Fuente: https://arxiv.org/pdf/1904.05866.pdf

SMPL (en este caso una variante denominada SMPL-X) puede imponer una malla paramétrica CGI que concuerde con la pose estimada (incluidas las expresiones, según sea necesario) de la totalidad del cuerpo humano que aparece en una imagen, lo que permite realizar nuevas operaciones en la imagen utilizando la malla paramétrica como volumétrico o perceptivo. guía. Fuente: https://arxiv.org/pdf/1904.05866.pdf

La novedad más aclamada en esta línea ha sido la de Disney 2019 Renderizado con estilo iniciativa, que combinó el uso de mapas de textura tradicionales con imágenes generadas por GAN, en un intento de crear una salida animada mejorada de estilo 'deepfake'.

Lo viejo se encuentra con lo nuevo, en el enfoque híbrido de Disney para los deepfakes generados por GAN. Fuente: https://www.youtube.com/watch?v=TwpLqTmvqVk

Lo viejo se encuentra con lo nuevo, en el enfoque híbrido de Disney para los deepfakes generados por GAN. Fuente: https://www.youtube.com/watch?v=TwpLqTmvqVk

El enfoque de Disney impone facetas CGI renderizadas tradicionalmente en una red StyleGAN2 para 'repintar' sujetos faciales humanos en 'áreas problemáticas', donde la consistencia temporal es un problema para la generación de video, áreas como la textura de la piel.

El flujo de trabajo Renderizado con estilo.

El flujo de trabajo Renderizado con estilo.

Dado que la cabeza CGI paramétrica que guía este proceso se puede ajustar y cambiar para adaptarse al usuario, la cara generada por GAN puede reflejar esos cambios, incluidos los cambios de pose y expresión de la cabeza.

Aunque se diseñó para unir la instrumentación de CGI con el realismo natural de las caras GAN, al final, los resultados demuestran lo peor de ambos mundos y aún no logran mantener la textura del cabello e incluso el posicionamiento de las características básicas consistentes:

Un nuevo tipo de valle inquietante emerge de Rendering with Style, aunque el principio aún tiene cierto potencial.

Un nuevo tipo de valle inquietante emerge de Rendering with Style, aunque el principio aún tiene cierto potencial.

2020 StyleRig: Rigging StyleGAN para control 3D sobre imágenes de retrato adopta un enfoque cada vez más popular, con el uso de modelos tridimensionales de rostros transformables (3DMM) como proxies para alterar las características en un entorno StyleGAN, en este caso a través de una nueva red de rigging llamada RigNet:

Los 3DMM se presentan como proxies para las interpretaciones del espacio latente en StyleRig. Fuente: https://arxiv.org/pdf/2004.00121.pdf

Los 3DMM se presentan como proxies para las interpretaciones del espacio latente en StyleRig. Fuente: https://arxiv.org/pdf/2004.00121.pdf

Sin embargo, como es habitual con estas iniciativas, los resultados hasta la fecha parecen limitados a manipulaciones de pose mínimas y cambios de expresión/afecto 'desinformados'.

StyleRig mejora el nivel de control, aunque el cabello temporalmente consistente sigue siendo un desafío sin resolver. Fuente:

StyleRig mejora el nivel de control, aunque el cabello temporalmente consistente sigue siendo un desafío sin resolver. Fuente: https://www.youtube.com/watch?v=eaW_P85wQ9k

Se pueden encontrar resultados similares en Mitsubishi Research's MÁS GAN, Un 2021 que utiliza 3DMM no lineales como arquitectura de desenredado, pero que también lucha para lograr un movimiento dinámico y consistente.

La última investigación para intentar la instrumentalidad y el desenredo es Recreación facial de una toma en megapíxeles, que nuevamente usa cabezales paramétricos 3DMM como una interfaz amigable para StyleGAN.

En el flujo de trabajo MegaFR de One-Shot Face Reenactment, la red realiza una síntesis facial al combinar una imagen invertida del mundo real con parámetros tomados de un modelo 3DMM renderizado. Fuente: https://arxiv.org/pdf/2205.13368.pdf

En el flujo de trabajo MegaFR de One-Shot Face Reenactment, la red realiza una síntesis facial al combinar una imagen invertida del mundo real con parámetros tomados de un modelo 3DMM renderizado. Fuente: https://arxiv.org/pdf/2205.13368.pdf

OSFR pertenece a una clase creciente de editores de rostros GAN que buscan desarrollar flujos de trabajo de edición lineal al estilo de Photoshop/After Effects donde el usuario puede ingresar una imagen deseada en la que se pueden aplicar transformaciones, en lugar de buscar códigos latentes relacionados con el espacio latente. una identidad.

Una vez más, las expresiones paramétricas representan un método general y no personalizado de inyectar expresión, lo que lleva a manipulaciones que parecen "extrañas" en su propia forma, no siempre positiva.

Expresiones inyectadas en OSFR.

Expresiones inyectadas en OSFR.

Al igual que el trabajo anterior, OSFR puede inferir poses casi originales a partir de una sola imagen y también realizar "frontalización", donde una imagen posada descentrada se traduce en una foto policial:

Imágenes de fichas policiales originales (arriba) e inferidas de una de las implementaciones de OSFR detalladas en el nuevo documento.

Imágenes de fichas policiales originales (arriba) e inferidas de una de las implementaciones de OSFR detalladas en el nuevo documento.

En la práctica, este tipo de inferencia es similar a algunos de los principios de la fotogrametría que sustentan Campos de radiación neuronal (NeRF), excepto que la geometría aquí debe estar definida por una sola foto, en lugar de los 3-4 puntos de vista que permiten a NeRF interpretar las poses intersticiales que faltan y crear escenas 3D neuronales explorables con humanos.

(Sin embargo, NeRF tampoco es All You Need™, ya que tiene una casi conjunto completamente diferente de obstáculos a GAN en términos de producción de síntesis de video facial)

¿Tiene GAN un lugar en la síntesis de video facial?

Lograr expresiones dinámicas y poses fuera de distribución a partir de una sola imagen de origen parece ser una obsesión similar a la alquimia en la investigación de síntesis facial GAN ​​en este momento, principalmente porque las GAN son el único método actualmente capaz de generar una resolución bastante alta y relativamente alta. caras neuronales de fidelidad: aunque los marcos de falsificación profunda del codificador automático pueden entrenarse en una multitud de poses y expresiones del mundo real, deben operar en resoluciones de entrada/salida restringidas por VRAM y requieren un 'host'; mientras que NeRF tiene restricciones similares y, a diferencia de los otros dos enfoques, actualmente no tiene metodologías establecidas para cambiar las expresiones faciales y, en general, sufre de una capacidad de edición limitada.

Parece que el único camino a seguir para un sistema de síntesis facial CGI/GAN preciso es una nueva iniciativa para encontrar alguna forma de ensamblar una entidad de identidad de múltiples fotos dentro del espacio latente, donde un código latente para la identidad de una persona no tiene que viajar por todo el espacio latente para explotar parámetros de pose no relacionados, pero puede referirse a sus propias imágenes relacionadas (del mundo real) como referencias para transformaciones.

Incluso en tal caso, o incluso si una red StyleGAN completa se entrenara en un conjunto de caras de identidad única (similar a los conjuntos de entrenamiento que usan los codificadores automáticos), la lógica semántica faltante probablemente aún tendría que ser proporcionada por tecnologías adjuntas como segmentación semántica o caras 3DMM paramétricas, que, en tal escenario, al menos tendrían más material con el que trabajar.