Inteligencia Artificial
Abordar los 'días de cabello malo' en la síntesis de imágenes humanas

Desde la edad de oro de la estatuaria romana, representar el cabello humano ha sido un desafío espinoso. La cabeza humana promedio contiene 100,000 hebras, tiene índices de refracción variables de acuerdo con su color y, más allá de cierta longitud, se moverá y reformará en formas que solo pueden simularse mediante modelos físicos complejos – hasta la fecha, solo aplicable a través de metodologías CGI 'tradicionales'.

Desde Investigación 2017 de Disney, un modelo basado en la física intenta aplicar un movimiento realista a un peinado fluido en un flujo de trabajo CGI. Fuente: https://www.youtube.com/watch?v=-6iF3mufDW0
El problema no se soluciona bien con los populares métodos modernos de deepfakes. Desde hace algunos años, el paquete líder ProfundoFaceLab ha tenido un modelo de 'cabeza completa' que solo puede capturar encarnaciones rígidas de peinados cortos (generalmente masculinos); y recientemente compañero estable de DFL Intercambio cara (ambos paquetes se derivan del controvertido código fuente de DeepFakes de 2017) ha ofrecido una implementación del Bisenet modelo de segmentación semántica, que permite a un usuario incluir orejas y cabello en la salida de deepfake.
Incluso cuando se representan peinados muy cortos, los resultados tienden a ser muy limitada en calidad, con cabezas completas que aparecen superpuestas en el metraje, en lugar de integradas en él.
Pelo GAN
Los dos principales enfoques en competencia para la simulación humana son los campos de radiación neuronal (NERF), que puede capturar una escena desde múltiples puntos de vista y encapsular una representación 3D de estos puntos de vista en una red neuronal explorable; y Redes Adversarias Generativas (GAN), que son notablemente más avanzados en términos de síntesis de imágenes humanas (sobre todo porque NeRF solo surgió en 2020).
La comprensión inferida de NeRF de la geometría 3D le permite replicar una escena con gran fidelidad y consistencia, incluso si actualmente tiene poco o ningún margen para la imposición de modelos físicos y, de hecho, un margen relativamente limitado para cualquier tipo de transformación en los datos recopilados. datos que no se relacionan con cambiar el punto de vista de la cámara. Actualmente, NeRF tiene capacidades muy limitadas en términos de reproducir el movimiento del cabello humano.
Los equivalentes de NeRF basados en GAN comienzan con una desventaja casi fatal, ya que, a diferencia de NeRF, el espacio latente de una GAN no incorpora de forma nativa una comprensión de la información 3D. Por lo tanto, la síntesis de imágenes faciales GAN con reconocimiento de 3D se ha convertido en una búsqueda candente en la investigación de generación de imágenes en los últimos años, con 2019 InterfazGAN uno de los principales avances.
Sin embargo, incluso los resultados mostrados y seleccionados de InterFaceGAN demuestran que la consistencia del cabello neuronal sigue siendo un desafío difícil en términos de consistencia temporal para los posibles flujos de trabajo de VFX:

Cabello 'chisporroteante' en una transformación de pose de InterFaceGAN. Fuente: https://www.youtube.com/watch?v=uoftpl3Bj6w
A medida que se vuelve más evidente que la generación de vistas consistentes a través de la manipulación del espacio latente puede ser una búsqueda similar a la alquimia, está surgiendo un número creciente de artículos que incorporar información 3D basada en CGI en un flujo de trabajo GAN como una restricción estabilizadora y normalizadora.
El elemento CGI puede estar representado por primitivas 3D intermedias como un Modelo lineal multipersona desollado (SMPL), o mediante la adopción de técnicas de inferencia 3D de manera similar a NeRF, donde la geometría se evalúa a partir de las imágenes o el video de origen.
Un nuevo trabajo en esta línea, lanzado esta semana, es Redes antagónicas generativas coherentes multivista para la síntesis de imágenes con reconocimiento 3D (MVCGAN), una colaboración entre ReLER, AAII, la Universidad de Tecnología de Sydney, la Academia DAMO en Alibaba Group y la Universidad de Zhejiang.

Poses faciales novedosas plausibles y robustas generadas por MVCGAN en imágenes derivadas del conjunto de datos CELEBA-HQ. Fuente: https://arxiv.org/pdf/2204.06307.pdf
MVCGAN incorpora un red de campo de radiación generativa (GRAF) capaz de proporcionar restricciones geométricas en una red adversa generativa, posiblemente logrando algunas de las capacidades de pose más auténticas de cualquier enfoque similar basado en GAN.
Sin embargo, el material complementario para MVCGAN revela que obtener el volumen, la disposición, la colocación y la consistencia del comportamiento del cabello es un problema que no se aborda fácilmente mediante restricciones basadas en la geometría 3D impuesta externamente.

A partir del material complementario que no se ha publicado públicamente en el momento de escribir este artículo, vemos que, si bien la síntesis de pose facial de MVCGAN representa un avance notable en el estado actual de la técnica, la consistencia temporal del cabello sigue siendo un problema.
Dado que los flujos de trabajo CGI 'sencillos' todavía consideran que la reconstrucción del cabello temporal es un desafío, no hay razón para creer que los enfoques convencionales basados en la geometría de esta naturaleza traerán una síntesis de cabello consistente al espacio latente en el corto plazo.
Estabilización del cabello con redes neuronales convolucionales
Sin embargo, un próximo artículo de tres investigadores del Instituto de Tecnología Chalmers en Suecia puede ofrecer un avance adicional en la simulación del cabello neural.

A la izquierda, la representación del cabello estabilizada por CNN, a la derecha, la realidad del suelo. Vea el video incrustado al final del artículo para una mejor resolución y ejemplos adicionales. Fuente: https://www.youtube.com/watch?v=AvnJkwCmsT4
Bajo el título Filtrado de cabello en tiempo real con redes neuronales convolucionales, el artículo se publicará para el Simposio i3D a principios de mayo.
El sistema comprende una red basada en un codificador automático capaz de evaluar la resolución del cabello, incluido el sombreado automático y teniendo en cuenta el grosor del cabello, en tiempo real, en función de un número limitado de muestras estocásticas sembradas por geometría OpenGL.
El enfoque genera un número limitado de muestras con transparencia estocástica y luego entrena a U-red para reconstruir la imagen original.

Bajo MVCGAN, una CNN filtra factores de color, realces, tangentes, profundidad y alfas muestreados estocásticamente, ensamblando los resultados sintetizados en una imagen compuesta.
La red se entrena en PyTorch y converge durante un período de seis a doce horas, según el volumen de la red y la cantidad de funciones de entrada. Los parámetros entrenados (pesos) se utilizan luego en la implementación en tiempo real del sistema.
Los datos de entrenamiento se generan mediante la representación de varios cientos de imágenes para peinados rectos y ondulados, utilizando distancias y poses aleatorias, así como diversas condiciones de iluminación.

Varios ejemplos de entrada de entrenamiento.
La translucidez del cabello en las muestras se promedia a partir de imágenes renderizadas con transparencia estocástica a una resolución supermuestreada. Los datos originales de alta resolución se reducen para adaptarse a los límites de la red y el hardware, y luego se incrementan, en un flujo de trabajo de codificador automático típico.
La aplicación de inferencia en tiempo real (el software 'en vivo' que aprovecha el algoritmo derivado del modelo entrenado) emplea una combinación de NVIDIA CUDA con cuDNN y OpenGL. Las características de entrada iniciales se vuelcan en los búferes de color multimuestreados de OpenGL y el resultado se desvía a los tensores cuDNN antes de procesarse en la CNN. Esos tensores luego se vuelven a copiar en una textura OpenGL 'en vivo' para imponerlos en la imagen final.
El sistema en tiempo real opera en un NVIDIA RTX 2080, produciendo una resolución de 1024×1024 píxeles.
Dado que los valores del color del cabello están completamente desenredados en los valores finales obtenidos por la red, cambiar el color del cabello es una tarea trivial, aunque los efectos como los degradados y las rayas siguen siendo un desafío futuro.
Los autores han publicado el código utilizado en las evaluaciones del artículo. en GitLab. Mira el video complementario de MVCGAN a continuación.
Conclusión
Navegar por el espacio latente de un codificador automático o GAN es aún más parecido a navegar que a conducir con precisión. Solo en este período muy reciente comenzamos a ver resultados creíbles para la generación de poses de geometría 'más simple' como caras, en enfoques como NeRF, GAN y marcos de codificador automático no profundos (2017).
La importante complejidad arquitectónica del cabello humano, combinada con la necesidad de incorporar modelos físicos y otras características para las cuales los enfoques actuales de síntesis de imágenes no tienen provisión, indica que es poco probable que la síntesis del cabello siga siendo un componente integrado en la síntesis facial general, pero requerirá redes dedicadas y separadas de cierta sofisticación, incluso si tales redes pueden eventualmente incorporarse a marcos de síntesis facial más amplios y complejos.
Publicado por primera vez el 15 de abril de 2022.