Connect with us

Inteligencia artificial

Abordar los ‘días de mal pelo’ en la síntesis de imágenes humanas

mm

Desde la época dorada de la estatuaria romana, representar el cabello humano ha sido un desafío espinoso. La cabeza humana promedio contiene 100,000 hebras, tiene índices de refracción variables según su color y, más allá de una cierta longitud, se moverá y reformará de maneras que solo pueden ser simuladas por modelos de física complejos – hasta la fecha, solo aplicables a través de metodologías ‘tradicionales’ de CGI.

De la investigación de 2017 de Disney, un modelo basado en física intenta aplicar un movimiento realista a un estilo de cabello fluido en un flujo de trabajo de CGI. Fuente: https://www.youtube.com/watch?v=-6iF3mufDW0

De la investigación de 2017 de Disney, un modelo basado en física intenta aplicar un movimiento realista a un estilo de cabello fluido en un flujo de trabajo de CGI. Fuente: https://www.youtube.com/watch?v=-6iF3mufDW0

El problema es mal abordado por los métodos de deepfakes modernos y populares. Durante algunos años, el paquete líder DeepFaceLab ha tenido un modelo de ‘cabeza completa’ que solo puede capturar encarnaciones rígidas de peinados cortos (generalmente masculinos); y recientemente, el compañero de DFL FaceSwap (ambos paquetes se derivan del código fuente de DeepFakes de 2017) ha ofrecido una implementación del modelo de segmentación semántica BiseNet, lo que permite a un usuario incluir orejas y cabello en la salida de deepfakes.

Incluso cuando se representan peinados muy cortos, los resultados tienden a ser muy limitados en calidad, con cabezas completas que aparecen superpuestas en la filmación, en lugar de integrarse en ella.

Cabello GAN

Los dos enfoques principales en competencia para la simulación humana son los Campos de Radiancia Neuronal (NeRF), que pueden capturar una escena desde múltiples puntos de vista y encapsular una representación 3D de estos puntos de vista en una red neuronal explorable; y las Redes Adversarias Generativas (GANs), que son notablemente más avanzadas en términos de síntesis de imágenes humanas (no menos porque NeRF solo surgió en 2020).

La comprensión inferida de la geometría 3D de NeRF le permite replicar una escena con gran fidelidad y coherencia, incluso si actualmente tiene poco o ningún alcance para la imposición de modelos de física – y, de hecho, un alcance relativamente limitado para cualquier tipo de transformación en los datos recopilados que no se relacione con el cambio de punto de vista de la cámara. Actualmente, NeRF tiene capacidades muy limitadas en términos de reproducir el movimiento del cabello humano.

Los equivalentes basados en GAN de NeRF comienzan con una desventaja casi fatal, ya que, a diferencia de NeRF, el espacio latente de un GAN no incorpora de forma nativa una comprensión de la información 3D. Por lo tanto, la síntesis de imágenes faciales 3D conscientes de GAN se ha convertido en una persecución candente en la investigación de generación de imágenes en los últimos años, con InterFaceGAN de 2019 como una de las principales innovaciones.

Sin embargo, incluso los resultados seleccionados y promocionados de InterFaceGAN demuestran que la coherencia del cabello neural sigue siendo un desafío difícil en términos de coherencia temporal, para flujos de trabajo de VFX potenciales:

Cabello 'chispeante' en una transformación de pose de InterFaceGAN. Fuente: https://www.youtube.com/watch?v=uoftpl3Bj6w

Cabello ‘chispeante’ en una transformación de pose de InterFaceGAN. Fuente: https://www.youtube.com/watch?v=uoftpl3Bj6w

A medida que se vuelve más evidente que la generación de vistas coherentes a través de la manipulación del espacio latente solo puede ser una búsqueda alquímica, un número creciente de artículos están surgiendo que incorporan información 3D basada en CGI en un flujo de trabajo de GAN como una restricción estabilizadora y normalizadora.

El elemento CGI puede estar representado por primitivos 3D intermedios como un Modelo Lineal Multi-Personal con Piel (SMPL), o adoptando técnicas de inferencia 3D de manera similar a NeRF, donde la geometría se evalúa a partir de las imágenes o videos de origen.

Una nueva obra en esta línea, publicada esta semana, es Redes Adversarias Generativas Coherentes con Vistas Múltiples para Síntesis de Imágenes 3D (MVCGAN), una colaboración entre ReLER, AAII, Universidad de Tecnología de Sídney, la Academia DAMO de Alibaba Group y la Universidad de Zhejiang.

Poses faciales novedosas plausibles y robustas generadas por MVCGAN en imágenes derivadas del conjunto de datos CELEBA-HQ. Fuente: https://arxiv.org/pdf/2204.06307.pdf

Poses faciales novedosas plausibles y robustas generadas por MVCGAN en imágenes derivadas del conjunto de datos CELEBA-HQ. Fuente: https://arxiv.org/pdf/2204.06307.pdf

MVCGAN incorpora una red de radiancia generativa (GRAF) capaz de proporcionar restricciones geométricas en una Red Adversaria Generativa, logrando algunas de las capacidades de posado más auténticas de cualquier enfoque basado en GAN similar.

Comparación entre MVCGAN y métodos anteriores GRAF, GIRAFFE y pi-GAN.

Comparación entre MVCGAN y métodos anteriores GRAF, GIRAFFE y pi-GAN.

Sin embargo, el material suplementario para MVCGAN revela que obtener la consistencia del volumen, disposición, colocación y comportamiento del cabello es un problema que no se aborda fácilmente a través de restricciones basadas en geometría 3D externamente impuesta.

Del material suplementario que no se ha lanzado públicamente en el momento de escribir, vemos que aunque la síntesis de pose facial de MVCGAN representa un avance notable en el estado actual del arte, la coherencia temporal del cabello sigue siendo un problema.

Del material suplementario que no se ha lanzado públicamente en el momento de escribir, vemos que aunque la síntesis de pose facial de MVCGAN representa un avance notable en el estado actual del arte, la coherencia temporal del cabello sigue siendo un problema.

Dado que los flujos de trabajo de CGI ‘directos’ todavía encuentran que la reconstrucción temporal del cabello es un desafío, no hay razón para creer que los enfoques convencionales basados en geometría de esta naturaleza vayan a traer la síntesis de cabello coherente al espacio latente en un futuro cercano.

Estabilizar el cabello con Redes Neuronales Convolucionales

Sin embargo, un artículo futuro de tres investigadores del Instituto de Tecnología de Chalmers en Suecia puede ofrecer un avance adicional en la simulación de cabello neural.

A la izquierda, la representación de cabello estabilizada por la CNN, a la derecha, la verdad fundamental. Ver el video incrustado al final del artículo para una mejor resolución y ejemplos adicionales. Fuente: https://www.youtube.com/watch?v=AvnJkwCmsT4

A la izquierda, la representación de cabello estabilizada por la CNN, a la derecha, la verdad fundamental. Ver el video incrustado al final del artículo para una mejor resolución y ejemplos adicionales. Fuente: https://www.youtube.com/watch?v=AvnJkwCmsT4

Titled Filtrado de Cabello en Tiempo Real con Redes Neuronales Convolucionales, el artículo se publicará para el simposio i3D a principios de mayo.

El sistema comprende una red basada en autoencoder capaz de evaluar la resolución del cabello, incluyendo auto-sombreado y teniendo en cuenta el grosor del cabello, en tiempo real, en función de un número limitado de muestras estocásticas sembradas por la geometría de OpenGL.

El enfoque representa un número limitado de muestras con transparencia estocástica y luego entrena una U-net para reconstruir la imagen original.

Bajo MVCGAN, una CNN filtra factores de color muestreados estocásticamente, resaltados, tangentes, profundidad y alfas, ensamblando los resultados sintetizados en una imagen compuesta.

Bajo MVCGAN, una CNN filtra factores de color muestreados estocásticamente, resaltados, tangentes, profundidad y alfas, ensamblando los resultados sintetizados en una imagen compuesta.

La red se entrena en PyTorch, convergiendo en un período de seis a doce horas, dependiendo del volumen de la red y la cantidad de características de entrada. Los parámetros entrenados (pesos) se utilizan luego en la implementación en tiempo real del sistema.

Los datos de entrenamiento se generan renderizando varias hundredas de imágenes para peinados rectos y ondulados, utilizando distancias y poses aleatorias, así como condiciones de iluminación diversas.

Varios ejemplos de entrada de entrenamiento.

Varios ejemplos de entrada de entrenamiento.

La translucidez del cabello en las muestras se promedia desde imágenes renderizadas con transparencia estocástica a resolución supersampleada. Los datos de alta resolución originales se reducen para acomodar los límites de la red y el hardware, y luego se vuelven a muestrear, en un flujo de trabajo típico de autoencoder.

La aplicación de inferencia en tiempo real (el software ‘en vivo’ que aprovecha el algoritmo derivado del modelo entrenado) emplea una mezcla de NVIDIA CUDA con cuDNN y OpenGL. Las características de entrada iniciales se volcan en buffers de color multisampleados de OpenGL, y el resultado se desvía a tensores de cuDNN antes del procesamiento en la CNN. Esos tensores se copian de regreso a una textura ‘en vivo’ de OpenGL para imponerla en la imagen final.

El sistema en tiempo real opera en una NVIDIA RTX 2080, produciendo una resolución de 1024×1024 píxeles.

Dado que los valores de color del cabello están completamente desacoplados en los valores finales obtenidos por la red, cambiar el color del cabello es una tarea trivial, aunque los efectos como gradientes y rayas siguen siendo un desafío para el futuro.

Los autores han lanzado el código utilizado en las evaluaciones del artículo en GitLab. Ver el video suplementario para MVCGAN a continuación.

Conclusión

Navegar por el espacio latente de un autoencoder o GAN todavía es más similar a navegar que a conducir con precisión. Solo en este período muy reciente estamos comenzando a ver resultados creíbles para la generación de pose de geometrías ‘más simples’ como caras, en enfoques como NeRF, GANs y marcos de autoencoder no deepfake (2017).

La complejidad arquitectónica significativa del cabello humano, combinada con la necesidad de incorporar modelos de física y otros rasgos para los cuales los enfoques actuales de síntesis de imágenes no tienen disposición, indica que la síntesis de cabello es poco probable que permanezca como un componente integrado en la síntesis facial general, sino que requerirá redes dedicadas y separadas de cierta sofisticación – incluso si dichas redes pueden incorporarse eventualmente en marcos de síntesis facial más amplios y complejos.

 

Publicado por primera vez el 15 de abril de 2022.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.