Inteligencia artificial
Creación de Deepfakes de cuerpo completo combinando múltiples NeRF

El sector de investigación de síntesis de imágenes está lleno de nuevas propuestas para sistemas capaces de crear videos y fotos de cuerpo completo de jóvenes, principalmente mujeres jóvenes, con diferentes tipos de ropa. La mayoría de las imágenes generadas son estáticas; ocasionalmente, las representaciones incluso se mueven, aunque no siempre muy bien.
El ritmo de esta investigación en particular es glacial en comparación con el nivel actual de progreso en campos relacionados como modelos de difusión latente; sin embargo, los grupos de investigación, la mayoría en Asia, siguen trabajando incansablemente en el problema.

Una de las decenas, si no cientos, de sistemas de ‘prueba virtual’ propuestos o lanzados a medias en los últimos 10-15 años, donde los cuerpos se evalúan a través del reconocimiento de objetos basado en aprendizaje automático y se adaptan a los artículos de ropa propuestos. Fuente: https://www.youtube.com/watch?v=2ZXrgGyhbak
El objetivo es crear nuevos sistemas para permitir ‘pruebas virtuales’ para el mercado de la moda y la ropa, sistemas que puedan adaptarse tanto al cliente como al producto específico que está disponible o que se lanzará pronto, sin la torpeza de la superposición en tiempo real de ropa, o la necesidad de pedir a los clientes que envíen fotos ligeramente NSFW para tuberías de renderizado basadas en ML.
Ninguna de las arquitecturas de síntesis populares parece adaptable fácilmente a esta tarea: el espacio latente de las Redes Generativas Adversarias (GAN) no es adecuado para producir movimiento temporal convincente (o incluso para edición en general); aunque capaces de generar movimiento humano realista, los Campos de Radiación Neural (NeRF) suelen ser naturalmente resistentes al tipo de edición que sería necesaria para ‘intercambiar’ personas o ropa a voluntad; los autoencoders requerirían un entrenamiento tedioso específico de persona/ropa; y los modelos de difusión latente, como las GAN, no tienen mecanismos temporales nativos, para la generación de video.
EVA3D
Sin embargo, los documentos y propuestas continúan. El último es de interés inusual en una línea de investigación exclusivamente comercial y poco distinguida.
EVA3D, de la Universidad Tecnológica de Nanyang en Singapur, es la primera indicación de un enfoque que ha estado llegando durante mucho tiempo, el uso de múltiples Redes de Campos de Radiación Neural, cada una de las cuales se dedica a una parte separada del cuerpo, y que luego se componen en una visualización cohesiva y ensamblada.

Una mujer joven móvil compuesta por múltiples redes NeRF, para EVA3D. Fuente: https://hongfz16.github.io/projects/EVA3D.html
Los resultados, en términos de movimiento, son… aceptables. Aunque las visualizaciones de EVA3D no están fuera del valle inquietante, al menos pueden ver la salida desde donde están parados.

Lo que hace que EVA3D sea destacado es que los investigadores detrás de él, casi únicamente en el sector de síntesis de imágenes de cuerpo completo, han realizado que una sola red (GAN, NeRF o de otro tipo) no podrá manejar la generación editable y flexible de cuerpo completo humano para algunos años, parte debido al ritmo de la investigación y parte debido a limitaciones de hardware y logísticas.
Por lo tanto, el equipo de Nanyang ha subdividido la tarea en 16 redes y múltiples tecnologías, un enfoque ya adoptado para la renderización neural de entornos urbanos en Block-NeRF y CityNeRF, y que parece probablemente convertirse en una medida interesante y potencialmente fructífera para lograr deepfakes de cuerpo completo en los próximos cinco años, pendiente de nuevos desarrollos conceptuales o de hardware.
No todos los desafíos presentes en la creación de este tipo de ‘prueba virtual’ son técnicos o logísticos, y el documento describe algunos de los problemas de datos, particularmente en cuanto al aprendizaje no supervisado:
‘[Fashion] Los conjuntos de datos tienen principalmente poses humanas muy limitadas (la mayoría son poses de pie similares), y ángulos de visión muy desequilibrados (la mayoría son vistas frontales). Esta distribución de datos 2D desequilibrada podría obstaculizar el aprendizaje no supervisado de GAN 3D, lo que lleva a dificultades en la síntesis de vista/novela. Por lo tanto, se necesita una estrategia de entrenamiento adecuada para aliviar el problema.’
El flujo de trabajo de EVA3D segmenta el cuerpo humano en 16 partes distintas, cada una de las cuales se genera a través de su propia red NeRF. Obviamente, esto crea suficientes secciones ‘descongeladas’ para poder galvanizar la figura a través de la captura de movimiento o otros tipos de datos de movimiento. Además de esta ventaja, también permite que el sistema asigne los recursos máximos a las partes del cuerpo que ‘venden’ la impresión general.
Por ejemplo, los pies humanos tienen un rango de articulación muy limitado, mientras que la autenticidad de la cara y la cabeza, además de la calidad del movimiento corporal en general, es probable que sea el token de autenticidad para el renderizado.
El enfoque difiere radicalmente del proyecto centrado en NeRF al que está conceptualmente relacionado, 2021’s A-NeRF, de la Universidad de Columbia Británica y Reality Labs Research, que buscaba agregar un esqueleto interno de control a una representación NeRF convencional ‘de una sola pieza’, lo que hace más difícil asignar recursos de procesamiento a diferentes partes del cuerpo en función de la necesidad.

Mociones anteriores – A-NeRF equipa una ‘cocida’ NeRF con el mismo tipo de armazón central articulado y flexible que la industria de los efectos visuales ha estado utilizando durante tanto tiempo para animar personajes CGI. Fuente: https://lemonatsu.github.io/anerf/
En común con la mayoría de los proyectos similares centrados en humanos que buscan aprovechar el espacio latente de los enfoques populares, EVA3D utiliza un Modelo Lineal de Persona con Piel (SMPL), un método ‘tradicional’ basado en CGI para agregar instrumentación a la abstracción general de los métodos de síntesis actuales. Al comienzo de este año, otro documento, este vez de la Universidad de Zhejiang en Hangzhou y la Escuela de Medios Creativos de la Universidad de la Ciudad de Hong Kong, utilizó dichos métodos para realizar reconfiguración neural del cuerpo humano.
Método
El modelo SMPL utilizado en el proceso se ajusta a la ‘prioridad’ humana, la persona que es, esencialmente, voluntariamente deepfakeada por EVA3D, y sus pesos de piel negocian las diferencias entre el espacio canónico (es decir, la ‘en reposo’ o ‘pose neutral’ de un modelo SMPL) y la forma en que se representa la apariencia final.
Como se ve en la ilustración anterior, las cajas delimitadoras de SMPL se utilizan como definiciones de límites para las 16 redes que eventualmente compondrán el cuerpo. El algoritmo de Linear Blend Skinning (LBS) inverso de SMPL se utiliza para transferir rayos muestreados visibles al espacio canónico (pose pasiva). Luego, las 16 sub-redes se consultan según estas configuraciones y, en última instancia, se conforman en un render final.
El compuesto NeRF completo se utiliza para construir un marco de trabajo GAN de humano 3D.

Los renderizados del marco de trabajo GAN de segunda etapa se entrenarán finalmente contra colecciones de imágenes 2D genuinas de humanos/moda.
Cada sub-red que representa una parte del cuerpo humano se compone de Perceptrones Multicapa (MLP) apilados con SIREN (Redes de Representación Sinusoidal) de activación. Aunque SIREN resuelve muchos problemas en un flujo de trabajo como este, y en proyectos similares, tiende a sobreajustar en lugar de generalizar, y los investigadores sugieren que se podrían utilizar bibliotecas alternativas en el futuro (ver final del artículo).
Datos, entrenamiento y pruebas
EVA3D se enfrenta a problemas de datos inusuales, debido a las limitaciones y el estilo de plantilla de las poses que están disponibles en los conjuntos de datos de moda, que tienden a carecer de vistas o poses novedosas y son, quizás intencionalmente, repetitivas, para centrar la atención en la ropa en lugar de en la persona que la lleva.
Debido a esta distribución de poses desequilibrada, EVA3D utiliza prioridades humanas (ver arriba) basadas en la geometría del modelo SMPL, y luego predice un campo de distancia firmado (SDF) de desplazamiento de esta pose, en lugar de una pose objetivo directa.
Para los experimentos de apoyo, los investigadores utilizaron cuatro conjuntos de datos: DeepFashion; SHHQ; UBCFashion; y la Base de datos de video de baile AIST (AIST Dance DB).
Los dos últimos contienen poses más variadas que los dos primeros, pero representan a las mismas personas repetidamente, lo que cancela esta diversidad de otro modo útil; en resumen, los datos son más que desafiantes, dado la tarea.

Ejemplos de SSHQ. Fuente: https://arxiv.org/pdf/2204.11823.pdf
Las líneas base utilizadas fueron ENARF-GAN, el primer proyecto en renderizar visuales NeRF a partir de conjuntos de datos de imágenes 2D; EG3D de Stanford y NVIDIA; y StyleSDF, una colaboración entre la Universidad de Washington, Adobe Research y la Universidad de Stanford, todos métodos que requieren bibliotecas de superresolución para escalar desde la resolución nativa hasta la resolución alta.
Las métricas adoptadas fueron la controvertida Distancia de Inception de Fréchet (FID) y la Distancia de Inception del Kernel (KID), junto con el Porcentaje de Puntos Clave Correctos ([email protected]).
En evaluaciones cuantitativas, EVA3D lideró en todas las métricas en cuatro conjuntos de datos:

Resultados cuantitativos.
Los investigadores observan que EVA3D logra la tasa de error más baja para la renderización de geometría, un factor crítico en un proyecto de este tipo. También observan que su sistema puede controlar la pose generada y lograr puntuaciones [email protected] más altas, en contraste con EG3D, el único método competidor que obtuvo una puntuación más alta en una categoría.
EVA3D opera de forma nativa a la resolución estándar de 512x512px, aunque podría escalarse fácilmente y con efectividad a resolución HD agregando capas de escalado, como lo ha hecho Google recientemente con su oferta de video de texto a 1024 de resolución Imagen Video.
El método no está exento de limitaciones. El documento señala que la activación SIREN puede causar artefactos circulares, que podrían remediarse en versiones futuras mediante el uso de una representación base alternativa, como EG3D, en combinación con un decodificador 2D. Además, es difícil ajustar con precisión SMPL a las fuentes de datos de moda.
Finalmente, el sistema no puede acomodar fácilmente artículos de ropa más grandes y fluidos, como vestidos grandes; artículos de este tipo exhiben la misma dinámica de fluidos que hace que la creación de cabello renderizado neural sea un desafío. Presumiblemente, una solución adecuada podría ayudar a abordar ambos problemas.
https://www.youtube.com/watch?v=JNV0FJ0aDWM
Publicado por primera vez el 12 de octubre de 2022.
















