Ángulo de Anderson

Creación de Deepfakes de cuerpo completo combinando múltiples NeRFs

mm

El sector de la síntesis de imágenes está lleno de nuevas propuestas para sistemas capaces de crear videos y fotos de cuerpo completo de jóvenes – principalmente jóvenes mujeres – en diferentes tipos de ropa. La mayoría de las imágenes generadas son estáticas; ocasionalmente, las representaciones incluso se mueven, aunque no siempre muy bien.

El ritmo de esta investigación en particular es glacial en comparación con el nivel actual de progreso en campos relacionados como modelos de difusión latente; sin embargo, los grupos de investigación, la mayoría en Asia, siguen trabajando incansablemente en el problema.

Uno de los decenas, si no cientos, de sistemas de 'prueba virtual' propuestos o semi-lanzados en los últimos 10-15 años, donde los cuerpos se evalúan a través del reconocimiento de objetos basado en aprendizaje automático y se adaptan a los artículos de ropa propuestos. Fuente: https://www.youtube.com/watch?v=2ZXrgGyhbak

Uno de los decenas, si no cientos, de sistemas de ‘prueba virtual’ propuestos o semi-lanzados en los últimos 10-15 años, donde los cuerpos se evalúan a través del reconocimiento de objetos basado en aprendizaje automático y se adaptan a los artículos de ropa propuestos. Fuente: https://www.youtube.com/watch?v=2ZXrgGyhbak

El objetivo es crear nuevos sistemas para permitir ‘pruebas virtuales’ para el mercado de la moda y la ropa – sistemas que puedan adaptarse tanto al cliente como al producto específico que está disponible o que se lanzará pronto, sin la torpeza de la superposición en tiempo real de ropa, o la necesidad de pedir a los clientes que envíen fotos ligeramente NSFW para tuberías de renderizado basadas en ML.

Ninguna de las arquitecturas de síntesis populares parece adaptable fácilmente a esta tarea: el espacio latente de las Redes Generativas Adversarias (GAN) no es adecuado para producir movimiento temporal convincente (o incluso edición en general); aunque capaces de generar movimiento humano realista, los Campos de Radiación Neural (NeRF) suelen ser naturalmente resistentes al tipo de edición que sería necesaria para ‘cambiar’ a las personas o la ropa a voluntad; los autoencoders requerirían una capacitación específica de persona/ropa; y los modelos de difusión latente, como las GAN, no tienen mecanismos temporales nativos, para la generación de video.

EVA3D

Sin embargo, los documentos y propuestas siguen. El último es de interés inusual en una línea de investigación de lo contrario no distinguida y exclusivamente orientada a los negocios.

EVA3D, de la Universidad Tecnológica de Nanyang en Singapur, es la primera indicación de un enfoque que ha estado llegando durante mucho tiempo – el uso de múltiples redes de Campos de Radiación Neural, cada una de las cuales se dedica a una parte separada del cuerpo, y que luego se componen en una visualización coherente y ensamblada.

Una joven mujer móvil compuesta por múltiples redes NeRF, para EVA3D. Fuente: https://hongfz16.github.io/projects/EVA3D.html

Una joven mujer móvil compuesta por múltiples redes NeRF, para EVA3D. Fuente: https://hongfz16.github.io/projects/EVA3D.html

Los resultados, en términos de movimiento, son…okay. Aunque las visualizaciones de EVA3D no están fuera del valle inquietante, al menos pueden ver la salida desde donde están parados.

Lo que hace que EVA3D sea destacado es que los investigadores detrás de él, casi únicamente en el sector de la síntesis de imágenes de cuerpo completo, han realizado que una sola red (GAN, NeRF o de otro tipo) no va a ser capaz de manejar la generación editable y flexible de cuerpo completo humano para algunos años – en parte debido al ritmo de la investigación, y en parte debido a limitaciones de hardware y otras limitaciones logísticas.

Por lo tanto, el equipo de Nanyang ha subdividido la tarea en 16 redes y múltiples tecnologías – un enfoque ya adoptado para la representación neural de entornos urbanos en Block-NeRF y CityNeRF, y que parece probable que se convierta en una medida intermedia cada vez más interesante y potencialmente fructífera para lograr deepfakes de cuerpo completo en los próximos cinco años, pendiente de nuevos desarrollos conceptuales o de hardware.

No todos los desafíos presentes en la creación de este tipo de ‘prueba virtual’ son técnicos o logísticos, y el documento describe algunos de los problemas de datos, particularmente en relación con el aprendizaje no supervisado:

‘[Los conjuntos de datos de moda] tienen principalmente poses humanas muy limitadas (la mayoría son poses de pie similares), y ángulos de visión muy desequilibrados (la mayoría son vistas frontales). Esta distribución de datos 2D desequilibrada podría obstaculizar el aprendizaje no supervisado de GANs 3D, lo que lleva a dificultades en la síntesis de vistas/pósiciones nuevas. Por lo tanto, se necesita una estrategia de capacitación adecuada para aliviar el problema.’

El flujo de trabajo de EVA3D segmenta el cuerpo humano en 16 partes distintas, cada una de las cuales se genera a través de su propia red NeRF. Obviamente, esto crea suficientes secciones ‘descongeladas’ para poder galvanizar la figura a través de la captura de movimiento o otros tipos de datos de movimiento. Además de esta ventaja, también permite que el sistema asignar recursos máximos a las partes del cuerpo que ‘venden’ la impresión general.

Por ejemplo, los pies humanos tienen un rango de articulación muy limitado, mientras que la autenticidad de la cara y la cabeza, además de la calidad del movimiento corporal en general, es probable que sea el token de autenticidad para la representación.

Una comparación cualitativa entre EVA3D y métodos anteriores. Los autores afirman resultados SOTA en este respecto.

Una comparación cualitativa entre EVA3D y métodos anteriores. Los autores afirman resultados SOTA en este respecto.

El enfoque difiere radicalmente del proyecto NeRF-céntrico al que está conceptualmente relacionado – 2021’s A-NeRF, de la Universidad de Columbia Británica y Reality Labs Research, que buscaba agregar un esqueleto interno de control a una representación NeRF convencional ‘de una sola pieza’, lo que hace más difícil asignar recursos de procesamiento a diferentes partes del cuerpo según sea necesario.

Movimientos anteriores – A-NeRF equipa una NeRF 'cocida' con el mismo tipo de rigging central articulado y flexible que la industria de los efectos visuales ha estado utilizando durante mucho tiempo para animar personajes CGI. Fuente: https://lemonatsu.github.io/anerf/

Movimientos anteriores – A-NeRF equipa una NeRF ‘cocida’ con el mismo tipo de rigging central articulado y flexible que la industria de los efectos visuales ha estado utilizando durante mucho tiempo para animar personajes CGI. Fuente: https://lemonatsu.github.io/anerf/

En común con la mayoría de los proyectos humanos-céntricos que buscan aprovechar el espacio latente de los enfoques populares, EVA3D utiliza un Modelo Lineal de Persona con Piel (SMPL), un método ‘tradicional’ basado en CGI para agregar instrumentación a la abstracción general de los métodos de síntesis actuales. A principios de este año, otro documento, este de la Universidad de Zhejiang en Hangzhou y la Escuela de Medios Creativos de la Universidad de la Ciudad de Hong Kong, utilizó dichos métodos para realizar reconfiguración corporal neural.

Resultados cualitativos de EVA3D en DeepFashion.

Resultados cualitativos de EVA3D en DeepFashion.

Método

El modelo SMPL utilizado en el proceso se ajusta a la ‘prior’ humana – la persona que, esencialmente, está siendo voluntariamente deepfakeada por EVA3D, y sus pesos de skinning negocian las diferencias entre el espacio canónico (es decir, la ‘en reposo’ o ‘neutral’ pose de un modelo SMPL) y la forma en que la apariencia final se representa.

El flujo de trabajo conceptual para EVA3D. Fuente: https://arxiv.org/pdf/2210.04888.pdf

El flujo de trabajo conceptual para EVA3D. Fuente: https://arxiv.org/pdf/2210.04888.pdf

Como se ve en la ilustración anterior, las cajas delimitadoras de SMPL se utilizan como definiciones de límites para las 16 redes que eventualmente compondrán el cuerpo. El algoritmo de Linear Blend Skinning (LBS) inverso de SMPL se utiliza entonces para transferir rayos visibles muestreados al espacio de pose pasiva (canónico). Luego, las 16 sub-redes se consultan, basadas en estas configuraciones, y finalmente se conforman en una renderización final.

El conjunto completo de NeRF se utiliza entonces para construir un marco de trabajo de GAN de cuerpo humano 3D.

Las renderizaciones del marco de trabajo de GAN de segunda etapa se entrenarán finalmente contra colecciones de imágenes 2D genuinas de humanos/moda.

Las renderizaciones del marco de trabajo de GAN de segunda etapa se entrenarán finalmente contra colecciones de imágenes 2D genuinas de humanos/moda.

Cada sub-red que representa una parte del cuerpo humano se compone de Perceptrones Multicapa (MLP) apilados con SIREN (Redes de Representación Sinusoidal) de activación. Aunque SIREN resuelve muchos problemas en un flujo de trabajo como este, y en proyectos similares, tiende a sobreajustar en lugar de generalizar, y los investigadores sugieren que se podrían utilizar bibliotecas alternativas en el futuro (ver final del artículo).

Datos, Capacitación y Pruebas

EVA3D se enfrenta a problemas de datos inusuales, debido a las limitaciones y el estilo de plantilla de las poses que están disponibles en los conjuntos de datos de moda, que tienden a carecer de vistas alternativas o novedosas, y son, quizás intencionalmente, repetitivas, con el fin de centrar la atención en la ropa en lugar de la persona que la lleva.

Debido a esta distribución de poses desequilibrada, EVA3D utiliza ‘priors’ humanos (ver arriba) basados en la geometría del modelo SMPL, y luego predice un Campo de Distancia Firmado (SDF) de desplazamiento de esta pose, en lugar de una pose de destino directa.

Para los experimentos de apoyo, los investigadores utilizaron cuatro conjuntos de datos: DeepFashion; SHHQ; UBCFashion; y la Base de Datos de Video de Baile AIST (AIST Dance DB).

Los dos últimos contienen poses más variadas que los dos primeros, pero representan a las mismas personas repetidamente, lo que anula esta diversidad de otro modo útil; en resumen, los datos son más que desafiantes, dada la tarea.

Ejemplos de SSHQ. Fuente: https://arxiv.org/pdf/2204.11823.pdf

Ejemplos de SSHQ. Fuente: https://arxiv.org/pdf/2204.11823.pdf

Las líneas base utilizadas fueron ENARF-GAN, el primer proyecto en renderizar visuales NeRF desde conjuntos de datos de imágenes 2D; Stanford y NVIDIA’s EG3D; y StyleSDF, una colaboración entre la Universidad de Washington, Adobe Research y la Universidad de Stanford – todos los métodos requieren bibliotecas de super-resolución para escalar desde la resolución nativa hasta la resolución alta.

Las métricas adoptadas fueron la distancia de Inception de Frechet (controvertida) y la distancia de Inception de Kernel (KID), junto con el porcentaje de puntos de referencia correctos ([email protected]).

En evaluaciones cuantitativas, EVA3D lideró en todas las métricas en cuatro conjuntos de datos:

Resultados cuantitativos.

Resultados cuantitativos.

Los investigadores observan que EVA3D logra la tasa de error más baja para la renderización de geometría, un factor crítico en un proyecto de este tipo. También observan que su sistema puede controlar la pose generada y lograr puntuaciones [email protected] más altas, en contraste con EG3D, el único método competidor que obtuvo una puntuación más alta en una categoría.

EVA3D opera nativamente a la resolución de 512x512px, aunque podría escalarse fácilmente y de manera efectiva a resolución HD mediante la adición de capas de escalado, como lo ha hecho Google recientemente con su oferta de video de texto a 1024 de resolución Imagen Video.

El método no está exento de limitaciones. El documento señala que la activación SIREN puede causar artefactos circulares, que podrían ser remediados en versiones futuras mediante el uso de una representación base alternativa, como EG3D, en combinación con un decodificador 2D. Además, es difícil ajustar SMPL con precisión a las fuentes de datos de moda.

Finalmente, el sistema no puede acomodar fácilmente artículos de ropa más grandes y fluidos, como vestidos grandes; los artículos de ropa de este tipo exhiben el mismo tipo de dinámica de fluidos que hace que la creación de cabello renderizado neural sea un desafío. Presumiblemente, una solución apropiada podría ayudar a abordar ambos problemas.

 

Publicado por primera vez el 12 de octubre de 2022.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.