Inteligencia Artificial
Remodelación de los tipos de cuerpo humano con IA

Una nueva colaboración de investigación de China ofrece un método novedoso para remodelar el cuerpo humano en imágenes, mediante el uso de una red codificadora neuronal gemela coordinada, guiada por un modelo paramétrico, que permite al usuario final modular el peso, la altura y la proporción corporal. en una GUI interactiva.

Modulación parametrizada de la forma del cuerpo, con controles deslizantes que modifican las tres funciones disponibles. Fuente: https://arxiv.org/pdf/2203.10496.pdf
El trabajo ofrece varias mejoras sobre un proyecto similar reciente De Alibaba, ya que puede modificar convincentemente la altura, la proporción corporal y el peso, y cuenta con una red neuronal dedicada a "repintar" el fondo (inexistente) que pueden revelar las imágenes de cuerpos "más delgados". También mejora notablemente... método paramétrico anterior para la remodelación del cuerpo al eliminar la necesidad de una amplia intervención humana durante la formulación de la transformación.
Bajo el tÃtulo Remodelador neuronal, la nueva arquitectura ajusta una plantilla humana 3D paramétrica a una imagen de origen y luego usa distorsiones en la plantilla para adaptar la imagen original a los nuevos parámetros.
El sistema es capaz de manejar transformaciones corporales tanto en figuras vestidas como semidesnudas (es decir, ropa de playa).
Las transformaciones de este tipo son actualmente de gran interés para el IA de moda sector de investigación, que ha producido una serie de plataformas de redes neuronales generales y basadas en StyleGAN/CycleGAN para pruebas virtuales que puede adaptar las prendas de vestir disponibles a la forma del cuerpo y el tipo de una imagen enviada por el usuario, o ayudar de otra manera con la conformidad visual.
El se titula Remodelación del cuerpo humano de una sola imagen con redes neuronales profundas, y proviene de investigadores de la Universidad de Zhejiang en Hangzhou y de la Escuela de Medios Creativos de la Universidad de la Ciudad de Hong Kong.
Ajuste SMPL
NeuralReshaper hace uso del modelo lineal de varias personas con piel (SMPL) desarrollado por el Instituto Max Planck para Sistemas Inteligentes y la renombrada casa VFX Industrial Light and Magic en 2015.

Humanos paramétricos SMPL de la colaboración Planck/ILM de 2015. Fuente: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf
En la primera etapa del proceso, se genera un modelo SMPL a partir de una imagen fuente a la que se desea realizar las transformaciones corporales. La adaptación del modelo SMPL a la imagen sigue el metodologÃa del método Human Mesh Recovery (HMR) propuesto por universidades de Alemania y EE. UU. en 2018.
Los tres parámetros de deformación (peso, altura, proporción corporal) se calculan en esta etapa, junto con una consideración de los parámetros de la cámara, como la distancia focal. Los puntos clave 2D y la alineación de la silueta generada proporcionan el recinto para la deformación en forma de silueta 2D, una medida de optimización adicional que aumenta la precisión de los lÃmites y permite una pintura de fondo auténtica más adelante en la tuberÃa.

Etapas de ajuste SMPL: izquierda, la imagen de origen; en segundo lugar, el resultado de optimización obtenido del método descrito en 2016 Segun una investigacion liderado por el Instituto Max Planck de Sistemas Inteligentes; tercero, un resultado de inferencia directa del modelo pre-entrenado para Recuperación de extremo a extremo de la forma y la postura humanas; cuarto, los resultados obtenidos tras la optimización de los puntos clave 2D; y finalmente, quinto, el ajuste completo después de la optimización de la silueta (ver arriba).
La deformación 3D se proyecta en el espacio de imagen de la arquitectura para generar un campo de deformación denso que definirá la deformación. Este proceso tarda unos 30 segundos por imagen.
Arquitectura NeuralReshaper
NeuralReshaper ejecuta dos redes neuronales en conjunto: un codificador de primer plano que genera la forma del cuerpo transformada y un codificador de fondo que se enfoca en rellenar las regiones de fondo "descentradas" (en el caso, por ejemplo, de adelgazar un cuerpo; consulte la imagen a continuación).
El marco de trabajo estilo U-net integra la salida de las caracterÃsticas de ambos codificadores antes de pasar el resultado a un codificador unificado que, en última instancia, genera una imagen novedosa a partir de las dos entradas. La arquitectura incorpora un novedoso mecanismo guiado por warp que facilita la integración.
Entrenamiento y Experimentos
NeuralReshaper se implementa en PyTorch en una sola GPU NVIDIA 1080ti con 11 GB de VRAM. La red se entrenó durante 100 épocas bajo el optimizador Adam, con el generador ajustado a una pérdida objetivo de 0.0001 y el discriminador a una pérdida objetivo de 0.0004. El entrenamiento se realizó en un tamaño de lote de 8 para un conjunto de datos patentado al aire libre (extraÃdo de COCO, MPII, y LSP), y 2 para formación sobre el modaprofunda conjunto de datos

A la izquierda, las imágenes originales, a la derecha, la salida reproporcionada de NeuralReshaper.
A continuación se muestran algunos ejemplos exclusivamente del conjunto de datos de DeepFashion entrenado para NeuralReshaper, con las imágenes originales siempre a la izquierda.
Los tres atributos controlables están separados y se pueden aplicar por separado.
Las transformaciones en el conjunto de datos exterior derivado son más desafiantes, ya que con frecuencia requieren el relleno de fondos complejos y una delimitación clara y convincente de los tipos de cuerpos transformados:
Necesidad paramétrica
Como se observa en el artÃculo, las transformaciones de la misma imagen de este tipo representan un problema mal planteado en la sÃntesis de imágenes. Muchos marcos transformadores de GAN y codificadores pueden hacer uso de imágenes emparejadas (como los diversos proyectos diseñados para efectuar boceto>foto foto>boceto transformaciones).
Sin embargo, en el caso que nos ocupa, esto requerirÃa pares de imágenes que presenten a las mismas personas en diferentes configuraciones fÃsicas, como las imágenes de "antes y después" en anuncios de dietas o cirugÃa plástica, datos que son difÃciles de obtener o generar.
Alternativamente, las redes GAN transformadoras pueden capacitarse en datos mucho más diversos y efectuar transformaciones al buscar el dirección latente Entre la fuente (código latente de la imagen original) y la clase deseada (en este caso, "gordo", "delgado", "alto", etc.). Sin embargo, este enfoque es actualmente demasiado limitado para la remodelación corporal precisa.
Campos de radiación neuronal (NERF) Los enfoques están mucho más avanzados en la simulación de cuerpo completo que la mayorÃa de los sistemas basados ​​en GAN, pero siguen siendo especÃficos de la escena y consumen muchos recursos, con una capacidad actualmente muy limitada para editar tipos de cuerpo de la manera granular que NeuralReshaper y proyectos anteriores están tratando de abordar ( escaso de escalar todo el cuerpo hacia abajo en relación con su entorno).
El espacio latente de las GAN es difÃcil de gestionar; las VAE por sà solas aún no abordan las complejidades de la reproducción corporal completa; y la capacidad de NeRF para remodelar cuerpos humanos de forma consistente y realista es aún incipiente. Por lo tanto, la incorporación de metodologÃas CGI tradicionales, como SMPL, parece destinada a continuar en el sector de la investigación de sÃntesis de imágenes humanas, como método para recopilar y consolidar caracterÃsticas, clases y códigos latentes cuyos parámetros y explotabilidad aún no se comprenden por completo en estas tecnologÃas emergentes.
Publicado por primera vez el 31 de marzo de 2022.