Inteligencia artificial

Remodelación de los tipos de cuerpo humano con IA

Actualizado on 9 de diciembre de 2022

Una nueva colaboración de investigación de China ofrece un método novedoso para remodelar el cuerpo humano en imágenes, mediante el uso de una red codificadora neuronal gemela coordinada, guiada por un modelo paramétrico, que permite al usuario final modular el peso, la altura y la proporción corporal. en una GUI interactiva.

Modulación parametrizada de la forma del cuerpo, con controles deslizantes que modifican las tres funciones disponibles. Fuente: https://arxiv.org/pdf/2203.10496.pdf

El trabajo ofrece varias mejoras sobre un proyecto similar reciente de Alibaba, en el sentido de que puede alterar de manera convincente la altura y la proporción del cuerpo, así como el peso, y tiene una red neuronal dedicada para 'repintar' el fondo (inexistente) que puede revelarse mediante imágenes corporales 'más delgadas'. También mejora de forma notable método paramétrico anterior para la remodelación del cuerpo al eliminar la necesidad de una amplia intervención humana durante la formulación de la transformación.

Bajo el título Remodelador neuronal, la nueva arquitectura ajusta una plantilla humana 3D paramétrica a una imagen de origen y luego usa distorsiones en la plantilla para adaptar la imagen original a los nuevos parámetros.

El sistema es capaz de manejar transformaciones corporales tanto en figuras vestidas como semidesnudas (es decir, ropa de playa).

Las transformaciones de este tipo son actualmente de gran interés para el IA de moda sector de investigación, que ha producido una serie de plataformas de redes neuronales generales y basadas en StyleGAN/CycleGAN para pruebas virtuales que puede adaptar las prendas de vestir disponibles a la forma del cuerpo y el tipo de una imagen enviada por el usuario, o ayudar de otra manera con la conformidad visual.

El se titula Remodelación del cuerpo humano de una sola imagen con redes neuronales profundas, y proviene de investigadores de la Universidad de Zhejiang en Hangzhou y de la Escuela de Medios Creativos de la Universidad de la Ciudad de Hong Kong.

Ajuste SMPL

NeuralReshaper hace uso del modelo lineal de varias personas con piel (SMPL) desarrollado por el Instituto Max Planck para Sistemas Inteligentes y la renombrada casa VFX Industrial Light and Magic en 2015.

Humanos paramétricos SMPL de la colaboración Planck/ILM de 2015. Fuente: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

En la primera etapa del proceso, se genera un modelo SMPL a partir de una imagen fuente a la que se desea realizar las transformaciones corporales. La adaptación del modelo SMPL a la imagen sigue el metodología del método Human Mesh Recovery (HMR) propuesto por universidades de Alemania y EE. UU. en 2018.

Los tres parámetros de deformación (peso, altura, proporción corporal) se calculan en esta etapa, junto con una consideración de los parámetros de la cámara, como la distancia focal. Los puntos clave 2D y la alineación de la silueta generada proporcionan el recinto para la deformación en forma de silueta 2D, una medida de optimización adicional que aumenta la precisión de los límites y permite una pintura de fondo auténtica más adelante en la tubería.

Etapas de ajuste SMPL: izquierda, la imagen de origen; segundo desde la izquierda, el resultado de optimización obtenido del método descrito en la investigación de 2016 dirigida por el Instituto Max Planck para Sistemas Inteligentes; el tercero desde la izquierda, resultado de una inferencia directa del modelo preentrenado para la recuperación integral de la forma y la postura humanas; segundo por la derecha, los resultados obtenidos tras la optimización de los puntos clave 2D; y finalmente, a la derecha, el ajuste completo después de la optimización de la silueta (ver arriba).

Etapas de ajuste SMPL: izquierda, la imagen de origen; en segundo lugar, el resultado de optimización obtenido del método descrito en 2016 la investigación liderado por el Instituto Max Planck de Sistemas Inteligentes; tercero, un resultado de inferencia directa del modelo pre-entrenado para Recuperación de extremo a extremo de la forma y la postura humanas; cuarto, los resultados obtenidos tras la optimización de los puntos clave 2D; y finalmente, quinto, el ajuste completo después de la optimización de la silueta (ver arriba).

Luego, la deformación 3D se proyecta en el espacio de la imagen de la arquitectura para facilitar un denso campo de deformación que definirá la deformación. Este proceso toma alrededor de 30 segundos por imagen.

Arquitectura NeuralReshaper

NeuralReshaper ejecuta dos redes neuronales en tándem: un codificador de primer plano que genera la forma del cuerpo transformado y un codificador de fondo que se enfoca en completar las regiones de fondo 'desocluidas' (en el caso, por ejemplo, de adelgazar un cuerpo - ver imagen abajo).

El marco de estilo U-net integra la salida de las funciones de los dos codificadores antes de pasar el resultado a un codificador unificado que, en última instancia, produce una imagen novedosa a partir de las dos entradas. La arquitectura presenta un mecanismo novedoso guiado por warp para permitir la integración.

Entrenamiento y Experimentos

NeuralReshaper se implementa en PyTorch en una sola GPU NVIDIA 1080ti con 11 GB de VRAM. La red se entrenó durante 100 épocas bajo el optimizador Adam, con el generador ajustado a una pérdida objetivo de 0.0001 y el discriminador a una pérdida objetivo de 0.0004. El entrenamiento se realizó en un tamaño de lote de 8 para un conjunto de datos patentado al aire libre (extraído de COCO, MPII, y LSP), y 2 para formación sobre el modaprofunda conjunto de datos

A la izquierda, las imágenes originales, a la derecha, la salida reproporcionada de NeuralReshaper.

A continuación se muestran algunos ejemplos exclusivamente del conjunto de datos de DeepFashion entrenado para NeuralReshaper, con las imágenes originales siempre a la izquierda.

Los tres atributos controlables están separados y se pueden aplicar por separado.

Las transformaciones en el conjunto de datos exterior derivado son más desafiantes, ya que con frecuencia requieren el relleno de fondos complejos y una delimitación clara y convincente de los tipos de cuerpos transformados:

Necesidad paramétrica

Como se observa en el artículo, las transformaciones de la misma imagen de este tipo representan un problema mal planteado en la síntesis de imágenes. Muchos marcos transformadores de GAN y codificadores pueden hacer uso de imágenes emparejadas (como los diversos proyectos diseñados para efectuar boceto>foto y foto>boceto transformaciones).

Sin embargo, en el caso que nos ocupa, esto requeriría pares de imágenes con las mismas personas en diferentes configuraciones físicas, como las imágenes de 'antes y después' en los anuncios de dietas o cirugía plástica, datos que son difíciles de obtener o generar.

Alternativamente, las redes GAN transformadoras pueden capacitarse en datos mucho más diversos y efectuar transformaciones al buscar el dirección latente entre la fuente (código latente de la imagen original) y la clase deseada (en este caso 'gordo', 'delgado', 'alto', etc.). Sin embargo, este enfoque actualmente es demasiado limitado para los propósitos de una remodelación corporal afinada.

Campos de radiación neuronal (NERF) Los enfoques están mucho más avanzados en la simulación de cuerpo completo que la mayoría de los sistemas basados en GAN, pero siguen siendo específicos de la escena y consumen muchos recursos, con una capacidad actualmente muy limitada para editar tipos de cuerpo de la manera granular que NeuralReshaper y proyectos anteriores están tratando de abordar ( escaso de escalar todo el cuerpo hacia abajo en relación con su entorno).

El espacio latente de la GAN es difícil de gobernar; Los VAE por sí solos aún no abordan las complejidades de la reproducción de cuerpo completo; y la capacidad de NeRF para remodelar cuerpos humanos de manera consistente y realista aún es incipiente. Por lo tanto, la incorporación de metodologías CGI 'tradicionales' como SMPL parece destinada a continuar en el sector de investigación de síntesis de imágenes humanas, como un método para acorralar y consolidar características, clases y códigos latentes cuyos parámetros y explotabilidad aún no se comprenden completamente en estos emergentes. tecnologías

Publicado por primera vez el 31 de marzo de 2022.

Hasta la próxima

Investigadores crean sistema para extraer información de artículos sobre COVID-19

No Te Lo

Diverso equipo de expertos desarrolla sistema de defensa para redes neuronales

Martin anderson

Escritor sobre aprendizaje automático, inteligencia artificial y big data.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai