Inteligencia artificial

Simulando ‘Mejores’ Cuerpos Con IA

Published March 10, 2022

Updated April 5, 2026

Martin Anderson

Nueva investigación de la academia Alibaba DAMO ofrece un flujo de trabajo impulsado por IA para automatizar la remodelación de imágenes de cuerpos, un esfuerzo raro en un sector de visión por computadora actualmente ocupado con manipulaciones basadas en el rostro como deepfakes y edición de rostro basada en GAN.

Inset en ‘result’ columns, los mapas de atención generados que definen las áreas a modificar. Fuente: https://arxiv.org/pdf/2203.04670.pdf

La arquitectura de los investigadores utiliza la estimación de la pose del esqueleto para abordar la mayor complejidad que enfrentan los sistemas de síntesis y edición de imágenes al conceptualizar y parametrizar las imágenes del cuerpo existentes, al menos a un nivel de granularidad que permita una edición significativa y selectiva.

Los mapas de esqueleto estimados ayudan a individuar y centrar la atención en áreas del cuerpo que probablemente sean retocadas, como el área del brazo superior.

El sistema permite en última instancia a un usuario establecer parámetros que pueden cambiar la apariencia del peso, la masa muscular o la distribución del peso en fotos de personas de largo o medio, y puede generar transformaciones arbitrarias en secciones del cuerpo vestidas o sin vestir.

Izquierda, la imagen de entrada; medio, un mapa de calor de las áreas de atención derivadas; derecha, la imagen transformada.

La motivación para el trabajo es el desarrollo de flujos de trabajo automatizados que puedan reemplazar las manipulaciones digitales laboriosas realizadas por fotógrafos y artistas gráficos de producción en varios sectores de los medios, desde la moda hasta la producción de revistas y material publicitario.

En general, los autores reconocen que estas transformaciones se aplican generalmente con técnicas de “warp” en Photoshop y otros editores de mapa de bits tradicionales, y se utilizan casi exclusivamente en imágenes de mujeres. En consecuencia, el conjunto de datos personalizado desarrollado para facilitar el nuevo proceso consiste principalmente en fotografías de sujetos femeninos:

‘Como el retoque del cuerpo es principalmente deseado por las mujeres, la mayoría de nuestra colección son fotos de mujeres, considerando la diversidad de edades, razas (africana: asiática: caucásica = 0,33: 0,35: 0,32), poses y prendas de vestir.’

El artículo se titula Generación de flujo de estructura consciente para remodelación del cuerpo humano, y proviene de cinco autores asociados con la academia global DAMO de Alibaba.

Desarrollo del conjunto de datos

Como suele ser el caso con los sistemas de síntesis y edición de imágenes, la arquitectura del proyecto requirió un conjunto de datos de entrenamiento personalizado. Los autores encargaron a tres fotógrafos que produjeran manipulaciones estándar de Photoshop de imágenes apropiadas del sitio de fotografía de stock Unsplash, lo que resultó en un conjunto de datos – titulado BR-5K* – de 5.000 imágenes de alta calidad a una resolución de 2K.

Los investigadores enfatizan que el objetivo de entrenar en este conjunto de datos no es producir características “idealizadas” y generalizadas relacionadas con un índice de atractivo o apariencia deseable, sino más bien extraer los mapas de características centrales asociados con manipulaciones profesionales de imágenes del cuerpo.

Sin embargo, admiten que las manipulaciones reflejan en última instancia procesos transformadores que trazan una progresión desde “real” hasta una noción preestablecida de “ideal”:

‘Invitamos a tres artistas profesionales a retocar cuerpos usando Photoshop de forma independiente, con el objetivo de lograr figuras esbeltas que cumplan con la estética popular, y seleccionamos la mejor como verdad de referencia.’

Dado que el marco no trata con rostros en absoluto, estos se desenfocaron antes de ser incluidos en el conjunto de datos.

Arquitectura y conceptos básicos

El flujo de trabajo del sistema implica alimentar una imagen de alta resolución, reducirla a una resolución más baja que pueda caber en los recursos de cómputo disponibles, y extraer un mapa de pose de esqueleto estimado (segunda figura desde la izquierda en la imagen a continuación), así como Campos de afinidad de partes (PAF), que fueron innovados en 2016 por el Instituto de Robótica de la Universidad Carnegie Mellon (ver video incrustado directamente a continuación).

Los Campos de afinidad de partes ayudan a definir la orientación de las extremidades y la asociación general con el marco esquelético más amplio, proporcionando al nuevo proyecto con una herramienta adicional de atención / localización.

Del artículo de Campos de afinidad de partes de 2016, los PAF predichos codifican la orientación de las extremidades como parte de un vector 2D que también incluye la posición general de la extremidad. Fuente: https://arxiv.org/pdf/1611.08050.pdf

A pesar de su aparente irrelevancia para la apariencia del peso, los mapas de esqueleto son útiles para dirigir los procesos transformadores finales a partes del cuerpo que deben ser modificadas, como los brazos superiores, la parte trasera y los muslos.

Después de esto, los resultados se alimentan a una Atención propia de afinidad de estructura (SASA) en el cuello de botella central del proceso (ver imagen a continuación).

La SASA regula la coherencia del generador de flujo que alimenta el proceso, los resultados de los cuales se pasan luego al módulo de deformación (segundo desde la derecha en la imagen de arriba), que aplica las transformaciones aprendidas del entrenamiento en las revisiones manuales incluidas en el conjunto de datos.

El módulo de Atención propia de afinidad de estructura (SASA) asigna atención a partes del cuerpo pertinentes, lo que ayuda a evitar transformaciones extrínsecas o irrelevantes.

La imagen de salida se vuelve a muestrear posteriormente a la resolución original de 2K, utilizando procesos no disímiles de la arquitectura de deepfake estándar de 2017, de la que se derivaron paquetes populares como DeepFaceLab; el proceso de muestreo también es común en marcos de edición GAN.

La red de atención para el esquema se modela según Redes de desatención composicional (CODA), una colaboración académica entre EE. UU. / Singapur de 2019 con Amazon AI y Microsoft.

Pruebas

El marco de flujo se probó contra métodos de flujo anteriores FAL y Animación a través de deformación (ATW), así como arquitecturas de traducción de imágenes Pix2PixHD y GFLA, con SSIM, PSNR y LPIPS como métricas de evaluación.

Resultados de las pruebas iniciales (la dirección de la flecha en los encabezados indica si las cifras más bajas o más altas son mejores).

Basado en estas métricas adoptadas, el sistema de los autores supera las arquitecturas anteriores.

Resultados seleccionados. Consulte el PDF original vinculado en este artículo para comparaciones de mayor resolución.

Además de las métricas automatizadas, los investigadores realizaron un estudio de usuario (última columna de la tabla de resultados que se muestra anteriormente), en el que 40 participantes vieron 30 preguntas seleccionadas aleatoriamente de un grupo de 100 preguntas relacionadas con las imágenes producidas a través de los diferentes métodos. El 70% de los encuestados prefirió la nueva técnica como más “visualmente atractiva”.

Desafíos

El nuevo artículo representa una rara incursión en la manipulación del cuerpo basada en IA. El sector de síntesis de imágenes está actualmente mucho más interesado en generar cuerpos editables a través de métodos como Campos de radiación neural (NeRF), o está obsesionado con explorar el espacio latente de GAN y el potencial de autoencoders para la manipulación facial.

La iniciativa de los autores se limita actualmente a producir cambios en el peso percibido, y no han implementado ninguna técnica de inpainting que restaure el fondo que inevitablemente se revela cuando se adelgaza una imagen de alguien.

Sin embargo, proponen que el recorte de retrato y la mezcla de fondo a través de la inferencia textual podrían resolver trivialmente el problema de restaurar las partes del mundo que fueron ocultadas anteriormente en la imagen por “imperfecciones” humanas.

Una solución propuesta para restaurar el fondo que se revela mediante la reducción de grasa de IA.

* Aunque el preprint se refiere a material suplementario que proporciona más detalles sobre el conjunto de datos, así como más ejemplos del proyecto, la ubicación de este material no está disponible en el artículo, y el autor correspondiente no ha respondido aún a nuestra solicitud de acceso.

Publicado por primera vez el 10 de marzo de 2022.

Related Topics:deepfake DeepFakes image synthesis research

Martin Anderson

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.

Unite.AI

Simulando ‘Mejores’ Cuerpos Con IA

Desarrollo del conjunto de datos

Arquitectura y conceptos básicos

Pruebas

Desafíos

You may like