Inteligencia artificial

Fingiendo cuerpos 'mejores' con IA

Actualizado on 9 de diciembre de 2022

Una nueva investigación de la academia Alibaba DAMO ofrece un flujo de trabajo impulsado por IA para automatizar la remodelación de imágenes de cuerpos, un esfuerzo poco común en un sector de la visión por computadora actualmente ocupado con manipulaciones basadas en la cara como deepfakes y basados en GAN edición facial.

Insertados en las columnas de 'resultado', los mapas de atención generados que definen las áreas a modificar. Fuente: https://arxiv.org/pdf/2203.04670.pdf

La arquitectura de los investigadores utiliza la estimación de la postura del esqueleto para abordar la mayor complejidad que enfrentan los sistemas de síntesis y edición de imágenes al conceptualizar y parametrizar las imágenes corporales existentes, al menos hasta un nivel de granularidad que realmente permite una edición significativa y selectiva.

Los mapas de esqueleto estimados ayudan a individualizar y centrar la atención en las áreas del cuerpo que probablemente se retocarán, como el área de la parte superior del brazo.

En última instancia, el sistema permite al usuario establecer parámetros que pueden cambiar la apariencia del peso, la masa muscular o la distribución del peso en fotografías de personas de cuerpo entero o de cuerpo medio, y puede generar transformaciones arbitrarias en secciones del cuerpo con o sin ropa.

Izquierda, la imagen de entrada; medio, un mapa de calor de las áreas de atención derivadas; a la derecha, la imagen transformada.

La motivación para el trabajo es el desarrollo de flujos de trabajo automatizados que podrían reemplazar las arduas manipulaciones digitales realizadas por fotógrafos y artistas gráficos de producción en varias ramas de los medios, desde la moda hasta la producción estilo revista y material de publicidad.

En general, reconocen los autores, estas transformaciones se suelen aplicar con técnicas de 'warp' en Photoshop y otros editores de mapas de bits tradicionales, y se utilizan casi exclusivamente en imágenes de mujeres. En consecuencia, el conjunto de datos personalizado desarrollado para facilitar el nuevo proceso consiste principalmente en imágenes de sujetos femeninos:

"Como el retoque corporal es deseado principalmente por mujeres, la mayoría de nuestra colección son fotos de mujeres, considerando la diversidad de edades, razas (africana: asiática: caucásica = 0.33: 0.35: 0.32), poses y prendas".

The se titula Generación de flujo consciente de la estructura para la remodelación del cuerpo humano, y proviene de cinco autores asociados con la academia global DAMO de Alibaba.

Desarrollo de conjuntos de datos

Como suele ser el caso con los sistemas de síntesis y edición de imágenes, la arquitectura del proyecto requería un conjunto de datos de entrenamiento personalizado. Los autores encargaron a tres fotógrafos que produjeran manipulaciones estándar de Photoshop de imágenes apropiadas del sitio de fotografía de stock Unsplash, lo que resultó en un conjunto de datos titulado BR-5K* – de 5,000 imágenes de alta calidad a resolución 2K.

Los investigadores enfatizan que el objetivo del entrenamiento en este conjunto de datos no es producir características 'idealizadas' y generalizadas relacionadas con un índice de atractivo o apariencia deseable, sino extraer los mapeos de características centrales asociados con manipulaciones profesionales de imágenes corporales.

Sin embargo, admiten que las manipulaciones reflejan en última instancia procesos transformadores que trazan una progresión de 'real' a una noción preestablecida de 'ideal':

'Invitamos a tres artistas profesionales a retocar cuerpos usando Photoshop de forma independiente, con el objetivo de lograr figuras esbeltas que cumplan con la estética popular, y seleccionar la mejor como verdad de campo.'

Dado que el marco no se ocupa de las caras en absoluto, estas se borraron antes de incluirlas en el conjunto de datos.

Arquitectura y conceptos básicos

El flujo de trabajo del sistema implica alimentar un retrato de alta resolución, reducir la resolución a una resolución más baja que pueda caber en los recursos informáticos disponibles y extraer una pose de mapa de esqueleto estimada (segunda figura de la izquierda en la imagen a continuación), así como campos de afinidad de piezas (PAF), que fueron innovado en 2016 por el Instituto de Robótica de la Universidad Carnegie Mellon (vea el video incrustado directamente debajo).

Estimación de poses humanas en 2D para varias personas en tiempo real utilizando campos de afinidad de piezas, CVPR 2017 Oral

Realtime Multi-Person 2D Human Pose Estimation using Part Affinity Fields, CVPR 2017 Oral

Watch this video on YouTube

Los campos de afinidad de piezas ayudan a definir la orientación de las extremidades y la asociación general con el marco esquelético más amplio, proporcionando al nuevo proyecto una herramienta adicional de atención/localización.

Del documento Part Affinity Fields de 2016, los PAF predichos codifican la orientación de la extremidad como parte de un vector 2D que también incluye la posición general de la extremidad. Fuente: https://arxiv.org/pdf/1611.08050.pdf

A pesar de su aparente irrelevancia para la apariencia del peso, los mapas de esqueletos son útiles para dirigir los procesos de transformación finales a las partes del cuerpo a modificar, como la parte superior de los brazos, la parte trasera y los muslos.

Después de esto, los resultados se envían a una autoatención de afinidad de estructura (SASA) en el cuello de botella central del proceso (ver imagen a continuación).

El SASA regula la consistencia del generador de flujo que alimenta el proceso, cuyos resultados luego se pasan al módulo de deformación (segundo desde la derecha en la imagen de arriba), que aplica las transformaciones aprendidas de la capacitación en las revisiones manuales incluidas en el conjunto de datos. .

El módulo de autoatención de afinidad estructural (SASA) asigna atención a las partes pertinentes del cuerpo, lo que ayuda a evitar transformaciones extrañas o irrelevantes.

Posteriormente, la imagen de salida se vuelve a muestrear a la resolución original de 2K, utilizando procesos no muy diferentes a la arquitectura deepfake estándar de estilo 2017 de la que se han derivado desde entonces paquetes populares como DeepFaceLab; el proceso de muestreo ascendente también es común en los marcos de edición de GAN.

La red de atención para el esquema se modela a partir de Redes de desatención compositivas (CODA), una colaboración académica de EE. UU./Singapur de 2019 con Amazon AI y Microsoft.

Examenes

El marco basado en el flujo se probó con métodos anteriores basados en el flujo FAL y Animación mediante deformación (ATW), así como arquitecturas de traducción de imágenes Pix2Pix HD y GFLA, con las SSIM, PSNR y LPIPS como métricas de evaluación.

Resultados de las pruebas iniciales (la dirección de la flecha en los encabezados indica si las cifras más bajas o más altas son las mejores).

Según estas métricas adoptadas, el sistema de los autores supera a las arquitecturas anteriores.

resultados seleccionados. Consulte el PDF original vinculado en este artículo para obtener comparaciones de mayor resolución.

Además de las métricas automatizadas, los investigadores realizaron un estudio de usuarios (columna final de la tabla de resultados que se muestra anteriormente), en el que a 40 participantes se les mostraron 30 preguntas seleccionadas al azar de un grupo de 100 preguntas relacionadas con las imágenes producidas a través de los diversos métodos. El 70% de los encuestados se mostró a favor de la nueva técnica como más 'visualmente atractiva'.

Desafios

El nuevo documento representa una rara excursión a la manipulación corporal basada en IA. El sector de la síntesis de imágenes actualmente está mucho más interesado en generar cuerpos editables a través de métodos como Neural Radiance Fields (NeRF), o está obsesionado con explorar el espacio latente de las GAN y el potencial de los codificadores automáticos para la manipulación facial.

La iniciativa de los autores actualmente se limita a producir cambios en el peso percibido, y no han implementado ningún tipo de técnica de repintado que restablezca el fondo que inevitablemente se revela cuando adelgazas una imagen de alguien.

Sin embargo, proponen que el matizado de retratos y la combinación de fondos a través de la inferencia de texturas podrían resolver trivialmente el problema de restaurar las partes del mundo que antes estaban ocultas en la imagen por la 'imperfección' humana.

Una solución propuesta para restaurar el fondo que se revela mediante la reducción de grasa impulsada por IA.

* Aunque la preimpresión hace referencia a material complementario que proporciona más detalles sobre el conjunto de datos, así como otros ejemplos del proyecto, la ubicación de este material no está disponible en el documento y el autor correspondiente aún no ha respondido a nuestra solicitud de acceso. .

Publicado por primera vez el 10 de marzo de 2022.

Temas relacionados:deepfake DeepFakes síntesis de imagen la investigación

Hasta la próxima

Generación e identificación de propaganda con aprendizaje automático

No Te Lo

La investigación sugiere una relación entre los chips de computadora y la síntesis de genes

Martin anderson

Escritor sobre aprendizaje automático, inteligencia artificial y big data.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai

Unir.AI

Fingiendo cuerpos 'mejores' con IA

Inteligencia artificial