Inteligência artificial
Fingindo Corpos ‘Melhores’ Com IA

Nova pesquisa da academia Alibaba DAMO oferece um fluxo de trabalho impulsionado por IA para automatizar a redefinição de imagens de corpos – um esforço raro em um setor de visão computacional atualmente ocupado com manipulações baseadas em face como deepfakes e edição de face baseada em GAN edição de face.

Inserção nas colunas ‘resultado’, os mapas de atenção gerados que definem as áreas a serem alteradas. Fonte: https://arxiv.org/pdf/2203.04670.pdf
A arquitetura dos pesquisadores usa estimação de pose de esqueleto para lidar com a maior complexidade que os sistemas de síntese e edição de imagens enfrentam ao conceituar e parametrizar imagens de corpos existentes, pelo menos a um nível de granularidade que permita edição significativa e seletiva.

Mapas de esqueleto estimados ajudam a individuar e focar a atenção em áreas do corpo prováveis de serem retocadas, como a área do braço superior.
O sistema permite, finalmente, que um usuário defina parâmetros que podem alterar a aparência do peso, massa muscular ou distribuição de peso em fotos de pessoas em tamanho completo ou meio, e é capaz de gerar transformações arbitrárias em seções de corpo vestidas ou sem roupas.

À esquerda, a imagem de entrada; ao meio, um mapa de calor das áreas de atenção derivadas; à direita, a imagem transformada.
A motivação para o trabalho é o desenvolvimento de fluxos de trabalho automatizados que possam substituir as manipulações digitais laboriosas realizadas por fotógrafos e artistas gráficos de produção em vários ramos da mídia, desde moda até saída de estilo de revista e material de publicidade.
Em geral, os autores reconhecem que essas transformações são normalmente aplicadas com técnicas de ‘deformação’ no Photoshop e outros editores de bitmap tradicionais, e são quase exclusivamente usadas em imagens de mulheres. Consequentemente, o conjunto de dados personalizado desenvolvido para facilitar o novo processo consiste principalmente em fotos de sujeitos femininos:
‘Como a retocagem de corpo é principalmente desejada por mulheres, a maioria de nossa coleção são fotos de mulheres, considerando a diversidade de idades, raças (Africana: Asiática: Caucasiana = 0,33: 0,35: 0,32), poses e roupas.’
O artigo é intitulado Structure-Aware Flow Generation for Human Body Reshaping, e vem de cinco autores associados à academia global DAMO da Alibaba.
Desenvolvimento do Conjunto de Dados
Como é normalmente o caso com sistemas de síntese e edição de imagens, a arquitetura do projeto exigiu um conjunto de dados personalizado de treinamento. Os autores encomendaram a três fotógrafos a produção de manipulações padrão do Photoshop de imagens apropriadas do site de fotografia de estoque Unsplash, resultando em um conjunto de dados – intitulado BR-5K* – de 5.000 imagens de alta qualidade em resolução 2K.
Os pesquisadores enfatizam que o objetivo do treinamento nesse conjunto de dados não é produzir recursos ‘idealizados’ e generalizados relacionados a um índice de atratividade ou aparência desejável, mas sim extrair os mapeamentos de recursos centrais associados a manipulações profissionais de imagens de corpos.
No entanto, eles admitem que as manipulações refletem, em última análise, processos transformacionais que mapeiam uma progressão de ‘real’ para uma noção pré-definida de ‘ideal’:
‘Convidamos três artistas profissionais a retocar corpos usando o Photoshop de forma independente, com o objetivo de alcançar figuras esguias que atendam à estética popular, e selecionamos a melhor como referência.’
Como o framework não lida com faces, elas foram desfocadas antes de serem incluídas no conjunto de dados.
Arquitetura e Conceitos Centrais
O fluxo de trabalho do sistema envolve alimentar uma imagem de alta resolução, reduzir a resolução para uma que possa caber nos recursos computacionais disponíveis, e extrair um mapa de pose de esqueleto estimado (segunda figura da esquerda na imagem abaixo), bem como Campos de Afinidade de Partes (PAFs), que foram inovados em 2016 pelo The Robotics Institute da Carnegie Mellon University (veja o vídeo incorporado diretamente abaixo).
Os Campos de Afinidade de Partes ajudam a definir a orientação dos membros e a associação geral com a estrutura esquelética mais ampla, fornecendo ao novo projeto uma ferramenta adicional de atenção/localização.

Do artigo de 2016 sobre Campos de Afinidade de Partes, os PAFs preditos codificam a orientação do membro como parte de um vetor 2D que também inclui a posição geral do membro. Fonte: https://arxiv.org/pdf/1611.08050.pdf
Apesar de sua aparente irrelevância para a aparência do peso, os mapas de esqueleto são úteis para direcionar os processos transformacionais finais para partes do corpo a serem alteradas, como braços superiores, costas e coxas.
Depois disso, os resultados são alimentados a um Módulo de Autoatenção de Afinidade de Estrutura (SASA) no gargalo central do processo (veja a imagem abaixo).

O SASA regula a consistência do gerador de fluxo que alimenta o processo, e os resultados são então passados para o módulo de deformação (segundo da direita na imagem acima), que aplica as transformações aprendidas com o treinamento nas revisões manuais incluídas no conjunto de dados.

O Módulo de Autoatenção de Afinidade de Estrutura (SASA) aloca atenção a partes do corpo pertinentes, ajudando a evitar transformações extrínsecas ou irrelevantes.
A imagem de saída é subsequentemente aumentada de volta para a resolução original de 2K, usando processos não muito diferentes da arquitetura de deepfake padrão de 2017, da qual pacotes populares como DeepFaceLab foram derivados; o processo de aumento de escala também é comum em frameworks de edição de GAN.
A rede de atenção para o esquema é modelada após Redes de Desatenção Composicionais (CODA), uma colaboração acadêmica EUA/Singapura de 2019 com Amazon AI e Microsoft.
Testes
O framework baseado em fluxo foi testado contra métodos baseados em fluxo anteriores FAL e Animação Através de Deformação (ATW), bem como arquiteturas de tradução de imagem Pix2PixHD e GFLA, com SSIM, PSNR e LPIPS como métricas de avaliação.

Resultados de testes iniciais (a direção da seta nos cabeçalhos indica se os números mais baixos ou mais altos são os melhores).
Com base nessas métricas adotadas, o sistema dos autores supera as arquiteturas anteriores.

Resultados selecionados. Por favor, consulte o PDF original vinculado a este artigo para comparações de alta resolução.
Além das métricas automatizadas, os pesquisadores realizaram um estudo de usuário (última coluna da tabela de resultados mostrada anteriormente), no qual 40 participantes foram mostrados 30 perguntas selecionadas aleatoriamente de um pool de 100 perguntas relacionadas às imagens produzidas por meio dos vários métodos. 70% dos respondentes preferiram a nova técnica como mais ‘visualmente atraente’.
Desafios
O novo artigo representa uma rara incursão na manipulação de corpo baseada em IA. O setor de síntese de imagem está atualmente muito mais interessado em gerar corpos editáveis por meio de métodos como Campos de Radiação Neural (NeRF), ou está fixado em explorar o espaço latente de GANs e o potencial de autoencoders para manipulação facial.
A iniciativa dos autores é atualmente limitada a produzir alterações na percepção do peso, e eles não implementaram nenhuma técnica de inpainting que restauraria o fundo que é inevitavelmente revelado quando você ’emagrece’ uma foto de alguém.
No entanto, eles propõem que a matting de retrato e a mesclagem de fundo por meio de inferência textual poderiam trivialmente resolver o problema de restaurar as partes do mundo que foram anteriormente ocultadas na imagem por ‘imperfeições’ humanas.

Uma solução proposta para restaurar o fundo revelado pela redução de peso impulsionada por IA.
* Embora o pré-impresso faça referência a material suplementar que fornece mais detalhes sobre o conjunto de dados, bem como exemplos adicionais do projeto, a localização desse material não está disponível no artigo, e o autor correspondente ainda não respondeu ao nosso pedido de acesso.
Publicado pela primeira vez em 10 de março de 2022.










