Inteligência artificial
Fingindo corpos 'melhores' com IA

Uma nova pesquisa da academia Alibaba DAMO oferece um fluxo de trabalho orientado por IA para automatizar a remodelagem de imagens de corpos – um esforço raro em um setor de visão computacional atualmente ocupado com manipulações baseadas em rosto como deepfakes e baseados em GAN edição de rosto.

Insira nas colunas 'resultado' os mapas de atenção gerados que definem as áreas a serem alteradas. Fonte: https://arxiv.org/pdf/2203.04670.pdf
A arquitetura dos pesquisadores usa estimativa de pose de esqueleto para lidar com a maior complexidade que os sistemas de síntese e edição de imagens enfrentam na conceituação e parametrização de imagens corporais existentes, pelo menos a um nível de granularidade que realmente permite uma edição significativa e seletiva.

Os mapas de esqueleto estimados ajudam a individualizar e focar a atenção em áreas do corpo que provavelmente serão retocadas, como a área do braço.
Em última análise, o sistema permite que o usuário defina parâmetros que podem alterar a aparência do peso, massa muscular ou distribuição de peso em fotos inteiras ou médias de pessoas e é capaz de gerar transformações arbitrárias em seções corporais vestidas ou não.

À esquerda, a imagem de entrada; no meio, um mapa de calor das áreas de atenção derivadas; à direita, a imagem transformada.
A motivação do trabalho é o desenvolvimento de fluxos de trabalho automatizados que possam substituir as árduas manipulações digitais empreendidas por fotógrafos e artistas gráficos de produção em vários ramos da mídia, da moda à produção de estilo de revista e material publicitário.
Em geral, os autores reconhecem que essas transformações costumam ser aplicadas com técnicas de "deformação" no Photoshop e em outros editores de bitmap tradicionais, e são usadas quase exclusivamente em imagens de mulheres. Consequentemente, o conjunto de dados personalizado desenvolvido para facilitar o novo processo consiste principalmente em fotos de mulheres:
'Como o retoque corporal é desejado principalmente por mulheres, a maioria da nossa coleção é composta por fotos femininas, considerando a diversidade de idades, raças (africano:asiático:caucasiano = 0.33:0.35:0.32), poses e vestimentas.'
O papel é intitulado Geração de fluxo com reconhecimento de estrutura para remodelação do corpo humano, e vem de cinco autores associados à academia global DAMO do Alibaba.
Desenvolvimento de conjunto de dados
Como geralmente acontece com os sistemas de síntese e edição de imagens, a arquitetura do projeto exigia um conjunto de dados de treinamento personalizado. Os autores contrataram três fotógrafos para produzir manipulações padrão do Photoshop de imagens apropriadas do site de fotografia Unsplash, resultando em um conjunto de dados – intitulado BR-5K* – de 5,000 imagens de alta qualidade em resolução 2K.
Os pesquisadores enfatizam que o objetivo do treinamento neste conjunto de dados não é produzir características "idealizadas" e generalizadas relacionadas a um índice de atratividade ou aparência desejável, mas sim extrair os mapeamentos de características centrais associados a manipulações profissionais de imagens corporais.
No entanto, eles admitem que as manipulações refletem, em última análise, processos transformadores que mapeiam uma progressão do "real" para uma noção predefinida de "ideal":
'Convidamos três artistas profissionais para retocar corpos usando o Photoshop de forma independente, com o objetivo de obter figuras esbeltas que atendam à estética popular, e selecionar a melhor delas como referência.'
Como a estrutura não lida com rostos, eles foram borrados antes de serem incluídos no conjunto de dados.
Arquitetura e Conceitos Fundamentais
O fluxo de trabalho do sistema envolve a alimentação de um retrato de alta resolução, a redução da resolução para uma resolução mais baixa que possa caber nos recursos de computação disponíveis e a extração de uma pose estimada do mapa de esqueleto (segunda figura da esquerda na imagem abaixo), bem como campos de afinidade de peças (PAFs), que foram inovou em 2016 pelo The Robotics Institute da Carnegie Mellon University (veja o vídeo incorporado logo abaixo).
Os Campos de afinidade de peças ajudam a definir a orientação dos membros e a associação geral com a estrutura esquelética mais ampla, fornecendo ao novo projeto uma ferramenta adicional de atenção/localização.

Do artigo Part Affinity Fields de 2016, os PAFs previstos codificam a orientação do membro como parte de um vetor 2D que também inclui a posição geral do membro. Fonte: https://arxiv.org/pdf/1611.08050.pdf
Apesar de sua aparente irrelevância para a aparência de peso, os mapas do esqueleto são úteis para direcionar os processos transformativos finais para as partes do corpo a serem corrigidas, como a parte superior dos braços, as costas e as coxas.
Depois disso, os resultados são alimentados a uma Estrutura de Afinidade de Autoatendimento (SASA) no gargalo central do processo (veja a imagem abaixo).

O SASA regula a consistência do gerador de fluxo que alimenta o processo, cujos resultados são passados para o módulo warping (segundo da direita na imagem acima), que aplica as transformações aprendidas no treinamento das revisões manuais incluídas no conjunto de dados .

O módulo Structure Affinity Self-Attention (SASA) aloca atenção para partes pertinentes do corpo, ajudando a evitar transformações estranhas ou irrelevantes.
A imagem de saída é posteriormente ampliada de volta para a resolução original de 2K, usando processos não muito diferentes da arquitetura deepfake padrão de estilo 2017, da qual pacotes populares como o DeepFaceLab foram derivados; o processo de upsampling também é comum em estruturas de edição GAN.
A rede de atenção para o esquema é modelada após Redes de desatenção composicionais (CODA), uma colaboração acadêmica dos EUA/Cingapura em 2019 com a Amazon AI e a Microsoft.
Testes
A estrutura baseada em fluxo foi testada contra métodos anteriores baseados em fluxo FAL e animando através de Warping (ATW), bem como arquiteturas de tradução de imagens Pix2Pix HD e GFLA, com SSIM, PSNR e LPIPS como métricas de avaliação.

Resultados dos testes iniciais (a direção da seta nos cabeçalhos indica se os valores mais baixos ou mais altos são os melhores).
Com base nessas métricas adotadas, o sistema dos autores supera as arquiteturas anteriores.

Resultados selecionados. Consulte o PDF original vinculado neste artigo para comparações de resolução mais alta.
Além das métricas automatizadas, os pesquisadores conduziram um estudo com usuários (coluna final da tabela de resultados mostrada anteriormente), no qual 40 participantes responderam a 30 perguntas selecionadas aleatoriamente de um conjunto de 100 perguntas relacionadas às imagens produzidas por meio dos vários métodos. 70% dos entrevistados preferiram a nova técnica por considerá-la mais "visualmente atraente".
Desafios
O novo artigo representa uma rara excursão à manipulação corporal baseada em IA. Atualmente, o setor de síntese de imagens está muito mais interessado em gerar corpos editáveis por meio de métodos como Neural Radiance Fields (NeRF), ou então está fixado em explorar o espaço latente de GANs e o potencial de autoencoders para manipulação facial.
A iniciativa dos autores atualmente se limita a produzir mudanças no peso percebido, e eles não implementaram nenhum tipo de técnica de pintura que restauraria o fundo que é inevitavelmente revelado quando você emagrece uma foto de alguém.
No entanto, eles propõem que a sobreposição de retratos e a mistura de fundos por meio de inferência textural poderiam resolver trivialmente o problema de restaurar as partes do mundo que antes estavam ocultas na imagem pela "imperfeição" humana.

Uma solução proposta para restaurar o fundo revelado pela redução de gordura orientada por IA.
* Embora a pré-impressão se refira a material suplementar que fornece mais detalhes sobre o conjunto de dados, bem como outros exemplos do projeto, a localização desse material não está disponível no artigo e o autor correspondente ainda não respondeu ao nosso pedido de acesso .
Publicado pela primeira vez em 10 de março de 2022.










