Inteligência artificial
Redefinindo Tipos de Corpo Humano com IA

Uma nova colaboração de pesquisa da China oferece um método novo de redefinir o corpo humano em imagens, por meio do uso de uma rede neural codificadora gêmea coordenada, guiada por um modelo paramétrico, que permite que um usuário final modifique o peso, altura e proporção do corpo em uma interface gráfica interativa.

Modulação parametrizada da forma do corpo, com controles deslizantes alterando os três recursos disponíveis. Fonte: https://arxiv.org/pdf/2203.10496.pdf
O trabalho oferece várias melhorias em relação a um projeto semelhante recente da Alibaba, pois pode alterar convincentemente a altura e a proporção do corpo, além do peso, e tem uma rede neural dedicada para “pintar” o plano de fundo (não existente) que pode ser revelado por imagens de corpos “mais magros”. Ele também melhora um método paramétrico anterior notável para redefinir o corpo, removendo a necessidade de intervenção humana extensiva durante a formulação da transformação.
Intitulado NeuralReshaper, a nova arquitetura ajusta um modelo paramétrico 3D de corpo humano a uma imagem de origem e, em seguida, usa distorções no modelo para adaptar a imagem original aos novos parâmetros.
O sistema é capaz de lidar com transformações de corpo em figuras vestidas e semivestidas (ou seja, de praia).
Transformações desse tipo estão atualmente de grande interesse para o setor de pesquisa de fashion AI, que produziu uma série de plataformas de rede neural baseadas em StyleGAN/CycleGAN e geral para experimentos virtuais que podem adaptar itens de vestuário disponíveis ao tipo e forma do corpo de uma imagem submetida pelo usuário, ou ajudar com a conformidade visual.
O artigo é intitulado Redimensionamento de Corpo Humano em Imagem Única com Redes Neurais Profundas e vem de pesquisadores da Universidade de Zhejiang em Hangzhou e da Escola de Mídia Criativa da City University de Hong Kong.
Ajuste SMPL
NeuralReshaper utiliza o Modelo Linear de Pessoas com Pele (SMPL) desenvolvido pelo Instituto Max Planck para Sistemas Inteligentes e a renomada empresa de efeitos visuais Industrial Light and Magic em 2015.

Humanos paramétricos SMPL da colaboração Planck/ILM de 2015. Fonte: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf
Na primeira etapa do processo, um modelo SMPL é gerado a partir de uma imagem de origem para a qual as transformações de corpo são desejadas. A adaptação do modelo SMPL à imagem segue a metodologia do método de Recuperação de Malha Humana (HMR) proposto por universidades da Alemanha e dos EUA em 2018.
Os três parâmetros para deformação (peso, altura, proporção do corpo) são calculados nesta etapa, juntamente com uma consideração dos parâmetros da câmera, como a distância focal. Pontos de referência 2D e alinhamento de silhueta gerada fornecem o fechamento para a deformação na forma de uma silhueta 2D, uma medida de otimização adicional que aumenta a precisão da fronteira e permite a pintura de fundo autêntica posteriormente no pipeline.

Etapa de ajuste SMPL: à esquerda, a imagem de origem; segunda, o resultado de otimização obtido do método delineado na pesquisa liderada pelo Instituto Max Planck para Sistemas Inteligentes; terceira, um resultado de inferência direta do modelo pré-treinado para Recuperação de Forma e Pose Humana; quarta, os resultados obtidos após otimização dos pontos de referência 2D; e finalmente, quinta, o ajuste concluído após otimização da silhueta (ver acima).
A deformação 3D é então projetada no espaço de imagem da arquitetura para facilitar um campo de deformação denso que definirá a deformação. Esse processo leva cerca de 30 segundos por imagem.
Arquitetura NeuralReshaper
NeuralReshaper executa duas redes neurais em tandem: um codificador de primeiro plano que gera a forma do corpo transformada e um codificador de segundo plano que se concentra em preencher regiões de fundo “desocultadas” (no caso, por exemplo, de emagrecer um corpo – veja imagem abaixo).
A estrutura no estilo U-net integra a saída das características dos dois codificadores antes de passar o resultado para um codificador unificado que, por fim, produz uma imagem nova a partir das duas entradas. A arquitetura apresenta um mecanismo de orientação de deformação inovador para permitir a integração.
Treinamento e Experimentos
NeuralReshaper é implementado em PyTorch em uma GPU NVIDIA 1080ti única com 11gb de VRAM. A rede foi treinada por 100 épocas sob o otimizador Adam, com o gerador definido para uma perda alvo de 0,0001 e o discriminador para uma perda alvo de 0,0004. O treinamento ocorreu em um tamanho de lote de 8 para um conjunto de dados de outdoor proprietário (derivado de COCO, MPII e LSP), e 2 para treinamento no conjunto de dados DeepFashion.
Abaixo estão alguns exemplos exclusivamente do conjunto de dados DeepFashion, como treinado para NeuralReshaper, com as imagens originais sempre à esquerda.
Os três atributos controláveis são desembaraçados e podem ser aplicados separadamente.
Transformações no conjunto de dados de outdoor derivado são mais desafiadoras, pois frequentemente exigem preenchimento de fundos complexos e delineação clara e convincente dos tipos de corpo transformados:
Necessidade Paramétrica
Como observa o artigo, as transformações de imagem do mesmo tipo representam um problema mal definido na síntese de imagens. Muitos quadros de GAN e encoder transformadores podem usar imagens em pares (como os diversos projetos projetados para efetuar transformações de esboço para foto e foto para esboço).
No entanto, no caso em questão, isso exigiria imagens em pares com as mesmas pessoas em diferentes configurações físicas, como as imagens “antes e depois” em anúncios de dieta ou cirurgia plástica – dados que são difíceis de obter ou gerar.
Alternativamente, redes neurais transformadoras podem treinar em dados muito mais diversos e efetuar transformações procurando a direção latente entre a origem (código latente da imagem original) e a classe desejada (neste caso ‘gordo’, ‘magro’, ‘alto’, etc.). No entanto, essa abordagem é atualmente muito limitada para os fins de redefinição de corpo refinada.
Os campos de radiação neural (NeRF) são muito mais avançados na simulação de corpo completo do que a maioria dos sistemas baseados em GAN, mas ainda são específicos de cena e intensivos em recursos, com capacidade atualmente muito limitada para editar tipos de corpo de forma granular (exceto dimensionar o corpo inteiro em relação ao ambiente).
O espaço latente do GAN é difícil de governar; VAEs sozinhos ainda não abordam as complexidades da reprodução de corpo completo; e a capacidade do NeRF de remodelar corpos humanos de forma consistente e realista ainda é incipiente. Portanto, a incorporação de metodologias “tradicionais” de CGI, como o SMPL, parece estar prestes a continuar no setor de pesquisa de síntese de imagem humana, como um método para corralar e consolidar recursos, classes e códigos latentes cujos parâmetros e explorabilidade ainda não são totalmente compreendidos nessas tecnologias emergentes.
Publicado pela primeira vez em 31 de março de 2022.




















