Connect with us

Inteligência artificial

Redefinindo Tipos de Corpo Humano com IA

mm

Uma nova colaboração de pesquisa da China oferece um método novo de redefinir o corpo humano em imagens, por meio do uso de uma rede neural codificadora gêmea coordenada, guiada por um modelo paramétrico, que permite que um usuário final modifique o peso, altura e proporção do corpo em uma interface gráfica interativa.

Modulação parametrizada da forma do corpo, com controles deslizantes alterando os três recursos disponíveis. Fonte: https://arxiv.org/pdf/2203.10496.pdf

Modulação parametrizada da forma do corpo, com controles deslizantes alterando os três recursos disponíveis. Fonte: https://arxiv.org/pdf/2203.10496.pdf

O trabalho oferece várias melhorias em relação a um projeto semelhante recente da Alibaba, pois pode alterar convincentemente a altura e a proporção do corpo, além do peso, e tem uma rede neural dedicada para “pintar” o plano de fundo (não existente) que pode ser revelado por imagens de corpos “mais magros”. Ele também melhora um método paramétrico anterior notável para redefinir o corpo, removendo a necessidade de intervenção humana extensiva durante a formulação da transformação.

Intitulado NeuralReshaper, a nova arquitetura ajusta um modelo paramétrico 3D de corpo humano a uma imagem de origem e, em seguida, usa distorções no modelo para adaptar a imagem original aos novos parâmetros.

O sistema é capaz de lidar com transformações de corpo em figuras vestidas e semivestidas (ou seja, de praia).

Transformações desse tipo estão atualmente de grande interesse para o setor de pesquisa de fashion AI, que produziu uma série de plataformas de rede neural baseadas em StyleGAN/CycleGAN e geral para experimentos virtuais que podem adaptar itens de vestuário disponíveis ao tipo e forma do corpo de uma imagem submetida pelo usuário, ou ajudar com a conformidade visual.

O artigo é intitulado Redimensionamento de Corpo Humano em Imagem Única com Redes Neurais Profundas e vem de pesquisadores da Universidade de Zhejiang em Hangzhou e da Escola de Mídia Criativa da City University de Hong Kong.

Ajuste SMPL

NeuralReshaper utiliza o Modelo Linear de Pessoas com Pele (SMPL) desenvolvido pelo Instituto Max Planck para Sistemas Inteligentes e a renomada empresa de efeitos visuais Industrial Light and Magic em 2015.

Humanos paramétricos SMPL da colaboração Planck/ILM de 2015. Fonte: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

Humanos paramétricos SMPL da colaboração Planck/ILM de 2015. Fonte: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

Na primeira etapa do processo, um modelo SMPL é gerado a partir de uma imagem de origem para a qual as transformações de corpo são desejadas. A adaptação do modelo SMPL à imagem segue a metodologia do método de Recuperação de Malha Humana (HMR) proposto por universidades da Alemanha e dos EUA em 2018.

Os três parâmetros para deformação (peso, altura, proporção do corpo) são calculados nesta etapa, juntamente com uma consideração dos parâmetros da câmera, como a distância focal. Pontos de referência 2D e alinhamento de silhueta gerada fornecem o fechamento para a deformação na forma de uma silhueta 2D, uma medida de otimização adicional que aumenta a precisão da fronteira e permite a pintura de fundo autêntica posteriormente no pipeline.

Etapa de ajuste SMPL: à esquerda, a imagem de origem; segunda da esquerda, o resultado de otimização obtido do método delineado na pesquisa de 2016 liderada pelo Instituto Max Planck para Sistemas Inteligentes; terceira da esquerda, um resultado de inferência direta do modelo pré-treinado para Recuperação de Forma e Pose Humana; quarta da esquerda, os resultados obtidos após otimização dos pontos de referência 2D; e finalmente, à direita, o ajuste concluído após otimização da silhueta (ver acima).

Etapa de ajuste SMPL: à esquerda, a imagem de origem; segunda, o resultado de otimização obtido do método delineado na pesquisa liderada pelo Instituto Max Planck para Sistemas Inteligentes; terceira, um resultado de inferência direta do modelo pré-treinado para Recuperação de Forma e Pose Humana; quarta, os resultados obtidos após otimização dos pontos de referência 2D; e finalmente, quinta, o ajuste concluído após otimização da silhueta (ver acima).

A deformação 3D é então projetada no espaço de imagem da arquitetura para facilitar um campo de deformação denso que definirá a deformação. Esse processo leva cerca de 30 segundos por imagem.

Arquitetura NeuralReshaper

NeuralReshaper executa duas redes neurais em tandem: um codificador de primeiro plano que gera a forma do corpo transformada e um codificador de segundo plano que se concentra em preencher regiões de fundo “desocultadas” (no caso, por exemplo, de emagrecer um corpo – veja imagem abaixo).

A estrutura no estilo U-net integra a saída das características dos dois codificadores antes de passar o resultado para um codificador unificado que, por fim, produz uma imagem nova a partir das duas entradas. A arquitetura apresenta um mecanismo de orientação de deformação inovador para permitir a integração.

Treinamento e Experimentos

NeuralReshaper é implementado em PyTorch em uma GPU NVIDIA 1080ti única com 11gb de VRAM. A rede foi treinada por 100 épocas sob o otimizador Adam, com o gerador definido para uma perda alvo de 0,0001 e o discriminador para uma perda alvo de 0,0004. O treinamento ocorreu em um tamanho de lote de 8 para um conjunto de dados de outdoor proprietário (derivado de COCO, MPII e LSP), e 2 para treinamento no conjunto de dados DeepFashion.

À esquerda, as imagens originais, à direita, a saída reproportionada do NeuralReshaper.

À esquerda, as imagens originais, à direita, a saída reproportionada do NeuralReshaper.

Abaixo estão alguns exemplos exclusivamente do conjunto de dados DeepFashion, como treinado para NeuralReshaper, com as imagens originais sempre à esquerda.

Os três atributos controláveis são desembaraçados e podem ser aplicados separadamente.

Transformações no conjunto de dados de outdoor derivado são mais desafiadoras, pois frequentemente exigem preenchimento de fundos complexos e delineação clara e convincente dos tipos de corpo transformados:

Necessidade Paramétrica

Como observa o artigo, as transformações de imagem do mesmo tipo representam um problema mal definido na síntese de imagens. Muitos quadros de GAN e encoder transformadores podem usar imagens em pares (como os diversos projetos projetados para efetuar transformações de esboço para foto e foto para esboço).

No entanto, no caso em questão, isso exigiria imagens em pares com as mesmas pessoas em diferentes configurações físicas, como as imagens “antes e depois” em anúncios de dieta ou cirurgia plástica – dados que são difíceis de obter ou gerar.

Alternativamente, redes neurais transformadoras podem treinar em dados muito mais diversos e efetuar transformações procurando a direção latente entre a origem (código latente da imagem original) e a classe desejada (neste caso ‘gordo’, ‘magro’, ‘alto’, etc.). No entanto, essa abordagem é atualmente muito limitada para os fins de redefinição de corpo refinada.

Os campos de radiação neural (NeRF) são muito mais avançados na simulação de corpo completo do que a maioria dos sistemas baseados em GAN, mas ainda são específicos de cena e intensivos em recursos, com capacidade atualmente muito limitada para editar tipos de corpo de forma granular (exceto dimensionar o corpo inteiro em relação ao ambiente).

O espaço latente do GAN é difícil de governar; VAEs sozinhos ainda não abordam as complexidades da reprodução de corpo completo; e a capacidade do NeRF de remodelar corpos humanos de forma consistente e realista ainda é incipiente. Portanto, a incorporação de metodologias “tradicionais” de CGI, como o SMPL, parece estar prestes a continuar no setor de pesquisa de síntese de imagem humana, como um método para corralar e consolidar recursos, classes e códigos latentes cujos parâmetros e explorabilidade ainda não são totalmente compreendidos nessas tecnologias emergentes.

 

Publicado pela primeira vez em 31 de março de 2022.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.