Ângulo de Anderson
Reformatando Tipos de Corpo Humano com IA

Uma nova colaboração de pesquisa da China oferece um método novo de reformatar o corpo humano em imagens, utilizando uma rede neural codificadora gêmea coordenada, guiada por um modelo paramétrico, que permite que um usuário final modifique o peso, altura e proporção do corpo em uma interface gráfica interativa.

Modulação parametrizada da forma do corpo, com controles deslizantes alterando as três características disponíveis. Fonte: https://arxiv.org/pdf/2203.10496.pdf
O trabalho oferece várias melhorias sobre um projeto semelhante recente da Alibaba, pois pode alterar convincentemente a altura e a proporção do corpo, além do peso, e tem uma rede neural dedicada para ‘pintar’ o fundo (não existente) que pode ser revelado por imagens de corpos ‘mais magros’. Ele também melhora um método paramétrico anterior para reformatação do corpo, removendo a necessidade de intervenção humana extensiva durante a formulação da transformação.
Intitulado NeuralReshaper, a nova arquitetura ajusta um modelo paramétrico 3D de humano a uma imagem de origem e, em seguida, usa distorções no modelo para adaptar a imagem original aos novos parâmetros.
O sistema é capaz de lidar com transformações de corpo em figuras vestidas e semivestidas (ou seja, de praia).
Transformações desse tipo são atualmente de grande interesse para o setor de pesquisa de fashion AI, que produziu uma série de plataformas de StyleGAN/CycleGAN e redes neurais gerais para experimentos virtuais que podem adaptar itens de roupa disponíveis ao tipo e forma do corpo de uma imagem submetida pelo usuário, ou ajudar com a conformidade visual.
O artigo é intitulado Reformatando o Corpo Humano em Imagens Únicas com Redes Neurais Profundas e vem de pesquisadores da Universidade de Zhejiang, em Hangzhou, e da Escola de Mídia Criativa da Universidade da Cidade de Hong Kong.
Ajuste SMPL
NeuralReshaper utiliza o Modelo Linear Multi-Pessoal com Pele (SMPL) desenvolvido pelo Instituto Max Planck para Sistemas Inteligentes e a renomada casa de efeitos visuais Industrial Light and Magic em 2015.

Humanos paramétricos SMPL da colaboração Planck/ILM de 2015. Fonte: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf
Na primeira etapa do processo, um modelo SMPL é gerado a partir de uma imagem de origem para a qual as transformações de corpo são desejadas. A adaptação do modelo SMPL à imagem segue a metodologia do método de Recuperação de Malha Humana (HMR) proposto por universidades da Alemanha e dos EUA em 2018.
Os três parâmetros para deformação (peso, altura, proporção do corpo) são calculados nessa etapa, juntamente com uma consideração dos parâmetros da câmera, como a distância focal. Os pontos de referência 2D e a alinhamento da silhueta gerada fornecem o limite para a deformação na forma de uma silhueta 2D, uma medida de otimização adicional que aumenta a precisão da fronteira e permite a pintura autêntica do fundo posteriormente na pipeline.

Etapas de ajuste SMPL: à esquerda, a imagem de origem; segunda, o resultado de otimização obtido pelo método descrito na pesquisa de 2016 liderada pelo Instituto Max Planck para Sistemas Inteligentes; terceira, um resultado de inferência direta do modelo pré-treinado para Recuperação de Forma e Pose Humana; quarta, os resultados obtidos após otimização dos pontos de referência 2D; e finalmente, quinta, o ajuste concluído após otimização da silhueta (veja acima).
A deformação 3D é então projetada no espaço de imagem da arquitetura para facilitar um campo de deformação denso que definirá a deformação. Esse processo leva cerca de 30 segundos por imagem.
Arquitetura NeuralReshaper
NeuralReshaper executa duas redes neurais em tandem: um codificador de primeiro plano que gera a forma do corpo transformada e um codificador de fundo que se concentra em preencher regiões de fundo ‘desocultadas’ (no caso, por exemplo, de emagrecer um corpo – veja imagem abaixo).
O framework no estilo U-net integra a saída das características dos dois codificadores antes de passar o resultado para um codificador unificado que, por fim, produz uma imagem nova a partir das duas entradas. A arquitetura apresenta um mecanismo de orientação de deformação inovador para permitir a integração.
Treinamento e Experimentos
NeuralReshaper é implementado em PyTorch em uma única GPU NVIDIA 1080ti com 11gb de VRAM. A rede foi treinada por 100 épocas sob o otimizador Adam, com o gerador definido para uma perda alvo de 0,0001 e o discriminador para uma perda alvo de 0,0004. O treinamento ocorreu em um tamanho de lote de 8 para um conjunto de dados de exterior proprietário (derivado de COCO, MPII e LSP), e 2 para treinamento no conjunto de dados DeepFashion.
Abaixo estão alguns exemplos exclusivos do conjunto de dados DeepFashion, como treinado para NeuralReshaper, com as imagens originais sempre à esquerda.
Os três atributos controláveis são desacoplados e podem ser aplicados separadamente.
Transformações no conjunto de dados derivado são mais desafiadoras, pois frequentemente exigem preenchimento de fundos complexos e delineação clara e convincente dos tipos de corpo transformados:
Necessidade Paramétrica
Como observa o artigo, transformações de imagem do mesmo tipo representam um problema mal definido na síntese de imagens. Muitos quadros de GAN e codificador podem usar imagens em pares (como os projetos diversos projetados para efetuar transformações de esboço para foto e foto para esboço).
No entanto, no caso em questão, isso exigiria pares de imagens com as mesmas pessoas em diferentes configurações físicas, como as imagens ‘antes e depois’ em anúncios de dieta ou cirurgia plástica – dados que são difíceis de obter ou gerar.
Alternativamente, redes de GAN transformadoras podem ser treinadas em dados muito mais diversificados e efetuar transformações procurando a direção latente entre o código latente da imagem de origem e a classe desejada (neste caso, ‘gordo’, ‘magro’, ‘alto’, etc.). No entanto, essa abordagem é atualmente muito limitada para os propósitos de reformatação de corpo refinada.
Campos de Radiação Neural (NeRF) são muito mais avançados em simulação de corpo completo do que a maioria dos sistemas baseados em GAN, mas permanecem específicos de cena e intensivos em recursos, com capacidade atualmente muito limitada para editar tipos de corpo de forma granular, como NeuralReshaper e projetos anteriores estão tentando abordar (exceto reduzir o corpo inteiro em relação ao ambiente).
O espaço latente do GAN é difícil de governar; VAEs sozinhas ainda não abordam as complexidades da reprodução de corpo completo; e a capacidade do NeRF de remodelar consistentemente e de forma realista corpos humanos ainda é incipiente. Portanto, a incorporação de metodologias ‘tradicionais’ de CGI, como SMPL, parece estar destinada a continuar no setor de síntese de imagem humana, como um método para corralar e consolidar características, classes e códigos latentes cujos parâmetros e explorabilidade ainda não são totalmente compreendidos nessas tecnologias emergentes.
de ‘metodologias tradicionais’ de CGI, como SMPL, parece estar destinada a continuar no setor de síntese de imagem humana, como um método para corralar e consolidar características, classes e códigos latentes cujos parâmetros e explorabilidade ainda não são totalmente compreendidos nessas tecnologias emergentes. Publicado pela primeira vez em 31 de março de 2022.




















