Inteligência artificial
Remodelando tipos de corpo humano com IA

Uma nova colaboração de pesquisa da China oferece um novo método de remodelar o corpo humano em imagens, pelo uso de uma rede codificadora neural gêmea coordenada, guiada por um modelo paramétrico, que permite ao usuário final modular peso, altura e proporção corporal em uma GUI interativa.

Modulação parametrizada da forma do corpo, com sliders que alteram as três funcionalidades disponíveis. Fonte: https://arxiv.org/pdf/2203.10496.pdf
O trabalho oferece várias melhorias ao longo de um projeto similar recente do Alibaba, pois pode alterar de forma convincente a altura e a proporção corporal, bem como o peso, e possui uma rede neural dedicada para "pintar" o fundo (inexistente) que pode ser revelado por imagens corporais "mais finas". Também melhora notavelmente método paramétrico anterior para remodelação do corpo, eliminando a necessidade de extensa intervenção humana durante a formulação da transformação.
Intitulado NeuralReshaper, a nova arquitetura ajusta um modelo humano 3D paramétrico a uma imagem de origem e, em seguida, usa distorções no modelo para adaptar a imagem original aos novos parâmetros.
O sistema é capaz de lidar com transformações corporais em figuras vestidas, bem como semi-vestidas (ou seja, roupas de praia).
Transformações deste tipo são atualmente de intenso interesse para o IA de moda setor de pesquisa, que produziu uma série de plataformas de redes neurais gerais e baseadas em StyleGAN/CycleGAN para experimentações virtuais que pode adaptar os itens de vestuário disponíveis à forma do corpo e ao tipo de imagem enviada pelo usuário ou, de outra forma, ajudar na conformidade visual.
O método da papel é intitulado Remodelagem do corpo humano de imagem única com redes neurais profundas, e vem de pesquisadores da Universidade de Zhejiang, em Hangzhou, e da Escola de Mídia Criativa da Universidade da Cidade de Hong Kong.
Encaixe SMPL
NeuralReshaper faz uso do Skinned Multi-Person Linear Model (SMPL) desenvolvido pelo Max Planck Institute for Intelligent Systems e pela renomada casa VFX Industrial Light and Magic em 2015.

Humanos paramétricos SMPL da colaboração Planck/ILM de 2015. Fonte: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf
Na primeira etapa do processo, um modelo SMPL é gerado a partir de uma imagem de origem para a qual se deseja realizar as transformações do corpo. A adaptação do modelo SMPL à imagem segue o metodologia do método Human Mesh Recovery (HMR) proposto por universidades na Alemanha e nos EUA em 2018.
Os três parâmetros de deformação (peso, altura, proporção corporal) são calculados nesta etapa, juntamente com a consideração dos parâmetros da câmera, como a distância focal. Os pontos-chave 2D e o alinhamento de silhueta gerado fornecem o fechamento para a deformação na forma de uma silhueta 2D, uma medida de otimização adicional que aumenta a precisão do limite e permite a autêntica pintura de fundo mais abaixo no pipeline.

Estágios de ajuste SMPL: à esquerda, a imagem de origem; em segundo lugar, o resultado de otimização obtido com o método delineado em 2016 pesquisa liderado pelo Instituto Max Planck para Sistemas Inteligentes; terceiro, uma inferência direta resulta do modelo pré-treinado para Recuperação de ponta a ponta da forma e pose humanas; quarto, os resultados obtidos após a otimização dos pontos-chave 2D; e, finalmente, quinto, o ajuste completo após a otimização da silhueta (veja acima).
A deformação 3D é então projetada no espaço de imagem da arquitetura para facilitar um denso campo de deformação que definirá a deformação. Esse processo leva cerca de 30 segundos por imagem.
Arquitetura NeuralReshaper
O NeuralReshaper executa duas redes neurais em conjunto: um codificador de primeiro plano que gera o formato do corpo transformado e um codificador de fundo que se concentra no preenchimento de regiões de fundo "desocluídas" (no caso, por exemplo, de emagrecer um corpo – veja a imagem abaixo).
A estrutura no estilo U-net integra a saída dos recursos dos dois codificadores antes de passar o resultado para um codificador unificado que, por fim, produz uma nova imagem a partir das duas entradas. A arquitetura apresenta um novo mecanismo guiado por distorção para permitir a integração.
Treinamento e experimentos
O NeuralReshaper é implementado no PyTorch em uma única GPU NVIDIA 1080ti com 11 GB de VRAM. A rede foi treinada por 100 épocas sob o otimizador Adam, com o gerador ajustado para uma perda alvo de 0.0001 e o discriminador para uma perda alvo de 0.0004. O treinamento ocorreu em um tamanho de lote de 8 para um conjunto de dados externo proprietário (extraído de COCO, MPIIe LSP) e 2 para treinamento no Moda Profunda conjunto de dados.
Abaixo estão alguns exemplos exclusivamente do conjunto de dados DeepFashion treinados para NeuralReshaper, com as imagens originais sempre à esquerda.
Os três atributos controláveis são desembaraçados e podem ser aplicados separadamente.
As transformações no conjunto de dados ao ar livre derivado são mais desafiadoras, pois frequentemente exigem o preenchimento de planos de fundo complexos e o delineamento claro e convincente dos tipos de corpo transformados:
Necessidade Paramétrica
Como o artigo observa, as transformações da mesma imagem desse tipo representam um problema mal colocado na síntese de imagens. Muitos GAN transformadores e estruturas de codificador podem fazer uso de imagens emparelhadas (como os diversos projetos projetados para efetuar esboço>foto e foto>esboço transformações).
Entretanto, no caso em questão, isso exigiria pares de imagens com as mesmas pessoas em diferentes configurações físicas, como as imagens de "antes e depois" em anúncios de dieta ou cirurgia plástica — dados difíceis de obter ou gerar.
Como alternativa, as redes GAN transformadoras podem treinar em dados muito mais diversos e efetuar transformações buscando o direção latente entre a fonte (código latente da imagem original) e a classe desejada (neste caso, "gordo", "magro", "alto", etc.). No entanto, essa abordagem é atualmente muito limitada para fins de remodelação corporal precisa.
Campos de radiação neural (NeRF) são muito mais avançados na simulação de corpo inteiro do que a maioria dos sistemas baseados em GAN, mas permanecem específicos da cena e com uso intensivo de recursos, com capacidade atualmente muito limitada de editar tipos de corpo da maneira granular que o NeuralReshaper e projetos anteriores estão tentando abordar ( falta de escalando o corpo inteiro para baixo em relação ao seu ambiente).
O espaço latente da GAN é difícil de governar; as VAEs por si só ainda não abordam as complexidades da reprodução de corpo inteiro; e a capacidade do NeRF de remodelar corpos humanos de forma consistente e realista ainda é incipiente. Portanto, a incorporação de metodologias CGI "tradicionais", como a SMPL, parece destinada a continuar no setor de pesquisa de síntese de imagens humanas, como um método para reunir e consolidar características, classes e códigos latentes cujos parâmetros e explorabilidade ainda não são totalmente compreendidos nessas tecnologias emergentes.
Publicado pela primeira vez em 31 de março de 2022.




















