Entre em contato

Remodelando tipos de corpo humano com IA

Inteligência artificial

Remodelando tipos de corpo humano com IA

mm

Uma nova colaboração de pesquisa da China oferece um novo método de remodelar o corpo humano em imagens, pelo uso de uma rede codificadora neural gêmea coordenada, guiada por um modelo paramétrico, que permite ao usuário final modular peso, altura e proporção corporal em uma GUI interativa.

Modulação parametrizada da forma do corpo, com sliders que alteram as três funcionalidades disponíveis. Fonte: https://arxiv.org/pdf/2203.10496.pdf

Modulação parametrizada da forma do corpo, com sliders que alteram as três funcionalidades disponíveis. Fonte: https://arxiv.org/pdf/2203.10496.pdf

O trabalho oferece várias melhorias ao longo de um projeto similar recente do Alibaba, pois pode alterar de forma convincente a altura e a proporção corporal, bem como o peso, e possui uma rede neural dedicada para "pintar" o fundo (inexistente) que pode ser revelado por imagens corporais "mais finas". Também melhora notavelmente método paramétrico anterior para remodelação do corpo, eliminando a necessidade de extensa intervenção humana durante a formulação da transformação.

Intitulado NeuralReshaper, a nova arquitetura ajusta um modelo humano 3D paramétrico a uma imagem de origem e, em seguida, usa distorções no modelo para adaptar a imagem original aos novos parâmetros.

O sistema é capaz de lidar com transformações corporais em figuras vestidas, bem como semi-vestidas (ou seja, roupas de praia).

Transformações deste tipo são atualmente de intenso interesse para o IA de moda setor de pesquisa, que produziu uma série de plataformas de redes neurais gerais e baseadas em StyleGAN/CycleGAN para experimentações virtuais que pode adaptar os itens de vestuário disponíveis à forma do corpo e ao tipo de imagem enviada pelo usuário ou, de outra forma, ajudar na conformidade visual.

O método da papel é intitulado Remodelagem do corpo humano de imagem única com redes neurais profundas, e vem de pesquisadores da Universidade de Zhejiang, em Hangzhou, e da Escola de Mídia Criativa da Universidade da Cidade de Hong Kong.

Encaixe SMPL

NeuralReshaper faz uso do Skinned Multi-Person Linear Model (SMPL) desenvolvido pelo Max Planck Institute for Intelligent Systems e pela renomada casa VFX Industrial Light and Magic em 2015.

Humanos paramétricos SMPL da colaboração Planck/ILM de 2015. Fonte: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

Humanos paramétricos SMPL da colaboração Planck/ILM de 2015. Fonte: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

Na primeira etapa do processo, um modelo SMPL é gerado a partir de uma imagem de origem para a qual se deseja realizar as transformações do corpo. A adaptação do modelo SMPL à imagem segue o metodologia do método Human Mesh Recovery (HMR) proposto por universidades na Alemanha e nos EUA em 2018.

Os três parâmetros de deformação (peso, altura, proporção corporal) são calculados nesta etapa, juntamente com a consideração dos parâmetros da câmera, como a distância focal. Os pontos-chave 2D e o alinhamento de silhueta gerado fornecem o fechamento para a deformação na forma de uma silhueta 2D, uma medida de otimização adicional que aumenta a precisão do limite e permite a autêntica pintura de fundo mais abaixo no pipeline.

Estágios de ajuste SMPL: à esquerda, a imagem de origem; segundo a partir da esquerda, o resultado de otimização obtido com o método descrito na pesquisa de 2016 liderada pelo Max Planck Institute for Intelligent Systems; terceiro da esquerda, um resultado de inferência direta do modelo pré-treinado para recuperação de ponta a ponta da forma e pose humanas; segundo da direita, os resultados obtidos após a otimização dos pontos-chave 2D; e finalmente, à direita, o ajuste completo após a otimização da silhueta (veja acima).

Estágios de ajuste SMPL: à esquerda, a imagem de origem; em segundo lugar, o resultado de otimização obtido com o método delineado em 2016 pesquisa liderado pelo Instituto Max Planck para Sistemas Inteligentes; terceiro, uma inferência direta resulta do modelo pré-treinado para Recuperação de ponta a ponta da forma e pose humanas; quarto, os resultados obtidos após a otimização dos pontos-chave 2D; e, finalmente, quinto, o ajuste completo após a otimização da silhueta (veja acima).

A deformação 3D é então projetada no espaço de imagem da arquitetura para facilitar um denso campo de deformação que definirá a deformação. Esse processo leva cerca de 30 segundos por imagem.

Arquitetura NeuralReshaper

O NeuralReshaper executa duas redes neurais em conjunto: um codificador de primeiro plano que gera o formato do corpo transformado e um codificador de fundo que se concentra no preenchimento de regiões de fundo "desocluídas" (no caso, por exemplo, de emagrecer um corpo – veja a imagem abaixo).

A estrutura no estilo U-net integra a saída dos recursos dos dois codificadores antes de passar o resultado para um codificador unificado que, por fim, produz uma nova imagem a partir das duas entradas. A arquitetura apresenta um novo mecanismo guiado por distorção para permitir a integração.

Treinamento e experimentos

O NeuralReshaper é implementado no PyTorch em uma única GPU NVIDIA 1080ti com 11 GB de VRAM. A rede foi treinada por 100 épocas sob o otimizador Adam, com o gerador ajustado para uma perda alvo de 0.0001 e o discriminador para uma perda alvo de 0.0004. O treinamento ocorreu em um tamanho de lote de 8 para um conjunto de dados externo proprietário (extraído de COCO, MPIIe LSP) e 2 para treinamento no Moda Profunda conjunto de dados.

À esquerda, as imagens originais, à direita, a saída reproporcionada do NeuralReshaper.

À esquerda, as imagens originais, à direita, a saída reproporcionada do NeuralReshaper.

Abaixo estão alguns exemplos exclusivamente do conjunto de dados DeepFashion treinados para NeuralReshaper, com as imagens originais sempre à esquerda.

Os três atributos controláveis ​​são desembaraçados e podem ser aplicados separadamente.

As transformações no conjunto de dados ao ar livre derivado são mais desafiadoras, pois frequentemente exigem o preenchimento de planos de fundo complexos e o delineamento claro e convincente dos tipos de corpo transformados:

Necessidade Paramétrica

Como o artigo observa, as transformações da mesma imagem desse tipo representam um problema mal colocado na síntese de imagens. Muitos GAN transformadores e estruturas de codificador podem fazer uso de imagens emparelhadas (como os diversos projetos projetados para efetuar esboço>foto e foto>esboço transformações).

Entretanto, no caso em questão, isso exigiria pares de imagens com as mesmas pessoas em diferentes configurações físicas, como as imagens de "antes e depois" em anúncios de dieta ou cirurgia plástica — dados difíceis de obter ou gerar.

Como alternativa, as redes GAN transformadoras podem treinar em dados muito mais diversos e efetuar transformações buscando o direção latente entre a fonte (código latente da imagem original) e a classe desejada (neste caso, "gordo", "magro", "alto", etc.). No entanto, essa abordagem é atualmente muito limitada para fins de remodelação corporal precisa.

Campos de radiação neural (NeRF) são muito mais avançados na simulação de corpo inteiro do que a maioria dos sistemas baseados em GAN, mas permanecem específicos da cena e com uso intensivo de recursos, com capacidade atualmente muito limitada de editar tipos de corpo da maneira granular que o NeuralReshaper e projetos anteriores estão tentando abordar ( falta de escalando o corpo inteiro para baixo em relação ao seu ambiente).

O espaço latente da GAN é difícil de governar; as VAEs por si só ainda não abordam as complexidades da reprodução de corpo inteiro; e a capacidade do NeRF de remodelar corpos humanos de forma consistente e realista ainda é incipiente. Portanto, a incorporação de metodologias CGI "tradicionais", como a SMPL, parece destinada a continuar no setor de pesquisa de síntese de imagens humanas, como um método para reunir e consolidar características, classes e códigos latentes cujos parâmetros e explorabilidade ainda não são totalmente compreendidos nessas tecnologias emergentes.

 

Publicado pela primeira vez em 31 de março de 2022.

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protected]
Twitter: @manders_ai