toco Remodelando tipos de corpo humano com IA - Unite.AI
Entre em contato

Inteligência artificial

Remodelando tipos de corpo humano com IA

mm
Atualização do on

Uma nova colaboração de pesquisa da China oferece um novo método de remodelar o corpo humano em imagens, pelo uso de uma rede codificadora neural gêmea coordenada, guiada por um modelo paramétrico, que permite ao usuário final modular peso, altura e proporção corporal em uma GUI interativa.

Modulação parametrizada da forma do corpo, com sliders que alteram as três funcionalidades disponíveis. Fonte: https://arxiv.org/pdf/2203.10496.pdf

Modulação parametrizada da forma do corpo, com sliders que alteram as três funcionalidades disponíveis. Fonte: https://arxiv.org/pdf/2203.10496.pdf

O trabalho oferece várias melhorias ao longo de um projeto similar recente do Alibaba, na medida em que pode alterar de forma convincente a altura e a proporção corporal, bem como o peso, e possui uma rede neural dedicada para 'pintar' o fundo (inexistente) que pode ser revelado por imagens corporais 'mais magras'. Ele também melhora em um notável método paramétrico anterior para remodelação do corpo, eliminando a necessidade de extensa intervenção humana durante a formulação da transformação.

Intitulado NeuralReshaper, a nova arquitetura ajusta um modelo humano 3D paramétrico a uma imagem de origem e, em seguida, usa distorções no modelo para adaptar a imagem original aos novos parâmetros.

O sistema é capaz de lidar com transformações corporais em figuras vestidas, bem como semi-vestidas (ou seja, roupas de praia).

Transformações deste tipo são atualmente de intenso interesse para o IA de moda setor de pesquisa, que produziu uma série de plataformas de redes neurais gerais e baseadas em StyleGAN/CycleGAN para experimentações virtuais que pode adaptar os itens de vestuário disponíveis à forma do corpo e ao tipo de imagem enviada pelo usuário ou, de outra forma, ajudar na conformidade visual.

A papel é intitulado Remodelagem do corpo humano de imagem única com redes neurais profundas, e vem de pesquisadores da Universidade de Zhejiang, em Hangzhou, e da Escola de Mídia Criativa da Universidade da Cidade de Hong Kong.

Encaixe SMPL

NeuralReshaper faz uso do Skinned Multi-Person Linear Model (SMPL) desenvolvido pelo Max Planck Institute for Intelligent Systems e pela renomada casa VFX Industrial Light and Magic em 2015.

Humanos paramétricos SMPL da colaboração Planck/ILM de 2015. Fonte: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

Humanos paramétricos SMPL da colaboração Planck/ILM de 2015. Fonte: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

Na primeira etapa do processo, um modelo SMPL é gerado a partir de uma imagem de origem para a qual se deseja realizar as transformações do corpo. A adaptação do modelo SMPL à imagem segue o metodologia do método Human Mesh Recovery (HMR) proposto por universidades na Alemanha e nos EUA em 2018.

Os três parâmetros de deformação (peso, altura, proporção corporal) são calculados nesta etapa, juntamente com a consideração dos parâmetros da câmera, como a distância focal. Os pontos-chave 2D e o alinhamento de silhueta gerado fornecem o fechamento para a deformação na forma de uma silhueta 2D, uma medida de otimização adicional que aumenta a precisão do limite e permite a autêntica pintura de fundo mais abaixo no pipeline.

Estágios de ajuste SMPL: à esquerda, a imagem de origem; segundo a partir da esquerda, o resultado de otimização obtido com o método descrito na pesquisa de 2016 liderada pelo Max Planck Institute for Intelligent Systems; terceiro da esquerda, um resultado de inferência direta do modelo pré-treinado para recuperação de ponta a ponta da forma e pose humanas; segundo da direita, os resultados obtidos após a otimização dos pontos-chave 2D; e finalmente, à direita, o ajuste completo após a otimização da silhueta (veja acima).

Estágios de ajuste SMPL: à esquerda, a imagem de origem; em segundo lugar, o resultado de otimização obtido com o método delineado em 2016 pesquisa liderado pelo Instituto Max Planck para Sistemas Inteligentes; terceiro, uma inferência direta resulta do modelo pré-treinado para Recuperação de ponta a ponta da forma e pose humanas; quarto, os resultados obtidos após a otimização dos pontos-chave 2D; e, finalmente, quinto, o ajuste completo após a otimização da silhueta (veja acima).

A deformação 3D é então projetada no espaço da imagem da arquitetura para facilitar um campo de distorção denso que definirá a deformação. Esse processo leva cerca de 30 segundos por imagem.

Arquitetura NeuralReshaper

O NeuralReshaper executa duas redes neurais em conjunto: um codificador de primeiro plano que gera a forma do corpo transformada e um codificador de segundo plano que se concentra no preenchimento de regiões de fundo 'desocluídas' (no caso, por exemplo, de emagrecer um corpo - veja a imagem abaixo).

A estrutura de estilo U-net integra a saída dos recursos dos dois codificadores antes de passar o resultado para um codificador unificado que, por fim, produz uma nova imagem das duas entradas. A arquitetura apresenta um novo mecanismo guiado por warp para permitir a integração.

Treinamento e experimentos

O NeuralReshaper é implementado no PyTorch em uma única GPU NVIDIA 1080ti com 11 GB de VRAM. A rede foi treinada por 100 épocas sob o otimizador Adam, com o gerador ajustado para uma perda alvo de 0.0001 e o discriminador para uma perda alvo de 0.0004. O treinamento ocorreu em um tamanho de lote de 8 para um conjunto de dados externo proprietário (extraído de COCO, MPIIe LSP) e 2 para treinamento no Moda Profunda conjunto de dados.

À esquerda, as imagens originais, à direita, a saída reproporcionada do NeuralReshaper.

À esquerda, as imagens originais, à direita, a saída reproporcionada do NeuralReshaper.

Abaixo estão alguns exemplos exclusivamente do conjunto de dados DeepFashion treinados para NeuralReshaper, com as imagens originais sempre à esquerda.

Os três atributos controláveis ​​são desembaraçados e podem ser aplicados separadamente.

As transformações no conjunto de dados ao ar livre derivado são mais desafiadoras, pois frequentemente exigem o preenchimento de planos de fundo complexos e o delineamento claro e convincente dos tipos de corpo transformados:

Necessidade Paramétrica

Como o artigo observa, as transformações da mesma imagem desse tipo representam um problema mal colocado na síntese de imagens. Muitos GAN transformadores e estruturas de codificador podem fazer uso de imagens emparelhadas (como os diversos projetos projetados para efetuar esboço>foto e foto>esboço transformações).

No entanto, no caso em questão, isso exigiria pares de imagens com as mesmas pessoas em diferentes configurações físicas, como as imagens de 'antes e depois' em propagandas de dietas ou cirurgias plásticas – dados difíceis de obter ou gerar.

Como alternativa, as redes GAN transformadoras podem treinar em dados muito mais diversos e efetuar transformações buscando o direção latente entre a fonte (código latente da imagem original) e a classe desejada (neste caso 'fat', 'thin', 'tall', etc.). No entanto, esta abordagem é atualmente muito limitada para fins de remodelação corporal ajustada.

Campos de radiação neural (NeRF) são muito mais avançados na simulação de corpo inteiro do que a maioria dos sistemas baseados em GAN, mas permanecem específicos da cena e com uso intensivo de recursos, com capacidade atualmente muito limitada de editar tipos de corpo da maneira granular que o NeuralReshaper e projetos anteriores estão tentando abordar ( falta de escalando o corpo inteiro para baixo em relação ao seu ambiente).

O espaço latente do GAN é difícil de governar; Os VAEs sozinhos ainda não abordam as complexidades da reprodução de corpo inteiro; e a capacidade do NeRF de remodelar corpos humanos de forma consistente e realista ainda é incipiente. Portanto, a incorporação de metodologias CGI 'tradicionais', como SMPL, parece destinada a continuar no setor de pesquisa de síntese de imagem humana, como um método para encurralar e consolidar recursos, classes e códigos latentes cujos parâmetros e explorabilidade ainda não são totalmente compreendidos nesses países emergentes. tecnologias.

 

Publicado pela primeira vez em 31 de março de 2022.