Inteligência artificial
Remodelando tipos de corpo humano com IA
Uma nova colaboração de pesquisa da China oferece um novo método de remodelar o corpo humano em imagens, pelo uso de uma rede codificadora neural gêmea coordenada, guiada por um modelo paramétrico, que permite ao usuário final modular peso, altura e proporção corporal em uma GUI interativa.
O trabalho oferece várias melhorias ao longo de um projeto similar recente do Alibaba, na medida em que pode alterar de forma convincente a altura e a proporção corporal, bem como o peso, e possui uma rede neural dedicada para 'pintar' o fundo (inexistente) que pode ser revelado por imagens corporais 'mais magras'. Ele também melhora em um notável método paramétrico anterior para remodelação do corpo, eliminando a necessidade de extensa intervenção humana durante a formulação da transformação.
Intitulado NeuralReshaper, a nova arquitetura ajusta um modelo humano 3D paramétrico a uma imagem de origem e, em seguida, usa distorções no modelo para adaptar a imagem original aos novos parâmetros.
O sistema é capaz de lidar com transformações corporais em figuras vestidas, bem como semi-vestidas (ou seja, roupas de praia).
Transformações deste tipo são atualmente de intenso interesse para o IA de moda setor de pesquisa, que produziu uma série de plataformas de redes neurais gerais e baseadas em StyleGAN/CycleGAN para experimentações virtuais que pode adaptar os itens de vestuário disponíveis à forma do corpo e ao tipo de imagem enviada pelo usuário ou, de outra forma, ajudar na conformidade visual.
A papel é intitulado Remodelagem do corpo humano de imagem única com redes neurais profundas, e vem de pesquisadores da Universidade de Zhejiang, em Hangzhou, e da Escola de Mídia Criativa da Universidade da Cidade de Hong Kong.
Encaixe SMPL
NeuralReshaper faz uso do Skinned Multi-Person Linear Model (SMPL) desenvolvido pelo Max Planck Institute for Intelligent Systems e pela renomada casa VFX Industrial Light and Magic em 2015.
Na primeira etapa do processo, um modelo SMPL é gerado a partir de uma imagem de origem para a qual se deseja realizar as transformações do corpo. A adaptação do modelo SMPL à imagem segue o metodologia do método Human Mesh Recovery (HMR) proposto por universidades na Alemanha e nos EUA em 2018.
Os três parâmetros de deformação (peso, altura, proporção corporal) são calculados nesta etapa, juntamente com a consideração dos parâmetros da câmera, como a distância focal. Os pontos-chave 2D e o alinhamento de silhueta gerado fornecem o fechamento para a deformação na forma de uma silhueta 2D, uma medida de otimização adicional que aumenta a precisão do limite e permite a autêntica pintura de fundo mais abaixo no pipeline.
A deformação 3D é então projetada no espaço da imagem da arquitetura para facilitar um campo de distorção denso que definirá a deformação. Esse processo leva cerca de 30 segundos por imagem.
Arquitetura NeuralReshaper
O NeuralReshaper executa duas redes neurais em conjunto: um codificador de primeiro plano que gera a forma do corpo transformada e um codificador de segundo plano que se concentra no preenchimento de regiões de fundo 'desocluídas' (no caso, por exemplo, de emagrecer um corpo - veja a imagem abaixo).
A estrutura de estilo U-net integra a saída dos recursos dos dois codificadores antes de passar o resultado para um codificador unificado que, por fim, produz uma nova imagem das duas entradas. A arquitetura apresenta um novo mecanismo guiado por warp para permitir a integração.
Treinamento e experimentos
O NeuralReshaper é implementado no PyTorch em uma única GPU NVIDIA 1080ti com 11 GB de VRAM. A rede foi treinada por 100 épocas sob o otimizador Adam, com o gerador ajustado para uma perda alvo de 0.0001 e o discriminador para uma perda alvo de 0.0004. O treinamento ocorreu em um tamanho de lote de 8 para um conjunto de dados externo proprietário (extraído de COCO, MPIIe LSP) e 2 para treinamento no Moda Profunda conjunto de dados.
Abaixo estão alguns exemplos exclusivamente do conjunto de dados DeepFashion treinados para NeuralReshaper, com as imagens originais sempre à esquerda.
Os três atributos controláveis são desembaraçados e podem ser aplicados separadamente.
As transformações no conjunto de dados ao ar livre derivado são mais desafiadoras, pois frequentemente exigem o preenchimento de planos de fundo complexos e o delineamento claro e convincente dos tipos de corpo transformados:
Necessidade Paramétrica
Como o artigo observa, as transformações da mesma imagem desse tipo representam um problema mal colocado na síntese de imagens. Muitos GAN transformadores e estruturas de codificador podem fazer uso de imagens emparelhadas (como os diversos projetos projetados para efetuar esboço>foto e foto>esboço transformações).
No entanto, no caso em questão, isso exigiria pares de imagens com as mesmas pessoas em diferentes configurações físicas, como as imagens de 'antes e depois' em propagandas de dietas ou cirurgias plásticas – dados difíceis de obter ou gerar.
Como alternativa, as redes GAN transformadoras podem treinar em dados muito mais diversos e efetuar transformações buscando o direção latente entre a fonte (código latente da imagem original) e a classe desejada (neste caso 'fat', 'thin', 'tall', etc.). No entanto, esta abordagem é atualmente muito limitada para fins de remodelação corporal ajustada.
Campos de radiação neural (NeRF) são muito mais avançados na simulação de corpo inteiro do que a maioria dos sistemas baseados em GAN, mas permanecem específicos da cena e com uso intensivo de recursos, com capacidade atualmente muito limitada de editar tipos de corpo da maneira granular que o NeuralReshaper e projetos anteriores estão tentando abordar ( falta de escalando o corpo inteiro para baixo em relação ao seu ambiente).
O espaço latente do GAN é difícil de governar; Os VAEs sozinhos ainda não abordam as complexidades da reprodução de corpo inteiro; e a capacidade do NeRF de remodelar corpos humanos de forma consistente e realista ainda é incipiente. Portanto, a incorporação de metodologias CGI 'tradicionais', como SMPL, parece destinada a continuar no setor de pesquisa de síntese de imagem humana, como um método para encurralar e consolidar recursos, classes e códigos latentes cujos parâmetros e explorabilidade ainda não são totalmente compreendidos nesses países emergentes. tecnologias.
Publicado pela primeira vez em 31 de março de 2022.