Ângulo de Anderson

Reformatando Tipos de Corpo Humano com IA

mm

Uma nova colaboração de pesquisa da China oferece um método novo de reformatar o corpo humano em imagens, utilizando uma rede neural codificadora gêmea coordenada, guiada por um modelo paramétrico, que permite que um usuário final modifique o peso, altura e proporção do corpo em uma interface gráfica interativa.

Modulação parametrizada da forma do corpo, com controles deslizantes alterando as três características disponíveis. Fonte: https://arxiv.org/pdf/2203.10496.pdf

Modulação parametrizada da forma do corpo, com controles deslizantes alterando as três características disponíveis. Fonte: https://arxiv.org/pdf/2203.10496.pdf

O trabalho oferece várias melhorias sobre um projeto semelhante recente da Alibaba, pois pode alterar convincentemente a altura e a proporção do corpo, além do peso, e tem uma rede neural dedicada para ‘pintar’ o fundo (não existente) que pode ser revelado por imagens de corpos ‘mais magros’. Ele também melhora um método paramétrico anterior para reformatação do corpo, removendo a necessidade de intervenção humana extensiva durante a formulação da transformação.

Intitulado NeuralReshaper, a nova arquitetura ajusta um modelo paramétrico 3D de humano a uma imagem de origem e, em seguida, usa distorções no modelo para adaptar a imagem original aos novos parâmetros.

O sistema é capaz de lidar com transformações de corpo em figuras vestidas e semivestidas (ou seja, de praia).

Transformações desse tipo são atualmente de grande interesse para o setor de pesquisa de fashion AI, que produziu uma série de plataformas de StyleGAN/CycleGAN e redes neurais gerais para experimentos virtuais que podem adaptar itens de roupa disponíveis ao tipo e forma do corpo de uma imagem submetida pelo usuário, ou ajudar com a conformidade visual.

O artigo é intitulado Reformatando o Corpo Humano em Imagens Únicas com Redes Neurais Profundas e vem de pesquisadores da Universidade de Zhejiang, em Hangzhou, e da Escola de Mídia Criativa da Universidade da Cidade de Hong Kong.

Ajuste SMPL

NeuralReshaper utiliza o Modelo Linear Multi-Pessoal com Pele (SMPL) desenvolvido pelo Instituto Max Planck para Sistemas Inteligentes e a renomada casa de efeitos visuais Industrial Light and Magic em 2015.

Humanos paramétricos SMPL da colaboração Planck/ILM de 2015. Fonte: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

Humanos paramétricos SMPL da colaboração Planck/ILM de 2015. Fonte: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

Na primeira etapa do processo, um modelo SMPL é gerado a partir de uma imagem de origem para a qual as transformações de corpo são desejadas. A adaptação do modelo SMPL à imagem segue a metodologia do método de Recuperação de Malha Humana (HMR) proposto por universidades da Alemanha e dos EUA em 2018.

Os três parâmetros para deformação (peso, altura, proporção do corpo) são calculados nessa etapa, juntamente com uma consideração dos parâmetros da câmera, como a distância focal. Os pontos de referência 2D e a alinhamento da silhueta gerada fornecem o limite para a deformação na forma de uma silhueta 2D, uma medida de otimização adicional que aumenta a precisão da fronteira e permite a pintura autêntica do fundo posteriormente na pipeline.

Etapas de ajuste SMPL: à esquerda, a imagem de origem; segunda da esquerda, o resultado de otimização obtido pelo método descrito na pesquisa de 2016 liderada pelo Instituto Max Planck para Sistemas Inteligentes; terceira da esquerda, um resultado de inferência direta do modelo pré-treinado para Recuperação de Forma e Pose Humana; segunda da direita, os resultados obtidos após otimização dos pontos de referência 2D; e finalmente, à direita, o ajuste concluído após otimização da silhueta (veja acima).

Etapas de ajuste SMPL: à esquerda, a imagem de origem; segunda, o resultado de otimização obtido pelo método descrito na pesquisa de 2016 liderada pelo Instituto Max Planck para Sistemas Inteligentes; terceira, um resultado de inferência direta do modelo pré-treinado para Recuperação de Forma e Pose Humana; quarta, os resultados obtidos após otimização dos pontos de referência 2D; e finalmente, quinta, o ajuste concluído após otimização da silhueta (veja acima).

A deformação 3D é então projetada no espaço de imagem da arquitetura para facilitar um campo de deformação denso que definirá a deformação. Esse processo leva cerca de 30 segundos por imagem.

Arquitetura NeuralReshaper

NeuralReshaper executa duas redes neurais em tandem: um codificador de primeiro plano que gera a forma do corpo transformada e um codificador de fundo que se concentra em preencher regiões de fundo ‘desocultadas’ (no caso, por exemplo, de emagrecer um corpo – veja imagem abaixo).

O framework no estilo U-net integra a saída das características dos dois codificadores antes de passar o resultado para um codificador unificado que, por fim, produz uma imagem nova a partir das duas entradas. A arquitetura apresenta um mecanismo de orientação de deformação inovador para permitir a integração.

Treinamento e Experimentos

NeuralReshaper é implementado em PyTorch em uma única GPU NVIDIA 1080ti com 11gb de VRAM. A rede foi treinada por 100 épocas sob o otimizador Adam, com o gerador definido para uma perda alvo de 0,0001 e o discriminador para uma perda alvo de 0,0004. O treinamento ocorreu em um tamanho de lote de 8 para um conjunto de dados de exterior proprietário (derivado de COCO, MPII e LSP), e 2 para treinamento no conjunto de dados DeepFashion.

À esquerda, as imagens originais, à direita, a saída reproportionada do NeuralReshaper.

À esquerda, as imagens originais, à direita, a saída reproportionada do NeuralReshaper.

Abaixo estão alguns exemplos exclusivos do conjunto de dados DeepFashion, como treinado para NeuralReshaper, com as imagens originais sempre à esquerda.

Os três atributos controláveis são desacoplados e podem ser aplicados separadamente.

Transformações no conjunto de dados derivado são mais desafiadoras, pois frequentemente exigem preenchimento de fundos complexos e delineação clara e convincente dos tipos de corpo transformados:

Necessidade Paramétrica

Como observa o artigo, transformações de imagem do mesmo tipo representam um problema mal definido na síntese de imagens. Muitos quadros de GAN e codificador podem usar imagens em pares (como os projetos diversos projetados para efetuar transformações de esboço para foto e foto para esboço).

No entanto, no caso em questão, isso exigiria pares de imagens com as mesmas pessoas em diferentes configurações físicas, como as imagens ‘antes e depois’ em anúncios de dieta ou cirurgia plástica – dados que são difíceis de obter ou gerar.

Alternativamente, redes de GAN transformadoras podem ser treinadas em dados muito mais diversificados e efetuar transformações procurando a direção latente entre o código latente da imagem de origem e a classe desejada (neste caso, ‘gordo’, ‘magro’, ‘alto’, etc.). No entanto, essa abordagem é atualmente muito limitada para os propósitos de reformatação de corpo refinada.

Campos de Radiação Neural (NeRF) são muito mais avançados em simulação de corpo completo do que a maioria dos sistemas baseados em GAN, mas permanecem específicos de cena e intensivos em recursos, com capacidade atualmente muito limitada para editar tipos de corpo de forma granular, como NeuralReshaper e projetos anteriores estão tentando abordar (exceto reduzir o corpo inteiro em relação ao ambiente).

O espaço latente do GAN é difícil de governar; VAEs sozinhas ainda não abordam as complexidades da reprodução de corpo completo; e a capacidade do NeRF de remodelar consistentemente e de forma realista corpos humanos ainda é incipiente. Portanto, a incorporação de metodologias ‘tradicionais’ de CGI, como SMPL, parece estar destinada a continuar no setor de síntese de imagem humana, como um método para corralar e consolidar características, classes e códigos latentes cujos parâmetros e explorabilidade ainda não são totalmente compreendidos nessas tecnologias emergentes.

de ‘metodologias tradicionais’ de CGI, como SMPL, parece estar destinada a continuar no setor de síntese de imagem humana, como um método para corralar e consolidar características, classes e códigos latentes cujos parâmetros e explorabilidade ainda não são totalmente compreendidos nessas tecnologias emergentes. Publicado pela primeira vez em 31 de março de 2022.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.