Ângulo de Anderson

Criação de Deepfakes de Corpo Inteiro por Combinação de Múltiplos NeRFs

Publicado em 12 de outubro de 2022

Atualizado em 23 de maio de 2026

Por

Martin Anderson

A pesquisa em síntese de imagens está repleta de novas propostas para sistemas capazes de criar vídeos e imagens de corpo inteiro de jovens – principalmente jovens mulheres – em diferentes tipos de vestuário. Na maioria das vezes, as imagens geradas são estáticas; ocasionalmente, as representações até se movem, embora não muito bem.

O ritmo dessa pesquisa em particular é glacial em comparação com o atual nível vertiginoso de progresso em campos relacionados, como modelos de difusão latente; no entanto, os grupos de pesquisa, a maioria na Ásia, continuam a trabalhar incansavelmente no problema.

Um dos dezenas, se não centenas, de sistemas de ‘try-on’ virtuais propostos ou semi-lançados nos últimos 10-15 anos, onde os corpos são avaliados por meio de reconhecimento de objetos baseado em aprendizado de máquina e adaptados aos itens de vestuário propostos. Fonte: https://www.youtube.com/watch?v=2ZXrgGyhbak

O objetivo é criar novos sistemas para permitir ‘try-ons’ virtuais para o mercado de moda e vestuário – sistemas que possam se adaptar tanto ao cliente quanto ao produto específico que está disponível ou prestes a ser lançado, sem a rusticidade da superposição em tempo real de vestuário, ou a necessidade de pedir aos clientes que enviem fotos ligeiramente NSFW para pipelines de renderização baseados em ML.

Nenhuma das arquiteturas de síntese populares parece facilmente adaptável a essa tarefa: o espaço latente das Redes Adversárias Generativas (GANs) não é adequado para produzir movimento temporal convincente (ou mesmo para edição em geral); embora capaz de gerar movimento humano realista, Campos de Radiância Neural (NeRF) são naturalmente resistentes ao tipo de edição que seria necessária para ‘trocar’ pessoas ou roupas à vontade; os autoencoders exigiriam treinamento específico para pessoa/roupa; e os modelos de difusão latente, como as GANs, não têm mecanismos temporais nativos para geração de vídeo.

EVA3D

No entanto, os artigos e propostas continuam. O mais recente é de interesse incomum em uma linha de pesquisa exclusivamente orientada para negócios.

EVA3D, da Universidade Tecnológica de Nanyang, em Cingapura, é o primeiro indício de uma abordagem que estava faltando – o uso de múltiplas redes de Campos de Radiância Neural, cada uma das quais é dedicada a uma parte separada do corpo, e que são então compostas em uma visualização coesa.

Uma jovem mulher móvel composta por múltiplas redes NeRF, para EVA3D. Fonte: https://hongfz16.github.io/projects/EVA3D.html

Os resultados, em termos de movimento, são…ok. Embora as visualizações de EVA3D não estejam fora do vale da estranheza, elas podem pelo menos ver a saída da estrada.

O que torna EVA3D notável é que os pesquisadores por trás dele, quase exclusivamente no setor de síntese de imagem de corpo inteiro, perceberam que uma rede única (GAN, NeRF ou outra) não será capaz de lidar com a geração de corpo inteiro humano editável e flexível para alguns anos – em parte devido ao ritmo da pesquisa e em parte devido a limitações de hardware e logísticas.

Portanto, a equipe de Nanyang dividiu a tarefa em 16 redes e múltiplas tecnologias – uma abordagem já adotada para renderização neural de ambientes urbanos em Block-NeRF e CityNeRF, e que parece provável se tornar uma medida intermediária cada vez mais interessante e potencialmente frutífera para alcançar deepfakes de corpo inteiro nos próximos cinco anos, dependendo de novos desenvolvimentos conceituais ou de hardware.

Não todos os desafios presentes na criação desse tipo de ‘try-on’ virtual são técnicos ou logísticos, e o artigo descreve alguns dos problemas de dados, particularmente em relação ao aprendizado não supervisionado:

‘[Conjuntos de dados de moda] têm principalmente poses humanas muito limitadas (a maioria são poses de pé semelhantes), e ângulos de visão altamente desequilibrados (a maioria são vistas frontais). Essa distribuição de dados 2D desequilibrada pode dificultar o aprendizado não supervisionado de GANs 3D, levando a dificuldades na síntese de vista/novas poses. Portanto, uma estratégia de treinamento adequada é necessária para aliviar o problema.’

A fluxo de trabalho de EVA3D segmenta o corpo humano em 16 partes distintas, cada uma das quais é gerada por meio de sua própria rede NeRF. Obviamente, isso cria seções ‘descongeladas’ suficientes para ser capaz de galvanizar a figura por meio de captura de movimento ou outros tipos de dados de movimento. Além disso, isso também permite que o sistema atribua recursos máximos às partes do corpo que ‘vendem’ a impressão geral.

Por exemplo, os pés humanos têm uma faixa de articulação muito limitada, enquanto a autenticidade do rosto e da cabeça, além da qualidade do movimento corporal geral, é provavelmente o token focal de autenticidade para a renderização.

Uma comparação qualitativa entre EVA3D e métodos anteriores.

A abordagem difere radicalmente do projeto NeRF-centrado ao qual está relacionada – 2021’s A-NeRF, da Universidade da Colúmbia Britânica e Reality Labs Research, que buscou adicionar um esqueleto interno de controle a uma representação NeRF convencional ‘de uma peça’, tornando mais difícil alocar recursos de processamento para diferentes partes do corpo com base na necessidade.

Motions anteriores – A-NeRF equipa uma ‘assada’ NeRF com o mesmo tipo de estrutura central articulada e flexível que a indústria de efeitos visuais tem usado por tanto tempo para animar personagens CGI. Fonte: https://lemonatsu.github.io/anerf/

Em comum com a maioria dos projetos humanos centrados que buscam aproveitar o espaço latente das abordagens populares, EVA3D usa um Modelo Linear de Multi-Pessoa com Pele (SMPL), um método ‘tradicional’ baseado em CGI para adicionar instrumentação à abstração geral dos métodos de síntese atuais. Mais cedo este ano, outro artigo, desta vez da Universidade de Zhejiang em Hangzhou e da Escola de Mídia Criativa da Universidade da Cidade de Hong Kong, usou tais métodos para realizar reformulação corporal neural.

Resultados qualitativos de EVA3D no DeepFashion.

Método

O modelo SMPL usado no processo é ajustado ao ‘prior’ humano – a pessoa que, essencialmente, está sendo voluntariamente deepfaked por EVA3D, e seus pesos de skinning negociam as diferenças entre o espaço canônico (ou seja, a pose ’em repouso’ ou ‘neutra’ de um modelo SMPL) e a forma como a aparência final é renderizada.

O fluxo de trabalho conceitual para EVA3D. Fonte: https://arxiv.org/pdf/2210.04888.pdf

Como visto na ilustração acima, as caixas delimitadoras do SMPL são usadas como definições de limite para as 16 redes que eventualmente comporão o corpo. O algoritmo de Linear Blend Skinning (LBS) inverso do SMPL é então usado para transferir raios amostrados visíveis para o espaço de pose canônica (passiva). Em seguida, as 16 sub-redes são consultadas com base nessas configurações e, em última análise, conformadas em uma renderização final.

A composição NeRF completa é então usada para construir uma estrutura de GAN 3D humana.

As renderizações da estrutura de GAN de segunda etapa serão treinadas contra coleções de imagens 2D reais de humanos/moda.

Cada sub-rede que representa parte do corpo humano é composta por MLPs empilhados com SIREN (Redes de Representação Sinusoidal) de ativação. Embora SIREN resolva muitos problemas em um fluxo de trabalho como este, e em projetos semelhantes, tende a superajustar em vez de generalizar, e os pesquisadores sugerem que bibliotecas alternativas poderiam ser usadas no futuro (ver final do artigo).

Dados, Treinamento e Testes

EVA3D enfrenta problemas de dados incomuns, devido às limitações e ao estilo padronizado das poses disponíveis em conjuntos de dados de moda, que tendem a falta de vistas alternativas ou novas, e são, talvez intencionalmente, repetitivas, para focar a atenção nos vestidos em vez da pessoa que os usa.

Devido a essa distribuição de poses desequilibrada, EVA3D usa priors humanos (ver acima) baseados na geometria do modelo SMPL, e então prevê um Campo de Distância Assinado (SDF) deslocado dessa pose, em vez de uma pose de destino direta.

Para os experimentos de apoio, os pesquisadores utilizaram quatro conjuntos de dados: DeepFashion; SHHQ; UBCFashion; e o Banco de Dados de Vídeo de Dança AIST (AIST Dance DB).

Os dois últimos contêm poses mais variadas do que os dois primeiros, mas representam as mesmas pessoas repetidamente, o que cancela essa diversidade; em resumo, os dados são mais do que desafiadores, dada a tarefa.

Exemplos do SSHQ. Fonte: https://arxiv.org/pdf/2204.11823.pdf

As linhas de base usadas foram ENARF-GAN, o primeiro projeto a renderizar visuais NeRF a partir de conjuntos de dados de imagens 2D; Stanford e NVIDIA’s EG3D; e StyleSDF, uma colaboração entre a Universidade de Washington, Adobe Research e Stanford University – todos os métodos que exigem bibliotecas de super-resolução para escalonar de resolução nativa para alta resolução.

As métricas adotadas foram a controversa Distância de Inception de Frechet (FID) e Distância de Inception do Kernel (KID), juntamente com a Porcentagem de Pontos de Chave Corretos ([email protected]).

Em avaliações quantitativas, EVA3D liderou em todas as métricas em quatro conjuntos de dados:

Resultados quantitativos.

Os pesquisadores observam que EVA3D alcança a taxa de erro mais baixa para renderização de geometria, um fator crítico em um projeto desse tipo. Eles também observam que seu sistema pode controlar a pose gerada e alcançar pontuações [email protected] mais altas, em contraste com EG3D, o único método que marcou mais alto em uma categoria.

EVA3D opera nativamente na resolução de 512x512px, embora possa ser facilmente e efetivamente escalonada para resolução HD adicionando camadas de escalonamento, como o Google recentemente fez com sua oferta de vídeo de texto para vídeo de 1024 resolução Imagen Video.

O método não está sem limites. O artigo observa que a ativação SIREN pode causar artefatos circulares, que poderiam ser remediados em versões futuras pelo uso de uma representação base alternativa, como EG3D, em combinação com um decodificador 2D. Além disso, é difícil ajustar o SMPL com precisão aos conjuntos de dados de moda.

Finalmente, o sistema não pode acomodar facilmente itens de vestuário maiores e mais fluidos, como vestidos grandes; roupas desse tipo exibem o mesmo tipo de dinâmica de fluidos que torna a criação de cabelo renderizado neural um desafio. Presumivelmente, uma solução apropriada poderia ajudar a resolver ambos os problemas.

Publicado pela primeira vez em 12 de outubro de 2022.

Martin Anderson

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.

Unite.AI

Criação de Deepfakes de Corpo Inteiro por Combinação de Múltiplos NeRFs

EVA3D

Método

Dados, Treinamento e Testes

Descubra mais