Inteligência artificial

Um Novo e Mais Simples Método de Deepfake Que Supera as Abordagens Anteriores

Published November 10, 2021

Updated April 26, 2026

Martin Anderson

Uma colaboração entre um grupo de pesquisa de IA chinês e pesquisadores baseados nos EUA desenvolveu o que pode ser a primeira inovação real na tecnologia de deepfakes desde que o fenômeno surgiu há quatro anos.

O novo método pode realizar trocas de faces que superam todos os outros frameworks existentes em testes perceptuais padrão, sem precisar coletar e curar exaustivamente grandes conjuntos de dados dedicados e treinar por até uma semana para apenas uma identidade. Para os exemplos apresentados no novo artigo, os modelos foram treinados em toda a extensão de dois conjuntos de dados de celebridades populares, em um GPU NVIDIA Tesla P40 por cerca de três dias.

Vídeo completo incorporado ao final deste artigo. Nesta amostra de um vídeo nos materiais suplementares para o novo artigo, o rosto de Scarlett Johansson é transferido para o vídeo de origem. CihaNet remove o problema de mascaramento de bordos ao realizar uma troca, formando e executando relações mais profundas entre as identidades de origem e destino, significando o fim das 'bordas óbvias' e outros glitches de superposição que ocorrem em abordagens tradicionais de deepfakes. Fonte: https://mitchellx.github.io/#video

Vídeo completo disponível ao final deste artigo. Nesta amostra de um vídeo nos materiais suplementares fornecidos por um dos autores do novo artigo, o rosto de Scarlett Johansson é transferido para o vídeo de origem. CihaNet remove o problema de mascaramento de bordos ao realizar uma troca, formando e executando relações mais profundas entre as identidades de origem e destino, significando o fim das ‘bordas óbvias’ e outros glitches de superposição que ocorrem em abordagens tradicionais de deepfakes. Fonte: Fonte: https://mitchellx.github.io/#video

A nova abordagem remove a necessidade de ‘colar’ a identidade transplantada de forma brusca no vídeo de destino, o que frequentemente leva a artefatos que aparecem onde a face falsa termina e a face real subjacente começa. Em vez disso, ‘mapas de alucinação’ são usados para realizar uma mistura mais profunda de facetas visuais, porque o sistema separa a identidade do contexto de forma mais eficaz do que os métodos atuais, e portanto pode mesclar a identidade de destino em um nível mais profundo.

Do artigo. As transformações CihaNet são facilitadas por meio de mapas de alucinação (linha inferior). O sistema usa informações de contexto (ou seja, direção do rosto, cabelo, óculos e outras oclusões, etc.) inteiramente da imagem na qual a nova identidade será superposta, e informações de identidade facial inteiramente da pessoa que será inserida na imagem. Essa capacidade de separar o rosto do contexto é fundamental para o sucesso do sistema. Fonte: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Efetivamente, o novo mapa de alucinação fornece um contexto mais completo para a troca, em vez das máscaras rígidas que frequentemente exigem curação extensiva (e, no caso do DeepFaceLab, treinamento separado) enquanto oferecem flexibilidade limitada em termos de incorporação real das duas identidades.

De amostras fornecidas nos materiais suplementares, usando os conjuntos de dados FFHQ e Celeb-A HQ, em VGGFace e Forensics++. As duas primeiras colunas mostram as imagens aleatoriamente selecionadas (reais) para serem trocadas. As quatro colunas seguintes mostram os resultados da troca usando os quatro métodos mais eficazes atualmente disponíveis, enquanto a última coluna mostra o resultado do CihaNet. O repositório FaceSwap foi usado, em vez do mais popular DeepFaceLab, desde que ambos os projetos são bifurcações do código original de 2017 do Deepfakes no GitHub. Embora cada projeto tenha adicionado modelos, técnicas, interfaces de usuário diversificadas e ferramentas suplementares desde então, o código subjacente que torna os deepfakes possíveis nunca mudou e permanece comum a ambos. Fonte: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

O artigo, intitulado One-stage Context and Identity Hallucination Network, é autorizado por pesquisadores afiliados ao JD AI Research e à Universidade de Massachusetts Amherst, e foi apoiado pelo Programa Nacional de P&D da China sob o número de concessão 2020AAA0103800. Foi apresentado na 29ª Conferência Internacional de Multimídia da ACM, nos dias 20 a 24 de outubro, em Chengdu, China.

Não Há Necessidade de ‘Face-On’ Paridade

Tanto o software de deepfake mais popular atual, DeepFaceLab, quanto o fork concorrente FaceSwap, realizam fluxos de trabalho tortuosos e frequentemente curados manualmente para identificar em que direção um rosto está inclinado, quais obstáculos estão no caminho que devem ser considerados (novamente, manualmente), e devem lidar com muitos outros impedimentos irritantes (incluindo iluminação) que tornam seu uso longe da experiência ‘point-and-click’ erroneamente retratada na mídia desde o advento dos deepfakes.

Em contraste, o CihaNet não exige que duas imagens estejam enfrentando a câmera diretamente para extrair e explorar informações de identidade úteis de uma única imagem.

Nestes exemplos, uma série de concorrentes de software de deepfake são desafiados com a tarefa de trocar faces que não apenas são dissimilares em identidade, mas que também não estão enfrentando a mesma direção. Software derivado do repositório original de deepfakes (como o muito popular DeepFaceLab e FaceSwap, mostrado acima) não consegue lidar com a disparidade nos ângulos entre as duas imagens a serem trocadas (veja a terceira coluna). Enquanto isso, o CihaNet pode abstrair a identidade corretamente, desde que a ‘pose’ do rosto não é intrinsecamente parte das informações de identidade.

Arquitetura

O projeto CihaNet, de acordo com os autores, foi inspirado na colaboração de 2019 entre a Microsoft Research e a Universidade de Pequim, chamada FaceShifter, embora faça algumas mudanças notáveis e críticas na arquitetura do método mais antigo.

O FaceShifter usa duas redes de Normalização de Instância Adaptativa (AdaIN) para lidar com informações de identidade, que são então transpostas para a imagem de destino por meio de uma máscara, de uma maneira semelhante ao software de deepfake popular atual (e com todas as limitações relacionadas), usando um HEAR-Net adicional (que inclui uma sub-rede treinada separadamente em obstáculos de oclusão – uma camada adicional de complexidade).

Em vez disso, a nova arquitetura usa diretamente essas informações ‘contextuais’ para o processo de transformação, por meio de uma operação de Normalização de Instância Adaptativa em Cascata (C-AdaIN) de dois passos, que fornece consistência de contexto (ou seja, pele do rosto e oclusões) de áreas relevantes para a identidade.

A segunda sub-rede crucial para o sistema é chamada de Bloco de Troca (SwapBlk), que gera um recurso integrado do contexto da imagem de referência e das informações de ‘identidade’ incorporadas da imagem de origem, contornando as várias etapas necessárias para realizar isso por meios convencionais.

Para ajudar a distinguir entre contexto e identidade, um mapa de alucinação é gerado para cada nível, que atua como uma máscara de segmentação suave, e age em uma gama mais ampla de recursos para essa parte crítica do processo de deepfake.

À medida que o valor do mapa de alucinação (mostrado à direita) aumenta, um caminho mais claro entre as identidades emerge.

Dessa forma, o processo de troca é realizado em uma única etapa e sem pós-processamento.

Dados e Testes

Para testar o sistema, os pesquisadores treinaram quatro modelos em dois conjuntos de dados de imagens populares e variados – CelebA-HQ e o conjunto de dados Flickr-Faces-HQ da NVIDIA (FFHQ), cada um contendo 30.000 e 70.000 imagens, respectivamente.

Nenhuma poda ou filtragem foi realizada nesses conjuntos de dados básicos. Em cada caso, os pesquisadores treinaram a totalidade de cada conjunto de dados no único GPU Tesla por três dias, com uma taxa de aprendizado de 0,0002 no otimizador Adam.

Em seguida, renderizaram uma série de trocas aleatórias entre as milhares de personalidades apresentadas nos conjuntos de dados, sem considerar se as faces eram semelhantes ou até mesmo combinadas por gênero, e compararam os resultados do CihaNet com a saída de quatro frameworks de deepfake líderes: FaceSwap (que atua como o mais popular DeepFaceLab, desde que compartilha uma base de código no repositório original de 2017 que trouxe os deepfakes ao mundo); o mencionado FaceShifter; FSGAN; e SimSwap.

Ao comparar os resultados por meio de VGG-Face, FFHQ, CelebA-HQ e FaceForensics++, os autores encontraram que o novo modelo superou todos os modelos anteriores, como indicado na tabela abaixo.

As três métricas usadas na avaliação dos resultados foram Similaridade Estrutural (SSIM), erro de estimação de pose e precisão de recuperação de ID, que é calculada com base no percentual de pares recuperados com sucesso.

Os pesquisadores defendem que o CihaNet representa uma abordagem superior em termos de resultados qualitativos e um avanço notável no estado da arte atual em tecnologias de deepfakes, removendo a carga de arquiteturas e metodologias de mascaramento extensivas e laboriosas, e alcançando uma separação mais útil e ação entre identidade e contexto.

Veja abaixo para ver mais exemplos de vídeo da nova técnica. Você pode encontrar o vídeo completo aqui.

De materiais suplementares para o novo artigo, o CihaNet realiza trocas de faces em várias identidades. Fonte: https://mitchellx.github.io/#video

Related Topics:China deepfake DeepFakes research

Martin Anderson

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.

Unite.AI

Um Novo e Mais Simples Método de Deepfake Que Supera as Abordagens Anteriores

Não Há Necessidade de ‘Face-On’ Paridade

Arquitetura

Dados e Testes

You may like