Connect with us

Inteligência artificial

Novo Método de Deepfake Resolve o Problema do ‘Hospedeiro Facial’

mm

Apesar de vários anos de hiperbólia midiática sobre o potencial das imagens de deepfake para minar nossa longa crença na autenticidade das filmagens de vídeo, todos os métodos atualmente populares dependem de encontrar ‘hospedeiros faciais’ que sejam amplamente semelhantes em forma ao rosto alvo.

Onde a filmagem original apresenta um rosto largo, mas o sujeito alvo tem um rosto estreito, os resultados sempre foram problemáticos, porque tal transferência envolve cortar parte do rosto original e reconstruir o plano de fundo agora exposto. Atualmente, pacotes como DeepFaceLab e FaceSwap são capazes de produzir resultados limitados quando a configuração é revertida (estreito > largo), mas não têm recursos para lidar convincentemente com esse cenário.

Agora, uma colaboração entre a Tencent e a Universidade de Xiamen, na China, desenvolveu uma nova abordagem, intitulada HifiFace, projetada para sanar essa deficiência.

Duas HifiFace deepfakes, a primeira de Anne Hathaway, onde uma boa semelhança é obtida apesar da forma do rosto do hospedeiro ser incompatível. HifiFace também se sai bem em alvos com óculos, tradicionalmente um obstáculo nos deepfakes.

Duas HifiFace deepfakes, a primeira de Anne Hathaway, onde uma boa semelhança é obtida apesar da forma do rosto do hospedeiro ser incompatível. HifiFace também se sai bem em alvos com óculos, tradicionalmente um obstáculo nos deepfakes. Fonte: https://arxiv.org/pdf/2106.09965.pdf

Reconstrução de um Rosto de Deepfake

Abordagens anteriores, como o Subject Agnostic Face Swapping and Reenactment (FSGAN) de 2019, dependiam de 3DMM fitting (3D Morphable Models) ou outras metodologias baseadas no reconhecimento de marcos faciais ou transformação, onde os lineamentos faciais do rosto a ser “sobrescrito” ditam basicamente os limites da troca:

Detecção de marcos faciais 3DMM.

Detecção de marcos faciais 3DMM. Fonte: https://github.com/Yinghao-Li/3DMM-fitting

Embora métodos concorrentes tenham se baseado em recursos derivados de redes de reconhecimento facial, esses são principalmente destinados a reconstituir a textura em vez da estrutura, e produzem um efeito “mask-like” em casos onde o rosto do hospedeiro não é totalmente compatível (i.e., os limites e forma da linha do cabelo, mandíbula e maçãs do rosto).

Para resolver essas questões, os pesquisadores chineses, baseados no Media Analytics and Computing Lab do Departamento de Inteligência Artificial da universidade, desenvolveram uma rede de ponta a ponta que regressa os coeficientes do rosto alvo e do rosto de origem usando um modelo de reconstrução 3D, que é então re-combinado como informação de forma, e concatenado com informações de vetor de identidade de uma rede de reconhecimento facial.

Esses dados geométricos são então alimentados em um modelo codificador-decodificador como informações estruturais, mesclando com a expressão e disposição do rosto alvo, que são aproveitadas como fontes auxiliares para transferência precisa.

Fusão Facial Semântica

Além disso, HifiFace inclui um componente de Fusão Facial Semântica (SFF), que usa um recurso de baixo nível no codificador para preservar informações espaciais e de textura, sem sacrificar a identidade da imagem alvo. Recursos do codificador e decodificador são integrados em uma máscara adaptativa aprendida, e as informações de fundo são mescladas na saída por meio da máscara facial aprendida.

HifiFace em ação.

HifiFace em ação. Fonte: https://johann.wang/HifiFace/

Dessa forma, HifiFace se afasta do uso de limites faciais de material original como um limite rígido, usando segmentação semântica facial dilatada, onde o modelo pode realizar uma fusão adaptativa melhor nas bordas do rosto.

Duas abordagens anteriores (topo e inferior esquerdo), e a nova arquitetura HifiFace, que consiste em um codificador, decodificador, extrator de identidade consciente de forma 3D e módulo SFF.

Duas abordagens anteriores (topo e inferior esquerdo), e a nova arquitetura HifiFace, que consiste em um codificador, decodificador, extrator de identidade consciente de forma 3D e módulo SFF.

Em uma comparação com métodos anteriores FSGAN, SimSwap e FaceShifter, HifiFace demonstra uma reconstrução superior da forma facial, pois não está aproximando elementos “fantasmas” onde as delimitações faciais confundem o mapeamento identidade > identidade, mas definitivamente os reconstruindo.

Testes

Os pesquisadores implementaram o sistema usando os conjuntos de dados VGGFace2 e DeepGlint Asian-Celeb. Rostos foram alinhados via 5 marcos externos e recortados para 256×256 pixels. Uma rede de melhoria de retrato também foi usada para gerar uma versão de 512×512 pixels, para um modelo de alta resolução adicional. O modelo foi treinado sob Adam.

Embora FaceShifter preserve a identidade bem, não pode lidar com questões como expressão, cor e oclusão tão efetivamente quanto HifiFace, e tem uma estrutura de rede mais complexa. FSGAN tem problemas ao transferir a iluminação da fonte para o alvo.

Os pesquisadores usam FaceForensics++ para comparações quantitativas, amostrando dez frames cada em um lote de vídeos convertidos através dos métodos concorrentes, e encontraram que HifiFace alcançou uma pontuação de recuperação de ID superior. Ao testar uma variedade de outros fatores, como qualidade de imagem, os pesquisadores também encontraram que seu método superou as metodologias rivais.

Os lineamentos faciais de Benedict Cumberbatch são reproduzidos fielmente.

Os lineamentos faciais de Benedict Cumberbatch são reproduzidos fielmente.

O trabalho representa um passo adicional em direção à abstração do material de origem para que seja apenas um modelo grosseiro no qual identidades precisas podem ser transferidas. Alguns dos atuais pacotes de código aberto, incluindo DeepFaceLab, apresentam funcionalidades nascentes para substituição de cabeça completa, mas, como HifiFace, esses não levam em conta o cabelo, e são mais eficazes em “construir” um rosto do que em “esculpir” para combinar com um alvo de origem desejado.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.