Inteligência artificial

O Amanhecer das Emoções Deepfaked

Published September 20, 2021

Updated April 28, 2026

Martin Anderson

Pesquisadores desenvolveram uma nova técnica de aprendizado de máquina para impor arbitrariamente novas emoções em faces em vídeo, adaptando tecnologias existentes que recentemente surgiram como soluções para sincronizar movimentos labiais com dublagem em língua estrangeira.

A pesquisa é uma colaboração igual entre a Northeastern University em Boston e o Media Lab do MIT, e é intitulada Invertable Frowns: Video-to-Video Facial Emotion Translation. Embora os pesquisadores admitam que a qualidade inicial dos resultados deve ser desenvolvida por meio de mais pesquisas, eles afirmam que a técnica, chamada Wav2Lip-Emotion, é a primeira do seu tipo a abordar diretamente a modificação de expressões de vídeo completo por meio de técnicas de rede neural.

O código base foi lançado no GitHub, embora os checkpoints do modelo sejam adicionados ao repositório de código aberto posteriormente, os autores prometem.

À esquerda, um quadro ‘triste’ do vídeo de origem. À direita, um quadro ‘feliz’. No centro estão duas abordagens nascentes para sintetizar emoções alternativas – linha superior: uma face completamente mascarada onde toda a superfície de expressão foi substituída; linha inferior: um método Wav2Lip mais tradicional, que substitui apenas a parte inferior da face. Fonte: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Vídeo Único como Dados de Origem

Em teoria, tais manipulações são obtidas agora por meio de treinamento completo em repositórios de deepfakes tradicionais, como DeepFaceLab ou FaceSwap. No entanto, o fluxo de trabalho padrão envolveria usar uma identidade alternativa para a ‘identidade de destino’, como um ator imitando o destino, cujas próprias expressões seriam transferidas para outra pessoa, juntamente com o resto da performance. Além disso, técnicas de clonagem de voz deepfake geralmente seriam necessárias para completar a ilusão.

Além disso, mudar a expressão de destino1>destino1 em um único vídeo de origem sob esses frameworks populares envolveria mudar os vetores de alinhamento facial de uma maneira que essas arquiteturas não facilitam atualmente.

Wav2Lip-Emotion mantém a sincronização labial do diálogo de áudio do vídeo original enquanto transforma as expressões associadas.

Em vez disso, Wav2Lip-Emotion busca efetivamente ‘copiar e colar’ expressões relacionadas à emoção de uma parte de um vídeo e substituí-las em outros pontos, com uma frugalidade auto-imposta de dados de origem que visa eventualmente oferecer um método de menor esforço para manipulação de expressões.

Modelos offline poderiam ser desenvolvidos posteriormente, treinados em vídeos alternativos do falante, eliminando a necessidade de que um vídeo contenha uma ‘paleta’ de estados de expressão com os quais manipular o vídeo.

Propósitos Potenciais

Os autores sugerem uma série de aplicações para a modificação de expressões, incluindo um filtro de vídeo ao vivo para compensar os efeitos de TEPT e vítimas de paralisia facial. O artigo observa:

‘Indivíduos com ou sem expressões faciais inibidas podem se beneficiar de ajustar suas próprias expressões para se adequar melhor às suas circunstâncias sociais. Alguém pode querer alterar as expressões em vídeos mostrados a eles. Os falantes podem estar gritando um com o outro durante uma conferência de vídeo, mas ainda assim querem coletar o conteúdo em sua troca sem as expressões desagradáveis. Ou um diretor de cinema pode querer aumentar ou diminuir as expressões de um ator.’

Desde que a expressão facial é um indicador-chave e central de intenção, mesmo onde possa se opor às palavras sendo faladas, a capacidade de alterar a expressão também oferece, em certa medida, a capacidade de mudar como a comunicação é recebida.

Trabalho Anterior

O interesse em alteração de expressão de aprendizado de máquina remonta a pelo menos 2012, quando uma colaboração entre a Adobe, Facebook e a Rutgers University propôs um método para alterar expressões usando uma abordagem de reconstrução de geometria 3D baseada em tensor, que laboriosamente impunha uma malha CGI sobre cada quadro de um vídeo de destino para efetuar a mudança.

A pesquisa da Adobe/Facebook de 2012 manipulou expressões impondo mudanças CGI tradicionais em footagens de vídeo. Expressões poderiam ser aumentadas ou suprimidas. Fonte: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Embora os resultados tenham sido promissores, a técnica era laboriosa e os recursos necessários eram consideráveis. Nesse momento, a CGI estava muito à frente das abordagens baseadas em visão computacional para manipulação direta de espaço de recursos e pixels.

Mais relacionado ao novo artigo é o MEAD, um conjunto de dados e modelo de geração de expressões lançado em 2020, capaz de gerar vídeos de ‘cabeça falante’, embora sem o nível de sofisticação que é potencialmente obtido por meio da modificação direta do vídeo de origem.

Geração de expressões com o MEAD de 2020, uma colaboração entre a SenseTime Research, a Carnegie Mellon e três universidades chinesas. Fonte: https://wywu.github.io/projects/MEAD/MEAD.html

Em 2018, outro artigo, intitulado GANimation: Animação Facial Anatomicamente Consciente a Partir de uma Imagem Única, surgiu como uma colaboração de pesquisa acadêmica EUA/Espanha, e usou Redes Adversárias Generativas para aumentar ou mudar expressões em imagens estáticas apenas.

Mudando expressões em imagens estáticas com GANimation. Fonte: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

Em vez disso, o novo projeto é baseado no Wav2Lip, que ganhou publicidade em 2020 por oferecer um método potencial para re-sincronizar o movimento labial para acomodar entrada de fala ou canção novas que nunca estiveram presentes no vídeo original.

A arquitetura original do Wav2Lip foi treinada em um corpus de frases faladas dos arquivos da BBC. Para adaptar o Wav2Lip à tarefa de alteração de expressões, os pesquisadores ‘afinaram’ a arquitetura no conjunto de dados MEAD mencionado acima.

O MEAD consiste em 40 horas de vídeo com 60 atores lendo a mesma frase enquanto performam uma variedade de expressões faciais. Os atores são de 15 países diferentes e oferecem uma gama de características internacionais destinadas a ajudar o projeto (e projetos derivados) a produzir síntese de expressões aplicáveis e bem generalizadas.

Na época da pesquisa, o MEAD havia lançado apenas a primeira parte do conjunto de dados, com 47 indivíduos performando expressões como ‘zangado’, ‘desgosto’, ‘medo’, ‘desdém’, ‘feliz’, ‘triste’ e ‘surpresa’. Nessa primeira incursão em uma nova abordagem, os pesquisadores limitaram o escopo do projeto a superpor ou alterar as emoções percebidas ‘feliz’ e ‘triste’, pois essas são as mais facilmente reconhecidas.

Método e Resultados

A arquitetura original do Wav2Lip substitui apenas a seção inferior da face, enquanto o Wav2Lip-Emotion também experimenta com uma máscara de substituição facial completa e síntese de expressões. Portanto, foi necessário que os pesquisadores modificassem adicionalmente os métodos de avaliação incorporados, pois esses não foram projetados para uma configuração de face completa.

Os autores melhoram o código original retenendo a entrada de áudio original, mantendo a consistência do movimento labial.

O elemento gerador apresenta um codificador de identidade, codificador de fala e decodificador de face, de acordo com o trabalho anterior. O elemento de fala é codificado adicionalmente como convoluções 2D empilhadas que são subsequentemente concatenadas aos seus quadros associados.

Além do elemento gerador, a arquitetura modificada apresenta três componentes principais de discriminadores, visando a qualidade da sincronização labial, um elemento objetivo de emoção e um objetivo de qualidade visual treinado adversariamente.

Para a reconstrução facial completa, o trabalho original do Wav2Lip não continha precedente, e portanto o modelo foi treinado do zero. Para o treinamento de face inferior (meia-máscara), os pesquisadores prosseguiram a partir de checkpoints incluídos no código original do Wav2Lip.

Além da avaliação automática, os pesquisadores usaram opinião fornecida por uma plataforma de serviço semi-automatizada. Os trabalhadores classificaram geralmente a saída com alta pontuação em termos de reconhecimento das emoções superpostas, enquanto apenas relatavam avaliações ‘moderadas’ para a qualidade da imagem.

Os autores sugerem que, além de melhorar a qualidade do vídeo gerado com refinamentos adicionais, iterações futuras do trabalho poderiam abranger uma gama mais ampla de emoções, e que o trabalho poderia ser igualmente aplicado no futuro a dados de origem rotulados ou inferidos automaticamente e conjuntos de dados, levando eventualmente a um sistema autêntico no qual as emoções pudessem ser ajustadas para cima ou para baixo ao arbítrio do usuário, ou eventualmente substituídas por emoções contrastantes em relação ao vídeo de origem.

Related Topics:deepfake emotion emotion recognition emotions research