Connect with us

Por que os Deepfakes Não Podem Convey Subtlety de Emoção no Momento

Inteligência artificial

Por que os Deepfakes Não Podem Convey Subtlety de Emoção no Momento

mm
The Book of Boba Fett - Disney

A estreia de ontem do episódio 6 da série spin-off de Star Wars The Book of Boba Fett parece ter dividido a opinião dos fãs. Recebido com aprovação geral, há uma suposição generalizada nas redes sociais de que a recriação aprimorada de um Mark Hamill rejuvenescido (em comparação com a aparição anterior do personagem no final da temporada 2 de The Mandalorian em 2020) é um resultado direto da Industrial Light and Magic ter contratado o praticante de deepfakes amador Shamook (que had radicalmente melhorado seu trabalho com software de código aberto); e que as renderizações do personagem devem ser uma combinação de tecnologia de deepfake, talvez limpa com CGI.

Atualmente, há uma confirmação limitada disso, embora Shamook tenha dito pouco ao mundo desde que o NDA contratual da ILM foi aplicado. No entanto, o trabalho é uma melhoria extraordinária em relação ao CGI de 2020; exibe alguns dos ‘brilhos’ associados a modelos de deepfake derivados de obras de arquivo; e, em geral, está de acordo com o melhor padrão visual atual para deepfakes.

A outra vertente da opinião dos fãs é que a nova tentativa de ‘Jovem Luke’ tem um conjunto diferente de falhas do que a anterior. Talvez o mais revelador seja a falta de expressividade e emoções sutis e apropriadas nas longas sequências que apresentam a nova recriação de Skywalker são mais típicas de deepfakes do que de CGI; O The Verge descreveu a simulação de Boba Fett em termos de ‘uncanny, blank visage of Mark Hamill’s frozen 1983 face’.

Independentemente das tecnologias por trás da nova recriação da ILM, as transformações de deepfakes têm um problema fundamental com a sutileza da emoção que é difícil de abordar, seja por meio de alterações na arquitetura ou melhorando o material de treinamento de origem, e que é normalmente evitado pelas escolhas cuidadosas que os criadores de deepfakes virais fazem ao selecionar um vídeo de destino.

Limitações de Alinhamento Facial

Os dois repositórios de código aberto de deepfakes mais comumente usados são DeepFaceLab (DFL) e FaceSwap, ambos derivados do código-fonte anônimo e controverso de 2017, com o DFL tendo uma enorme vantagem na indústria de efeitos visuais, apesar de sua limitada instrumentalidade.

Cada um desses pacotes é inicialmente responsável por extrair marcos faciais dos rostos que ele foi capaz de identificar no material de origem (ou seja, quadros de vídeos e/ou imagens estáticas).

Adrian Bulat's Facial Alignment Network (FAN) em ação, do repositório oficial. Fonte: https://github.com/1adrianb/face-alignment

A Rede de Alinhamento Facial (FAN) em ação, do repositório oficial. Fonte: https://github.com/1adrianb/face-alignment

Ambos o DFL e o FaceSwap usam a Rede de Alinhamento Facial (FAN) biblioteca. A FAN pode criar marcos 2D e 3D (veja a imagem acima) para rostos extraídos. Os marcos 3D podem levar em consideração a orientação percebida do rosto, até perfis extremos e ângulos relativamente agudos.

No entanto, é evidente que essas são diretrizes muito rudimentares para conduzir e avaliar pixels:

Do fórum do FaceSwap, um indicador aproximado dos marcos disponíveis para lineamentos faciais. Fonte: https://forum.faceswap.dev/viewtopic.php?f=25&t=27

Do fórum do FaceSwap, um indicador aproximado dos marcos disponíveis para lineamentos faciais. Fonte: https://forum.faceswap.dev/viewtopic.php?f=25&t=27

Os lineamentos básicos do rosto são permitidos: os olhos podem se abrir e fechar, assim como a mandíbula, enquanto configurações básicas da boca (como sorrir, franzir, etc.) podem ser traçadas e adaptadas. O rosto pode girar em qualquer direção até cerca de 200 graus a partir do ponto de vista da câmera.

Além disso, essas são cercas muito cruas para o comportamento dos pixels dentro desses limites e representam as únicas diretrizes faciais matemáticas e precisas em todo o processo de deepfake. O processo de treinamento em si simplesmente compara a forma como os pixels são dispostos dentro ou perto desses limites.

Treinamento no DeepFaceLab. Fonte: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

Treinamento no DeepFaceLab. Fonte: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

Como não há provisão para topologia de sub-partes do rosto (convexidade e concavidade das bochechas, detalhes de envelhecimento, covinhas, etc.), não é sequer possível tentar corresponder a esses ‘sutis’ sub-recursos entre uma fonte (‘rosto que você deseja escrever sobre’) e uma destino (‘rosto que você deseja colar’) identidade.

Fazendo o Melhor com Dados Limitados

Obter dados correspondentes entre duas identidades para fins de treinamento de deepfakes não é fácil. Quanto mais incomum o ângulo que você precisa corresponder, mais você pode precisar comprometer se esse (raro) ângulo de correspondência entre as identidades A e B realmente apresenta a mesma expressão.

Perto, mas não exatamente uma correspondência.

Perto, mas não exatamente uma correspondência.

Nesse exemplo, as duas identidades são razoavelmente semelhantes em disposição, mas isso é o mais perto que esse conjunto de dados pode chegar a uma correspondência exata.

Diferenças claras permanecem: o ângulo e a lente não correspondem exatamente, e nem a iluminação; o sujeito A não tem os olhos completamente fechados, ao contrário do sujeito B; a qualidade da imagem e a compressão são piores no sujeito A; e de alguma forma o sujeito B parece muito mais feliz do que o sujeito A.

Mas, você sabe, é tudo o que temos, então vamos ter que treinar com isso de qualquer forma.

Porque essa correspondência A><B tem tantos elementos incomuns, você pode ter certeza de que há poucas, se houver, pairings semelhantes no conjunto. Portanto, o treinamento vai subajustar ou sobreajustar isso.

Subajuste: Se essa correspondência for uma minoria (ou seja, o conjunto de dados pai é bastante grande e não apresenta frequentemente as características dessas duas fotos), não vai receber muito tempo de treinamento em comparação com pairings mais ‘populares’ (ou seja, fáceis/neutros). Consequentemente, esse ângulo/expressão não vai ser bem representado em um deepfake feito com o modelo treinado.

Sobreajuste: Em desespero por dados de correspondência escassos para pairings raros, os criadores de deepfakes às vezes duplicam a correspondência muitas vezes no conjunto de dados, para que obtenha uma melhor chance de se tornar um recurso no modelo final. Isso vai levar a um sobreajuste, onde os vídeos de deepfake feitos com o modelo são prováveis de repetir pedantemente as correspondências que são evidentes entre as duas fotos, como a extensão diferente com que os olhos estão fechados.

Na imagem abaixo, vemos Vladimir Putin sendo treinado no DeepFaceLab para realizar uma troca em Kevin Spacey. Aqui, o treinamento é relativamente avançado em 160.000 iterações.

Fonte: https://i.imgur.com/OdXHLhU.jpg (originalmente de um site que não posso vincular aqui).

Fonte: https://i.imgur.com/OdXHLhU.jpg

O observador casual pode argumentar que Putin parece um pouco, bem, espacial do que Spacey nesses testes de troca. Vamos ver o que um programa de reconhecimento de emoções online faz da correspondência de expressões:

Fonte: https://www.noldus.com/facereader/measure-your-emotions

Fonte: https://www.noldus.com/facereader/measure-your-emotions

De acordo com esse oráculo, que analisa uma topografia facial muito mais detalhada do que o DFL e o FaceSwap, Spacey é menos zangado, desgostoso e desdenhoso do que o deepfake de Putin resultante nessa correspondência.

As expressões desiguais vêm como parte de um pacote entrelaçado, pois os aplicativos de deepfakes populares não têm capacidade de registrar ou corresponder expressões ou emoções, exceto tacitamente, como um mapeamento de pixel para pixel.

Para nós, as diferenças são enormes. Aprendemos a ler expressões faciais como uma técnica básica de sobrevivência desde os primeiros anos e continuamos a confiar nessa habilidade na idade adulta para fins de integração social e progressão, acasalamento e como um quadro de avaliação de ameaças contínuo. Como estamos tão sensibilizados para micro-expressões, as tecnologias de deepfake eventualmente precisarão levar isso em conta.

Contra a Maré

Embora a revolução dos deepfakes tenha trazido a promessa de inserir ‘clássicos’ astros de cinema em filmes e séries modernos, a IA não pode voltar no tempo e filmar seus trabalhos clássicos em uma definição e qualidade mais compatíveis, o que é fundamental para esse caso de uso.

Com a suposição (e para nossos propósitos, não importa se está errada) de que a recriação de Hamill em Boba Fett foi largamente o trabalho de um modelo de deepfake treinado, o conjunto de dados para o modelo precisaria explorar imagens do período perto da linha do tempo do show (ou seja, Hamill como um jovem de trinta anos por volta do tempo da produção para Return of the Jedi, 1981-83).

O filme foi filmado em Eastman Color Negative 250T 5293/7293 estoque, um emulsionamento de 250ASA considerado de grão médio a fino na época, mas foi superado em clareza, gama de cores e fidelidade mesmo antes do final da década de 1980. É um estoque de sua época, e o escopo operático de Jedi permitiu poucos close-ups, mesmo para os atores principais, tornando questões de grão ainda mais críticas, desde que os rostos de origem ocupam apenas uma parte do quadro.

Uma variedade de cenas de Hamill em Return of the Jedi (1983).

Uma variedade de cenas de Hamill em Return of the Jedi (1983).

Além disso, muitas das imagens com efeitos visuais que apresentam Hamill teriam sido executadas por uma impressora óptica, aumentando o grão do filme. No entanto, o acesso aos arquivos da Lucasfilm – que presumivelmente cuidou bem dos negativos mestres e poderia oferecer horas de imagens brutos adicionais – poderia superar esse problema.

Às vezes é possível cobrir uma variedade de anos da produção de um ator para aumentar e diversificar o conjunto de dados de deepfakes. No caso de Hamill, os criadores de deepfakes são limitados por sua mudança de aparência após um acidente de carro em 1977, e o fato de que ele quase imediatamente começou sua segunda carreira como um ator de voz renomado após Jedi, tornando o material de origem relativamente escasso.

Faixa Limitada de Emoções?

Se você precisar que seu ator de deepfake mastigue o cenário, você precisará de imagens de origem que contenham uma faixa anormalmente ampla de expressões faciais. Pode ser que as únicas imagens de origem apropriadas para a idade não apresentem muitas dessas expressões.

Por exemplo, na época em que a história de Return of the Jedi se desenvolveu, o personagem de Hamill havia largamente dominado suas emoções, um desenvolvimento absolutamente central à mitologia da franquia original. Portanto, se você fizer um modelo de deepfake de Hamill a partir de dados de Jedi, você vai ter que trabalhar com a faixa mais limitada de emoções e postura facial incomum que o papel de Hamill exigia dele naquela época, em comparação com suas entradas anteriores na franquia.

Mesmo considerando que há momentos em Return of the Jedi em que o personagem de Skywalker está sob estresse e poderia fornecer material para uma faixa maior de expressões, o material facial nesses cenários é, no entanto, fugaz e sujeito ao blur de movimento e edição rápida típica de cenas de ação; então os dados são bastante desequilibrados.

Generalização: A Mescla de Emoções

Se a recriação de Skywalker em Boba Fett for de fato um deepfake, a falta de variedade de expressão que foi apontada contra ele por algumas partes não seria inteiramente devido ao material de origem limitado. O processo de treinamento do codificador-decodificador de deepfakes está buscando um modelo generalizado que distile com sucesso recursos centrais de milhares de imagens e possa pelo menos tentar deepfake um ângulo que faltava ou era raro no conjunto de dados.

Se não fosse por essa flexibilidade, uma arquitetura de deepfake seria simplesmente copiando e colando morfologias básicas em uma base por quadro, sem considerar adaptação temporal ou contexto.

No entanto, o doloroso trade-off por essa versatilidade é que a fidelidade da expressão provavelmente será uma vítima do processo, e quaisquer expressões que sejam ‘sutis’ podem não ser as certas. Todos nós jogamos nossos rostos como orquestras de 100 peças e estamos bem equipados para fazer isso, enquanto o software de deepfake está, de fato, faltando pelo menos a seção de cordas.

Disparidade de Afeto em Expressões

Movimentos faciais e seus efeitos sobre nós não são uma linguagem uniforme em todos os rostos; a sobrancelha levantada que parece insouciantemente em Roger Moore pode parecer menos sofisticada em Seth Rogan, enquanto o encanto sedutor de Marilyn Monroe pode se traduzir em uma emoção mais negativa se deepfaked em uma pessoa cujo papel mais disponível é ‘zangado’ ou ‘descontente’ (como o personagem de Aubrey Plaza em sete temporadas de Parks and Recreation).

Portanto, a equivalência pixel a pixel entre conjuntos de rostos A/B não é necessariamente útil a esse respeito; mas é tudo o que está disponível no software de deepfakes de código aberto de ponta.

O que é, de fato, necessário é um quadro de deepfake que não apenas possa reconhecer expressões e inferir emoções, mas tenha a capacidade de incorporar conceitos de alto nível, como zangado, sedutor, entediado, cansado, etc., e categorizar essas emoções e expressões relacionadas em cada uma das duas identidades de conjunto de rostos, em vez de examinar e replicar a disposição de uma boca ou uma pálpebra.

 

 

Publicado pela primeira vez em 3 de fevereiro de 2022. Atualizado às 19h47 EET, atribuição de nome incorreta.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.