Connect with us

Ângulo de Anderson

Adicionando Diálogo a Vídeos Reais com IA

mm
Montage of subjects from the demonstration video-clips for FacEDiT. Source: https://facedit.github.io/

Um novo framework de IA pode reescrever, remover ou adicionar as palavras de uma pessoa em um vídeo sem refilmagem, em um sistema de ponta a ponta.

 

Há três anos, a internet seria chocada por qualquer um dos 20-30 frameworks de vídeo de IA que são publicados em portais acadêmicos semanalmente; como é, essa popular linha de pesquisa agora se tornou tão prolífica a ponto de quase constituir outro ramo de ‘IA Slop’, e eu cubro muito menos dessas liberações do que faria há dois ou três anos.

No entanto, uma liberação atual nessa linha chamou minha atenção: um sistema integrado que pode intervir em clipes de vídeo reais e interpor novo discurso no vídeo existente (em vez de criar um clipe gerativo inteiro a partir de um rosto ou quadro, o que é muito mais comum).

Nos exemplos abaixo, que editei juntos a partir de uma multidão de vídeos de amostra disponíveis no site do projeto, primeiro vemos o clipe de origem real, e então, abaixo, o discurso de IA imposto no meio do clipe, incluindo síntese de voz e sincronização labial:

Clique para reproduzir. Edição local com costura – uma das várias modalidades oferecidas pelo FacEDiT. Por favor, consulte o site de origem para melhor resolução. Fonte – https://facedit.github.io/

Essa abordagem é uma das três desenvolvidas para o novo método, esta intitulada ‘edição local com costura’, e a que mais interessa aos autores (bem como a mim). Basicamente, o clipe é estendido usando um dos quadros do meio como ponto de partida para a nova interpretação da IA, e seu quadro real sucessivo como um objetivo que o clipe inserido gerativo deve tentar corresponder. Nos clipes vistos acima, esses quadros ‘semente’ e ‘alvo’ são representados pelo vídeo superior parando, enquanto o vídeo editado abaixo fornece preenchimento gerativo.

Os autores enquadram essa abordagem de síntese facial e vocal como o primeiro método totalmente integrado de ponta a ponta para edições de vídeo de IA desse tipo, observando o potencial de um framework totalmente desenvolvido como este para a produção de TV e cinema:

‘Os cineastas e produtores de mídia frequentemente precisam revisar partes específicas de vídeos gravados – talvez uma palavra tenha sido mal pronunciada ou o roteiro tenha mudado após a filmagem. Por exemplo, na cena icônica de Titanic (1997) onde Rose diz, “I’ll never let go, Jack,” o diretor pode mais tarde decidir que deve ser “I’ll never forget you, Jack”.

‘Tradicionalmente, essas alterações exigem a refilmagem de toda a cena, o que é caro e demorado. A síntese de face falante oferece uma alternativa prática, modificando automaticamente o movimento facial para corresponder ao discurso revisado, eliminando a necessidade de refilmagens.’

Embora as interposições de IA desse tipo possam enfrentar resistência cultural ou da indústria, elas também podem constituir um novo tipo de funcionalidade em sistemas e conjuntos de ferramentas de VFX liderados por humanos. De qualquer forma, por enquanto, os desafios são estritamente técnicos.

Além de estender um clipe por meio de diálogo de IA adicional, o novo sistema também pode alterar discurso existente:

Clique para reproduzir. Um exemplo de alteração do discurso existente em vez de interpor discurso adicional. Por favor, consulte o site de origem para melhor resolução.

Estado da Arte

Atualmente, não existem sistemas de ponta a ponta que ofereçam essa capacidade de síntese; embora uma crescente número de plataformas de IA gerativas, como a série Veo da Google, possam gerar áudio, e diversos outros frameworks possam criar áudio deepfake, atualmente é necessário criar um pipeline bastante envolvido de arquiteturas e truques diversificados para interferir em footagens reais da maneira que o novo sistema – intitulado FacEDiT – pode realizar.

O sistema usa Transformadores de Difusão (DiT) em combinação com Flow Matching para criar movimentos faciais condicionados a movimentos e conteúdo de áudio de surround (contextual). O sistema aproveita pacotes populares existentes que lidam com reconstrução facial, incluindo LivePortrait (recentemente assumido pela Kling).

Além desse método, dado que a abordagem dos autores é a primeira a integrar esses desafios em uma solução única, os autores criaram um novo benchmark chamado FacEDiTBench, juntamente com várias métricas de avaliação completamente novas apropriadas a essa tarefa específica.

O novo trabalho é intitulado FacEDiT: Edição e Geração de Face Falante Unificada via Preenchimento de Movimento Facial, e vem de quatro pesquisadores de universidades da Coreia do Sul, incluindo a Universidade de Ciência e Tecnologia de Pohang (POSTECH), o Instituto de Ciência e Tecnologia Avançado da Coreia (KAIST) e a Universidade do Texas em Austin.

Método

FacEDiT é treinado para reconstruir movimento facial aprendendo a preencher partes ausentes do desempenho original de um ator, com base no movimento de surround e no áudio de fala. Como mostrado no esquema abaixo, esse processo permite que o modelo atue como um preenchimento de lacunas durante o treinamento, prevendo movimentos faciais que correspondam à voz enquanto permanecem consistentes com o vídeo original:

Visão geral do sistema FacEDiT, mostrando como o movimento facial é aprendido por meio de preenchimento auto-supervisionado durante o treinamento, guiado por discurso editado na inferência e, finalmente, renderizado de volta ao vídeo reutilizando a aparência da filmagem original enquanto substitui apenas o movimento visado.. Fonte - https://arxiv.org/pdf/2512.14056

Visão geral do sistema FacEDiT, mostrando como o movimento facial é aprendido por meio de preenchimento auto-supervisionado durante o treinamento, guiado por discurso editado na inferência e, finalmente, renderizado de volta ao vídeo reutilizando a aparência da filmagem original enquanto substitui apenas o movimento visado. Fonte

No momento da inferência, a mesma arquitetura suporta dois saídas diferentes, dependendo de quanto do vídeo é mascarado: edições parciais, onde apenas uma frase é alterada e o resto é deixado intacto; ou geração de frase completa, onde novo movimento é sintetizado inteiramente do zero.

O modelo é treinado por meio de flow matching, que trata edições de vídeo como uma espécie de caminho entre duas versões de movimento facial.

Em vez de aprender a adivinhar como uma face editada deve parecer do zero, o flow matching aprende a se mover gradualmente e suavemente entre um placeholder barulhento e o movimento correto. Para facilitar isso, o sistema representa o movimento facial como um conjunto compacto de números extraídos de cada quadro usando uma versão do sistema LivePortrait mencionado anteriormente (ver esquema acima).

Esses vetores de movimento são projetados para descrever expressões e pose de cabeça sem emaranhar identidade, para que as alterações de fala possam ser localizadas sem afetar a aparência geral da pessoa.

Treinamento do FacEDiT

Para treinar o FacEDiT, cada clipe de vídeo foi dividido em uma série de instantâneos de movimento facial, e cada quadro foi emparelhado com o chunk correspondente de áudio. Partes aleatórias dos dados de movimento foram então ocultadas, e o modelo foi solicitado a adivinhar como esses movimentos ausentes deveriam parecer, usando tanto a fala quanto o movimento não mascarado ao redor como contexto.

Como as extensões mascaradas e suas posições variam de um exemplo de treinamento para o outro, o modelo aprende gradualmente a lidar com edições internas pequenas e lacunas mais longas, para geração de sequência completa, de acordo com a quantidade de informações que recebe.

O Diffusion Transformer do sistema aprende a recuperar movimento mascarado refinando entradas barulhentas ao longo do tempo. Em vez de alimentar fala e movimento no modelo todos de uma vez, o áudio é inserido em cada bloco de processamento por meio de cross-attention, ajudando o sistema a corresponder movimentos labiais mais precisamente à fala de áudio.

Para preservar a realidade em edições, a atenção é inclinada em direção a quadros vizinhos em vez de toda a linha do tempo, forçando o modelo a se concentrar na continuidade local e prevenindo tremeluzamentos ou saltos de movimento nas bordas de regiões alteradas. Incorporações de posição (que dizem ao modelo onde cada quadro aparece na sequência) ajudam ainda mais o modelo a manter o fluxo temporal natural e o contexto.

Durante o treinamento, o sistema aprende a prever movimento facial ausente reconstruindo extensões mascaradas com base na fala e no movimento não mascarado ao redor. No momento da inferência, essa mesma configuração é reutilizada, mas com as máscaras agora guiadas por edições na fala.

Quando uma palavra ou frase é inserida, removida ou alterada, o sistema localiza a região afetada, mascara-a e regenera o movimento que corresponde ao novo áudio. A geração de sequência completa é tratada como um caso especial, onde a região inteira é mascarada e sintetizada do zero.

Dados e Testes

A espinha dorsal do sistema compreende 22 camadas para o Diffusion Transformer, cada uma com 16 cabeças de atenção e dimensões de alimentação direta de 1024 e 2024px. Recursos de movimento e aparência são extraídos usando componentes congelados do LivePortrait, e fala codificada via WavLM e modificada usando VoiceCraft.

Uma camada de projeção dedicada mapeia os recursos de fala de 786 dimensões para o espaço latente do DiT, com apenas o DiT e os módulos de projeção treinados do zero.

O treinamento foi realizado sob o otimizador AdamW em uma taxa de aprendizado alvo de 1e‑4, por um milhão de etapas, em dois GPUs A6000 (cada um com 48GB de VRAM), em um tamanho de lote total de oito.

FacEDiTBench

O conjunto de dados FacEDiTBench contém 250 exemplos, cada um com um clipe de vídeo da fala original e editada, e as transcrições para ambas. Os vídeos vêm de três fontes, com 100 clipes do HDTF, 100 do Hallo3, e 50 do CelebV-Dub. Cada um foi verificado manualmente para confirmar que tanto o áudio quanto o vídeo estavam claros o suficiente para avaliação.

O GPT‑4o foi usado para revisar cada transcrição para criar edições gramaticalmente válidas. Essas transcrições revisadas, juntamente com a fala original, foram passadas para o VoiceCraft para produzir novo áudio; e em cada etapa, tanto a transcrição quanto a fala gerada foram revisadas manualmente para garantir a qualidade.

Cada amostra foi rotulada com o tipo de edição, o momento da alteração e o comprimento da extensão modificada, e as edições foram classificadas como inserções, exclusões ou substituições. O número de palavras alteradas variou de edições curtas de 1 a 3 palavras, edições médias de 4 a 6 palavras e edições mais longas de 7 a 10 palavras.

Três métricas personalizadas foram definidas para avaliar a qualidade da edição. Continuidade fotométrica, para medir como bem a iluminação e a cor de um segmento editado se misturam com o vídeo circundante, comparando diferenças de nível de pixel nas bordas; continuidade de movimento, para avaliar a consistência do movimento facial, medindo mudanças de fluxo óptico em quadros editados e não editados; e preservação de identidade, para estimar se a aparência do sujeito permanece consistente após a edição, comparando incorporações faciais das sequências original e gerada usando o modelo de reconhecimento facial ArcFace.

Testes

O modelo de teste foi treinado em material dos três conjuntos de dados mencionados acima, totalizando cerca de 200 horas de conteúdo de vídeo, incluindo vlogs e filmes, bem como vídeos do YouTube de alta resolução.

Para avaliar a edição de face falante, o FacEDiTBench foi usado, além da parte de teste do HDTF, que se tornou um padrão de referência para essa série de tarefas.

Como não havia sistemas diretamente comparáveis capazes de encapsular essa funcionalidade de ponta a ponta, os autores escolheram uma variedade de frameworks que reproduziam pelo menos parte da funcionalidade alvo e que poderiam operar como linhas de base; nomeadamente, KeyFace; EchoMimic; EchoMimicV2; Hallo; Hallo2; Hallo3; V-Express; AniPortrait; e SadTalker.

Várias métricas estabelecidas também foram usadas para avaliar a qualidade da geração e edição, com a precisão de sincronização labial avaliada por meio de SyncNet, relatando tanto o erro absoluto entre movimentos labiais e áudio (LSE-D) quanto uma pontuação de confiança (LSE-C); Fréchet Video Distance (FVD) quantificando o quão realista o vídeo parecia em geral; e Learned Perceptual Similarity Metrics (LPIPS), medindo a similaridade perceptual entre quadros gerados e originais.

Para edição, todas as métricas, exceto LPIPS, foram aplicadas apenas ao segmento modificado; para geração, o vídeo inteiro foi avaliado, com a continuidade de fronteira excluída.

Cada modelo foi solicitado a sintetizar um segmento de vídeo correspondente, que foi então cortado no clipe original (os pesquisadores observam que esse método frequentemente introduziu descontinuidades visíveis, onde a seção editada encontrava a filmagem circundante). Uma segunda abordagem também foi testada, na qual o vídeo inteiro foi regenerado a partir do áudio modificado – mas isso inevitavelmente sobrescreveu regiões não editadas e falhou em preservar o desempenho original:

Comparação do desempenho de edição em sistemas originalmente projetados para geração de face falante, com o FacEDiT superando todas as linhas de base em todas as métricas, alcançando menor erro de sincronização labial (LSE-D), maior confiança de sincronização (LSE-C), preservação de identidade mais forte (IDSIM), maior realismo perceptual (FVD) e transições mais suaves nas bordas de edição (Pcontinuity, Mcontinuity). Colunas sombreadas em cinza destacam os critérios principais para avaliar a qualidade da borda; valores em negrito e sublinhado indicam os melhores e segundos melhores resultados, respectivamente

Comparação do desempenho de edição em sistemas originalmente projetados para geração de face falante, com o FacEDiT superando todas as linhas de base em todas as métricas, alcançando menor erro de sincronização labial (LSE-D), maior confiança de sincronização (LSE-C), preservação de identidade mais forte (IDSIM), maior realismo perceptual (FVD) e transições mais suaves nas bordas de edição (Pcontinuity, Mcontinuity). Colunas sombreadas em cinza destacam os critérios principais para avaliar a qualidade da borda; valores em negrito e sublinhado indicam os melhores e segundos melhores resultados, respectivamente

Quanto a esses resultados, os autores comentam:

‘[Nosso] modelo supera significativamente os métodos existentes na tarefa de edição. Ele alcança forte continuidade de borda e alta preservação de identidade, demonstrando sua capacidade de manter a consistência temporal e visual durante a edição. Além disso, sua precisão de sincronização labial superior e baixo FVD refletem o realismo do vídeo sintetizado.’

Clique para reproduzir. Resultados, montados por este autor a partir dos vídeos publicados no site do projeto. Por favor, consulte o site de origem para melhor resolução.

Além disso, um estudo humano foi realizado para avaliar a qualidade percebida em ambas a edição e a geração.

Para cada comparação, os participantes visualizaram seis vídeos e os classificaram por qualidade geral, considerando a precisão de sincronização labial, naturalidade e realismo do movimento de cabeça. Nos testes de edição, os participantes também avaliaram a suavidade das transições entre segmentos editados e não editados:

Classificações médias atribuídas pelos avaliadores humanos, onde menor é melhor. Em ambos os casos de edição e geração, os participantes julgaram o quão natural e bem sincronizado cada vídeo parecia. Para edição, eles também avaliaram o quão suave a transição era entre discurso editado e não editado. Números em negrito e sublinhado mostram as duas melhores pontuações.

Classificações médias atribuídas pelos avaliadores humanos, onde menor é melhor. Em ambos os casos de edição e geração, os participantes julgaram o quão natural e bem sincronizado cada vídeo parecia. Para edição, eles também avaliaram o quão suave a transição era entre discurso editado e não editado. Números em negrito e sublinhado indicam as duas melhores pontuações.

No estudo, o FacEDiT foi consistentemente classificado como o melhor por uma grande margem, tanto para a qualidade da edição quanto para a suavidade da transição, também recebendo pontuações fortes no cenário de geração, sugerindo que suas vantagens medidas se traduzem em saídas perceptualmente preferidas.

Devido à falta de espaço, remetemos o leitor para o artigo de origem para mais detalhes sobre estudos de ablação e testes adicionais que foram realizados e relatados no novo trabalho. Na verdade, ofertas de pesquisa prototípicas desse tipo lutam para gerar seções de resultados de testes significativos, pois a própria oferta central é inevitavelmente uma possível linha de base para trabalhos posteriores.

Conclusão

Mesmo para inferência, sistemas como este podem exigir recursos computacionais significativos no momento da inferência, tornando difícil para os usuários downstream – aqui, presumivelmente, lojas de VFX – manter o trabalho local. Portanto, abordagens que possam ser adaptadas a recursos locais realistas sempre serão preferidas por provedores, que estão sob obrigação legal de proteger a filmagem do cliente e a propriedade intelectual em geral.

Isso não é para criticar a nova oferta, que pode muito bem operar perfeitamente sob pesos quantizados ou outras otimizações, e que é a primeira oferta desse tipo a me atrair de volta a essa linha de pesquisa em bastante tempo.

 

Publicado pela primeira vez na quarta-feira, 17 de dezembro de 202. Editado em 20.10 EET, mesmo dia, para adicionar espaço na primeira parte do corpo.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.