Ângulo de Anderson

Adicionando Diálogo a Vídeos Reais com IA

mm
Montage of subjects from the demonstration video-clips for FacEDiT. Source: https://facedit.github.io/

Uma nova estrutura de IA pode reescrever, remover ou adicionar as palavras de uma pessoa em um vídeo sem refilmagem, em um sistema de ponta a ponta.

 

Há três anos, a internet seria chocada por qualquer uma das 20-30 estruturas de vídeo alteradas por IA que são publicadas em portais acadêmicos semanalmente; como é, essa popular linha de pesquisa agora se tornou tão prolífica que quase constitui outro ramo de ‘IA Slop’, e eu cubro muito menos dessas liberações do que faria há dois ou três anos.

No entanto, uma liberação atual nessa linha chamou minha atenção: um sistema integrado que pode intervir em clipes de vídeo reais e interpor novo diálogo no vídeo existente (em vez de criar um clipe gerado inteiramente a partir de um rosto ou quadro, o que é muito mais comum).

Nos exemplos abaixo, que editei juntos a partir de uma multitude de vídeos de amostra disponíveis no site do projeto, primeiro vemos o clipe de origem real, e então, abaixo, o diálogo de IA imposto no meio do clipe, incluindo síntese de voz e sincronização labial:

Clique para reproduzir.Edição local com costura – uma das várias modalidades oferecidas pelo FacEDiT. Por favor, consulte o site de origem para melhor resolução.Fonte – https://facedit.github.io/

Essa abordagem é uma das três desenvolvidas para o novo método, intitulada ‘edição local com costura’, e a que mais interessa aos autores (bem como a mim). Basicamente, o clipe é estendido usando um dos quadros do meio como ponto de partida para a interpretação de IA nova, e o quadro real sucessivo como um objetivo que o clipe gerado deve atingir. Nos clipes vistos acima, esses ‘sementes’ e ‘alvos’ de quadros são representados pelo vídeo superior que pausa enquanto o vídeo modificado abaixo fornece preenchimento gerado.

Os autores enquadram essa abordagem de síntese facial e vocal como o primeiro método totalmente integrado de ponta a ponta para edição de vídeo de IA desse tipo, observando o potencial de uma estrutura totalmente desenvolvida como essa para a produção de TV e cinema:

‘Os cineastas e produtores de mídia frequentemente precisam revisar partes específicas de vídeos gravados – talvez uma palavra tenha sido pronunciada incorretamente ou o roteiro tenha mudado após a filmagem. Por exemplo, na cena icônica de Titanic (1997) em que Rose diz, “Eu nunca vou deixar você, Jack,” o diretor pode decidir mais tarde que deve ser “Eu nunca esquecerei você, Jack”.

‘Tradicionalmente, essas alterações exigem a refilmagem de toda a cena, o que é caro e demorado. A síntese de face falante oferece uma alternativa prática, modificando automaticamente a movimentação facial para corresponder ao discurso revisado, eliminando a necessidade de refilmagens.’

Embora as interposições de IA desse tipo possam enfrentar resistência cultural ou de indústria, elas também podem constituir um novo tipo de funcionalidade em sistemas e conjuntos de ferramentas de efeitos visuais liderados por humanos. Em qualquer caso, por enquanto, os desafios são estritamente técnicos.

Além de estender um clipe por meio de diálogo de IA adicional, o novo sistema também pode alterar discurso existente:

Clique para reproduzir.Um exemplo de alteração de discurso existente em vez de interpor discurso adicional. Por favor, consulte o site de origem para melhor resolução.

Estado da Arte

Atualmente, não existem sistemas de ponta a ponta que ofereçam essa capacidade de síntese; embora uma crescente número de plataformas de IA gerativas, como a série Veo da Google, possam gerar áudio, e diversas outras estruturas possam criar áudio deepfake, atualmente é necessário criar uma pipeline bastante envolvida de arquiteturas e truques diversificados para interferir com imagens reais da maneira que o novo sistema – intitulado FacEDiT – pode realizar.

O sistema usa Transformadores de Difusão (DiT) em combinação com Correspondência de Fluxo para criar movimentações faciais condicionadas em movimentações contextuais e conteúdo de áudio de discurso. O sistema aproveita pacotes populares existentes que lidam com reconstrução facial, incluindo LivePortrait (recentemente assumido pela Kling).

Além desse método, dado que a abordagem dos autores é a primeira a integrar esses desafios em uma solução única, os autores criaram um novo benchmark chamado FacEDiTBench, juntamente com várias métricas de avaliação novas e apropriadas para essa tarefa específica.

O novo trabalho é intitulado FacEDiT: Edição e Geração de Face Falante Unificada via Preenchimento de Movimentação Facial, e vem de quatro pesquisadores da Universidade de Ciência e Tecnologia de Pohang (POSTECH), do Instituto de Ciência e Tecnologia Avançado da Coreia (KAIST), e da Universidade do Texas em Austin.

Método

O FacEDiT é treinado para reconstruir a movimentação facial aprendendo a preencher partes faltantes do desempenho original do ator, com base na movimentação circundante e no áudio de discurso. Como mostrado no esquema abaixo, esse processo permite que o modelo atue como um preenchimento de lacunas durante o treinamento, prevendo movimentações faciais que correspondam à voz enquanto permanecem consistentes com o vídeo original:

Visão geral do sistema FacEDiT, mostrando como a movimentação facial é aprendida por meio de preenchimento auto-supervisionado durante o treinamento, guiada por discurso editado na inferência, e finalmente renderizada de volta ao vídeo reutilizando a aparência do vídeo original enquanto substitui apenas a movimentação alvo.. Fonte - https://arxiv.org/pdf/2512.14056

Visão geral do sistema FacEDiT, mostrando como a movimentação facial é aprendida por meio de preenchimento auto-supervisionado durante o treinamento, guiada por discurso editado na inferência, e finalmente renderizada de volta ao vídeo reutilizando a aparência do vídeo original enquanto substitui apenas a movimentação alvo. Fonte

No momento da inferência, a mesma arquitetura suporta dois resultados diferentes, dependendo de quanto do vídeo é mascarado: edições parciais, onde apenas uma frase é alterada e o resto é deixado intacto; ou geração de frase completa, onde nova movimentação é sintetizada inteiramente do zero.

O modelo é treinado por meio de correspondência de fluxo, que trata as edições de vídeo como uma espécie de caminho entre duas versões de movimentação facial.

Em vez de aprender a adivinhar como uma face editada deve parecer do zero, a correspondência de fluxo aprende a se mover gradualmente e suavemente entre um espaço reservado barulhento e a movimentação correta. Para facilitar isso, o sistema representa a movimentação facial como um conjunto compacto de números extraídos de cada quadro usando uma versão do sistema LivePortrait mencionado anteriormente (ver esquema acima).

Esses vetores de movimentação são projetados para descrever expressões e pose de cabeça sem emaranhar identidade, para que as alterações de discurso possam ser localizadas sem afetar a aparência geral da pessoa.

Treinamento do FacEDiT

Para treinar o FacEDiT, cada clipe de vídeo foi dividido em uma série de instantâneos de movimentação facial, e cada quadro foi emparelhado com o chunk correspondente de áudio. Partes aleatórias dos dados de movimentação foram então ocultadas, e o modelo foi solicitado a adivinhar como essas movimentações faltantes deveriam parecer, usando tanto o discurso quanto a movimentação não mascarada circundante como contexto.

Como as extensões mascaradas e suas posições variam de um exemplo de treinamento para o outro, o modelo gradualmente aprende a lidar com edições internas pequenas e lacunas mais longas, para geração de sequência completa, de acordo com a quantidade de informações que é fornecida.

O Transformador de Difusão do sistema aprende a recuperar a movimentação mascarada refinando entradas barulhentas ao longo do tempo. Em vez de alimentar o discurso e a movimentação no modelo ao mesmo tempo, o áudio é inserido em cada bloco de processamento por meio de atenção cruzada, ajudando o sistema a corresponder movimentações labiais mais precisamente ao discurso de áudio.

Para preservar a realidade em edições, a atenção é inclinada em direção a quadros vizinhos em vez de toda a linha do tempo, forçando o modelo a se concentrar na continuidade local e prevenindo tremeluz ou saltos de movimentação nas bordas de regiões alteradas. Incorporações posicionais (que informam o modelo onde cada quadro aparece na sequência) ajudam ainda mais o modelo a manter o fluxo temporal natural e o contexto.

Durante o treinamento, o sistema aprende a prever a movimentação facial faltante reconstruindo extensões mascaradas com base no discurso e na movimentação não mascarada circundante. No momento da inferência, essa mesma configuração é reutilizada, mas com as máscaras agora guiadas por edições no discurso.

Quando uma palavra ou frase é inserida, removida ou alterada, o sistema localiza a região afetada, mascara e regenera a movimentação que corresponde ao novo áudio. A geração de sequência completa é tratada como um caso especial, onde a região inteira é mascarada e sintetizada do zero.

Dados e Testes

A espinha dorsal do sistema compreende 22 camadas para o Transformador de Difusão, cada uma com 16 cabeças de atenção e dimensões de alimentação direta de 1024 e 2024px. Recursos de movimentação e aparência são extraídos usando componentes congelados do LivePortrait, e o discurso é codificado por meio de WavLM e modificado usando VoiceCraft.

Uma camada de projeção dedicada mapeia os recursos de discurso de 786 dimensões para o espaço latente do DiT, com apenas o DiT e os módulos de projeção treinados do zero.

O treinamento foi realizado sob o otimizador AdamW com uma taxa de aprendizado alvo de 1e-4, por um milhão de passos, em dois GPUs A6000 (cada um com 48GB de VRAM), em um tamanho de lote total de oito.

FacEDiTBench

O conjunto de dados FacEDiTBench contém 250 exemplos, cada um com um clipe de vídeo do discurso original e editado, e as transcrições para ambos. Os vídeos vêm de três fontes, com 100 clipes de HDTF, 100 de Hallo3, e 50 de CelebV-Dub. Cada um foi verificado manualmente para confirmar que tanto o áudio quanto o vídeo estavam claros o suficiente para avaliação.

GPT-4o foi usado para revisar cada transcrição para criar edições gramaticalmente válidas. Essas transcrições revisadas, juntamente com o discurso original, foram passadas para o VoiceCraft para produzir novo áudio; e em cada etapa, tanto a transcrição quanto o discurso gerado foram revisados manualmente para garantir a qualidade.

Cada amostra foi rotulada com o tipo de edição, o momento da alteração e o comprimento do span modificado, e as edições foram classificadas como inserções, exclusões ou substituições. O número de palavras alteradas variou de edições curtas de 1 a 3 palavras, edições médias de 4 a 6 palavras e edições mais longas de 7 a 10 palavras.

Três métricas personalizadas foram definidas para avaliar a qualidade da edição. Continuidade fotométrica, para medir como bem a edição se mistura com o vídeo circundante, comparando diferenças de nível de pixel nas bordas; continuidade de movimentação, para avaliar a consistência da movimentação facial, medindo mudanças de fluxo óptico em quadros editados e não editados; e preservação de identidade, para estimar se a aparência do sujeito permanece consistente após a edição, comparando incorporações faciais do original e das sequências geradas usando o modelo de reconhecimento facial ArcFace.

Testes

O modelo de teste foi treinado em material dos três conjuntos de dados mencionados acima, totalizando cerca de 200 horas de conteúdo de vídeo, incluindo vlogs e filmes, bem como vídeos do YouTube de alta resolução.

Para avaliar a edição de face falante, o FacEDiTBench foi usado, além da parte de teste do HDTF, que se tornou um padrão de benchmarking para essa suíte de tarefas.

Como não havia sistemas diretamente comparáveis capazes de encapsular esse tipo de funcionalidade de ponta a ponta, os autores escolheram uma variedade de estruturas que reproduziam pelo menos parte da funcionalidade alvo, e que poderiam operar como linhas de base; nomeadamente, KeyFace; EchoMimic; EchoMimicV2; Hallo; Hallo2; Hallo3; V-Express; AniPortrait; e SadTalker.

Várias métricas estabelecidas também foram usadas para avaliar a qualidade da geração e edição, com a precisão de sincronização labial avaliada por meio de SyncNet, relatando tanto o erro absoluto entre movimentações labiais e áudio (LSE-D) quanto uma pontuação de confiança (LSE-C); Distância de Vídeo de Fréchet (FVD) quantificando o quão realista o vídeo pareceu como um todo; e Métricas de Semelhança Perceptual Aprendidas (LPIPS), medindo a semelhança perceptual entre quadros gerados e originais.

Para edição, todas as métricas, exceto LPIPS, foram aplicadas apenas ao segmento modificado; para geração, o vídeo inteiro foi avaliado, com a continuidade de borda excluída.

Cada modelo foi solicitado a sintetizar um segmento de vídeo correspondente, que foi então mesclado no clipe original (os pesquisadores observam que esse método frequentemente introduziu descontinuidades visíveis, onde o segmento editado encontrava o footage circundante). Uma segunda abordagem também foi testada, na qual o vídeo inteiro foi regenerado a partir do áudio modificado – mas isso inevitavelmente sobrescreveu regiões não editadas e falhou em preservar o desempenho original:

Comparação do desempenho de edição entre sistemas originalmente projetados para geração de face falante, com o FacEDiT superando todas as linhas de base em todas as métricas, alcançando menor erro de sincronização labial (LSE-D), maior confiança de sincronização (LSE-C), preservação de identidade mais forte (IDSIM), realismo perceptual maior (FVD) e transições mais suaves nas bordas de edição (Pcontinuidade, Mcontinuidade). Colunas sombreadas em cinza destacam os critérios-chave para avaliar a qualidade de borda; valores em negrito e sublinhados indicam os melhores e segundos melhores resultados, respectivamente

Comparação do desempenho de edição entre sistemas originalmente projetados para geração de face falante, com o FacEDiT superando todas as linhas de base em todas as métricas, alcançando menor erro de sincronização labial (LSE-D), maior confiança de sincronização (LSE-C), preservação de identidade mais forte (IDSIM), realismo perceptual maior (FVD) e transições mais suaves nas bordas de edição (Pcontinuidade, Mcontinuidade). Colunas sombreadas em cinza destacam os critérios-chave para avaliar a qualidade de borda; valores em negrito e sublinhados indicam os melhores e segundos melhores resultados, respectivamente

Quanto a esses resultados, os autores comentam:

‘Nosso modelo supera significativamente os métodos existentes na tarefa de edição. Ele alcança forte continuidade de borda e alta preservação de identidade, demonstrando sua capacidade de manter a consistência temporal e visual durante a edição. Além disso, sua precisão de sincronização labial superior e FVD baixo refletem a realidade do vídeo sintetizado.’

Clique para reproduzir.Resultados, montados por este autor a partir dos vídeos publicados no site do projeto. Por favor, consulte o site de origem para melhor resolução.

Além disso, um estudo humano foi realizado para avaliar a qualidade percebida em ambas as edições e geração.

Para cada comparação, os participantes visualizaram seis vídeos e os classificaram por qualidade geral, considerando a precisão de sincronização labial, naturalidade e realismo da movimentação da cabeça. Nos testes de edição, os participantes também avaliaram a suavidade das transições entre segmentos editados e não editados:

Classificações médias atribuídas pelos avaliadores humanos, onde menor é melhor. Em ambas as edições e geração, os participantes julgaram o quão natural e sincronizado cada vídeo parecia. Para edição, também avaliaram a suavidade da transição entre discurso editado e não editado. Números em negrito e sublinhados mostram as duas melhores pontuações.

Classificações médias atribuídas pelos avaliadores humanos, onde menor é melhor. Em ambas as edições e geração, os participantes julgaram o quão natural e sincronizado cada vídeo parecia. Para edição, também avaliaram a suavidade da transição entre discurso editado e não editado. Números em negrito e sublinhados mostram as duas melhores pontuações.

No estudo, o FacEDiT foi consistentemente classificado como o melhor por uma grande margem, tanto para a qualidade da edição quanto para a suavidade da transição, também recebendo pontuações fortes no cenário de geração, sugerindo que suas vantagens medidas se traduzem em saídas perceptualmente preferidas.

Devido à falta de espaço, remetemos o leitor para o artigo de origem para mais detalhes sobre estudos de ablação e testes adicionais que foram realizados e relatados no novo trabalho. Na verdade, ofertas de pesquisa prototípicas desse tipo lutam para gerar seções de resultados de teste significativos, pois a própria oferta central é inevitavelmente uma base potencial para trabalhos posteriores.

Conclusão

Mesmo para inferência, sistemas como esse podem exigir recursos computacionais significativos no momento da inferência, tornando difícil para os usuários downstream – aqui, presumivelmente, lojas de efeitos visuais – manter o trabalho local. Portanto, abordagens que possam ser adaptadas para recursos locais realistas sempre serão preferidas por provedores, que estão sob obrigação legal de proteger os footages e a propriedade intelectual dos clientes.

Isso não é para criticar a nova oferta, que pode operar perfeitamente sob pesos quantizados ou outras otimizações, e que é a primeira oferta desse tipo a me atrair de volta a essa linha de pesquisa em bastante tempo.

 

Publicado pela primeira vez na quarta-feira, 17 de dezembro de 202. Editado em 20.10 EET, no mesmo dia, para adicionar espaço na primeira seção do corpo.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.