Inteligência artificial

AniPortrait: Síntese de Animação de Retrato Fotorealista Impulsionada por Áudio

Published May 3, 2024

Updated April 27, 2026

Kunal Kejriwal

Ao longo dos anos, a criação de animações de retratos realistas e expressivas a partir de imagens estáticas e áudio encontrou uma variedade de aplicações, incluindo jogos, mídia digital, realidade virtual e muito mais. Apesar de seu potencial de aplicação, ainda é difícil para os desenvolvedores criar estruturas capazes de gerar animações de alta qualidade que mantenham a consistência temporal e sejam visualmente atraentes. Uma das principais causas da complexidade é a necessidade de coordenação intricada de movimentos labiais, posições de cabeça e expressões faciais para criar um efeito visualmente atraente.

Neste artigo, vamos falar sobre o AniPortrait, uma estrutura nova projetada para gerar animações de alta qualidade impulsionadas por uma imagem de retrato de referência e uma amostra de áudio. O funcionamento da estrutura do AniPortrait é dividido em duas etapas. Primeiro, a estrutura do AniPortrait extrai as representações 3D intermediárias das amostras de áudio e as projeta em uma sequência de marcos faciais 2D. Em seguida, a estrutura emprega um modelo de difusão robusto acoplado a um módulo de movimento para converter as sequências de marcos em animações temporais consistentes e fotorealistas. Os resultados experimentais demonstram a superioridade e a capacidade da estrutura do AniPortrait de gerar animações de alta qualidade com qualidade visual excepcional, diversidade de poses e naturalidade facial, oferecendo assim uma experiência perceptual aprimorada e enriquecida. Além disso, a estrutura do AniPortrait possui um potencial notável em termos de controle e flexibilidade e pode ser aplicada de forma eficaz em áreas que incluem reencenação facial, edição de movimento facial e muito mais. Este artigo visa cobrir a estrutura do AniPortrait em profundidade, e exploramos o mecanismo, a metodologia, a arquitetura da estrutura, juntamente com sua comparação com estruturas de ponta. Vamos começar.

AniPortrait: Animação de Retrato Fotorealista

Criar animações de retratos realistas e expressivas tem sido o foco de pesquisadores há algum tempo, devido ao seu potencial incrível e aplicações que variam desde mídia digital e realidade virtual até jogos e muito mais. Apesar de anos de pesquisa e desenvolvimento, produzir animações de alta qualidade que mantenham a consistência temporal e sejam visualmente atraentes ainda apresenta um desafio significativo. Um grande obstáculo para os desenvolvedores é a necessidade de coordenação intricada entre posições de cabeça, expressões visuais e movimentos labiais para criar um efeito visualmente atraente. Os métodos existentes não conseguiram superar esses desafios, principalmente porque a maioria deles depende de geradores de capacidade limitada, como NeRF, decodificadores baseados em movimento e GAN para criação de conteúdo visual. Essas redes exibem capacidades de generalização limitadas e são instáveis na geração de conteúdo de alta qualidade. No entanto, o surgimento recente de modelos de difusão facilitou a geração de imagens de alta qualidade, e algumas estruturas construídas sobre modelos de difusão, juntamente com módulos temporais, facilitaram a criação de vídeos atraentes, permitindo que os modelos de difusão se destacassem.

Com base nos avanços dos modelos de difusão, a estrutura do AniPortrait visa gerar animações de retratos de alta qualidade usando uma imagem de referência e uma amostra de áudio. O funcionamento da estrutura do AniPortrait é dividido em duas etapas. Na primeira etapa, a estrutura do AniPortrait emprega modelos baseados em transformadores para extrair uma sequência de malha facial 3D e pose de cabeça a partir da entrada de áudio, e as projeta subsequentemente em uma sequência de marcos faciais 2D. A primeira etapa facilita à estrutura do AniPortrait capturar movimentos labiais e expressões sutis do áudio, além de movimentos de cabeça que sincronizam com o ritmo da amostra de áudio. A segunda etapa, a estrutura do AniPortrait emprega um modelo de difusão robusto e o integra com um módulo de movimento para transformar a sequência de marcos faciais em uma animação de retrato fotorealista e temporalmente consistente. Para ser mais específico, a estrutura do AniPortrait se baseia na arquitetura de rede do modelo AnimateAnyone existente, que emprega a Stable Diffusion 1.5, um modelo de difusão potente para gerar imagens realistas e fluidas com base em uma imagem de referência e uma sequência de movimento corporal. O que é notável é que a estrutura do AniPortrait não usa o módulo de pose guider dentro dessa rede, como implementado no framework AnimateAnyone, mas o redesenha, permitindo que a estrutura do AniPortrait não apenas mantenha um design leve, mas também exiba precisão aprimorada na geração de movimentos labiais.

Os resultados experimentais demonstram a superioridade da estrutura do AniPortrait na criação de animações com naturalidade facial impressionante, qualidade visual excelente e variedade de poses. Ao empregar representações faciais 3D como recursos intermediários, a estrutura do AniPortrait ganha flexibilidade para modificar essas representações de acordo com suas necessidades. A adaptabilidade melhora significativamente a aplicabilidade da estrutura do AniPortrait em domínios que incluem reencenação facial e edição de movimento facial.

AniPortrait: Funcionamento e Metodologia

A estrutura proposta do AniPortrait compreende dois módulos, nomeadamente Lmk2Video e Audio2Lmk. O módulo Audio2Lmk tenta extrair uma sequência de marcos que captura movimentos labiais intricados e expressões faciais a partir da entrada de áudio, enquanto o módulo Lmk2Video usa essa sequência de marcos para gerar vídeos de retrato de alta qualidade com estabilidade temporal. A figura a seguir apresenta uma visão geral do funcionamento da estrutura do AniPortrait. Como pode ser observado, a estrutura do AniPortrait primeiro extrai a malha facial 3D e a pose de cabeça do áudio e as projeta subsequentemente em pontos-chave 2D. Na segunda etapa, a estrutura emprega um modelo de difusão para transformar os pontos-chave 2D em um vídeo de retrato com duas etapas sendo treinadas concorrentemente dentro da rede.

Audio2Lmk

Para uma dada sequência de trechos de fala, o objetivo principal da estrutura do AniPortrait é prever a sequência correspondente de malha facial 3D com representações vetoriais de translação e rotação. A estrutura do AniPortrait emprega o método pré-treinado wav2vec para extrair recursos de áudio, e o modelo exibe um alto grau de generalização, sendo capaz de reconhecer entonação e pronúncia do áudio com precisão, o que desempenha um papel crucial na geração de animações faciais realistas. Ao aproveitar os recursos de fala robustos adquiridos, a estrutura do AniPortrait é capaz de empregar uma arquitetura simples, consistindo de duas camadas fc, para converter esses recursos em malhas faciais 3D. A estrutura do AniPortrait observa que esse design direto implementado pelo modelo não apenas melhora a eficiência do processo de inferência, mas também garante a precisão. Ao converter áudio em pose, a estrutura do AniPortrait emprega a mesma rede wav2vec como espinha dorsal, embora o modelo não compartilhe os pesos com o módulo áudio-para-malha. Isso ocorre principalmente porque a pose está mais associada ao tom e ritmo presentes no áudio, que tem uma ênfase diferente em comparação com as tarefas de áudio-para-malha. Para levar em conta o impacto dos estados anteriores, a estrutura do AniPortrait emprega um decodificador de transformador para decodificar a sequência de pose. Durante esse processo, a estrutura integra os recursos de áudio no decodificador usando mecanismos de atenção cruzada, e para ambos os módulos, a estrutura os treina usando a perda L1. Uma vez que o modelo obtém a pose e a sequência de malha, ele emprega a projeção perspectiva para transformar essas sequências em uma sequência 2D de marcos faciais, que são então utilizados como sinais de entrada para a etapa subsequente.

Lmk2Video

Para uma dada imagem de retrato de referência e uma sequência de marcos faciais, o módulo Lmk2Video proposto cria uma animação de retrato temporalmente consistente, e essa animação alinha o movimento com a sequência de marcos, mantém uma aparência consistente com a imagem de referência e, finalmente, a estrutura representa a animação de retrato como uma sequência de quadros de retrato. O design da estrutura de rede do Lmk2Video busca inspiração no framework AnimateAnyone existente. A estrutura do AniPortrait emprega a Stable Diffusion 1.5, um modelo de difusão extremamente potente, como sua espinha dorsal, e incorpora um módulo de movimento temporal que efetivamente converte entradas de ruído multi-quadro em uma sequência de quadros de vídeo. Ao mesmo tempo, um componente de rede ReferencenNet espelha a estrutura da Stable Diffusion 1.5 e a emprega para extrair informações de aparência da imagem de referência, integrando-as no backbone. O design estratégico garante que a identidade facial permaneça consistente ao longo do vídeo de saída. Diferentemente do framework AnimateAnyone, a estrutura do AniPortrait aprimora a complexidade do design do PoseGuider. A versão original do framework AnimateAnyone compreende apenas algumas camadas de convolução após as quais os recursos de marcos se fundem com os latentes na camada de entrada do backbone. A estrutura do AniPortrait descobre que o design não consegue capturar os movimentos intricados dos lábios e, para lidar com esse problema, a estrutura adota a estratégia de multi-escala da arquitetura ConvNet, incorporando recursos de marcos de escalas correspondentes em diferentes blocos do backbone. Além disso, a estrutura do AniPortrait introduz uma melhoria adicional, incluindo os marcos da imagem de referência como entrada adicional. O módulo de atenção cruzada do componente PoseGuider facilita a interação entre os marcos de destino de cada quadro e os marcos de referência. Esse processo fornece à rede informações adicionais para compreender a correlação entre a aparência e os marcos faciais, ajudando assim na geração de animações de retrato com movimento mais preciso.

AniPortrait: Implementação e Resultado

Para a etapa Audio2Lmk, a estrutura do AniPortrait adota o componente wav2vec2.0 como sua espinha dorsal e aproveita a arquitetura MediaPipe para extrair malhas 3D e poses 6D para anotações. O modelo obtém os dados de treinamento para o componente Audio2Mesh de seu conjunto de dados interno, que compreende cerca de 60 minutos de dados de fala de alta qualidade provenientes de um único falante. Para garantir que a malha 3D extraída pelo componente MediaPipe seja estável, o ator de voz é instruído a enfrentar a câmera e manter uma posição de cabeça estável durante todo o processo de gravação. Para o módulo Lmk2Video, a estrutura do AniPortrait implementa uma abordagem de treinamento em duas etapas. Na primeira etapa, a estrutura se concentra em treinar a ReferenceNet e a PoseGuider, o componente 2D do backbone, e deixa de fora o módulo de movimento. Na segunda etapa, a estrutura do AniPortrait congela todos os outros componentes e se concentra em treinar o módulo de movimento. Para essa etapa, a estrutura utiliza dois conjuntos de dados de vídeo facial de alta qualidade e grande escala para treinar o modelo e processa todos os dados usando o componente MediaPipe para extrair marcos faciais 2D. Além disso, para aumentar a sensibilidade da rede em relação aos movimentos labiais, o modelo do AniPortrait diferencia os lábios superiores e inferiores com cores distintas ao renderizar a imagem de pose a partir de marcos 2D.

Como demonstrado na imagem a seguir, a estrutura do AniPortrait gera uma série de animações que demonstram qualidade superior e realismo.

A estrutura então utiliza uma representação 3D intermediária que pode ser editada para manipular a saída de acordo com as necessidades. Por exemplo, os usuários podem extrair marcos de uma determinada fonte e alterar sua ID, permitindo assim que a estrutura do AniPortrait crie um efeito de reencenação facial.

Pensamentos Finais

Neste artigo, falamos sobre o AniPortrait, uma estrutura nova projetada para gerar animações de alta qualidade impulsionadas por uma imagem de retrato de referência e uma amostra de áudio. Ao simplesmente inserir uma imagem de referência e um clipe de áudio, a estrutura do AniPortrait é capaz de gerar um vídeo de retrato que apresenta movimento natural de cabeça e movimento labial suave. Ao aproveitar as capacidades de generalização robustas do modelo de difusão, a estrutura do AniPortrait gera animações que exibem qualidade de imagem realista impressionante e movimento realista. O funcionamento da estrutura do AniPortrait é dividido em duas etapas. Primeiro, a estrutura do AniPortrait extrai as representações 3D intermediárias das amostras de áudio e as projeta em uma sequência de marcos faciais 2D. Em seguida, a estrutura emprega um modelo de difusão robusto acoplado a um módulo de movimento para converter as sequências de marcos em animações temporais consistentes e fotorealistas. Os resultados experimentais demonstram a superioridade e a capacidade da estrutura do AniPortrait de gerar animações de alta qualidade com qualidade visual excepcional, diversidade de poses e naturalidade facial, oferecendo assim uma experiência perceptual aprimorada e enriquecida. Além disso, a estrutura do AniPortrait possui um potencial notável em termos de controle e flexibilidade e pode ser aplicada de forma eficaz em áreas que incluem reencenação facial, edição de movimento facial e muito mais.