Entre em contato

HunyuanCustom traz deepfakes de vídeo de imagem única, com áudio e sincronização labial

Ângulo de Anderson

HunyuanCustom traz deepfakes de vídeo de imagem única, com áudio e sincronização labial

mm
Imagens do novo artigo em https://arxiv.org/pdf/2505.04512

Este artigo discute um novo lançamento de um modelo de mundo multimodal de vídeo Hunyuan chamado 'HunyuanCustom'. A abrangência da nova publicação, combinada com vários problemas em muitos dos vídeos de exemplo fornecidos no página do projeto*, nos limita a uma cobertura mais geral do que o normal e à reprodução limitada da enorme quantidade de material de vídeo que acompanha este lançamento (já que muitos dos vídeos exigem reedição e processamento significativos para melhorar a legibilidade do layout).

Observe também que o artigo se refere ao sistema generativo baseado em API Kling como "Keling". Para maior clareza, me refiro a "Kling" ao longo do texto.

 

A Tencent está em processo de lançamento de uma nova versão de seu Modelo de vídeo Hunyuan, Com o título HunyuanPersonalizado. O novo lançamento aparentemente é capaz de fazer Modelos Hunyuan LoRA redundante, permitindo ao usuário criar personalização de vídeo no estilo 'deepfake' por meio de um solteiro imagem:

Clique para jogar. Sugestão: "Um homem está ouvindo música e cozinhando macarrão de caracol na cozinha". O novo método foi comparado a métodos de código fechado e aberto, incluindo o Kling, que é um oponente significativo nesse campo. Fonte: https://hunyuancustom.github.io/ (aviso: site que exige muita CPU/memória!)

Na coluna mais à esquerda do vídeo acima, vemos a imagem de origem única fornecida à HunyuanCustom, seguida pela interpretação do prompt pelo novo sistema na segunda coluna, ao lado. As colunas restantes mostram os resultados de vários sistemas proprietários e FOSS: kling; Ví du; Pika; Hailuo; e a WanBaseada SkyReels-A2.

No vídeo abaixo, vemos renderizações de três cenários essenciais para este lançamento: respectivamente, pessoa + objeto; emulação de caractere único; e prova virtual (pessoa + roupas):

Clique para jogar. Três exemplos editados do material do site de suporte do Hunyuan Video.

Podemos notar algumas coisas a partir desses exemplos, principalmente relacionadas ao sistema que depende de um imagem de fonte única, em vez de múltiplas imagens do mesmo assunto.

No primeiro clipe, o homem ainda está essencialmente de frente para a câmera. Ele inclina a cabeça para baixo e para o lado em um ângulo de rotação não muito maior que 20-25 graus, mas, com uma inclinação maior que isso, o sistema teria que começar a adivinhar como ele é de perfil. Isso é difícil, provavelmente impossível de avaliar com precisão a partir de uma única imagem frontal.

No segundo exemplo, vemos que a menina é sorridente no vídeo renderizado, assim como na única imagem estática de origem. Novamente, com esta única imagem como referência, a HunyuanCustom teria que fazer um palpite relativamente desinformado sobre a aparência de seu "rosto em repouso". Além disso, seu rosto não se desvia da posição voltada para a câmera em mais do que o exemplo anterior ("homem comendo batatas fritas").

No último exemplo, vemos que, como o material de origem — a mulher e as roupas que ela é solicitada a usar — ​​não são imagens completas, a renderização cortou o cenário para ajustá-lo — o que na verdade é uma boa solução para um problema de dados!

A questão é que, embora o novo sistema possa lidar com múltiplas imagens (como pessoa + batatas fritas, ou pessoa + roupas), aparentemente não permite múltiplos ângulos ou visões alternativas de um único personagem, para que expressões diversas ou ângulos incomuns pudessem ser acomodados. Nesse sentido, o sistema pode, portanto, ter dificuldades para substituir o crescente ecossistema de modelos LoRA que surgiram em torno do HunyuanVideo desde seu lançamento em dezembro passado, pois eles podem ajudar o HunyuanVideo a produzir caracteres consistentes de qualquer ângulo e com qualquer expressão facial representada no conjunto de dados de treinamento (20 a 60 imagens é o típico).

Conectado para som

Para áudio, a HunyuanCustom aproveita o Sincronização latente sistema (notoriamente difícil para amadores configurarem e obterem bons resultados) para obter movimentos labiais que correspondam ao áudio e ao texto fornecidos pelo usuário:

Inclui áudio. Clique para reproduzir. Vários exemplos de sincronização labial do site suplementar HunyuanCustom, editados juntos.

No momento em que este artigo foi escrito, não havia exemplos em inglês, mas eles parecem ser muito bons — ainda mais se o método de criação for de fácil instalação e acesso.

Editando um vídeo existente

O novo sistema oferece o que parecem ser resultados bastante impressionantes para edição de vídeo para vídeo (V2V ou Vid2Vid), em que um segmento de um vídeo existente (real) é mascarado e substituído de forma inteligente por um tema apresentado em uma única imagem de referência. Abaixo, um exemplo do site de materiais complementares:

Clique para jogar. Somente o objeto central é alvo, mas o que resta ao redor dele também é alterado em uma passagem vid2vid da HunyuanCustom.

Como podemos ver, e como é padrão em um cenário vid2vid, o vídeo inteiro é, em certa medida, alterado pelo processo, embora mais alterado na região alvo, ou seja, o brinquedo de pelúcia. Presumivelmente, pipelines poderiam ser desenvolvidos para criar tais transformações sob um lixo fosco Uma abordagem que deixa a maior parte do conteúdo do vídeo idêntico ao original. É isso que o Adobe Firefly faz internamente, e faz muito bem – mas é um processo pouco estudado no cenário generativo de FOSS.

Dito isso, a maioria dos exemplos alternativos fornecidos fazem um trabalho melhor ao direcionar essas integrações, como podemos ver na compilação montada abaixo:

Clique para jogar. Diversos exemplos de conteúdo inserido usando vid2vid no HunyuanCustom, demonstrando notável respeito pelo material não direcionado.

Um novo começo?

Esta iniciativa é um desenvolvimento da Projeto de vídeo Hunyuan, sem uma mudança drástica em relação a esse fluxo de desenvolvimento. As melhorias do projeto são introduzidas como inserções arquitetônicas discretas, em vez de mudanças estruturais radicais, com o objetivo de permitir que o modelo mantenha a fidelidade de identidade entre os quadros sem depender de específico do assunto afinação, como nas abordagens LoRA ou de inversão textual.

Para esclarecer, portanto, o HunyuanCustom não foi treinado do zero, mas sim um ajuste fino do modelo de base do HunyuanVideo de dezembro de 2024.

Aqueles que desenvolveram HunyuanVideo LoRAs podem se perguntar se ainda trabalharão com esta nova edição ou se terão que reinventar a roda LoRA ainda denovo se quiserem mais recursos de personalização do que os incluídos nesta nova versão.

Em geral, uma versão muito bem ajustada de um modelo de hiperescala altera a pesos do modelo o suficiente para que os LoRAs feitos para o modelo anterior não funcionem corretamente, ou nem funcionem, com o modelo recém-refinado.

Às vezes, porém, a popularidade de um ajuste fino pode desafiar suas origens: um exemplo de um ajuste fino se tornando um recurso eficaz garfo, com um ecossistema dedicado e seguidores próprios, é o Difusão de Pôneis sintonia de Difusão estável XL (SDXL). Pony tem atualmente mais de 592,000 downloads no em constante mudança Domínio CivitAI, com uma vasta gama de LoRAs que usaram Pony (e não SDXL) como modelo base e que exigem Pony no momento da inferência.

Liberando

A página do projeto para o novo papel (que é intitulado HunyuanCustom: Uma arquitetura multimodal para geração de vídeos personalizados) apresenta links para um Site do GitHub que, enquanto escrevo, acaba de se tornar funcional e parece conter todo o código e pesos necessários para implementação local, juntamente com um cronograma proposto (onde a única coisa importante ainda está por vir é a integração do ComfyUI).

No momento da redação deste texto, o projeto Presença do Rosto Abraçado ainda é um 404. Há, no entanto, um Versão baseada em API de onde aparentemente é possível fazer uma demonstração do sistema, desde que você possa fornecer um código de digitalização do WeChat.

Raramente vi um uso tão elaborado e extenso de uma variedade tão grande de projetos em uma única montagem, como é evidente no HunyuanCustom — e presumivelmente algumas das licenças obrigariam, em qualquer caso, a uma liberação completa.

Dois modelos são anunciados na página do GitHub: uma versão de 720px1280px que requer 8 GB de memória de pico da GPU, e uma versão de 512px896px que requer 60 GB de memória de pico da GPU.

O repositório afirma 'A memória mínima da GPU necessária é de 24 GB para 720px1280px129f, mas é muito lenta... Recomendamos usar uma GPU com 80 GB de memória para melhor qualidade de geração' – e reitera que o sistema só foi testado até agora no Linux.

O modelo anterior do Hunyuan Video, desde o lançamento oficial, tem sido quantificado reduzido a tamanhos onde pode ser executado em menos de 24 GB de VRAM, e parece razoável supor que o novo modelo também será adaptado para formatos mais amigáveis ​​ao consumidor pela comunidade, e que será rapidamente adaptado para uso em sistemas Windows também.

Devido a restrições de tempo e à enorme quantidade de informações que acompanham este lançamento, só podemos analisá-lo de forma mais ampla, em vez de aprofundada. Mesmo assim, vamos dar uma olhada rápida na HunyuanCustom.

Uma olhada no jornal

O pipeline de dados para HunyuanCustom, aparentemente compatível com o RGPD estrutura, incorpora conjuntos de dados de vídeo sintetizados e de código aberto, incluindo OpenHumanVid, com oito categorias principais representadas: seres humanos, animais, plantas, paisagens, veículos, objetos, arquitetura e anime.

Do documento de lançamento, uma visão geral dos diversos pacotes contribuintes no pipeline de construção de dados HunyuanCustom. Fonte: https://arxiv.org/pdf/2505.04512

No documento de lançamento, uma visão geral dos diversos pacotes de contribuição no pipeline de construção de dados da HunyuanCustom. Fonte: https://arxiv.org/pdf/2505.04512

A filtragem inicial começa com PySceneDetectName, que segmenta vídeos em clipes de cena única. TextoBPN-Plus-Plus é então usado para remover vídeos que contenham texto excessivo na tela, legendas, marcas d'água ou logotipos.

Para corrigir inconsistências na resolução e na duração, os clipes são padronizados para cinco segundos de duração e redimensionados para 512 ou 720 pixels no lado curto. A filtragem estética é feita usando Coala-36M, com um limite personalizado de 0.06 aplicado ao conjunto de dados personalizado selecionado pelos pesquisadores do novo artigo.

O processo de extração de assunto combina o Qwen7B Modelo de Linguagem Grande (LLM), o YOLO11X estrutura de reconhecimento de objetos e o popular Insight Face arquitetura, para identificar e validar identidades humanas.

Para sujeitos não humanos, QwenVL e SAM 2 aterrado são usados ​​para extrair caixas delimitadoras relevantes, que são descartadas se forem muito pequenas.

Exemplos de segmentação semântica com Grounded SAM 2, usado no projeto Hunyuan Control. Fonte: https://github.com/IDEA-Research/Grounded-SAM-2

Exemplos de segmentação semântica com Grounded SAM 2, usado no projeto Hunyuan Control. Fonte: https://github.com/IDEA-Research/Grounded-SAM-2

A extração multissujeito utiliza Florença2 para anotação de caixa delimitadora e Grounded SAM 2 para segmentação, seguido por agrupamento e segmentação temporal de quadros de treinamento.

Os clipes processados ​​são aprimorados ainda mais por meio de anotações, usando um sistema proprietário de rotulagem estruturada desenvolvido pela equipe de Hunyuan, que fornece metadados em camadas, como descrições e sinais de movimento da câmera.

Aumento de máscara estratégias, incluindo a conversão para caixas delimitadoras, foram aplicadas durante o treinamento para reduzir sobreajuste e garantir que o modelo se adapte a diversos formatos de objetos.

Os dados de áudio foram sincronizados usando o LatentSync mencionado anteriormente, e os clipes foram descartados se as pontuações de sincronização caíssem abaixo de um limite mínimo.

A estrutura de avaliação cega da qualidade da imagem HyperIQA foi usado para excluir vídeos com pontuação inferior a 40 (na escala personalizada do HyperIQA). As faixas de áudio válidas foram então processadas com Sussurro para extrair recursos para tarefas posteriores.

Os autores incorporam o LLaVA modelo de assistente de linguagem durante a fase de anotação, e enfatizam a posição central que essa estrutura ocupa na HunyuanCustom. O LLaVA é usado para gerar legendas de imagens e auxiliar no alinhamento do conteúdo visual com instruções de texto, apoiando a construção de um sinal de treinamento coerente em todas as modalidades:

A estrutura HunyuanCustom oferece suporte à geração de vídeo consistente com a identidade condicionada a entradas de texto, imagem, áudio e vídeo.

A estrutura HunyuanCustom oferece suporte à geração de vídeo consistente com a identidade condicionada a entradas de texto, imagem, áudio e vídeo.

Ao aproveitar os recursos de alinhamento de visão e linguagem do LLaVA, o pipeline ganha uma camada adicional de consistência semântica entre elementos visuais e suas descrições textuais — especialmente valioso em cenários com vários assuntos ou cenas complexas.

Vídeo Personalizado

Para permitir a geração de vídeo com base em uma imagem de referência e um prompt, os dois módulos centrados no LLaVA foram criados, primeiro adaptando a estrutura de entrada do HunyuanVideo para que ele pudesse aceitar uma imagem junto com um texto.

Isso envolveu a formatação do prompt de forma que a imagem fosse incorporada diretamente ou marcada com uma breve descrição de identidade. Um token separador foi usado para impedir que a incorporação da imagem sobrecarregasse o conteúdo do prompt.

Como o codificador visual do LLaVA tende a compactar ou descartar detalhes espaciais de granulação fina durante o alinhamento de recursos de imagem e texto (particularmente ao traduzir uma única imagem de referência em uma incorporação semântica geral), um módulo de aprimoramento de identidade foi incorporado. Como quase todos os modelos de difusão latente de vídeo têm alguma dificuldade em manter uma identidade sem um LoRA, mesmo em um clipe de cinco segundos, o desempenho deste módulo em testes comunitários pode ser significativo.

Em qualquer caso, a imagem de referência é então redimensionada e codificada usando o 3D-VAE causal do modelo HunyuanVideo original e seu latente inserido no vídeo latente ao longo do eixo temporal, com um deslocamento espacial aplicado para evitar que a imagem seja reproduzida diretamente na saída, ao mesmo tempo em que orienta a geração.

O modelo foi treinado usando Correspondência de fluxo, com amostras de ruído extraídas de um logit-normal distribuição – e a rede foi treinada para recuperar o vídeo correto a partir desses latentes ruidosos. O LLaVA e o gerador de vídeo foram ajustados em conjunto para que a imagem e o prompt pudessem guiar a saída com mais fluência e manter a identidade do sujeito consistente.

Para prompts multi-assunto, cada par de imagem-texto foi incorporado separadamente e atribuído a uma posição temporal distinta, permitindo que as identidades fossem distinguidas e apoiando a geração de cenas envolvendo múltiplo sujeitos interagindo.

Som e Visão

O HunyuanCustom condiciona a geração de áudio/fala usando áudio inserido pelo usuário e um prompt de texto, permitindo que os personagens falem em cenas que refletem o cenário descrito.

Para dar suporte a isso, um módulo AudioNet de identidade desemaranhada introduz recursos de áudio sem interromper os sinais de identidade incorporados à imagem de referência e ao prompt. Esses recursos são alinhados com a linha do tempo do vídeo compactado, divididos em segmentos de nível de quadro e injetados usando um atenção cruzada mecanismo que mantém cada quadro isolado, preservando a consistência do assunto e evitando interferência temporal.

Um segundo módulo de injeção temporal fornece um controle mais preciso sobre o tempo e o movimento, trabalhando em conjunto com o AudioNet, mapeando recursos de áudio para regiões específicas da sequência latente e usando um Perceptron de várias camadas (MLP) para convertê-los em em termos de tokens Deslocamentos de movimento. Isso permite que gestos e movimentos faciais acompanhem o ritmo e a ênfase da fala com maior precisão.

O HunyuanCustom permite que os temas em vídeos existentes sejam editados diretamente, substituindo ou inserindo pessoas ou objetos em uma cena sem a necessidade de reconstruir o clipe inteiro do zero. Isso o torna útil para tarefas que envolvem alterar a aparência ou o movimento de forma direcionada.

Clique para jogar. Outro exemplo do site suplementar.

Para facilitar a substituição eficiente de assuntos em vídeos existentes, o novo sistema evita a abordagem intensiva em recursos de métodos recentes, como o atualmente popular VACE, ou aqueles que mesclam sequências de vídeo inteiras, favorecendo, em vez disso, a compressão de um vídeo de referência usando o 3D-VAE causal pré-treinado – alinhando-o com as latências de vídeo internas do pipeline de geração e, em seguida, somando os dois. Isso mantém o processo relativamente leve, ao mesmo tempo em que permite que o conteúdo de vídeo externo oriente a saída.

Uma pequena rede neural gerencia o alinhamento entre o vídeo de entrada limpo e os latentes ruidosos usados ​​na geração. O sistema testa duas maneiras de injetar essas informações: mesclando os dois conjuntos de recursos antes de compactá-los novamente; e adicionando os recursos quadro a quadro. O segundo método funciona melhor, descobriram os autores, e evita perda de qualidade, mantendo a carga computacional inalterada.

Dados e testes

Nos testes, as métricas utilizadas foram: o módulo de consistência de identidade em Arc Face, que extrai embeddings faciais tanto da imagem de referência quanto de cada quadro do vídeo gerado e, então, calcula a similaridade média do cosseno entre eles; similaridade de assunto, através do envio de segmentos YOLO11x para dinossauro 2 para comparação; CLIP-B, alinhamento texto-vídeo, que mede a similaridade entre o prompt e o vídeo gerado; CLIP-B novamente, para calcular a similaridade entre cada quadro e seus quadros vizinhos e o primeiro quadro, bem como a consistência temporal; e grau dinâmico, conforme definido por VBench.

Conforme indicado anteriormente, os concorrentes de código fechado de base foram Hailuo; Vidu 2.0; Kling (1.6); e Pika. Os frameworks FOSS concorrentes foram VACE e SkyReels-A2.

Avaliação de desempenho do modelo comparando o HunyuanCustom com os principais métodos de personalização de vídeo em termos de consistência de ID (Face-Sim), similaridade de sujeitos (DINO-Sim), alinhamento de texto e vídeo (CLIP-BT), consistência temporal (Temp-Consis) e intensidade de movimento (DD). Os resultados ótimos e subótimos são mostrados em negrito e sublinhados, respectivamente.

Avaliação de desempenho do modelo comparando o HunyuanCustom com os principais métodos de personalização de vídeo em termos de consistência de ID (Face-Sim), similaridade de sujeitos (DINO-Sim), alinhamento de texto e vídeo (CLIP-BT), consistência temporal (Temp-Consis) e intensidade de movimento (DD). Os resultados ótimos e subótimos são mostrados em negrito e sublinhados, respectivamente.

Destes resultados, os autores afirmam:

Nosso [HunyuanCustom] alcança a melhor consistência de ID e consistência de sujeito. Também alcança resultados comparáveis ​​em acompanhamento de prompts e consistência temporal. [Hailuo] tem a melhor pontuação de clipe porque consegue seguir instruções de texto bem com consistência apenas de ID, sacrificando a consistência de sujeitos não humanos (o pior DINO-Sim). Em termos de grau dinâmico, [Vidu] e [VACE] apresentam desempenho ruim, o que pode ser devido ao pequeno tamanho do modelo.

Embora o site do projeto esteja repleto de vídeos comparativos (cujo layout parece ter sido projetado para a estética do site, e não para facilitar a comparação), ele não apresenta atualmente um vídeo equivalente aos resultados estáticos reunidos no PDF, referentes aos testes qualitativos iniciais. Embora eu o inclua aqui, recomendo que o leitor analise atentamente os vídeos no site do projeto, pois eles dão uma ideia melhor dos resultados:

Do artigo, uma comparação sobre personalização de vídeo centrada em objetos. Embora o espectador deva (como sempre) consultar o PDF de origem para melhor resolução, os vídeos no site do projeto podem ser um recurso mais esclarecedor.

Do artigo, uma comparação sobre personalização de vídeo centrada em objetos. Embora o espectador deva (como sempre) consultar o PDF de origem para melhor resolução, os vídeos no site do projeto podem ser um recurso mais esclarecedor neste caso.

Os autores comentam aqui:

'Pode-se observar que [Vidu], [Skyreels A2] e nosso método alcançam resultados relativamente bons em alinhamento rápido e consistência de assunto, mas nossa qualidade de vídeo é melhor que a de Vidu e Skyreels, graças ao bom desempenho de geração de vídeo do nosso modelo base, ou seja, [Hunyuanvideo-13B].

'Entre os produtos comerciais, embora [Kling] tenha uma boa qualidade de vídeo, o primeiro quadro do vídeo tem um problema de copiar e colar, e às vezes o objeto se move muito rápido e [fica borrado], resultando em uma experiência de visualização ruim.'

Os autores comentam ainda que o Pika tem um desempenho ruim em termos de consistência temporal, introduzindo artefatos de legenda (efeitos da curadoria de dados ruim, onde elementos de texto em clipes de vídeo poluem os conceitos principais).

O Hailuo mantém a identidade facial, afirmam, mas não consegue preservar a consistência de todo o corpo. Entre os métodos de código aberto, o VACE, afirmam os pesquisadores, é incapaz de manter a consistência da identidade, enquanto eles argumentam que a HunyuanCustom produz vídeos com forte preservação da identidade, mantendo a qualidade e a diversidade.

Em seguida, foram realizados testes para personalização de vídeo multi-assunto, contra os mesmos concorrentes. Como no exemplo anterior, os resultados em PDF simplificados não são equivalentes impressos dos vídeos disponíveis no site do projeto, mas são únicos entre os resultados apresentados:

Comparações usando personalizações de vídeo multitemáticas. Consulte o PDF para mais detalhes e resolução.

Comparações usando personalizações de vídeo multitemáticas. Consulte o PDF para mais detalhes e resolução.

O artigo afirma:

[Pika] consegue gerar os objetos especificados, mas apresenta instabilidade nos quadros de vídeo, com ocorrências de um homem desaparecendo em um cenário e uma mulher não conseguindo abrir uma porta conforme solicitado. [Vidu] e [VACE] capturam parcialmente a identidade humana, mas perdem detalhes significativos de objetos não humanos, indicando uma limitação na representação de objetos não humanos.

'[SkyReels A2] apresenta grave instabilidade de quadro, com mudanças perceptíveis nos chips e vários artefatos no cenário certo.

'Em contraste, nosso HunyuanCustom captura com eficiência identidades humanas e não humanas, gera vídeos que seguem as instruções fornecidas e mantém alta qualidade visual e estabilidade.'

Outro experimento foi o 'anúncio humano virtual', em que as estruturas foram encarregadas de integrar um produto a uma pessoa:

Da rodada de testes qualitativos, exemplos de "colocação de produto" neural. Consulte o PDF para mais detalhes e resolução.

Da rodada de testes qualitativos, exemplos de "colocação de produto" neural. Consulte o PDF para mais detalhes e resolução.

Para esta rodada, os autores declaram:

'Os [resultados] demonstram que a HunyuanCustom mantém efetivamente a identidade do ser humano ao mesmo tempo em que preserva os detalhes do produto alvo, incluindo o texto nele.

'Além disso, a interação entre o ser humano e o produto parece natural, e o vídeo segue de perto o prompt fornecido, destacando o potencial substancial da HunyuanCustom na geração de vídeos publicitários.'

Uma área em que os resultados de vídeo teriam sido muito úteis foi na rodada qualitativa para personalização de assunto baseada em áudio, onde o personagem fala o áudio correspondente de uma cena e postura descritas em texto.

Resultados parciais da rodada de áudio – embora os resultados em vídeo pudessem ter sido preferíveis neste caso. Apenas a metade superior da figura em PDF é reproduzida aqui, pois é grande e difícil de acomodar neste artigo. Consulte o PDF de origem para obter mais detalhes e resolução.

Resultados parciais da rodada de áudio – embora os resultados em vídeo pudessem ter sido preferíveis neste caso. Apenas a metade superior da figura em PDF é reproduzida aqui, pois é grande e difícil de acomodar neste artigo. Consulte o PDF de origem para obter mais detalhes e resolução.

Os autores afirmam:

'Os métodos anteriores de animação humana baseados em áudio inserem uma imagem humana e um áudio, onde a postura, o traje e o ambiente humanos permanecem consistentes com a imagem fornecida e não podem gerar vídeos em outros gestos e ambientes, o que pode [restringir] sua aplicação.

'…[Nosso] HunyuanCustom permite personalização humana orientada por áudio, onde o personagem fala o áudio correspondente em uma cena e postura descritas por texto, permitindo uma animação humana orientada por áudio mais flexível e controlável.'

Testes adicionais (veja o PDF para todos os detalhes) incluíram uma rodada comparando o novo sistema com o VACE e o Kling 1.6 para substituição de sujeitos em vídeo:

Substituição de sujeito de teste no modo vídeo para vídeo. Consulte o PDF de origem para obter mais detalhes e resolução.

Substituição de sujeito de teste no modo vídeo para vídeo. Consulte o PDF de origem para obter mais detalhes e resolução.

Destes, os últimos testes apresentados no novo artigo, os pesquisadores opinam:

'O VACE sofre de artefatos de contorno devido à adesão estrita às máscaras de entrada, resultando em formas artificiais dos objetos e interrupção da continuidade do movimento. [Kling], por outro lado, exibe um efeito de copiar e colar, em que os objetos são sobrepostos diretamente ao vídeo, resultando em má integração com o fundo.

'Em comparação, o HunyuanCustom evita efetivamente artefatos de limite, alcança integração perfeita com o fundo do vídeo e mantém forte preservação de identidade, demonstrando seu desempenho superior em tarefas de edição de vídeo.'

Conclusão

Este é um lançamento fascinante, principalmente porque aborda algo que a cena amadora, sempre descontente, tem reclamado ultimamente: a falta de sincronização labial, para que o realismo aumentado em sistemas como Hunyuan Video e Wan 2.1 possa receber uma nova dimensão de autenticidade.

Embora o layout de quase todos os exemplos de vídeos comparativos no site do projeto torne bastante difícil comparar as capacidades da HunyuanCustom com as dos concorrentes anteriores, deve-se notar que pouquíssimos projetos no espaço de síntese de vídeo têm a coragem de se colocar em testes contra a Kling, a API de difusão de vídeo comercial que está sempre pairando no topo ou perto do topo das tabelas de classificação; a Tencent parece ter feito progressos contra essa concorrente de uma maneira bastante impressionante.

 

* O problema é que alguns vídeos são tão largos, curtos e de alta resolução que não podem ser reproduzidos em players de vídeo padrão, como VLC ou Windows Media Player, exibindo telas pretas.

Primeira publicação na quinta-feira, 8 de maio de 2025

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protegido]
Twitter: @manders_ai