Ângulo de Anderson

O Vídeo de IA Perfeziona a Selfie do Gato

Publicado em 19 de dezembro de 2025

Atualizado em 17 de maio de 2026

Por

Martin Anderson

A still from a demo video for the paper 'Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models', depicting a POV of a 'cat selfie', while a dog skateboards in the background. Source: https://vita-epfl.github.io/FVG/

Os geradores de vídeo de IA frequentemente fornecem resultados que estão próximos, mas não são exatamente o que o prompt de texto desejava. No entanto, uma nova solução de alto nível faz toda a diferença.

Os sistemas de vídeo gerativos frequentemente têm dificuldade em criar vídeos que sejam realmente criativos ou selvagens e, muitas vezes, não atendem às expectativas dos prompts de texto dos usuários.

Parte do motivo disso é o emaranhamento – o fato de que os modelos de visão/linguagem têm que fazer concessões sobre quanto tempo eles treinam em seus dados de origem. Treinamento insuficiente, e os conceitos são flexíveis, mas não totalmente formados – treinamento excessivo, e os conceitos são precisos, mas não mais flexíveis o suficiente para incorporar combinações novas.

Você pode ter uma ideia do vídeo incorporado abaixo. À esquerda está o tipo de compromisso que muitos sistemas de IA entregam em resposta a um prompt exigente (o prompt está no topo do vídeo em todos os quatro exemplos) que pede alguma justaposição de elementos que é demasiado fantástica para ter sido um exemplo de treinamento real. À direita, está uma saída de IA que adere ao prompt muito melhor:

Clique para reproduzir (sem áudio). À direita, vemos ‘factorizado’ WAN 2.2 realmente entregando nos prompts, em comparação com as interpretações vagas de ‘vanilla’ Wan 2.2., à esquerda. Por favor, consulte os arquivos de vídeo de origem para melhor resolução e muitos mais exemplos, embora as versões curadas vistas aqui não existam no site do projeto e tenham sido montadas para este artigo. Fonte

Bem, embora tenhamos que perdoar as mãos humanas do pato que bate palmas (!), é claro que os exemplos à direita aderem ao prompt de texto original muito melhor do que os da esquerda.

Interessantemente, ambas as arquiteturas apresentadas são essencialmente a mesma arquitetura – a popular e muito capaz Wan 2.2, uma versão chinesa que ganhou terreno significativo nas comunidades de código aberto e de hobbyistas este ano.

A diferença é que o segundo pipeline gerativo é factorizado, o que, neste caso, significa que um grande modelo de linguagem (LLM) foi usado para reinterpretar o primeiro (semente) quadro do vídeo, para que seja muito mais fácil para o sistema entregar o que o usuário está pedindo.

Este ‘ancoramento visual’ envolve injetar uma imagem criada a partir deste prompt LLM-enhanced no pipeline gerativo como um ‘quadro de início’, e usar um LoRA modelo interpretativo para ajudar a integrar o ‘quadro intruso’ no processo de criação de vídeo.

Os resultados, em termos de fidelidade do prompt, são bastante notáveis, particularmente para uma solução que parece bastante elegante:

Clique para reproduzir (sem áudio). Mais exemplos de gerações de vídeo ‘factorizadas’ realmente aderindo ao roteiro. Por favor, consulte os arquivos de vídeo de origem para melhor resolução e muitos mais exemplos, embora as versões curadas vistas aqui não existam no site do projeto e tenham sido montadas para este artigo.

Esta solução vem na forma de um novo artigo Geração de Vídeo Factorizada: Desacoplamento da Construção de Cena e Síntese Temporal em Modelos de Difusão de Texto para Vídeo, e seu site de projeto acompanhante vídeo-laden.

Enquanto muitos sistemas atuais tentam aumentar a precisão do prompt usando modelos de linguagem para reescrever prompts vagos ou subespecificados, o novo trabalho argumenta que esta estratégia ainda leva ao fracasso quando a representação interna de cena do modelo é defeituosa.

Even com um prompt reescrito detalhado, os modelos de texto para vídeo frequentemente misturam elementos-chave ou geram estados iniciais incompatíveis que quebram a lógica da animação. Enquanto o primeiro quadro falhar em refletir o que o prompt descreve, o vídeo resultante não pode se recuperar, independentemente de quão bom o modelo de movimento seja.

O artigo afirma*:

‘[Text-to-video] modelos frequentemente produzem quadros deslocados distribucionalmente, mas ainda alcançam [pontuações de avaliação] comparáveis aos modelos I2V, indicando que seu modelagem de movimento permanece razoavelmente natural, mesmo quando a fidelidade da cena é relativamente pobre.

‘[Image-to-Video] modelos exibem o comportamento complementar, fortes [pontuações de avaliação] de cenas iniciais precisas e coerência temporal mais fraca, enquanto I2V+texto equilibra ambos os aspectos.

‘Este contraste sugere uma diferença estrutural nos modelos T2V atuais: a ancoragem da cena e a síntese temporal se beneficiam de vieses indutivos distintos, mas as arquiteturas existentes tentam aprender ambos simultaneamente dentro de um único modelo.’

Uma comparação diagnóstica de modos de geração encontrou que os modelos sem ancoragem de cena explícita pontuaram bem no movimento, mas frequentemente comprometeram o layout da cena, enquanto as abordagens condicionadas por imagem mostraram o padrão oposto:

Comparação de modos de geração de vídeo em dois conjuntos de dados, mostrando que I2V+texto alcança a melhor qualidade de quadro (FID) e coerência temporal (FVD), destacando o benefício de separar a construção da cena da movimentação. Fonte

Essas descobertas apontam para uma falha estrutural em que os modelos atuais tentam aprender tanto o layout da cena quanto a animação de uma vez, embora as duas tarefas exijam tipos diferentes de vieses indutivos, e sejam melhor tratadas separadamente.

Talvez o mais interessante seja que este ‘truque’ pode potencialmente ser aplicado a instalações locais de modelos como Wan 2.1 e 2.2, e modelos de difusão de vídeo semelhantes, como Hunyuan Video. Anecdoticamente, comparando a qualidade da saída de hobbyistas com portais de geração comerciais, como Kling e Runway, a maioria dos principais provedores de API está melhorando as ofertas de código aberto, como WAN, com LoRAs, e – parece – com truques do tipo visto no novo artigo. Portanto, esta abordagem particular pode representar uma aproximação para o contingente FOSS.

Testes realizados para o método indicam que esta abordagem simples e modular oferece um novo estado da arte no T2V-CompBench benchmark, melhorando significativamente todos os modelos testados. Os autores observam em conclusão que, embora seu sistema radicalmente melhore a fidelidade, não aborda (nem é feito para abordar) deriva de identidade, atualmente o azar da pesquisa de IA gerativa.

O novo artigo vem de quatro pesquisadores da Ecole Polytechnique Fédérale de Lausanne (EPFL) na Suíça.

Método e Dados

A proposição central da nova técnica é que os modelos de difusão de texto para vídeo (T2V) precisam ser ‘ancorados’ em quadros de início que realmente se encaixam no prompt de texto desejado.

Para garantir que o modelo respeite o quadro de início, o novo método interrompe o processo de difusão padrão injetando um latente limpo da imagem de âncora no timestep zero, substituindo uma das entradas ruidosas usuais. Esta entrada desconhecida confunde o modelo no início, mas com um mínimo de ajuste fino LoRA, ele aprende a tratar o quadro injetado como uma âncora visual fixa em vez de parte da trajetória de ruído:

Método de dois estágios para ancorar a geração de vídeo de texto com uma âncora visual: Esquerda, o modelo é ajustado com um LoRA leve para tratar um latente limpo injetado como uma restrição de cena fixa. Direita, o prompt é dividido em uma legenda de quadro de início, que é usada para gerar a imagem de âncora que guia o vídeo.

Na inferência, o método reescreve o prompt para descrever apenas o primeiro quadro, usando um LLM para extrair um estado de cena inicial plausível focado no layout e aparência.

Este prompt reescrito é passado para um gerador de imagens para produzir um quadro de âncora candidato (que pode ser opcionalmente refinado pelo usuário). O quadro selecionado é codificado em um latente e injetado no processo de difusão substituindo o primeiro timestep, permitindo que o modelo gere o restante do vídeo enquanto permanece ancorado na cena inicial – um processo que funciona sem exigir alterações na arquitetura subjacente.

O processo foi testado criando LoRAs para Wan2.2-14B, Wan2.1-1B, e CogVideo1.5-5B. O treinamento LoRA foi realizado em um rank de 256, em 5000 cliques aleatórios da coleção UltraVideo.

O treinamento durou 6000 passos e exigiu 48 horas de GPU^† para Wan-1B e CogVideo-5B, e 96 horas de GPU para Wan-14B. Os autores observam que Wan-5B suporta nativamente condicionamento de texto e texto-imagem (que estão sendo impostos às arquiteturas mais antigas), e, portanto, não exigiu ajuste fino.

Testes

Nos experimentos realizados para o processo, cada prompt de texto foi inicialmente refinado usando Qwen2.5-7B-Instruct, que usou o resultado para gerar uma legenda de ‘seed image’ detalhada contendo uma descrição da cena inteira. Isso foi então passado para QwenImage, que foi encarregado de gerar o ‘quadro mágico’ para ser interposto no processo de difusão.

Os benchmarks usados para avaliar o sistema incluíram o mencionado T2V-CompBench, para testar a compreensão composicional pontuando como os modelos preservam objetos, atributos e ações dentro de uma cena coerente; e VBench 2.0, para avaliar a razão mais ampla e a consistência em 18 métricas, agrupadas em criatividade, raciocínio comum, controle, fidelidade humana e física:

Em todas as sete categorias de avaliação do T2V-CompBench, o método T2V factorizado superou as linhas de base T2V padrão e upsampladas para todos os modelos testados, com ganhos que alcançam até 53,25%. As variantes com maior pontuação frequentemente igualaram ou superaram a referência PixVerse-V3.

Quanto a essa primeira rodada de testes, os autores afirmam*:

‘[Em] todos os modelos, adicionar uma imagem de âncora consistentemente melhora os desempenhos compostos. Todos os modelos Factorizados menores (CogVideo 5B, Wan 5B e Wan 1B) superam o modelo T2V Wan 14B maior.

‘Nossa versão factorizada do Wan 5B também supera a linha de base comercial PixVerse-V3, que é o melhor modelo relatado no benchmark. Isso demonstra que a ancoragem visual substancialmente melhora a compreensão da cena e da ação, mesmo em modelos de capacidade menor.

‘Dentro de cada família de modelos, a versão factorizada supera o modelo original. Notavelmente, nosso LoRA leve ancorado em WAN 14B alcança um desempenho comparável ao seu variant I2V 14B pré-treinado (0,661 vs. 0,666), apesar de não exigir retreinamento completo.’

Em seguida, veio a rodada VBench2.0:

A abordagem T2V factorizada consistentemente melhorou o desempenho do VBench 2.0 em composição, raciocínio comum, controle e física, com alguns ganhos excedendo 60% – embora a fidelidade humana tenha permanecido abaixo da referência Veo 3.

Em todas as arquiteturas, a abordagem factorizada aumentou as pontuações em todas as categorias do VBench, exceto fidelidade humana, que declinou ligeiramente, mesmo com o upsampling do prompt. Wan 5B superou o maior Wan 14B, reforçando resultados anteriores do T2V-CompBench que a ancoragem visual contribuiu mais do que a escala.

Embora os ganhos no VBench tenham sido consistentes, foram menores do que os vistos no T2V-CompBench, e os autores atribuem isso ao regime de pontuação binária mais estrito do VBench.

Para os testes qualitativos, o artigo fornece imagens estáticas, mas nos referimos ao leitor para os vídeos compostos incorporados neste artigo, para uma ideia mais clara, com a ressalva de que os vídeos de origem são mais numerosos e diversificados, bem como possuem maior resolução e detalhe. Encontre-os aqui. Quanto aos resultados qualitativos, o artigo afirma:

‘Os vídeos ancorados consistentemente exibem uma composição de cena mais precisa, uma ligação objeto-atributo mais forte e uma progressão temporal mais clara.’

A abordagem factorizada permaneceu estável, mesmo quando o número de passos de difusão foi reduzido de 50 para 15, mostrando quase nenhuma perda de desempenho no T2V-CompBench. Em contraste, tanto as linhas de base de texto quanto as upsampladas degradaram-se fortemente sob as mesmas condições.

Embora a redução de passos pudesse teoricamente triplicar a velocidade, o pipeline de geração completo tornou-se apenas 2,1x mais rápido na prática, devido a custos fixos da geração de imagem de âncora. Ainda assim, os resultados indicaram que a ancoragem não apenas melhorou a qualidade da amostra, mas também ajudou a estabilizar o processo de difusão, apoiando uma geração mais rápida e eficiente sem perda de precisão.

O site do projeto fornece exemplos de gerações upsampladas versus o novo método, dos quais oferecemos alguns (edições de baixa resolução) aqui:

Clique para reproduzir (sem áudio). Fontes de início upsampladas versus a abordagem factorizada dos autores.

Os autores concludem:

‘Nossos resultados sugerem que uma ancoragem melhorada, e não apenas uma capacidade aumentada, pode ser igualmente importante. Os avanços recentes na difusão T2V confiaram fortemente no aumento do tamanho do modelo e dos dados de treinamento, mas mesmo os modelos maiores frequentemente lutam para inferir uma cena inicial coerente a partir do texto sozinho.

‘Isso contrasta com a difusão de imagem, onde a escalabilidade é relativamente direta; nos modelos de vídeo, cada melhoria arquitetônica deve operar sobre uma dimensão temporal adicional, tornando a escalabilidade substancialmente mais intensiva em recursos.

‘Nossas descobertas indicam que uma ancoragem melhorada pode complementar a escala, abordando um gargalo diferente: estabelecer a cena correta antes de a síntese de movimento começar.

‘Ao factorizar a geração de vídeo em composição de cena e modelagem temporal, mitigamos vários modos de falha comuns sem exigir modelos substancialmente maiores. Consideramos isso um princípio de design complementar que pode guiar futuras arquiteturas em direção a uma síntese de vídeo mais confiável e estruturada.’

Conclusão

Embora os problemas de emaranhamento sejam muito reais e possam exigir soluções dedicadas (como curadoria e avaliações de distribuição aprimoradas antes do treinamento), foi um olhar para ver a factorização ‘desgrudar’ várias orquestrações de conceito presas e ’emperradas’ em renderizações muito mais precisas – com apenas uma camada moderada de condicionamento LoRA, e a intervenção de uma imagem de início/seed notavelmente aprimorada.

A lacuna de recursos entre a inferência de hobbyista local e as soluções comerciais pode não ser tão enorme quanto suposto, considerando que quase todos os provedores estão buscando racionalizar sua considerável despesa de recursos de GPU para os consumidores.

Anecdoticamente, um grande número dos provedores de vídeo gerativo atuais parece estar usando versões de marca e ‘potenciadas’ de modelos de código aberto chineses. A principal ‘trincheira’ que esses sistemas ‘intermediários’ parecem ter é que eles se deram ao trabalho de treinar LoRAs, ou, com maior custo e recompensa ligeiramente maior, realizaram um ajuste fino completo dos pesos do modelo^††.

Percepções desse tipo podem ajudar a fechar essa lacuna ainda mais, no contexto de uma cena de lançamento em que os chineses parecem determinados (não necessariamente por razões altruístas ou idealistas) para democratizar a IA gerativa, enquanto os interesses comerciais ocidentais podem preferir que o aumento do tamanho do modelo e as regulamentações eventualmente isolam os modelos realmente bons atrás de APIs e múltiplas camadas de filtros de conteúdo.

* Ênfases dos autores, não minhas.

^†O artigo não especifica qual GPU foi escolhida ou quantas foram usadas.

^†† Embora a rota LoRA seja mais provável, tanto por facilidade de uso econômica quanto porque os pesos completos, em vez de pesos quantizados, nem sempre estão disponíveis.

Publicado pela primeira vez na sexta-feira, 19 de dezembro de 2025