Inteligência artificial

Preparando a Consistência Narrativa para a Geração de Vídeos Longos

Published January 16, 2025

Updated April 26, 2026

Martin Anderson

ChatGPt 4o: 'an image with a width of 1792px and a height of 1024px. It should depict an orthographic view of an AI factory where rows of white-coated computer analysts are seated in front of PCs, and on the other side of their section is a conveyer belt with multiple stages of a recipe for a cake. Three video cameras are situated equidistant across the conveyer belt, aimed at the food items.'

O lançamento público recente do modelo de IA generativa Hunyuan Video intensificou as discussões em curso sobre o potencial de grandes modelos de visão-linguagem multimodal para criar um dia filmes inteiros.

No entanto, como observamos, isso é uma perspectiva muito distante no momento, por uma série de razões. Uma delas é a janela de atenção muito curta da maioria dos geradores de vídeo de IA, que lutam para manter a consistência, mesmo em um único plano curto, quanto mais em uma série de planos.

Outra é que referências consistentes ao conteúdo de vídeo (como ambientes exploráveis, que não devem mudar aleatoriamente se você retraçar seus passos por meio deles) só podem ser alcançadas em modelos de difusão por técnicas de personalização, como adaptação de baixa classificação (LoRA), o que limita as capacidades prontas para uso dos modelos de base.

Portanto, a evolução do vídeo gerado parece estar prestes a estagnar, a menos que novas abordagens para a continuidade narrativa sejam desenvolvidas.

Receita para Continuidade

Com isso em mente, uma nova colaboração entre os EUA e a China propôs o uso de vídeos de culinária instrutivos como um possível modelo para futuros sistemas de continuidade narrativa.

Clique para reproduzir. O sistema VideoAuteur sistematiza a análise de partes de um processo de culinária, para produzir um novo conjunto de dados finamente legendado e um método de orquestração para a geração de vídeos de culinária. Consulte o site de origem para uma melhor resolução. Fonte: https://videoauteur.github.io/

Intitulado VideoAuteur, o trabalho propõe um pipeline de duas etapas para gerar vídeos de culinária instrutivos usando estados coerentes que combinam keyframes e legendas, alcançando resultados de ponta em – admitidamente – um espaço subinscrito.

A página do projeto VideoAuteur também inclui vários vídeos mais atraentes que usam a mesma técnica, como um trailer proposto para um crossover (inexistente) da Marvel/DC:

Clique para reproduzir. Dois super-heróis de universos alternativos se enfrentam em um trailer falso do VideoAuteur. Consulte o site de origem para uma melhor resolução.

A página também apresenta vídeos de promoção semelhantes para uma série de animais da Netflix inexistente e um anúncio de carro da Tesla.

Ao desenvolver o VideoAuteur, os autores experimentaram com diversas funções de perda e outras abordagens novas. Para desenvolver um fluxo de trabalho de geração de “como fazer”, eles também criaram CookGen, o maior conjunto de dados focado no domínio da culinária, com 200.000 cliques de vídeo com uma duração média de 9,5 segundos.

Com uma média de 768,3 palavras por vídeo, o CookGen é confortavelmente o conjunto de dados mais extensivamente anotado do seu tipo. Diversos modelos de visão/linguagem foram usados, entre outras abordagens, para garantir que as descrições fossem detalhadas, relevantes e precisas o suficiente.

Vídeos de culinária foram escolhidos porque as instruções de culinária têm uma narrativa estruturada e inequívoca, tornando a anotação e a avaliação uma tarefa mais fácil. Exceto por vídeos pornográficos (provavelmente para entrar neste espaço particular mais cedo ou mais tarde), é difícil pensar em qualquer outro gênero tão visual e narrativamente ‘fórmula’.

Os autores afirmam:

‘Nosso pipeline auto-regressivo de duas etapas proposto, que inclui um diretor de narrativa longa e geração de vídeo condicionada visualmente, demonstra melhorias promissoras na consistência semântica e na fidelidade visual em vídeos narrativos longos gerados.

Através de experimentos em nosso conjunto de dados, observamos melhorias na coerência espacial e temporal em sequências de vídeo.

‘Esperamos que nosso trabalho possa facilitar pesquisas adicionais na geração de vídeos narrativos longos.’

O novo trabalho é intitulado VideoAuteur: Em direção à Geração de Vídeos Narrativos Longos, e vem de oito autores de universidades e empresas, incluindo a Johns Hopkins University, ByteDance e ByteDance Seed.

Criação do Conjunto de Dados

Para desenvolver o CookGen, que alimenta um sistema gerativo de duas etapas para produzir vídeos de culinária de IA, os autores usaram material das coleções YouCook e HowTo100M.

Os autores comparam a escala do CookGen com conjuntos de dados anteriores focados no desenvolvimento narrativo em vídeo gerado, como o conjunto de dados Flintstones, o conjunto de dados de desenho animado Pororo, StoryGen, o StoryStream da Tencent e VIST.

Comparação de imagens e texto entre CookGen e os conjuntos de dados mais próximos. Fonte: https://arxiv.org/pdf/2501.06173

O CookGen se concentra em narrativas do mundo real, particularmente em atividades procedimentais como culinária, oferecendo histórias mais claras e fáceis de anotar em comparação com conjuntos de dados baseados em imagens de quadrinhos. Ele excede o maior conjunto de dados existente, o StoryStream, com 150 vezes mais quadros e descrições textuais 5 vezes mais densas.

Os pesquisadores ajustaram um modelo de legendas usando a metodologia do LLaVA-NeXT como base. As etiquetas de reconhecimento de fala automático (ASR) pseudo-obtidas para o HowTo100M foram usadas como ‘ações’ para cada vídeo e, em seguida, refinadas ainda mais por grandes modelos de linguagem (LLMs).

Por exemplo, o ChatGPT-4o foi usado para produzir um conjunto de dados de legendas e foi solicitado a se concentrar em interações sujeito-objeto (como mãos manipulando utensílios e alimentos), atributos de objeto e dinâmicas temporais.

Como os scripts de ASR são prováveis de conter imprecisões e serem geralmente ‘barulhentos’, Intersecção-sobre-a-União (IoU) foi usada como uma métrica para medir quão de perto as legendas se conformavam à seção do vídeo que estavam abordando. Os autores observam que isso foi crucial para a criação de consistência narrativa.

Os cliques curados foram avaliados usando Fréchet Video Distance (FVD), que mede a disparidade entre exemplos do mundo real e exemplos gerados, ambos com e sem keyframes de verdade, chegando a um resultado performático:

Usando FVD para avaliar a distância entre vídeos gerados com as novas legendas, ambos com e sem o uso de keyframes capturados dos vídeos de amostra.

Além disso, os cliques foram avaliados por GPT-4o e seis annotadores humanos, seguindo LLaVA-Hound‘s definição de ‘alucinação’ (i.e., a capacidade de um modelo de inventar conteúdo espúrio).

Os pesquisadores compararam a qualidade das legendas com a coleção Qwen2-VL-72B, obtendo uma pontuação ligeiramente melhor.

Comparação de pontuações FVD e avaliação humana entre Qwen2-VL-72B e a coleção dos autores.

Método

A fase gerativa do VideoAuteur é dividida entre o Diretor de Narrativa Longa (LND) e o modelo de geração de vídeo condicionado visualmente (VCVGM).

O LND gera uma sequência de embeddings visuais ou keyframes que caracterizam o fluxo narrativo, semelhante a ‘destaques essenciais’. O VCVGM gera cliques de vídeo com base nessas escolhas.

Esquema para o pipeline de processamento do VideoAuteur. O Long Narrative Video Director faz seleções apropriadas para alimentar o módulo gerativo Seed-X.

Os autores discutem extensivamente os diferentes méritos de um diretor de imagem-texto entrelaçado e um diretor de keyframe centrado em linguagem, e concluem que a primeira abordagem é mais eficaz.

O diretor de imagem-texto entrelaçado gera uma sequência entrelaçando tokens de texto e embeddings visuais, usando um modelo auto-regressivo para prever o próximo token, com base no contexto combinado de texto e imagens. Isso garante um alinhamento apertado entre visuais e texto.

Por outro lado, o diretor de keyframe centrado em linguagem sintetiza keyframes usando um modelo de difusão condicionado por texto, baseado apenas em legendas, sem incorporar embeddings visuais no processo de geração.

Os pesquisadores encontraram que, embora o método centrado em linguagem gere keyframes visualmente atraentes, ele carece de consistência entre os quadros, argumentando que o método entrelaçado alcança pontuações mais altas em realismo e consistência visual. Eles também encontraram que essa abordagem foi capaz de aprender um estilo visual realista por meio do treinamento, embora às vezes com alguns elementos repetitivos ou barulhentos.

Inusualmente, em uma linha de pesquisa dominada pela co-optação da Stable Diffusion e Flux em fluxos de trabalho, os autores usaram o modelo LLM multi-modal de 7B parâmetros da Tencent, SEED-X, para seu pipeline gerativo (embora esse modelo aproveite a liberação SDXL da Stable Diffusion para uma parte limitada de sua arquitetura).

Os autores afirmam:

‘Ao contrário do pipeline clássico Imagem-para-Vídeo (I2V) que usa uma imagem como o quadro inicial, nossa abordagem aproveita [latentes visuais regressados] como condições contínuas ao longo da [sequência].

‘Além disso, melhoramos a robustez e a qualidade dos vídeos gerados adaptando o modelo para lidar com embeddings visuais barulhentos, já que os latentes visuais regressados podem não ser perfeitos devido a erros de regressão.’

Embora os pipelines de geração condicionada visualmente típicos usem keyframes iniciais como um ponto de partida para orientação do modelo, o VideoAuteur expande esse paradigma gerando estados visuais multi-partes em um espaço latente semanticamente coerente, evitando o potencial viés de basear a geração posterior apenas em ‘quadros iniciais’.

Esquema para o uso de embeddings de estado visual como um método de condicionamento superior.

Testes

Em linha com os métodos do SeedStory, os pesquisadores usam o SEED-X para aplicar o ajuste fino da LoRA em seu conjunto de dados narrativo, descrevendo enigmaticamente o resultado como um ‘modelo semelhante ao Sora’, pré-treinado em acoplamentos grande escala de vídeo/texto, e capaz de aceitar tanto prompts visuais quanto textuais e condições.

32.000 vídeos narrativos foram usados para o desenvolvimento do modelo, com 1.000 reservados como amostras de validação. Os vídeos foram recortados para 448 pixels no lado curto e, em seguida, recortados centralmente para 448x448px.

Para o treinamento, a geração de narrativa foi avaliada principalmente no conjunto de validação YouCook2. O conjunto Howto100M foi usado para avaliação da qualidade dos dados e também para geração de imagem-para-vídeo.

Para a perda de condicionamento visual, os autores usaram a perda de difusão do DiT e um trabalho de 2024 baseado na Stable Diffusion.

Para provar sua afirmação de que o entrelaçamento é uma abordagem superior, os autores compararam o VideoAuteur com vários métodos que dependem apenas de entrada baseada em texto: EMU-2, SEED-X, SDXL e FLUX.1-schnell (FLUX.1-s).

Dado um prompt global, ‘Guia passo a passo para cozinhar tofu mapo’, o diretor entrelaçado gera ações, legendas e embeddings de imagem sequencialmente para narrar o processo. As duas primeiras linhas mostram keyframes decodificados dos espaços latentes do EMU-2 e SEED-X. Essas imagens são realistas e consistentes, mas menos polidas do que as de modelos avançados como SDXL e FLUX.

Os autores afirmam:

‘A abordagem centrada em linguagem usando modelos de imagem-para-texto produz keyframes visualmente atraentes, mas sofre com a falta de consistência entre os quadros devido à informação mútua limitada. Em contraste, o método de geração entrelaçado aproveita latentes visuais alinhados com a linguagem, alcançando um estilo visual realista por meio do treinamento.

‘No entanto, ele ocasionalmente gera imagens com elementos repetitivos ou barulhentos, pois o modelo auto-regressivo luta para criar embeddings precisos em uma única passagem.’

A avaliação humana confirma ainda mais a afirmação dos autores sobre o desempenho melhorado da abordagem entrelaçada, com métodos entrelaçados alcançando as pontuações mais altas em uma pesquisa.

Comparações de abordagens de um estudo humano realizado para o artigo.

No entanto, observamos que as abordagens centradas em linguagem alcançam as melhores estéticas pontuações. Os autores argumentam, no entanto, que isso não é a questão central na geração de vídeos narrativos longos.

Clique para reproduzir. Segmentos gerados para um vídeo de construção de pizza, pelo VideoAuteur.

Conclusão

A linha de pesquisa mais popular relacionada a esse desafio, ou seja, a consistência narrativa na geração de vídeo de longa duração, está preocupada com imagens únicas. Projetos desse tipo incluem DreamStory, StoryDiffusion, TheaterGen e o ConsiStory da NVIDIA.

Em um sentido, o VideoAuteur também cai nessa categoria ‘estática’, pois usa imagens de sementes a partir das quais seções de clipe são geradas. No entanto, o entrelaçamento de conteúdo de vídeo e semântico traz o processo um passo mais perto de um pipeline prático.

Publicado pela primeira vez na quinta-feira, 16 de janeiro de 2025