Ângulo de Anderson

Fora de Vista, Fora de Mente: Enfrentando o Maior Problema em Vídeo de IA

Publicado em 27 de março de 2026

Atualizado em 16 de maio de 2026

Por

Martin Anderson

Detail from the first page of the março de 2026 paper 'Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models'. Source - https://arxiv.org/pdf/2603.25716

O maior problema com os melhores geradores de vídeo de IA é que eles têm amnésia crônica – um desafio que uma nova pesquisa da China está agora abordando.

O maior problema com os melhores e mais avançados sistemas de geração de vídeo de IA é que todos eles têm amnésia crônica: se a câmera se afasta do que está focalizando e então se aproxima novamente, nunca encontrará o que estava lá no início – os personagens terão desaparecido, mudado de aparência e/ou tipo de movimento, e o fundo provavelmente também terá mudado.

Isso ocorre porque o sistema de geração baseado em difusão tem uma janela de atenção limitada e rolante, e porque está sempre lidando com o que pode ver no momento; em uma verdadeira encenação de solipsismo, o que está fora do quadro é inexistente para a IA gerativa – torna-se literalmente descartado da memória.

Isso nunca foi um problema em CGI tradicional, que sempre pode se referir e recriar com precisão um assunto, incluindo aparência e movimento, em qualquer ponto de um vídeo renderizado onde possam ser necessários novamente:

Malhas e texturas de CGI podem sempre ser desenhadas em um render, fornecendo aparência consistente – um truque que é muito mais difícil de alcançar em abordagens de IA, porque não há um arquivo de referência ‘plano’ equivalente.

Isso ocorre porque os elementos componentes do CGI, como a malha e as texturas (veja a imagem acima), bem como arquivos de movimento e outros comportamentos dinâmicos, podem viver discretamente no disco e serem desenhados em uma composição a qualquer momento.

Não há um ‘repositório plano’ semelhante em IA de vídeo gerativa; o mais próximo que se pode chegar a essa funcionalidade é LoRAs – arquivos auxiliares treinados especialmente que podem ser treinados em equipamentos de consumidor, permitindo que personagens e roupas específicas sejam ‘forçadas’ no vídeo :

Clique para reproduzir. O problema de solipsismo da IA de vídeo pode ser mitigado até certo ponto usando LoRAs – mas os resultados podem ser esmagadores.

Isso não é uma solução ideal, no entanto. Por um lado, LoRAs estão vinculados a uma versão específica exata de um modelo de base (como Wan2+ ou Hunyuan Video), e precisam ser recriados sempre que o modelo de base muda. Por outro lado, LoRAs tendem a distorcer os pesos do modelo de base, de modo que a identidade treinada do LoRA é imposta em todos os personagens de uma cena. Além disso, métodos de ajuste fino desse tipo são muito sensíveis a conjuntos de dados mal curados.

Encores Exatos

Agora, uma nova colaboração acadêmica/industrial da China está oferecendo o primeiro remédio significativo que tenho conhecimento em mais de três anos de relatórios sobre esse problema. O método usa o que os pesquisadores chamam de memória híbrida para manter o personagem fora da tela e seu ambiente direto ativo e preciso no espaço latente do modelo, de modo que, quando nossa visão retorna a ele, o efeito é consistente:

Clique para reproduzir. Do site do projeto para o novo artigo, dois exemplos de personagens de IA (WAN) saindo do quadro e reentrando com precisão. Fonte

Deve-se enfatizar que isso não é a mesma coisa que alcançar consistência de personagem em diferentes shots – algo que foi alegado ter sido alcançado um ano atrás na versão Gen 4 do Runway, e que permanece um pursuit em andamento na literatura de pesquisa.

Em vez disso, o que é resolvido aqui é algo que nenhum framework comercial ou experimental que eu tenha visto foi capaz de alcançar – a reaparição visualmente consistente de um personagem fora da tela, com sua aparência, movimento e ambiente anteriores:

Clique para reproduzir. Os outros dois principais exemplos dados no site do projeto.

Obviamente, os princípios em funcionamento aqui podem ser igualmente aplicados a outros domínios, como exploração urbana, condução em POV ou outros tipos de renderizações não característicos.

Deve-se enfatizar também que essa nova abordagem não resolve ou aborda a questão que Runway Gen4 e outras plataformas de código fechado alegam ter resolvido, ao recriar personagens em diferentes shots; em vez disso, faz o que nenhum deles ainda conseguiu – persistir um personagem e ambiente na memória, sem precisar que permaneçam visíveis para o espectador o tempo todo.

O novo trabalho compreende um conjunto de dados dedicado gerado por meio de Unreal Engine, bem como métricas personalizadas para o problema de solipsismo*, e um framework gerativo personalizado construído sobre WAN. Em testes contra os poucos sistemas análogos disponíveis, os autores alegam resultados de ponta, e comentam:

‘[Mecanismos de memória] surgiram como uma fronteira crítica no avanço dos modelos de mundo, pois a capacidade de memória dita a consistência espacial e temporal do conteúdo gerado.

‘Especificamente, é o âncora cognitiva que permite ao modelo reter o contexto histórico durante mudanças de ponto de vista ou extrapolação de longo prazo.

‘Sem memória robusta, um mundo simulado se desintegra rapidamente em quadros desconexos e caóticos.’

O novo artigo é intitulado Fora de Vista, mas não Fora de Mente: Memória Híbrida para Modelos de Mundo de Vídeo Dinâmico, e vem de sete pesquisadores da Universidade de Ciência e Tecnologia de Huazhong e da Equipe Kling da Kuaishou Technology.

Método

A parte central do novo trabalho é a memória híbrida, que facilita a ‘extrapolação fora da vista’ – a retenção de personagens e seus contextos enquanto o espectador ‘olha para longe’ (ou enquanto o personagem em si sai da vista). Nesse cenário, o framework é necessário para realizar desacoplamento espaciotemporal, no qual está simultaneamente focado na geração visível para o espectador e na existência fora da tela do personagem agora fora da vista.

Exemplos de movimento de câmera de entrada/saída. Nesses casos, é o movimento da câmera que faz com que o personagem saia do quadro, mas em amostras diversas também podemos observar o personagem em si se propelir temporariamente para fora da tela. Fonte

Os autores observam que, em incorporações latentes de difusão, as características que precisam ser extraídas e usadas estão fortemente emaranhadas com outras características e propriedades; e que tentar extrair diretamente desse espaço arrisca introduzir contexto irrelevante, ou fazer com que os personagens em movimento ‘congelem’ no fundo. Portanto, eles desenvolveram e curaram o conjunto de dados HM-World**, especificamente destinado a treinar memória híbrida:

Do artigo, amostras das quatro categorias contidas no conjunto de dados HM-World.

A coleção é construída ao longo de quatro dimensões: trajetórias de sujeito, trajetórias de câmera, cenas e sujeitos.

Os dados sintéticos no HM-World apresentam 17 cenas e 49 sujeitos, incluindo pessoas de aparência diversa, bem como animais de múltiplas espécies. Combinações desses são colocadas procedimentalmente em uma cena por meio do Unreal Engine, cada uma com uma animação de movimento distinta, e então definida em uma trajetória aleatoriamente selecionada.

Os autores afirmam que um conjunto variado de eventos de saída-entrada é representado no conjunto de dados, com 28 trajetórias de câmera diferentes incluídas, cada uma com vários pontos de partida.

A coleção final chega a 59.225 cliques de vídeo, cada um anotado pelo MiniCPM-V Multimodal Large Language Model (MLLM).

Os pesquisadores apontam as vantagens estatísticas de sua coleção em relação a conjuntos de dados anteriores WorldScore; Context-As-Memory; Multi-Cam Video; e 360° Motion:

Comparação entre conjuntos de dados existentes e o conjunto de dados HM-World, onde ‘Sujeito Dinâmico’ indica a presença de entidades em movimento, ‘Sujeito Saida-Entrada’ denota cliques que contêm sujeitos saindo e reentrando no quadro, e ‘Pose do Sujeito’ refere-se à inclusão de poses 3D anotadas.

A Caminho Menos Percorrido

Dado vários frames anteriores e um caminho de câmera conhecido, a tarefa é prever vistas futuras à medida que a perspectiva do espectador muda, enquanto leva em conta sujeitos que se movem independentemente e podem sair do quadro antes de retornar. Isso exige mais do que preservar um fundo estável, pois o modelo também deve reter um registro interno coerente de como cada sujeito em movimento parece e se comporta, mesmo durante períodos em que não está visível.

Os autores’ Hybrid Dynamic Retrieval Attention (HyDRA) método aborda isso, introduzindo um caminho de memória dedicado que separa sujeitos dinâmicos da representação da cena estática, permitindo que persistam ao longo do tempo e reapareçam com aparência e movimento consistentes:

Esquema conceitual para o modelo HyDRA.

HyDRA é construído sobre Wan2.1-T2V-1.3B, com o pipeline de difusão central deixado largamente intacto, enquanto introduz um bloco de transformador modificado que incorpora atenção de recuperação dinâmica. Isso permite que o modelo selecione recall de pistas de movimento e aparência de frames anteriores, em vez de confiar em contexto fixo ou local.

Esse processo utiliza um objetivo de treinamento de Flow Matching adaptado, em vez da perda de difusão padrão.

Para manter as cenas alinhadas com o movimento da câmera, as trajetórias da câmera são injetadas como um sinal de condicionamento explícito, com a pose de cada frame definida por rotação e translação, e então convertida em uma representação compacta que captura como a perspectiva evolui ao longo do tempo.

Em linha com a iniciativa anterior (Kling) ReCamMaster, o resultado é então analisado por um codificador de câmera, implementado como um Multi-Layer Perceptron, então transmitido e adicionado às características do Transformador de Difusão, permitindo que o modelo mantenha a colocação de objetos consistentes à medida que a câmera se move.

Tokenização

Incorporações latentes de difusão brutos misturam movimento do sujeito, aparência e fundo em uma representação emaranhada única, e tentar recuperar diretamente desse espaço arrisca introduzir contexto irrelevante, ou fazer com que os sujeitos em movimento ‘congelem’ no fundo.

HyDRA aborda isso com um Tokenizador de Memória baseado em convolução 3D que processa espaço e tempo juntos – em vez de encaminhar histórias latentes completas, ele as comprime em tokens de memória compactos e conscientes de movimento que preservam como os sujeitos parecem e se movem:

Visão geral do HyDRA. À esquerda, o Tokenizador de Memória converte frames anteriores em tokens de memória compactos e conscientes de movimento; à direita, a Atenção de Recuperação Dinâmica avalia a consulta atual contra esses tokens, recupera os mais relevantes e os usa para restaurar aparência e movimento consistentes no frame gerado.

Esses tokens formam uma memória híbrida estruturada que filtra ruído enquanto retém dinâmicas de longo alcance. Passados ao módulo de Atenção de Recuperação Dinâmica, esses permitem que o modelo selecione recall de sujeitos fora da tela, de modo que reapareçam com aparência, movimento e contexto consistentes.

Atenção de Recuperação Dinâmica

O mecanismo de memória dupla do HyDRA também usa atenção de recuperação dinâmica em um papel distinto, mas complementar, dentro do framework.

A tokenização de memória comprime representações latentes anteriores em tokens estruturados e conscientes de movimento que separam sujeitos dinâmicos do conteúdo da cena estática, reduzindo o emaranhamento que frequentemente faz com que os sujeitos se misturem ao fundo. Esses tokens formam um banco de memória persistente, em vez de uma história de frame completa.

A Atenção de Recuperação Dinâmica opera sobre esse banco durante a geração, avaliando a consulta atual contra tokens armazenados e selecionando recall daqueles mais relevantes para o frame em evolução. Isso permite que os sujeitos fora da tela continuem sua evolução latente (ou seja, continuem andando, correndo, quando você não pode vê-los) e reapareçam com aparência e movimento consistentes quando retornam à vista, em vez de reiniciar ou degradar.

Dados e Testes

Em testes, o sistema HyDRA baseado em Wan codificou e reduziu 77 frames de contexto antes de analisá-los com um Autoencoder 3D Variacional (VAE), enquanto o tokenizador de memória mencionado usou convolução 3D com um tamanho de kernel de 2x4x4.

O modelo foi treinado no HM-World por 10.000 iterações em 32 (não especificados) GPUs, com um tamanho de lote de 32.

Um número incomum de métricas foi usado nos testes: além do PSNR (Taxa de Sinal para Ruído de Pico) costumeiro, SSIM (Índice de Semelhança Estrutural) e LPIPS (Métricas de Semelhança Perceptual Aprendidas), os autores também empregaram consistência de sujeito e consistência de fundo do conjunto de ferramentas VBench, para avaliar a coerência do frame.

Além disso, eles desenvolveram uma métrica personalizada intitulada Consistência de Sujeito Dinâmico (DSC), que usa caixas delimitadoras do YOLO V11 para criar regiões recortadas com sujeitos em movimento, a partir das quais recursos semânticos foram extraídos e suas semelhanças então calculadas.

HyDRA foi comparado ao Diffusion Forcing Transformer (DFoT) e ao Context-As-Memory, em relação a um modelo de base Wan2.1-T2V-1.3B equipado com um codificador de câmera (para representar a perspectiva subjetiva comum a todos os cliques). Todos os modelos foram treinados no HM-World, e o WorldPlay também foi usado como uma coleção de teste secundária:

Nos testes iniciais, HyDRA superou todas as linhas de base, elevando o PSNR de 18,696 para 20,357, e o SSIM de 0,517 para 0,606. Ele também alcançou os maiores escores de Dice contextual e de verdade terrestre, 0,827 e 0,849, com Consistência de Sujeito e Consistência de Fundo atingindo 0,926 e 0,932:

Resultados da comparação quantitativa inicial contra abordagens anteriores.

DFoT alcançou 17,693 PSNR e Context as Memory 18,921, com os ganhos atribuídos à tokenização de memória combinada com atenção de recuperação dinâmica:

Comparação quantitativa que lança HyDRA contra o estado da arte atual.

Quanto aos testes contra o WorldPlay, os autores afirmam:

‘Nosso método supera o WorldPlay em todas as métricas, com uma lacuna notável de PSNR de 5,502. Embora o WorldPlay exiba um desempenho mais baixo em métricas de referência de verdade terrestre (por exemplo, PSNR de 14,855, DSCGT de 0,832) devido à lacuna de distribuição de domínio e falta de ajuste fino específico, ele demonstra uma notável robustez em métricas de referência de contexto, alcançando um DSCctx de 0,822.

‘Essa observação não apenas confirma que modelos treinados extensivamente possuem uma consistência híbrida justa, mas também valida indiretamente a racionalidade de nossas métricas DSC propostas para refletir a consistência do sujeito dinâmico.

‘Em última análise, esses resultados impressionantes destacam as capacidades excepcionais de nosso modelo, demonstrando sua superioridade mesmo sobre modelos comerciais estabelecidos.’

O artigo oferece uma representação estática de comparações qualitativas realizadas para os testes:

Comparação qualitativa de saída e reentrada sob movimento de câmera. Os autores afirmam que HyDRA preserva a identidade do sujeito, pose e continuidade de movimento após sair e retornar ao quadro, correspondendo de perto à verdade terrestre, enquanto métodos concorrentes exibem deriva, movimento incoerente ou degradação do sujeito, destacados em vermelho (recuperações consistentes são marcadas em verde).

Dos resultados, os autores comentam:

‘No caso de eventos de saída e reentrada complexos, a linha de base e o Context-as-Memory exibem distorção severa do sujeito e incoerência de movimento. O DFoT falha em manter a integridade do sujeito, levando a um desaparecimento completo. Embora o WorldPlay consiga preservar a consistência de aparência do sujeito, ele sofre com movimentos trêmulos e ações não naturais.

‘Em contraste, nosso método mantém com sucesso a consistência híbrida, preservando tanto a identidade do sujeito quanto a coerência de movimento após o sujeito reentrar no quadro.’

Mais resultados podem ser vistos em formato de vídeo no site suplementar, dos quais os quatro primeiros exemplos foram montados (por nós) no vídeo abaixo:

Clique para reproduzir. Quatro dos seis resultados de teste apresentados no site do projeto. Fonte

Conclusão

Embora qualquer tentativa de abordar um dos principais problemas da geração de vídeo de IA seja bem-vinda, parece inevitável para mim que a solução ótima para problemas de saída/reentrada desse tipo provavelmente será, como foi com CGI, na forma de materiais de referência distintos que possam ser editados e trazidos para um espaço de compositor.

Essa questão de tentar manter uma incorporação viva de forma ad hoc e em tempo real parece exaustiva, e também não oferece um caminho claro para a consistência intra-tiro agora disponível em vários portais de caixa preta, como o Runway. Se for necessário acessar o espaço latente do tiro anterior, por que não ter ambas as instâncias colocarem uma incorporação de caractere discreta e separada? * Ninguém mais nomeou, e a discussão é difícil sem termos comuns. ** Atualmente relatado como ’em breve’, na página do projeto. Publicado pela primeira vez na sexta-feira, 27 de março de 2026