Inteligência artificial

DynamiCrafter: Animação de Imagens de Domínio Aberto com Priores de Difusão de Vídeo

Publicado em 25 de março de 2024

Atualizado em 22 de maio de 2026

Por

Kunal Kejriwal

DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

Visão computacional é um dos campos mais emocionais e bem pesquisados dentro da comunidade de IA hoje, e apesar do rápido aprimoramento dos modelos de visão computacional, um desafio antigo que ainda incomoda os desenvolvedores é a animação de imagens. Mesmo hoje, os quadros de animação de imagens lutam para converter imagens estáticas em seus respectivos vídeos que exibem dinâmicas naturais, preservando a aparência original das imagens. Tradicionalmente, os quadros de animação de imagens se concentram principalmente na animação de cenas naturais com movimentos estocásticos, de domínio específico ou oscilantes. Embora essa abordagem funcione até certo ponto, ela limita a aplicabilidade desses quadros de animação para conteúdo visual mais genérico.

Além disso, as abordagens convencionais de animação de imagens se concentram principalmente na síntese de movimentos oscilantes e estocásticos, ou na personalização para categorias de objetos específicas. No entanto, uma falha notável nessa abordagem é a forte suposição que é imposta a esses métodos, o que limita sua aplicabilidade, especialmente em cenários gerais, como a animação de imagens de domínio aberto. Nos últimos anos, T2V ou modelos de texto para vídeo demonstraram um sucesso notável na geração de vídeos vívidos e diversificados usando prompts textuais, e essa demonstração de modelos T2V é o que forma a base para o quadro de trabalho DynamiCrafter.

O quadro de trabalho DynamiCrafter é uma tentativa de superar as limitações atuais dos modelos de animação de imagens e expandir sua aplicabilidade para cenários genéricos que envolvem imagens de domínio aberto. O quadro de trabalho DynamiCrafter tenta sintetizar conteúdo dinâmico para imagens de domínio aberto, convertendo-as em vídeos animados. A ideia-chave por trás do DynamiCrafter é incorporar a imagem como orientação no processo gerativo, tentando utilizar o prior de movimento dos modelos de difusão de texto para vídeo existentes. Para uma imagem dada, o modelo DynamiCrafter primeiro implementa um transformador de consulta que projeta a imagem em um espaço de representação de contexto rico e alinhado com o texto, facilitando que o modelo de vídeo digira o conteúdo da imagem de uma maneira compatível. No entanto, o modelo DynamiCrafter ainda luta para preservar alguns detalhes visuais nos vídeos resultantes, um problema que o modelo DynamiCrafter supera alimentando a imagem completa ao modelo de difusão, concatenando a imagem com os ruídos iniciais, suplementando assim o modelo com informações de imagem mais precisas.

Este artigo visa cobrir o quadro de trabalho DynamiCrafter em profundidade, e exploramos o mecanismo, a metodologia, a arquitetura do quadro de trabalho, juntamente com sua comparação com quadros de trabalho de geração de imagens e vídeos de última geração. Então, vamos começar.

DynamiCrafter: Animação de Imagens de Domínio Aberto

Animar uma imagem estática frequentemente oferece uma experiência visual atraente para o público, pois parece trazer a imagem estática para a vida. Ao longo dos anos, vários quadros de trabalho exploraram vários métodos de animação de imagens estáticas. Os quadros de animação iniciais implementaram abordagens baseadas em simulação física que se concentravam na simulação do movimento de objetos específicos. No entanto, devido à modelagem independente de cada categoria de objeto, essas abordagens não foram eficazes nem tiveram generalização. Para replicar movimentos mais realistas, métodos baseados em referência surgiram, transferindo informações de movimento ou aparência de sinais de referência, como vídeos, para o processo de síntese. Embora as abordagens baseadas em referência tenham entregado melhores resultados com melhor coerência temporal em comparação com as abordagens baseadas em simulação, elas precisavam de orientação adicional que limitava suas aplicações práticas.

Nos últimos anos, a maioria dos quadros de animação se concentra principalmente na animação de cenas naturais com movimentos estocásticos, de domínio específico ou oscilantes. Embora a abordagem implementada por esses quadros de trabalho funcione até certo ponto, os resultados que esses quadros de trabalho geram não são satisfatórios, com um espaço significativo para melhoria. Os resultados notáveis alcançados por modelos de texto para vídeo gerativos nos últimos anos inspiraram os desenvolvedores do quadro de trabalho DynamiCrafter a aproveitar as poderosas capacidades gerativas dos modelos de texto para vídeo para a animação de imagens.

A ideia-chave por trás do quadro de trabalho DynamiCrafter é incorporar uma imagem condicional para governar o processo de geração de vídeo de modelos de difusão de texto para vídeo. No entanto, o objetivo final da animação de imagens ainda permanece não trivial, pois a animação de imagens exige a preservação de detalhes, bem como a compreensão de contextos visuais essenciais para criar dinâmicas. No entanto, modelos de difusão de vídeo controláveis multimodais, como o VideoComposer, tentaram permitir a geração de vídeo com orientação visual de uma imagem. No entanto, essas abordagens não são adequadas para a animação de imagens, pois resultam em mudanças temporais abruptas ou baixa conformidade visual com a imagem de entrada, devido a seus mecanismos de injeção de imagem menos abrangentes. Para contrariar esse obstáculo, o quadro de trabalho DynamiCrafter propõe uma abordagem de injeção de dois fluxos, consistindo em orientação de detalhes visuais e representação de contexto alinhada com o texto. A abordagem de injeção de dois fluxos permite que o quadro de trabalho DynamiCrafter garanta que o modelo de difusão de vídeo sintetize conteúdo dinâmico preservado de detalhes de uma maneira complementar.

Para uma imagem dada, o quadro de trabalho DynamiCrafter primeiro projeta a imagem no espaço de representação de contexto alinhado com o texto, usando uma rede de aprendizado de contexto especialmente projetada. Para ser mais específico, o espaço de representação de contexto consiste em um transformador de consulta aprendível para promover ainda mais sua adaptação aos modelos de difusão, e um codificador de imagem CLIP pré-treinado para extrair recursos de imagem alinhados com o texto. O modelo então usa os recursos de contexto rico usando camadas de atenção cruzada, e o modelo usa fusão com porta para combinar esses recursos de texto com as camadas de atenção cruzada. No entanto, essa abordagem troca as representações de contexto aprendidas com detalhes visuais alinhados com o texto, o que facilita a compreensão semântica do contexto da imagem, permitindo que dinâmicas razoáveis e vívidas sejam sintetizadas. Além disso, na tentativa de suplementar detalhes visuais adicionais, o quadro de trabalho concatena a imagem completa com o ruído inicial ao modelo de difusão. Como resultado, a abordagem de injeção de dois fluxos implementada pelo quadro de trabalho DynamiCrafter garante conformidade visual, bem como conteúdo dinâmico plausível para a imagem de entrada.

Em seguida, os modelos de difusão ou DMs demonstraram um desempenho notável e capacidades gerativas em geração de imagem de texto para imagem. Para replicar o sucesso dos modelos T2I em geração de vídeo, os modelos de difusão de vídeo ou VDMs são propostos, que usam uma arquitetura U-Net fatorizada no espaço-tempo em espaço de pixel para modelar vídeos de baixa resolução. Transferir os conhecimentos dos quadros de trabalho T2I para os quadros de trabalho T2V ajudará a reduzir os custos de treinamento. Embora os modelos VDM tenham a capacidade de gerar vídeos de alta qualidade, eles aceitam apenas prompts de texto como orientação semântica única, o que pode não refletir as intenções reais do usuário ou pode ser vago. No entanto, os resultados da maioria dos modelos VDM raramente aderem à imagem de entrada e sofrem do problema de variação temporal irrealista. A abordagem DynamiCrafter é construída sobre modelos de difusão de vídeo condicionados por texto, que aproveitam seu rico prior de dinâmica para animar imagens de domínio aberto. Ele faz isso incorporando designs personalizados para uma melhor compreensão semântica e conformidade com a imagem de entrada.

DynamiCrafter: Método e Arquitetura

Para uma imagem estática dada, o quadro de trabalho DynamiCrafter tenta animar a imagem em vídeo, ou seja, produzir um clipe de vídeo curto. O clipe de vídeo herda o conteúdo visual da imagem e exibe dinâmicas naturais. No entanto, há a possibilidade de a imagem aparecer em uma localização arbitrária da sequência de frames resultante. A aparência de uma imagem em uma localização arbitrária é um tipo especial de desafio observado em tarefas de geração de vídeo condicionada por imagem com requisitos de conformidade visual alta. O quadro de trabalho DynamiCrafter supera esse desafio utilizando os priores gerativos de modelos de difusão de vídeo pré-treinados.

Dinâmica de Imagem a Partir do Prior de Difusão de Vídeo

Normalmente, os modelos de difusão de texto para vídeo de domínio aberto são conhecidos por exibir conteúdo visual dinâmico condicionado a descrições de texto. Para animar uma imagem estática com priores gerativos de texto para vídeo, os quadros de trabalho devem primeiro injetar as informações visuais no processo de geração de vídeo de uma maneira abrangente. Além disso, para síntese dinâmica, o modelo T2V deve digerir a imagem para compreensão de contexto, enquanto também deve ser capaz de preservar os detalhes visuais nos vídeos gerados.

Representação de Contexto Alinhada com o Texto

Para orientar a geração de vídeo com contexto de imagem, o quadro de trabalho DynamiCrafter tenta projetar a imagem em um espaço de incorporação alinhada, permitindo que o modelo de vídeo use as informações da imagem de uma maneira compatível. Seguindo isso, o quadro de trabalho DynamiCrafter emprega o codificador de imagem para extrair recursos de imagem da imagem de entrada, pois as incorporações de texto são geradas usando um codificador de texto CLIP pré-treinado. Agora, embora os tokens semânticos globais do codificador de imagem CLIP estejam alinhados com as legendas de imagem, eles representam principalmente o conteúdo visual no nível semântico, falhando em capturar a extensão completa da imagem. O quadro de trabalho DynamiCrafter implementa tokens visuais completos da última camada do codificador CLIP para extrair informações mais completas, pois esses tokens visuais demonstram alta fidelidade em tarefas de geração de imagem condicional. Além disso, o quadro de trabalho emprega incorporações de contexto e texto para interagir com os recursos intermediários da U-Net usando as camadas de atenção cruzada dupla. O design desse componente facilita a capacidade do modelo de absorver condições de imagem de uma maneira dependente de camada. Além disso, como as camadas intermediárias da arquitetura U-Net associam mais com poses ou formas de objetos, é esperado que os recursos de imagem influenciem a aparência dos vídeos predominantemente, especialmente desde que as camadas de dois extremos estão mais ligadas à aparência.

Orientação de Detalhes Visuais

O quadro de trabalho DynamiCrafter emprega uma representação de contexto rico-informativa que permite que o modelo de difusão de vídeo em sua arquitetura produza vídeos que se assemelham à imagem de entrada de perto. No entanto, como demonstrado na seguinte imagem, o conteúdo gerado pode exibir algumas discrepâncias devido à capacidade limitada do codificador de imagem CLIP pré-treinado para preservar as informações de entrada completamente, pois foi projetado para alinhar recursos de linguagem e visuais.

Para melhorar a conformidade visual, o quadro de trabalho DynamiCrafter propõe fornecer ao modelo de difusão de vídeo detalhes visuais adicionais extraídos da imagem de entrada. Para alcançar isso, o modelo DynamiCrafter concatena a imagem condicional com o ruído inicial por frame e os alimenta ao componente U-Net de desruído como orientação.

Paradigma de Treinamento

O quadro de trabalho DynamiCrafter integra a imagem condicional por meio de dois fluxos complementares que desempenham um papel significativo na orientação de detalhes e controle de contexto. Para facilitar isso, o modelo DynamiCrafter emprega um processo de treinamento de três etapas

Na primeira etapa, o modelo treina a rede de representação de contexto de imagem.
Na segunda etapa, o modelo adapta a rede de representação de contexto de imagem ao modelo de texto para vídeo.
Na terceira e última etapa, o modelo ajusta finamente a rede de representação de contexto de imagem em conjunto com o componente de orientação de detalhes visuais.

Para adaptar as informações de imagem para compatibilidade com o modelo de texto para vídeo, o quadro de trabalho DynamiCrafter sugere desenvolver uma rede de representação de contexto, P, projetada para capturar detalhes visuais alinhados com o texto a partir da imagem dada. Reconhecendo que P requer muitas etapas de otimização para convergir, a abordagem do quadro de trabalho envolve inicialmente treinar usando um modelo de texto para imagem mais simples. Essa estratégia permite que a rede de representação de contexto se concentre em aprender sobre o contexto da imagem antes de integrá-lo com o modelo de texto para vídeo por meio de treinamento conjunto com P e as camadas espaciais, e não as camadas temporais, do modelo de texto para vídeo.

Para garantir a compatibilidade com o modelo de texto para vídeo, o quadro de trabalho DynamiCrafter combina a imagem de entrada com o ruído por frame, procedendo a ajustar finamente tanto P quanto as camadas espaciais do modelo de discriminação visual. Esse método é escolhido para manter a integridade dos insights temporais existentes do modelo de texto para vídeo sem os efeitos adversos da mesclagem densa de imagem, que poderia comprometer o desempenho e se desviar de nosso objetivo principal. Além disso, o quadro de trabalho emprega uma estratégia de seleção aleatória de um frame de vídeo como a condição de imagem para alcançar dois objetivos: (i) evitar que a rede desenvolva um padrão previsível que associe diretamente a imagem mesclada a uma localização de frame específica, e (ii) encorajar uma representação de contexto mais adaptável, impedindo a provisão de informações excessivamente rígidas para qualquer frame específico.

DynamiCrafter: Experimentos e Resultados

O quadro de trabalho DynamiCrafter primeiro treina a rede de representação de contexto e as camadas de atenção cruzada de imagem no modelo de difusão estável. O quadro de trabalho então substitui o componente de difusão estável com o VideoCrafter e ajusta finamente a rede de representação de contexto e as camadas espaciais para adaptação, e com a concatenação de imagem. Na inferência, o quadro de trabalho adota o amostrador DDIM com orientação de classificador livre multi-condição. Além disso, para avaliar a coerência temporal e a qualidade dos vídeos sintetizados nos domínios temporais e espaciais, o quadro de trabalho relata a distância de vídeo de Frechet ou FVD, bem como a distância de vídeo de kernel ou KVD, e avalia o desempenho zero-shot em todos os métodos dos benchmarks MSR-VTT e UCF-101. Para investigar a conformidade perceptual entre os resultados gerados e a imagem de entrada, o quadro de trabalho introduz a conformidade de entrada perceptual ou PIC, e adota a métrica de distância perceptual DreamSim como a função de distância.

A seguinte figura demonstra a comparação visual do conteúdo animado gerado com diferentes estilos e conteúdos.

Como pode ser observado, entre os diferentes métodos, o quadro de trabalho DynamiCrafter adere bem à condição de imagem de entrada e gera vídeos temporalmente coerentes. A seguinte tabela contém as estatísticas de um estudo de usuário com 49 participantes da taxa de preferência para coerência temporal, qualidade de movimento e taxa de seleção para conformidade visual com a imagem de entrada. Como pode ser observado, o quadro de trabalho DynamiCrafter consegue superar os métodos existentes por uma margem considerável.

A seguinte figura demonstra os resultados alcançados usando o método de injeção de dois fluxos e o paradigma de treinamento.

Pensamentos Finais

Neste artigo, falamos sobre o DynamiCrafter, uma tentativa de superar as limitações atuais dos modelos de animação de imagens e expandir sua aplicabilidade para cenários genéricos que envolvem imagens de domínio aberto. O quadro de trabalho DynamiCrafter tenta sintetizar conteúdo dinâmico para imagens de domínio aberto, convertendo-as em vídeos animados. A ideia-chave por trás do DynamiCrafter é incorporar a imagem como orientação no processo gerativo, tentando utilizar o prior de movimento dos modelos de difusão de texto para vídeo existentes. Para uma imagem dada, o modelo DynamiCrafter primeiro implementa um transformador de consulta que projeta a imagem em um espaço de representação de contexto rico e alinhado com o texto, facilitando que o modelo de vídeo digira o conteúdo da imagem de uma maneira compatível. No entanto, o modelo DynamiCrafter ainda luta para preservar alguns detalhes visuais nos vídeos resultantes, um problema que o modelo DynamiCrafter supera alimentando a imagem completa ao modelo de difusão, concatenando a imagem com os ruídos iniciais, suplementando assim o modelo com informações de imagem mais precisas.

Kunal Kejriwal

Um engenheiro por profissão, um escritor por coração. Kunal é um escritor técnico com um amor e compreensão profundos de AI e ML, dedicado a simplificar conceitos complexos nestes campos por meio de sua documentação envolvente e informativa.