Inteligencia artificial

DynamiCrafter: Animando Imágenes de Dominio Abierto con Priors de Difusión de Video

Published March 25, 2024

Updated April 27, 2026

Kunal Kejriwal

DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

Visión por computadora es uno de los campos más emocionantes y mejor investigados dentro de la comunidad de inteligencia artificial hoy en día, y a pesar del rápido mejoramiento de los modelos de visión por computadora, un desafío de larga data que todavía preocupa a los desarrolladores es la animación de imágenes. Incluso hoy en día, los marcos de animación de imágenes luchan por convertir imágenes estáticas en sus respectivas contrapartes de video que muestran dinámicas naturales mientras preservan la apariencia original de las imágenes. Tradicionalmente, los marcos de animación de imágenes se centran principalmente en animar escenas naturales con movimientos específicos de dominio como el cabello o los movimientos del cuerpo humano, o dinámicas estocásticas como fluidos y nubes. Aunque este enfoque funciona hasta cierto punto, limita la aplicabilidad de estos marcos de animación a contenido visual más genérico.

Además, los enfoques convencionales de animación de imágenes se centran principalmente en sintetizar movimientos oscilantes y estocásticos, o en personalizar para categorías de objetos específicas. Sin embargo, un defecto notable de este enfoque es las fuertes suposiciones que se imponen a estos métodos que, en última instancia, limitan su aplicabilidad, especialmente en escenarios generales como la animación de imágenes de dominio abierto. En los últimos años, T2V o modelos de texto a video han demostrado un éxito notable en la generación de videos vívidos y diversos utilizando prompts textuales, y esta demostración de modelos T2V es lo que forma la base del marco DynamiCrafter.

El marco DynamiCrafter es un intento de superar las limitaciones actuales de los modelos de animación de imágenes y ampliar su aplicabilidad a escenarios genéricos que involucran imágenes de dominio abierto. El marco DynamiCrafter intenta sintetizar contenido dinámico para imágenes de dominio abierto, convirtiéndolas en videos animados. La idea clave detrás de DynamiCrafter es incorporar la imagen como guía en el proceso generativo en un intento de utilizar el prior de movimiento de los modelos de difusión de texto a video existentes. Para una imagen dada, el modelo DynamiCrafter primero implementa un transformador de consulta que proyecta la imagen en un espacio de representación de contexto rico alineado con el texto, lo que facilita que el modelo de video digiera el contenido de la imagen de una manera compatible. Sin embargo, el modelo DynamiCrafter todavía lucha por preservar algunos detalles visuales en los videos resultantes, un problema que el modelo DynamiCrafter supera al alimentar la imagen completa al modelo de difusión al concatenar la imagen con los ruidos iniciales, lo que suplementa el modelo con información de imagen más precisa.

Este artículo tiene como objetivo cubrir el marco DynamiCrafter en profundidad, y exploramos el mecanismo, la metodología, la arquitectura del marco junto con su comparación con marcos de generación de imágenes y videos de estado del arte. Así que comencemos.

DynamiCrafter: Animación de Imágenes de Dominio Abierto

Animar una imagen estática a menudo ofrece una experiencia visual atractiva para la audiencia, ya que parece dar vida a la imagen estática. A lo largo de los años, numerosos marcos han explorado varios métodos de animación de imágenes estáticas. Los marcos de animación iniciales implementaron enfoques de simulación física que se centraron en simular el movimiento de objetos específicos. Sin embargo, debido a la modelización independiente de cada categoría de objeto, estos enfoques no fueron efectivos ni tenían generalizabilidad. Para replicar movimientos más realistas, surgieron métodos basados en referencias que transfirieron información de movimiento o apariencia de señales de referencia como videos al proceso de síntesis. Aunque los enfoques basados en referencias entregaron mejores resultados con una mejor coherencia temporal en comparación con los enfoques de simulación, necesitaban orientación adicional que limitó sus aplicaciones prácticas.

En los últimos años, la mayoría de los marcos de animación se centran principalmente en animar escenas naturales con movimientos estocásticos, específicos de dominio u oscilantes. Aunque el enfoque implementado por estos marcos funciona hasta cierto punto, los resultados que generan no son satisfactorios, con un margen significativo para la mejora. Los resultados notables logrados por los modelos de texto a video generativos en los últimos años han inspirado a los desarrolladores del marco DynamiCrafter a aprovechar las poderosas capacidades generativas de los modelos de texto a video para la animación de imágenes.

La base fundamental del marco DynamiCrafter es incorporar una imagen condicional en un intento de gobernar el proceso de generación de video de modelos de difusión de texto a video. Sin embargo, el objetivo final de la animación de imágenes todavía remains no trivial, ya que la animación de imágenes requiere la preservación de detalles, así como la comprensión de contextos visuales esenciales para crear dinámicas. Sin embargo, modelos de difusión de video controlables multi-modales como VideoComposer han intentado habilitar la generación de video con orientación visual de una imagen. Sin embargo, estos enfoques no son adecuados para la animación de imágenes, ya que resultan en cambios temporales abruptos o baja conformidad visual con la imagen de entrada, debido a sus mecanismos de inyección de imagen menos comprehensivos. Para contrarrestar este obstáculo, el marco DynamiCrafter propone un enfoque de inyección dual, que consiste en orientación de detalles visuales y representación de contexto alineada con el texto. El enfoque de inyección dual permite que el marco DynamiCrafter garantice que el modelo de difusión de video sintetice contenido dinámico preservado de detalles de una manera complementaria.

Para una imagen dada, el marco DynamiCrafter primero proyecta la imagen en el espacio de representación de contexto alineado con el texto utilizando una red de aprendizaje de contexto especialmente diseñada. Para ser más específicos, el espacio de representación de contexto consiste en un transformador de consulta aprendible para promover aún más su adaptación a los modelos de difusión, y un codificador de imagen CLIP preentrenado para extraer características de imagen alineadas con el texto. El modelo luego utiliza las características de contexto ricas utilizando capas de atención cruzada, y el modelo utiliza la fusión con puerta para combinar estas características de texto con las capas de atención cruzada. Sin embargo, este enfoque intercambia las representaciones de contexto aprendidas con detalles visuales alineados con el texto, lo que facilita la comprensión semántica del contexto de la imagen, permitiendo sintetizar dinámicas razonables y vívidas. Además, en un intento de suplementar detalles visuales adicionales, el marco concatena la imagen completa con el ruido inicial al modelo de difusión. Como resultado, el enfoque de inyección dual implementado por el marco DynamiCrafter garantiza la conformidad visual, así como el contenido dinámico plausible, a la imagen de entrada.

Avanzando, los modelos de difusión o DM han demostrado un rendimiento notable y una capacidad generativa en la generación de imagen de texto a imagen. Para replicar el éxito de los modelos de texto a imagen en la generación de video, se proponen los Modelos de Difusión de Video o VDM, que utilizan una arquitectura U-Net factorizada en espacio-tiempo en el espacio de píxeles para modelar videos de baja resolución. Transferir los conocimientos de los marcos de texto a imagen a los marcos de texto a video ayudará a reducir los costos de entrenamiento. Aunque los Modelos de Difusión de Video o VDM tienen la capacidad de generar videos de alta calidad, solo aceptan prompts de texto como la única guía semántica, lo que puede no reflejar las intenciones reales del usuario o puede ser vago. Sin embargo, los resultados de la mayoría de los modelos VDM rara vez se adhieren a la imagen de entrada y sufren del problema de variación temporal irrealista. El enfoque DynamiCrafter se basa en modelos de difusión de video condicionados por texto que aprovechan su prior dinámico rico para animar imágenes de dominio abierto. Lo hace incorporando diseños personalizados para una mejor comprensión semántica y conformidad con la imagen de entrada.

DynamiCrafter: Método y Arquitectura

Para una imagen estática dada, el marco DynamiCrafter intenta animar la imagen a video, es decir, producir un clip de video corto. El clip de video hereda el contenido visual de la imagen y exhibe dinámicas naturales. Sin embargo, existe la posibilidad de que la imagen pueda aparecer en una ubicación arbitraria de la secuencia de cuadros resultante. La aparición de una imagen en una ubicación arbitraria es un tipo especial de desafío observado en tareas de generación de video condicionado por imagen con requisitos de conformidad visual alta. El marco DynamiCrafter supera este desafío al utilizar los priors generativos de los modelos de difusión de video preentrenados.

Dinámica de Imagen a partir de Prior de Difusión de Video

Normalmente, los modelos de texto a video de dominio abierto son conocidos por mostrar contenido visual dinámico modelado condicionado a descripciones de texto. Para animar una imagen estática con priors generativos de texto a video, los marcos deben primero inyectar la información visual en el proceso de generación de video de una manera comprehensiva. Además, para la síntesis dinámica, el modelo de texto a video debe digerir la imagen para la comprensión del contexto, mientras que también debe ser capaz de preservar los detalles visuales en los videos generados.

Representación de Contexto Alineada con el Texto

Para guiar la generación de video con el contexto de la imagen, el marco DynamiCrafter intenta proyectar la imagen en un espacio de incrustación alineado, lo que permite que el modelo de video utilice la información de la imagen de una manera compatible. Siguiendo esto, el marco DynamiCrafter emplea el codificador de imagen para extraer características de imagen de la imagen de entrada, ya que las incrustaciones de texto se generan utilizando un codificador de texto CLIP preentrenado. Ahora, aunque los tokens semánticos globales del codificador de imagen CLIP están alineados con las leyendas de la imagen, principalmente representan el contenido visual a nivel semántico, por lo que no capturan la extensión completa de la imagen. El marco DynamiCrafter implementa tokens visuales completos de la última capa del codificador CLIP para extraer información más completa, ya que estos tokens visuales demuestran alta fidelidad en tareas de generación de imagen condicional. Además, el marco emplea las incrustaciones de contexto y texto para interactuar con las características intermedias de la arquitectura U-Net utilizando las capas de atención cruzada dual. El diseño de este componente facilita la capacidad del modelo para absorber las condiciones de la imagen de una manera dependiente de la capa. Además, ya que las capas intermedias de la arquitectura U-Net se asocian más con las posiciones o formas de los objetos, se espera que las características de la imagen influyan en la apariencia de los videos predominantemente, especialmente ya que las capas de los dos extremos están más vinculadas a la apariencia.

Orientación de Detalles Visuales

El marco DynamiCrafter emplea una representación de contexto rico-informativa que permite que el modelo de difusión de video en su arquitectura produzca videos que se asemejan a la imagen de entrada de cerca. Sin embargo, como se demuestra en la siguiente imagen, el contenido generado puede mostrar algunas discrepancias debido a la capacidad limitada del codificador CLIP preentrenado para preservar la información de entrada completa, ya que ha sido diseñado para alinear características lingüísticas y visuales.

Para mejorar la conformidad visual, el marco DynamiCrafter propone proporcionar al modelo de difusión de video detalles visuales adicionales extraídos de la imagen de entrada. Para lograr esto, el modelo DynamiCrafter concatena la imagen condicional con el ruido inicial por cuadro y los alimenta al componente U-Net de desenoise como orientación.

Paradigma de Entrenamiento

El marco DynamiCrafter integra la imagen condicional a través de dos flujos complementarios que desempeñan un papel significativo en la orientación de detalles y el control de contexto. Para facilitar esto, el modelo DynamiCrafter emplea un proceso de entrenamiento de tres pasos

En el primer paso, el modelo entrena la red de representación de contexto de la imagen.
En el segundo paso, el modelo adapta la red de representación de contexto de la imagen al modelo de texto a video.
En el tercer y último paso, el modelo ajusta finamente la red de representación de contexto de la imagen junto con el componente de orientación de detalles visuales.

Para adaptar la información de la imagen para su compatibilidad con el modelo de texto a video, el marco DynamiCrafter sugiere desarrollar una red de representación de contexto, P, diseñada para capturar detalles visuales alineados con el texto de la imagen dada. Reconociendo que P requiere muchos pasos de optimización para converger, el enfoque del marco implica entrenar inicialmente P utilizando un modelo de texto a imagen más simple. Esta estrategia permite que la red de representación de contexto se concentre en aprender sobre el contexto de la imagen antes de integrarlo con el modelo de texto a video a través del entrenamiento conjunto con P y las capas espaciales, en lugar de las capas temporales, del modelo de texto a video.

Para garantizar la compatibilidad con el modelo de texto a video, el marco DynamiCrafter combina la imagen de entrada con el ruido por cuadro, procediendo a ajustar finamente tanto P como las capas espaciales del modelo de discriminación visual. Este método se elige para mantener la integridad de las perspectivas temporales existentes del modelo de texto a video sin los efectos adversos de la fusión densa de la imagen, lo que podría comprometer el rendimiento y desviarse de nuestro objetivo principal. Además, el marco emplea una estrategia de selección aleatoria de un cuadro de video como la condición de la imagen para lograr dos objetivos: (i) evitar que la red desarrolle un patrón predecible que asocie directamente la imagen combinada con una ubicación de cuadro específica, y (ii) fomentar una representación de contexto más adaptable al evitar proporcionar información demasiado rígida para cualquier cuadro en particular.

DynamiCrafter: Experimentos y Resultados

El marco DynamiCrafter primero entrena la red de representación de contexto y las capas de atención cruzada de la imagen en la difusión estable. El marco luego reemplaza el componente de difusión estable con VideoCrafter y ajusta finamente la red de representación de contexto y las capas espaciales para la adaptación, y con la concatenación de la imagen. En la inferencia, el marco adopta el muestreador DDIM con orientación de clasificador libre de condición múltiple. Además, para evaluar la coherencia temporal y la calidad de los videos sintetizados en ambos dominios temporales y espaciales, el marco informa la distancia de video de Frechet o FVD, así como la distancia de video del núcleo o KVD, y evalúa el rendimiento de disparo cero en todas las metodologías de las benchmarks MSR-VTT y UCF-101. Para investigar la conformidad perceptual entre los resultados generados y la imagen de entrada, el marco introduce la conformidad de entrada perceptual o PIC, y adopta la métrica de distancia perceptual DreamSim como la función de distancia.

La siguiente figura demuestra la comparación visual del contenido animado generado con diferentes estilos y contenido.

Como se puede observar, entre todos los diferentes métodos, el marco DynamiCrafter se adhiere bien a la condición de la imagen de entrada y genera videos temporalmente coherentes. La siguiente tabla contiene las estadísticas de un estudio de usuario con 49 participantes de la tasa de preferencia para la coherencia temporal (T.C), y la calidad del movimiento (M.C) junto con la tasa de selección para la conformidad visual con la imagen de entrada (I.C). Como se puede observar, el marco DynamiCrafter es capaz de superar a los métodos existentes por un margen considerable.

La siguiente figura demuestra los resultados logrados utilizando el método de inyección dual y el paradigma de entrenamiento.

Pensamientos Finales

En este artículo, hemos hablado sobre DynamiCrafter, un intento de superar las limitaciones actuales de los modelos de animación de imágenes y ampliar su aplicabilidad a escenarios genéricos que involucran imágenes de dominio abierto. El marco DynamiCrafter intenta sintetizar contenido dinámico para imágenes de dominio abierto, convirtiéndolas en videos animados. La idea clave detrás de DynamiCrafter es incorporar la imagen como guía en el proceso generativo en un intento de utilizar el prior de movimiento de los modelos de difusión de texto a video existentes. Para una imagen dada, el modelo DynamiCrafter primero implementa un transformador de consulta que proyecta la imagen en un espacio de representación de contexto rico alineado con el texto, lo que facilita que el modelo de video digiera el contenido de la imagen de una manera compatible. Sin embargo, el modelo DynamiCrafter todavía lucha por preservar algunos detalles visuales en los videos resultantes, un problema que el modelo DynamiCrafter supera al alimentar la imagen completa al modelo de difusión al concatenar la imagen con los ruidos iniciales, lo que suplementa el modelo con información de imagen más precisa.

Kunal Kejriwal

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.