Inteligencia Artificial

DynamiCrafter: animación de imágenes de dominio abierto con antecedentes de difusión de vídeo

Publicado Marzo 25, 2024

Kunal Kejriwal

DynamiCrafter: animación de imágenes de dominio abierto con antecedentes de difusión de vídeo

Visión por computador es uno de los campos más interesantes y mejor investigados dentro de la comunidad de IA actual y, a pesar de la rápida mejora de los modelos de visión por computadora, un desafío de larga data que todavía preocupa a los desarrolladores es la animación de imágenes. Incluso hoy en día, los marcos de animación de imágenes luchan por convertir imágenes fijas en sus respectivas contrapartes de video que muestren una dinámica natural y al mismo tiempo preserven la apariencia original de las imágenes. Tradicionalmente, los marcos de animación de imágenes se centran principalmente en animar escenas naturales con movimientos de dominios específicos, como el cabello humano o los movimientos del cuerpo, o dinámicas estocásticas como fluidos y nubes. Aunque este enfoque funciona hasta cierto punto, limita la aplicabilidad de estos marcos de animación a contenido visual más genérico.

Además, los enfoques convencionales de animación de imágenes se concentran principalmente en sintetizar movimientos oscilantes y estocásticos, o en personalizar categorías de objetos específicas. Sin embargo, un defecto notable del enfoque son las fuertes suposiciones que se imponen a estos métodos y que, en última instancia, limitan su aplicabilidad, especialmente en escenarios generales como la animación de imágenes de dominio abierto. En los ultimos años, Modelos T2V o Texto a Vídeo han demostrado un éxito notable en la generación de videos vívidos y diversos utilizando indicaciones textuales, y esta demostración de modelos T2V es lo que forma la base del marco DynamiCrafter.

El marco DynamiCrafter es un intento de superar las limitaciones actuales de los modelos de animación de imágenes y ampliar su aplicabilidad a escenarios genéricos que involucran imágenes de mundo abierto. El marco DynamiCrafter intenta sintetizar contenido dinámico para imágenes de dominio abierto, convirtiéndolos en videos animados. La idea clave detrás de DynamiCrafter es incorporar la imagen como guía en el proceso generativo en un intento de utilizar el movimiento previo de los modelos de difusión de texto a video ya existentes. Para una imagen determinada, el modelo DynamiCrafter primero implementa un transformador de consulta que proyecta la imagen en un espacio de representación de contexto rico alineado con texto, lo que facilita que el modelo de video digiera el contenido de la imagen de manera compatible. Sin embargo, el modelo DynamiCrafter todavía tiene dificultades para preservar algunos detalles visuales en los vídeos resultantes, un problema que supera alimentando la imagen completa al modelo de difusión concatenando la imagen con los ruidos iniciales, complementando así el modelo con una imagen más precisa. información.

Este artículo tiene como objetivo cubrir el marco DynamiCrafter en profundidad y exploramos el mecanismo, la metodología, la arquitectura del marco junto con su comparación con los marcos de generación de imágenes y videos más modernos. Entonces empecemos.

DynamiCrafter: Animación de imágenes de dominio abierto

Animar una imagen fija a menudo ofrece una experiencia visual atractiva para la audiencia, ya que parece darle vida a la imagen fija. A lo largo de los años, numerosos marcos han explorado varios métodos de animación de imágenes fijas. Los marcos de animación iniciales implementaron enfoques basados en simulación física que se centraban en simular el movimiento de objetos específicos. Sin embargo, debido al modelado independiente de cada categoría de objeto, estos enfoques no fueron efectivos ni tuvieron generalización. Para replicar movimientos más realistas, surgieron métodos basados en referencias que transfirieron información de movimiento o apariencia de señales de referencia, como videos, al proceso de síntesis. Aunque los enfoques basados en referencias arrojaron mejores resultados con una mayor coherencia temporal en comparación con los enfoques basados en simulación, necesitaban orientación adicional que limitaba sus aplicaciones prácticas.

En los últimos años, la mayoría de los marcos de animación se centran principalmente en animar escenas naturales con movimientos estocásticos, específicos de dominio u oscilantes. Aunque el enfoque implementado por estos marcos funciona hasta cierto punto, los resultados que generan no son satisfactorios y hay un margen importante de mejora. Los notables resultados logrados por los modelos generativos de Texto a Video en los últimos años han inspirado a los desarrolladores del marco DynamiCrafter a aprovechar las poderosas capacidades generativas de los modelos de Texto a Video para la animación de imágenes.

La base clave del marco DynamiCrafter es incorporar una imagen condicional en un intento de gobernar el proceso de generación de video de Modelos de difusión de Texto a Vídeo. Sin embargo, el objetivo final de la animación de imágenes aún no es trivial, ya que la animación de imágenes requiere la preservación de los detalles, así como la comprensión de los contextos visuales esenciales para crear dinámicas. Sin embargo, los modelos de difusión de vídeo controlables multimodales como VideoComposer han intentado permitir la generación de vídeo con guía visual a partir de una imagen. Sin embargo, estos enfoques no son adecuados para la animación de imágenes, ya que dan como resultado cambios temporales abruptos o una baja conformidad visual con la imagen de entrada debido a sus mecanismos de inyección de imágenes menos completos. Para contrarrestar este obstáculo, el marco DyaniCrafter propone un enfoque de inyección de doble flujo, que consiste en una guía visual detallada y una representación contextual alineada con el texto. El enfoque de inyección de flujo dual permite que el marco DynamiCrafter garantice que el modelo de difusión de video sintetice contenido dinámico conservado en detalle de manera complementaria.

Para una imagen determinada, el marco DynamiCrafter primero proyecta la imagen en el espacio de representación del contexto alineado con el texto utilizando una red de aprendizaje de contexto especialmente diseñada. Para ser más específico, el espacio de representación del contexto consta de un transformador de consultas que se puede aprender para promover aún más su adaptación a los modelos de difusión y un codificador de imágenes CLIP previamente entrenado para extraer características de imágenes alineadas con texto. Luego, el modelo utiliza las características de contexto enriquecido usando capas de atención cruzada, y el modelo usa fusión cerrada para combinar estas características de texto con las capas de atención cruzada. Sin embargo, este enfoque intercambia las representaciones del contexto aprendidas con detalles visuales alineados con el texto que facilitan la comprensión semántica del contexto de la imagen, permitiendo sintetizar dinámicas razonables y vívidas. Además, en un intento de complementar detalles visuales adicionales, el marco concatena la imagen completa con el ruido inicial del modelo de difusión. Como resultado, el enfoque de inyección dual implementado por el marco DynamiCrafter garantiza la conformidad visual, así como un contenido dinámico plausible con la imagen de entrada.

Avanzando, los modelos de difusión o DM han demostrado un rendimiento notable y destreza generativa en T2I o generación de texto a imagen. Para replicar el éxito de los modelos T2I en la generación de video, se proponen modelos VDM o Video Diffusion que utilizan una arquitectura U-New factorizada espacio-tiempo en el espacio de píxeles para modelar videos de baja resolución. Transferir los aprendizajes de los marcos T2I a los marcos T2V ayudará a reducir los costos de capacitación. Aunque VDM o modelos de difusión de video tienen la capacidad de generar videos de alta calidad, solo aceptan indicaciones de texto como única guía semántica que puede no reflejar las verdaderas intenciones de un usuario o puede ser vaga. Sin embargo, los resultados de la mayoría de los modelos VDM rara vez se adhieren a la imagen de entrada y sufren el problema de la variación temporal poco realista. El enfoque de DynamiCrafter se basa en modelos de difusión de vídeo condicionados por texto que aprovechan su rica dinámica previa para animar imágenes de dominio abierto. Lo hace incorporando diseños personalizados para una mejor comprensión semántica y conformidad con la imagen de entrada.

DynamiCrafter: método y arquitectura

Para una imagen fija determinada, el marco DyanmiCrafter intenta animar la imagen a video es decir, producir un videoclip corto. El videoclip hereda el contenido visual de la imagen y exhibe una dinámica natural. Sin embargo, existe la posibilidad de que la imagen aparezca en la ubicación arbitraria de la secuencia de fotogramas resultante. La aparición de una imagen en una ubicación arbitraria es un tipo especial de desafío que se observa en tareas de generación de videos condicionados por imágenes con altos requisitos de conformidad visual. El marco DynamiCrafter supera este desafío utilizando los antecedentes generativos de modelos de difusión de video previamente entrenados.

Dinámica de imagen a partir de difusión de vídeo anterior

Por lo general, se sabe que los modelos de difusión de texto a video de dominio abierto muestran contenido visual dinámico modelado condicionado a las descripciones de texto. Para animar una imagen fija con antecedentes generativos de Texto a Video, los marcos primero deben inyectar la información visual en el proceso de generación de video de manera integral. Además, para la síntesis dinámica, el modelo T2V debe digerir la imagen para comprender el contexto, mientras que también debe poder preservar los detalles visuales en los videos generados.

Representación de contexto alineado con texto

Para guiar la generación de video con el contexto de la imagen, el marco DynamiCrafter intenta proyectar la imagen en un espacio de incrustación alineado permitiendo que el modelo de video use la información de la imagen de manera compatible. Después de esto, el marco DynamiCrafter emplea el codificador de imágenes para extraer características de la imagen de entrada, ya que las incrustaciones de texto se generan utilizando un codificador de texto CLIP previamente entrenado. Ahora, aunque los tokens semánticos globales del codificador de imágenes CLIP están alineados con los títulos de las imágenes, representa principalmente el contenido visual a nivel semántico, por lo que no logra capturar la extensión completa de la imagen. El marco DynamiCrafter implementa tokens visuales completos de la última capa del codificador CLIP para extraer información más completa, ya que estos tokens visuales demuestran alta fidelidad en las tareas de generación de imágenes condicionales. Además, el marco emplea incrustaciones de contexto y texto para interactuar con las características intermedias de U-Net utilizando las capas duales de atención cruzada. El diseño de este componente facilita la capacidad del modelo para absorber las condiciones de la imagen de manera dependiente de la capa. Además, dado que las capas intermedias de la arquitectura U-Net se asocian más con poses o formas de objetos, se espera que las características de la imagen influyan predominantemente en la apariencia de los videos, especialmente porque las capas de dos extremos están más vinculadas a la apariencia.

Guía de detalles visuales

El marco DyanmiCrafter emplea una representación de contexto rica en información que permite que el modelo de difusión de video en su arquitectura produzca videos que se parezcan mucho a la imagen de entrada. Sin embargo, como se demuestra en la siguiente imagen, el contenido generado puede mostrar algunas discrepancias debido a la capacidad limitada del codificador CLIP previamente entrenado para preservar la información de entrada por completo, ya que ha sido diseñado para alinear el lenguaje y las características visuales.

Para mejorar la conformidad visual, el marco DynamiCrafter propone proporcionar al modelo de difusión de video detalles visuales adicionales extraídos de la imagen de entrada. Para lograr esto, el modelo DyanmiCrafter concatena la imagen condicional con ruido inicial por cuadro y los envía al componente U-Net de eliminación de ruido como guía.

Paradigma de entrenamiento

El marco DynamiCrafter integra la imagen condicional a través de dos flujos complementarios que desempeñan un papel importante en la guía detallada y el control del contexto. Para facilitar lo mismo, el modelo DynamiCrafter emplea un proceso de capacitación de tres pasos.

En el primer paso, el modelo entrena la red de representación del contexto de la imagen.
En el segundo paso, el modelo adapta la red de representación del contexto de la imagen al modelo Texto a Video.
En el tercer y último paso, el modelo ajusta la red de representación del contexto de la imagen junto con el componente Visual Detail Guidance.

Para adaptar la información de la imagen para que sea compatible con el modelo de texto a video (T2V), el marco DynamiCrafter sugiere desarrollar una red de representación de contexto, P, diseñada para capturar detalles visuales alineados con el texto de la imagen dada. Al reconocer que P requiere muchos pasos de optimización para la convergencia, el enfoque del marco implica entrenarlo inicialmente utilizando un modelo de texto a imagen (T2I) más simple. Esta estrategia permite que la red de representación del contexto se concentre en aprender sobre el contexto de la imagen antes de integrarla con el modelo T2V a través del entrenamiento conjunto con P y las capas espaciales, a diferencia de las capas temporales, del modelo T2V.

Para garantizar la compatibilidad con T2V, el marco DyanmiCrafter fusiona la imagen de entrada con ruido por fotograma, procediendo a ajustar con precisión tanto P como las capas espaciales del Modelo de Discriminación Visual (VDM). Este método se elige para mantener la integridad de la información temporal existente del modelo T2V sin los efectos adversos de la fusión de imágenes densas, que podría comprometer el rendimiento y desviarse de nuestro objetivo principal. Además, el marco emplea una estrategia de selección aleatoria de un fotograma de vídeo como condición de imagen para lograr dos objetivos: (i) evitar que la red desarrolle un patrón predecible que asocie directamente la imagen fusionada con una ubicación específica del fotograma, y (ii) fomentar una representación del contexto más adaptable al evitar la provisión de información excesivamente rígida para un fotograma en particular.

DynamiCrafter: experimentos y resultados

El marco DynamiCrafter primero entrena la red de representación de contexto y las capas de atención cruzada de imágenes en Stable Diffusion. El marco reemplaza entonces el Difusión estable componente con VideoCrafter y afina aún más la red de representación del contexto y las capas espaciales para la adaptación, y con la concatenación de imágenes. Por inferencia, el marco adopta el muestreador DDIM con guía sin clasificador de múltiples condiciones. Además, para evaluar la coherencia temporal y la calidad de los vídeos sintetizados tanto en el dominio temporal como en el espacial, el marco informa FVD o Frechet Video Distance, así como KVD o Kernel Video Distance, y evalúa el rendimiento de disparo cero en todos los métodos. de los puntos de referencia MSR-VTT y UCF-101. Para investigar la conformidad perceptual entre los resultados generados y la imagen de entrada, el marco introduce PIC o Conformidad de entrada perceptual y adopta la métrica de distancia perceptual DreamSim como función de la distancia.

La siguiente figura demuestra la comparación visual del contenido animado generado con diferentes estilos y contenidos.

Como se puede observar, entre todos los diferentes métodos, el marco DynamiCrafter se adhiere bien a la condición de la imagen de entrada y genera videos temporalmente coherentes. La siguiente tabla contiene las estadísticas de un estudio de usuarios con 49 participantes sobre la tasa de preferencia por coherencia temporal (TC) y calidad de movimiento (MC), junto con la tasa de selección de conformidad visual con la imagen de entrada. (CI). Como se puede observar, el marco DynamiCrafter es capaz de superar a los métodos existentes por un margen considerable.

La siguiente figura demuestra los resultados logrados utilizando el método de inyección de doble flujo y el paradigma de entrenamiento.

Conclusión

En este artículo, hemos hablado de DynamiCrafter, un intento de superar las limitaciones actuales de los modelos de animación de imágenes y ampliar su aplicabilidad a escenarios genéricos que involucran imágenes de mundo abierto. El marco DynamiCrafter intenta sintetizar contenido dinámico para imágenes de dominio abierto, convirtiéndolos en videos animados. La idea clave detrás de DynamiCrafter es incorporar la imagen como guía en el proceso generativo en un intento de utilizar el movimiento previo de los modelos de difusión de texto a video ya existentes. Para una imagen determinada, el modelo DynamiCrafter primero implementa un transformador de consulta que proyecta la imagen en un espacio de representación de contexto rico alineado con texto, lo que facilita que el modelo de video digiera el contenido de la imagen de manera compatible. Sin embargo, el modelo DynamiCrafter todavía tiene dificultades para preservar algunos detalles visuales en los vídeos resultantes, un problema que supera alimentando la imagen completa al modelo de difusión concatenando la imagen con los ruidos iniciales, complementando así el modelo con una imagen más precisa. información.

Kunal Kejriwal

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.