Modelos y plataformas de IA

AnimateLCM: Animación de Modelos de Difusión Personalizados

Publicado el 19 de marzo de 2024

Actualizado el 22 de mayo de 2026

Por

Kunal Kejriwal

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

Durante los últimos años, los modelos de difusión han logrado un gran éxito y reconocimiento en tareas de generación de imágenes y videos. Los modelos de difusión de video, en particular, han estado ganando una gran atención debido a su capacidad para producir videos con alta coherencia y fidelidad. Estos modelos generan videos de alta calidad mediante un proceso de denoising iterativo en su arquitectura que transforma gradualmente el ruido gaussiano de alta dimensión en datos reales.

Stable Diffusion es uno de los modelos más representativos para tareas de generación de imágenes, que se basa en un Autoencoder Variacional (VAE) para mapear entre la imagen real y las características latentes muestreadas. Esto permite al modelo reducir los costos generativos, mientras que el mecanismo de atención cruzada en su arquitectura facilita la generación de imágenes condicionadas por texto. Más recientemente, el marco de Stable Diffusion ha sentado las bases para varios adaptadores de plug-and-play para lograr una generación de imágenes o videos más innovadora y efectiva. Sin embargo, el proceso generativo iterativo empleado por la mayoría de los modelos de difusión de video hace que el proceso de generación de imágenes sea lento y relativamente costoso, lo que limita sus aplicaciones.

En este artículo, hablaremos sobre AnimateLCM, un modelo de difusión personalizado con adaptadores destinado a generar videos de alta fidelidad con un número mínimo de pasos y costos computacionales. El marco de AnimateLCM se inspira en el Modelo de Consistencia, que acelera la muestra con un número mínimo de pasos al destilar modelos de difusión de imagen preentrenados. Además, la extensión exitosa del Modelo de Consistencia, el Modelo de Consistencia Latente (LCM), facilita la generación de imágenes condicionales. En lugar de realizar el aprendizaje de consistencia directamente en el conjunto de datos de video raw, el marco de AnimateLCM propone utilizar una estrategia de aprendizaje de consistencia desacoplada. Esta estrategia desacopla la destilación de los priores de generación de movimiento y los priores de generación de imágenes, lo que permite al modelo mejorar la calidad visual del contenido generado y mejorar la eficiencia de entrenamiento al mismo tiempo. Además, el modelo AnimateLCM propone entrenar adaptadores desde cero o adaptar adaptadores existentes a su modelo de consistencia de video destilado. Esto facilita la combinación de adaptadores de plug-and-play en la familia de modelos de difusión estable para lograr diferentes funciones sin dañar la velocidad de muestreo.

Este artículo tiene como objetivo cubrir el marco de AnimateLCM en profundidad. Exploramos el mecanismo, la metodología y la arquitectura del marco, junto con su comparación con marcos de generación de imágenes y videos de estado del arte. Así que comencemos.

AnimateLCM: Animación de Modelos de Difusión Personalizados

Los modelos de difusión han sido el marco de referencia para tareas de generación de imágenes y videos debido a su eficiencia y capacidades en tareas generativas. La mayoría de los modelos de difusión se basan en un proceso de denoising iterativo para la generación de imágenes que transforma un ruido gaussiano de alta dimensión en datos reales gradualmente. Aunque el método produce resultados satisfactorios, el proceso iterativo y el número de muestras iteradas ralentizan el proceso de generación y también aumentan los requisitos computacionales de los modelos de difusión, que son mucho más lentos que otros marcos generativos como GAN o Redes Adversarias Generativas. En los últimos años, los Modelos de Consistencia o CM han sido propuestos como una alternativa a los modelos de difusión iterativos para acelerar el proceso de generación mientras se mantienen los requisitos computacionales constantes.

El destacado de los modelos de consistencia es que aprenden mapeos de consistencia que mantienen la autoconsistencia de las trayectorias introducidas por los modelos de difusión preentrenados. El proceso de aprendizaje de los Modelos de Consistencia permite generar imágenes de alta calidad con un número mínimo de pasos y también elimina la necesidad de iteraciones computacionalmente intensivas. Además, el Modelo de Consistencia Latente o LCM construido sobre el marco de difusión estable puede integrarse en la interfaz de usuario web con los adaptadores existentes para lograr una serie de funcionalidades adicionales como la traducción de imagen a imagen en tiempo real. En comparación, aunque los modelos de difusión de video existentes producen resultados aceptables, aún se necesita progreso en el campo de la aceleración de la muestra de video, y es de gran importancia debido a los altos costos computacionales de la generación de video.

Eso nos lleva a AnimateLCM, un marco de generación de video de alta fidelidad que requiere un número mínimo de pasos para las tareas de generación de video. Siguiendo el Modelo de Consistencia Latente, el marco de AnimateLCM trata el proceso de difusión inversa como la resolución de un flujo de probabilidad aumentado con CFG o Guía Libre de Clasificador, y entrena el modelo para predecir la solución de tales flujos de probabilidad directamente en el espacio latente. Sin embargo, en lugar de realizar el aprendizaje de consistencia en los datos de video raw directamente, que requiere altos recursos de entrenamiento y computacionales, y a menudo conduce a una mala calidad, el marco de AnimateLCM propone una estrategia de aprendizaje de consistencia desacoplada. Esta estrategia desacopla la destilación de los priores de generación de movimiento y los priores de generación de imágenes.

El marco de AnimateLCM primero realiza la destilación de consistencia para adaptar el modelo de difusión de base a un modelo de consistencia de imagen, y luego realiza una inflación 3D en ambos modelos de consistencia de imagen y difusión para acomodar características 3D. Finalmente, el marco de AnimateLCM obtiene el modelo de consistencia de video mediante la destilación de consistencia en los datos de video. Además, para mitigar la posible corrupción de características como resultado del proceso de difusión, el marco de AnimateLCM también propone utilizar una estrategia de inicialización. Dado que el marco de AnimateLCM se basa en el marco de Difusión Estable, puede reemplazar los pesos espaciales de su modelo de consistencia de video entrenado con los pesos de difusión de imagen personalizados disponibles públicamente para lograr resultados de generación innovadores.

Además, para entrenar adaptadores específicos desde cero o para adaptar mejor los adaptadores disponibles públicamente, el marco de AnimateLCM propone una estrategia de aceleración efectiva para los adaptadores que no requieren el entrenamiento de modelos de maestro específicos.

Las contribuciones del marco de AnimateLCM se pueden resumir como: El marco de AnimateLCM propuesto tiene como objetivo lograr la generación de video de alta fidelidad, rápida y con un número mínimo de pasos, y para lograr esto, el marco de AnimateLCM propone una estrategia de destilación desacoplada que desacopla los priores de generación de movimiento y los priores de generación de imágenes, lo que resulta en una mejor calidad de generación y una mayor eficiencia de entrenamiento.

InstantID: Metodología y Arquitectura

En su núcleo, el marco de InstantID se inspira en los modelos de difusión y las estrategias de velocidad de muestreo. Los modelos de difusión, también conocidos como modelos generativos basados en puntuación, han demostrado capacidades de generación de imágenes notables. Bajo la guía de la dirección de puntuación, la estrategia de muestreo iterativo implementada por los modelos de difusión denoisa los datos corruptos por ruido gradualmente. La eficiencia de los modelos de difusión es una de las razones principales por las que se utilizan en la mayoría de los modelos de difusión de video al entrenar en capas temporales adicionales. Por otro lado, las estrategias de aceleración de muestreo ayudan a abordar las velocidades de generación lentas en los modelos de difusión. El método de aceleración basado en la destilación ajusta los pesos originales de difusión con una arquitectura refinada o un programador para mejorar la velocidad de generación.

Avanzando, el marco de InstantID se basa en el modelo de difusión estable que permite a InstantID aplicar nociones relevantes. El modelo trata el proceso de difusión hacia adelante discreto como una EDP de Varianza Conservadora en tiempo continuo. Además, el modelo de difusión estable es una extensión del modelo de Difusión Probabilística de Denoising (DDPM), en el que el punto de datos de entrenamiento se perturba gradualmente por una cadena de Markov discreta con un núcleo de perturbación que permite que la distribución de los datos ruidosos en diferentes pasos de tiempo siga la distribución.

Para lograr la generación de video de alta fidelidad con un número mínimo de pasos, el marco de AnimateLCM domestica los modelos de video basados en la difusión estable para que sigan la propiedad de autoconsistencia. La estructura de entrenamiento general del marco de AnimateLCM consiste en una estrategia de aprendizaje de consistencia desacoplada para la adaptación de maestro libre y el aprendizaje de consistencia efectivo.

Transición de Modelos de Difusión a Modelos de Consistencia

El marco de AnimateLCM introduce su propia adaptación del Modelo de Difusión Estable (DM) al Modelo de Consistencia (CM) siguiendo el diseño del Modelo de Consistencia Latente (LCM). Es importante destacar que, aunque los modelos de difusión estable típicamente predicen el ruido agregado a las muestras, son esenciales modelos de difusión sigma. Esto contrasta con los modelos de consistencia que tienen como objetivo predecir directamente la solución a la trayectoria de la EDP-PF. Además, en los modelos de difusión estable con ciertos parámetros, es esencial que el modelo emplee una estrategia de guía libre de clasificador para generar imágenes de alta calidad. El marco de AnimateLCM, sin embargo, emplea un solucionador de EDP aumentado con guía libre de clasificador para muestrear pares adyacentes en las mismas trayectorias, lo que resulta en una mejor eficiencia y calidad.

Aprendizaje de Consistencia Desacoplada

Para el proceso de destilación de consistencia, los desarrolladores han observado que los datos utilizados para el entrenamiento influyen en gran medida en la calidad de la generación final de los modelos de consistencia. Sin embargo, el problema principal con los conjuntos de datos disponibles públicamente es que a menudo consisten en datos con marcas de agua, o son de baja calidad, y pueden contener subtítulos demasiado breves o ambiguos. Además, entrenar el modelo directamente en videos de alta resolución es computacionalmente costoso y consume mucho tiempo, lo que lo hace inviable para la mayoría de los investigadores.

Dada la disponibilidad de conjuntos de datos de alta calidad filtrados, el marco de AnimateLCM propone desacoplar la destilación de los priores de movimiento y los priores de generación de imágenes. Para ser más específicos, el marco de AnimateLCM primero destila los modelos de difusión estable en modelos de consistencia de imagen con conjuntos de datos de texto de imagen de alta calidad filtrados y con mejor resolución. El marco luego entrena los pesos LoRA ligeros en las capas del modelo de difusión estable, congelando los pesos del modelo de difusión estable. Una vez que el modelo ajusta los pesos LoRA, funciona como un módulo de aceleración versátil y ha demostrado su compatibilidad con otros modelos personalizados en las comunidades de difusión estable. Para la inferencia, el marco de AnimateLCM combina los pesos de LoRA con los pesos originales sin dañar la velocidad de inferencia.

Es importante reconocer que, mientras que los pesos LoRA espaciales están diseñados para acelerar el proceso de muestreo sin considerar el modelado temporal, y los módulos temporales se desarrollan a través de técnicas de difusión estándar, su integración directa tiende a corromper la representación al comienzo del entrenamiento. Esto presenta desafíos significativos para combinarlos de manera efectiva y eficiente con un conflicto mínimo. A través de la investigación empírica, el marco de AnimateLCM ha identificado un enfoque de inicialización exitoso que no solo utiliza los priores de consistencia de los pesos LoRA espaciales, sino que también mitiga los efectos adversos de su combinación directa.

Al comienzo del entrenamiento de consistencia, los pesos LoRA espaciales preentrenados se integran exclusivamente en el modelo de consistencia en línea, ahorrando al modelo de consistencia objetivo la inserción. Esta estrategia garantiza que el modelo objetivo, que sirve como guía educativa para el modelo en línea, no genere predicciones defectuosas que podrían afectar negativamente el proceso de aprendizaje del modelo en línea. A lo largo del período de entrenamiento, los pesos LoRA se incorporan progresivamente al modelo de consistencia objetivo a través de un proceso de promedio móvil exponencial (EMA), logrando el equilibrio óptimo de pesos después de varias iteraciones.

Adaptación de Maestro Libre

Los modelos de Difusión Estable y los adaptadores de plug-and-play a menudo van de la mano. Sin embargo, se ha observado que, aunque los adaptadores de plug-and-play funcionan hasta cierto punto, tienden a perder el control en los detalles, incluso cuando la mayoría de estos adaptadores se entrenan con modelos de difusión de imagen. Para contrarrestar este problema, el marco de AnimateLCM opta por la adaptación de maestro libre, una estrategia simple pero efectiva que either acomoda los adaptadores existentes para una mejor compatibilidad o entrena los adaptadores desde cero. El enfoque permite al marco de AnimateLCM lograr la generación de video controlable y la generación de imagen a video con un número mínimo de pasos sin requerir modelos de maestro.

AnimateLCM: Experimentos y Resultados

El marco de AnimateLCM emplea un modelo de Difusión Estable v1-5 como modelo base y implementa el solucionador de EDP DDIM para fines de entrenamiento. El marco también aplica el modelo de Difusión Estable v1-5 con pesos de movimiento de código abierto como modelo de difusión de video de maestro con los experimentos realizados en el conjunto de datos WebVid2M sin datos adicionales o aumentados. Además, el marco emplea el conjunto de datos de TikTok con subtítulos de texto breves de BLIP para la generación de video controlable.

Resultados Cualitativos

La siguiente figura muestra los resultados del método de generación de cuatro pasos implementado por el marco de AnimateLCM en la generación de video de texto, generación de video de imagen y generación de video controlable.

Como se puede observar, los resultados entregados por cada uno de ellos son satisfactorios, y los resultados generados demuestran la capacidad del marco de AnimateLCM para seguir la propiedad de consistencia incluso con pasos de inferencia variables, manteniendo un movimiento y estilo similares.

Resultados Cuantitativos

La siguiente figura ilustra los resultados cuantitativos y la comparación del marco de AnimateLCM con los métodos DDIM y DPM++ de estado del arte.

Como se puede observar, el marco de AnimateLCM supera los métodos existentes por un margen significativo, especialmente en el régimen de pasos bajos que van desde 1 a 4 pasos. Además, las métricas de AnimateLCM mostradas en esta comparación se evalúan sin utilizar la CFG o la guía libre de clasificador, lo que permite al marco ahorrar casi el 50% del tiempo de inferencia y el costo de memoria pico de inferencia. Además, para validar aún más su rendimiento, los pesos espaciales dentro del marco de AnimateLCM se reemplazan con un modelo realista personalizado disponible públicamente que equilibra la fidelidad y la diversidad, lo que ayuda a mejorar el rendimiento aún más.

Pensamientos Finales

En este artículo, hemos hablado sobre AnimateLCM, un modelo de difusión personalizado con adaptadores que tiene como objetivo generar videos de alta fidelidad con un número mínimo de pasos y costos computacionales. El marco de AnimateLCM se inspira en el Modelo de Consistencia que acelera la muestra con un número mínimo de pasos al destilar modelos de difusión de imagen preentrenados, y la extensión exitosa del Modelo de Consistencia, el Modelo de Consistencia Latente (LCM), que facilita la generación de imágenes condicionales. En lugar de realizar el aprendizaje de consistencia en el conjunto de datos de video raw directamente, el marco de AnimateLCM propone utilizar una estrategia de aprendizaje de consistencia desacoplada que desacopla la destilación de los priores de generación de movimiento y los priores de generación de imágenes, lo que permite al modelo mejorar la calidad visual del contenido generado y mejorar la eficiencia de entrenamiento al mismo tiempo.

Kunal Kejriwal

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.