Intelligence artificielle
AnimateLCM : Accélération de l’animation des modèles de diffusion personnalisés
Au cours des dernières années, les modèles de diffusion ont connu un succès massif et une reconnaissance pour les tâches de génération d’images et de vidéos. Les modèles de diffusion de vidéos, en particulier, ont suscité une attention significative en raison de leur capacité à produire des vidéos avec une cohérence élevée ainsi qu’une fidélité. Ces modèles génèrent des vidéos de haute qualité en utilisant un processus de débruitage itératif dans leur architecture qui transforme progressivement du bruit gaussien à haute dimension en données réelles.
Stable Diffusion est l’un des modèles les plus représentatifs pour les tâches de génération d’images, en s’appuyant sur un Variational AutoEncoder (VAE) pour mapper entre l’image réelle et les fonctionnalités latentes échantillonnées. Cela permet au modèle de réduire les coûts de génération, tandis que le mécanisme d’attention croisée dans son architecture facilite la génération d’images conditionnées par du texte. Plus récemment, le cadre Stable Diffusion a posé les fondements pour plusieurs adaptateurs plug-and-play pour réaliser une génération d’images ou de vidéos plus innovante et plus efficace. Cependant, le processus de génération itérative employé par la majorité des modèles de diffusion de vidéos rend le processus de génération d’images fastidieux et relativement coûteux, limitant ainsi ses applications.
Dans cet article, nous allons parler d’AnimateLCM, un modèle de diffusion personnalisé avec des adaptateurs visant à générer des vidéos de haute fidélité avec un minimum d’étapes et de coûts de calcul. Le cadre AnimateLCM s’inspire du Modèle de cohérence, qui accélère l’échantillonnage avec un minimum d’étapes en distillant des modèles de diffusion d’images pré-entraînés. De plus, l’extension réussie du Modèle de cohérence, le Modèle de cohérence latente (LCM), facilite la génération d’images conditionnelles. Au lieu de réaliser un apprentissage de cohérence directement sur le jeu de données de vidéos brutes, le cadre AnimateLCM propose d’utiliser une stratégie d’apprentissage de cohérence découplée. Cette stratégie découple la distillation des priorités de génération de mouvement et des priorités de génération d’images, permettant ainsi au modèle d’améliorer la qualité visuelle du contenu généré et d’accroître l’efficacité de formation simultanément. De plus, le modèle AnimateLCM propose de former des adaptateurs à partir de zéro ou d’adapter des adaptateurs existants à son modèle de cohérence de vidéo distillé. Cela facilite la combinaison d’adaptateurs plug-and-play dans la famille des modèles de diffusion stables pour réaliser différentes fonctions sans nuire à la vitesse d’échantillonnage.
Cet article vise à couvrir en profondeur le cadre AnimateLCM. Nous explorons le mécanisme, la méthodologie et l’architecture du cadre, ainsi que sa comparaison avec les cadres de génération d’images et de vidéos de pointe. Alors, commençons.
AnimateLCM : Animation des modèles de diffusion personnalisés
Les modèles de diffusion ont été le cadre de prédilection pour les tâches de génération d’images et de vidéos en raison de leur efficacité et de leurs capacités sur les tâches de génération. La majorité des modèles de diffusion s’appuient sur un processus de débruitage itératif pour la génération d’images qui transforme progressivement un bruit gaussien à haute dimension en données réelles. Même si la méthode donne des résultats satisfaisants, le processus itératif et le nombre d’échantillons itérés ralentissent le processus de génération et ajoutent aux exigences de calcul des modèles de diffusion qui sont beaucoup plus lents que d’autres cadres de génération comme GAN ou Réseaux antagonistes génératifs. Au cours des dernières années, des Modèles de cohérence ou CM ont été proposés comme alternative aux modèles de diffusion itératifs pour accélérer le processus de génération tout en maintenant les exigences de calcul constantes.
Le point fort des modèles de cohérence est qu’ils apprennent des mappages de cohérence qui maintiennent l’autocohérence des trajectoires introduites par les modèles de diffusion pré-entraînés. Le processus d’apprentissage des Modèles de cohérence permet de générer des images de haute qualité avec un minimum d’étapes, et élimine également la nécessité d’itérations computationnelles intensives. De plus, le Modèle de cohérence latente ou LCM construit sur le cadre de diffusion stable peut être intégré dans l’interface utilisateur Web avec les adaptateurs existants pour réaliser un ensemble de fonctionnalités supplémentaires comme la traduction d’image à image en temps réel. En comparaison, même si les modèles de diffusion de vidéos existants donnent des résultats acceptables, des progrès restent à faire dans le domaine de l’accélération des échantillons de vidéos, et cela est d’une grande importance en raison des coûts de génération de vidéos élevés.
Cela nous amène à AnimateLCM, un cadre de génération de vidéos de haute fidélité qui nécessite un minimum d’étapes pour les tâches de génération de vidéos. En suivant le Modèle de cohérence latente, le cadre AnimateLCM traite le processus de diffusion inverse comme la résolution d’un flux de probabilité augmenté de CFG ou de guidance sans classeur, et forme le modèle pour prédire directement la solution de ces flux de probabilité dans l’espace latent. Cependant, au lieu de réaliser un apprentissage de cohérence sur les données de vidéos brutes directement qui nécessitent des ressources de formation et de calcul élevées, et qui mènent souvent à une mauvaise qualité, le cadre AnimateLCM propose une stratégie d’apprentissage de cohérence découplée. Cette stratégie découple la distillation des priorités de génération de mouvement et des priorités de génération d’images.
Le cadre AnimateLCM réalise d’abord la distillation de cohérence pour adapter le modèle de diffusion d’images de base au modèle de cohérence d’images, puis effectue une inflation 3D à la fois sur les modèles de cohérence d’images et les modèles de diffusion d’images pour accueillir les fonctionnalités 3D. Finalement, le cadre AnimateLCM obtient le modèle de cohérence de vidéos en réalisant une distillation de cohérence sur les données de vidéos. De plus, pour atténuer la corruption potentielle des fonctionnalités en raison du processus de diffusion, le cadre AnimateLCM propose également d’utiliser une stratégie d’initialisation. Puisque le cadre AnimateLCM est construit sur le cadre de diffusion stable, il peut remplacer les poids spatiaux de son modèle de cohérence de vidéos formé par les poids de diffusion d’images personnalisés disponibles publiquement pour obtenir des résultats de génération innovants.

En outre, pour former des adaptateurs spécifiques à partir de zéro ou pour adapter les adaptateurs disponibles publiquement de manière plus efficace, le cadre AnimateLCM propose une stratégie d’accélération efficace pour les adaptateurs qui n’exigent pas la formation de modèles d’enseignants spécifiques.
Les contributions du cadre AnimateLCM peuvent être très bien résumées comme suit : Le cadre AnimateLCM proposé vise à réaliser une génération de vidéos de haute qualité, rapide et de haute fidélité, et pour cela, le cadre AnimateLCM propose une stratégie de distillation découplée qui découple les priorités de génération de mouvement et les priorités de génération d’images, ce qui aboutit à une meilleure qualité de génération et à une efficacité de formation améliorée.
InstantID : Méthodologie et Architecture
Au cœur du cadre InstantID se trouve une inspiration lourde des modèles de diffusion et des stratégies de vitesse d’échantillonnage. Les modèles de diffusion, également appelés modèles de génération basés sur les scores, ont démontré des capacités de génération d’images remarquables. Sous la direction de la direction du score, la stratégie d’échantillonnage itérative mise en œuvre par les modèles de diffusion débruite les données corrompues par le bruit progressivement. L’efficacité des modèles de diffusion est l’une des principales raisons pour lesquelles ils sont employés par la majorité des modèles de diffusion de vidéos en formant sur des couches temporelles ajoutées. D’un autre côté, les stratégies d’accélération de la vitesse d’échantillonnage aident à résoudre les problèmes de vitesse de génération lente dans les modèles de diffusion. La méthode d’accélération basée sur la distillation affine les poids de diffusion originaux avec une architecture raffinée ou un planificateur pour améliorer la vitesse de génération.
En poursuivant, le cadre InstantID est construit sur le modèle de diffusion stable qui permet à InstantID d’appliquer les notions pertinentes. Le modèle traite le processus de diffusion direct discret comme une équation différentielle stochastique (SDE) à variance préservée dans le temps continu. De plus, le modèle de diffusion stable est une extension du modèle de diffusion probabiliste de débruitage (DDPM), dans lequel le point de données de formation est perturbé progressivement par une chaîne de Markov discrète avec un noyau de perturbation qui permet à la distribution de données bruyantes à différents pas de temps de suivre la distribution.
Pour réaliser une génération de vidéos de haute fidélité avec un minimum d’étapes, le cadre AnimateLCM dompte les modèles de diffusion de vidéos basés sur la stabilité pour suivre la propriété d’autocohérence. La structure d’entraînement globale du cadre AnimateLCM se compose d’une stratégie d’apprentissage de cohérence découplée pour l’adaptation d’enseignant libre et un apprentissage de cohérence efficace.

Transition des modèles de diffusion aux modèles de cohérence
Le cadre AnimateLCM introduit sa propre adaptation du Modèle de diffusion stable (DM) au Modèle de cohérence (CM) en suivant la conception du Modèle de cohérence latente (LCM). Il est important de noter que même si les modèles de diffusion stables prédisent généralement le bruit ajouté aux échantillons, ils sont essentiellement des modèles de diffusion sigma. C’est en contraste avec les modèles de cohérence qui visent à prédire directement la solution de la trajectoire PF-ODE. De plus, dans les modèles de diffusion stables avec certains paramètres, il est essentiel pour le modèle d’employer une stratégie de guidance sans classeur pour générer des images de haute qualité. Le cadre AnimateLCM, cependant, emploie un solveur ODE augmenté de guidance sans classeur pour échantillonner les paires adjacentes dans les mêmes trajectoires, ce qui aboutit à une meilleure efficacité et à une qualité améliorée. De plus, les modèles existants ont indiqué que la qualité de génération et l’efficacité de formation sont fortement influencées par le nombre de points discrets dans la trajectoire. Un petit nombre de points discrets accélère le processus de formation, tandis qu’un plus grand nombre de points discrets entraîne moins de biais pendant la formation.
Apprentissage de cohérence découplée
Pour le processus de distillation de cohérence, les développeurs ont observé que les données utilisées pour la formation influencent fortement la qualité de la génération finale des modèles de cohérence. Cependant, le problème majeur avec les ensembles de données disponibles publiquement actuellement est qu’ils consistent souvent en données de marque d’eau, ou qu’ils sont de mauvaise qualité, et peuvent contenir des légendes trop brèves ou ambiguës. De plus, former le modèle directement sur des vidéos à grande résolution est coûteux en termes de calcul et de temps, ce qui en fait une option non viable pour la majorité des chercheurs.
Étant donné la disponibilité de jeux de données de haute qualité filtrés, le cadre AnimateLCM propose de découpler la distillation des priorités de mouvement et des priorités de génération d’images. Pour être plus précis, le cadre AnimateLCM découple d’abord les modèles de diffusion stables en modèles de cohérence d’images avec des jeux de données d’images texte de haute qualité filtrés et avec une meilleure résolution. Le cadre forme ensuite les poids LoRA légers aux couches du modèle de diffusion stable, en gelant ainsi les poids du modèle de diffusion stable. Une fois que le modèle affine les poids LoRA, il fonctionne comme un module d’accélération polyvalent, et il a démontré sa compatibilité avec d’autres modèles personnalisés dans les communautés de diffusion stables. Pour l’inférence, le cadre AnimateLCM fusionne les poids de LoRA avec les poids d’origine sans corrompre la vitesse d’inférence. Après que le cadre AnimateLCM obtienne le modèle de cohérence au niveau de la génération d’images, il gèle les poids du modèle de diffusion stable et les poids LoRA sur celui-ci. De plus, le modèle gonfle les noyaux de convolution 2D en noyaux pseudo-3D pour former les modèles de cohérence pour la génération de vidéos. Le modèle ajoute également des couches temporelles avec une initialisation nulle et une connexion résiduelle de bloc. L’ensemble de la configuration aide à assurer que la sortie du modèle ne sera pas influencée lorsqu’il est formé pour la première fois. Le cadre AnimateLCM, sous la direction des modèles de diffusion de vidéos open source, forme les couches temporelles étendues à partir des modèles de diffusion stables.
Il est important de reconnaître que même si les poids LoRA spatiaux sont conçus pour accélérer le processus d’échantillonnage sans tenir compte de la modélisation temporelle, et que les modules temporels sont développés à l’aide de techniques de diffusion standard, leur intégration directe tend à corrompre la représentation au début de la formation. Cela présente des défis importants pour les intégrer efficacement et avec un minimum de conflits. Grâce à la recherche empirique, le cadre AnimateLCM a identifié une approche d’initialisation réussie qui utilise non seulement les priorités de cohérence à partir des poids LoRA spatiaux, mais qui atténue également les effets négatifs de leur combinaison directe.

Au début de la formation de cohérence, les poids LoRA spatiaux pré-formés sont intégrés exclusivement dans le modèle de cohérence en ligne, épargnant ainsi le modèle de cohérence cible de l’insertion. Cette stratégie assure que le modèle cible, servant de guide éducatif pour le modèle en ligne, ne génère pas de prédictions erronées qui pourraient affecter négativement le processus d’apprentissage du modèle en ligne. Tout au long de la période de formation, les poids LoRA sont progressivement incorporés dans le modèle de cohérence cible via un processus de moyenne mobile exponentielle (EMA), atteignant ainsi l’équilibre optimal des poids après plusieurs itérations.
Adaptation sans enseignant
Les modèles de diffusion stables et les adaptateurs plug-and-play vont souvent de pair. Cependant, il a été observé que même si les adaptateurs plug-and-play fonctionnent jusqu’à un certain point, ils ont tendance à perdre le contrôle dans les détails même lorsque la majorité de ces adaptateurs sont formés avec des modèles de diffusion d’images. Pour contrer ce problème, le cadre AnimateLCM opte pour l’adaptation sans enseignant, une stratégie simple mais efficace qui soit accueille les adaptateurs existants pour une meilleure compatibilité, soit forme les adaptateurs à partir de zéro. L’approche permet au cadre AnimateLCM de réaliser une génération de vidéos contrôlable et une génération d’images-vidéos avec un minimum d’étapes sans nécessiter de modèles d’enseignants.

AnimateLCM : Expériences et Résultats
Le cadre AnimateLCM emploie un modèle de diffusion stable v1-5 comme modèle de base, et met en œuvre le solveur ODE DDIM à des fins de formation. Le cadre applique également le modèle de diffusion stable v1-5 avec des poids de mouvement open source comme modèle de diffusion de vidéos d’enseignant avec des expériences menées sur le jeu de données WebVid2M sans données supplémentaires ou augmentées. De plus, le cadre emploie le jeu de données TikTok avec des invites textuelles brèves BLIP pour la génération de vidéos contrôlable.
Résultats Qualitatifs
La figure suivante montre les résultats de la méthode de génération en quatre étapes mise en œuvre par le cadre AnimateLCM dans la génération de vidéos à partir de texte, la génération de vidéos à partir d’images et la génération de vidéos contrôlable.

Comme on peut l’observer, les résultats livrés par chacun d’eux sont satisfaisants avec les résultats générés démontrant la capacité du cadre AnimateLCM à suivre la propriété de cohérence même avec des étapes d’inférence variables, en maintenant un mouvement et un style similaires.


Résultats Quantitatifs
La figure suivante illustre les résultats quantitatifs et la comparaison du cadre AnimateLCM avec les méthodes DDIM et DPM++ de pointe.

Comme on peut l’observer, le cadre AnimateLCM surpasse les méthodes existantes d’une marge significative, en particulier dans le régime à faible étape allant de 1 à 4 étapes. De plus, les métriques AnimateLCM affichées dans cette comparaison sont évaluées sans utiliser la guidance sans classeur ou CFG, ce qui permet au cadre de sauver près de 50 % du temps d’inférence et du coût de mémoire de pointe d’inférence. De plus, pour valider davantage ses performances, les poids spatiaux au sein du cadre AnimateLCM sont remplacés par un modèle réaliste personnalisé disponible publiquement qui équilibre bien la fidélité et la diversité, ce qui aide à améliorer les performances encore plus.
Pensées finales
Dans cet article, nous avons parlé d’AnimateLCM, un modèle de diffusion personnalisé avec des adaptateurs qui vise à générer des vidéos de haute fidélité avec un minimum d’étapes et de coûts de calcul. Le cadre AnimateLCM s’inspire du Modèle de cohérence qui accélère l’échantillonnage avec un minimum d’étapes en distillant des modèles de diffusion d’images pré-entraînés, et de l’extension réussie du Modèle de cohérence, le Modèle de cohérence latente ou LCM qui facilite la génération d’images conditionnelles. Au lieu de réaliser un apprentissage de cohérence sur le jeu de données de vidéos brutes directement, le cadre AnimateLCM propose d’utiliser une stratégie d’apprentissage de cohérence découplée qui découple la distillation des priorités de génération de mouvement et des priorités de génération d’images, permettant ainsi au modèle d’améliorer la qualité visuelle du contenu généré et d’accroître l’efficacité de formation simultanément.












