Suivez nous sur

AnimateLCM : accĂ©lĂ©rer l'animation de modèles de diffusion personnalisĂ©s

Intelligence Artificielle

AnimateLCM : accĂ©lĂ©rer l'animation de modèles de diffusion personnalisĂ©s

mm
AnimateLCM : accĂ©lĂ©rer l'animation de modèles et d'adaptateurs de diffusion personnalisĂ©s avec un apprentissage de cohĂ©rence dĂ©couplĂ©

Au cours des dernières années, les modèles de diffusion ont connu un succès et une reconnaissance massifs pour les tâches de génération d'images et de vidéos. Les modèles de diffusion vidéo, en particulier, suscitent une attention considérable en raison de leur capacité à produire des vidéos d’une grande cohérence et fidélité. Ces modèles génèrent des vidéos de haute qualité en employant un processus de débruitage itératif dans leur architecture qui transforme progressivement le bruit gaussien de grande dimension en données réelles.

La diffusion stable est l'un des modèles les plus représentatifs pour les tâches de génération d'images, s'appuyant sur un auto-encodeur variationnel (VAE) pour mapper entre l'image réelle et les caractéristiques latentes sous-échantillonnées. Cela permet au modèle de réduire les coûts de génération, tandis que le mécanisme d'attention croisée dans son architecture facilite la génération d'images conditionnées par du texte. Plus récemment, le framework Stable Diffusion a jeté les bases de plusieurs adaptateurs plug-and-play permettant de générer une image ou une vidéo plus innovante et plus efficace. Cependant, le processus de génération itératif employé par la majorité des modèles de diffusion vidéo rend le processus de génération d’images long et relativement coûteux, limitant ainsi ses applications.

Dans cet article, nous parlerons d'AnimateLCM, un modèle de diffusion personnalisé avec des adaptateurs visant à générer des vidéos haute fidélité avec des étapes et des coûts de calcul minimes. Le framework AnimateLCM s'inspire du modèle de cohérence, qui accélère l'échantillonnage avec un minimum d'étapes en distillant des modèles de diffusion d'images pré-entraînés. De plus, l'extension réussie du modèle de cohérence, le modèle de cohérence latente (LCM), facilite la génération d'images conditionnelles. Au lieu d'effectuer un apprentissage de cohérence directement sur l'ensemble de données vidéo brutes, le framework AnimateLCM propose d'utiliser une stratégie d'apprentissage de cohérence découplée. Cette stratégie dissocie la distillation des priors de génération de mouvement et des priors de génération d'images, permettant au modèle d'améliorer la qualité visuelle du contenu généré et d'améliorer simultanément l'efficacité de la formation. De plus, le modèle AnimateLCM propose de former des adaptateurs à partir de zéro ou d'adapter les adaptateurs existants à son modèle de cohérence vidéo distillé. Cela facilite la combinaison d'adaptateurs plug-and-play dans la famille des modèles de diffusion stables pour réaliser différentes fonctions sans nuire à la vitesse d'échantillonnage.

Cet article vise à présenter en détail le framework AnimateLCM. Nous explorons son mécanisme, sa méthodologie et son architecture, ainsi que sa comparaison avec les frameworks de génération d'images et de vidéos les plus performants. Alors, commençons !

AnimateLCM : Animation de Modèles de Diffusion Personnalisés

Les modèles de diffusion constituent le cadre de prĂ©dilection pour les tâches de gĂ©nĂ©ration d'images et de gĂ©nĂ©ration de vidĂ©os en raison de leur efficacitĂ© et de leurs capacitĂ©s sur les tâches gĂ©nĂ©ratives. La majoritĂ© des modèles de diffusion reposent sur un processus de dĂ©bruitage itĂ©ratif pour la gĂ©nĂ©ration d’images qui transforme progressivement un bruit gaussien de haute dimension en donnĂ©es rĂ©elles. Bien que la mĂ©thode donne des rĂ©sultats quelque peu satisfaisants, le processus itĂ©ratif et le nombre d'Ă©chantillons itĂ©ratifs ralentissent le processus de gĂ©nĂ©ration et ajoutent Ă©galement aux exigences de calcul des modèles de diffusion qui sont beaucoup plus lents que d'autres cadres gĂ©nĂ©ratifs comme GAN ou RĂ©seaux d'adversaires gĂ©nĂ©ratifs. Au cours des dernières annĂ©es, les modèles de cohĂ©rence ou CM ont Ă©tĂ© proposĂ©s comme alternative aux modèles de diffusion itĂ©ratifs pour accĂ©lĂ©rer le processus de gĂ©nĂ©ration tout en maintenant les exigences de calcul constantes. 

Le point fort des modèles de cohĂ©rence est qu'ils apprennent des mappages de cohĂ©rence qui maintiennent l'auto-cohĂ©rence des trajectoires introduites par les modèles de diffusion prĂ©-entraĂ®nĂ©s. Le processus d'apprentissage des modèles de cohĂ©rence lui permet de gĂ©nĂ©rer des images de haute qualitĂ© en un minimum d'Ă©tapes et Ă©limine Ă©galement le besoin d'itĂ©rations gourmandes en calculs. De plus, le modèle de cohĂ©rence latente ou LCM construit sur le cadre de diffusion stable peut ĂŞtre intĂ©grĂ© Ă  l'interface utilisateur Web avec les adaptateurs existants pour obtenir une multitude de fonctionnalitĂ©s supplĂ©mentaires telles que la traduction d'image en image en temps rĂ©el. En comparaison, bien que les modèles de diffusion vidĂ©o existants donnent des rĂ©sultats acceptables, des progrès restent Ă  faire dans le domaine de l'accĂ©lĂ©ration des Ă©chantillons vidĂ©o et sont d'une grande importance en raison des coĂ»ts de calcul Ă©levĂ©s pour la gĂ©nĂ©ration vidĂ©o. 

Cela nous amène Ă  AnimateLCM, un framework de gĂ©nĂ©ration vidĂ©o haute fidĂ©litĂ© qui nĂ©cessite un nombre minimal d'Ă©tapes pour les tâches de gĂ©nĂ©ration vidĂ©o. Suivant le modèle de cohĂ©rence latente, le cadre AnimateLCM traite le processus de diffusion inverse comme la rĂ©solution d'un flux de probabilitĂ© augmentĂ© CFG ou Classifier Free Guidance, et entraĂ®ne le modèle pour prĂ©dire la solution de ces flux de probabilitĂ© directement dans l'espace latent. Cependant, au lieu d'effectuer directement un apprentissage de cohĂ©rence sur des donnĂ©es vidĂ©o brutes, ce qui nĂ©cessite des ressources de formation et de calcul Ă©levĂ©es et conduit souvent Ă  une mauvaise qualitĂ©, le cadre AnimateLCM propose une stratĂ©gie d'apprentissage cohĂ©rente dĂ©couplĂ©e qui dissocie la distillation de cohĂ©rence des prioritĂ©s de gĂ©nĂ©ration de mouvement et de gĂ©nĂ©ration d'images. 

Le framework AnimateLCM effectue d'abord la distillation de cohĂ©rence pour adapter le modèle de diffusion de base d'image dans le modèle de cohĂ©rence d'image, puis effectue un gonflement 3D des modèles de cohĂ©rence d'image et de diffusion d'image pour s'adapter aux fonctionnalitĂ©s 3D. Finalement, le framework AnimateLCM obtient le modèle de cohĂ©rence vidĂ©o en effectuant une distillation de cohĂ©rence sur les donnĂ©es vidĂ©o. De plus, pour attĂ©nuer la corruption potentielle des fonctionnalitĂ©s rĂ©sultant du processus de diffusion, le framework AnimateLCM propose Ă©galement d'utiliser une stratĂ©gie d'initialisation. Étant donnĂ© que le framework AnimateLCM est construit sur le framework Stable Diffusion, il peut remplacer les poids spatiaux de son modèle de cohĂ©rence vidĂ©o entraĂ®nĂ© par les poids de diffusion d'images personnalisĂ©s accessibles au public pour obtenir des rĂ©sultats de gĂ©nĂ©ration innovants. 

De plus, pour former des adaptateurs spĂ©cifiques Ă  partir de zĂ©ro ou pour mieux s'adapter aux adaptateurs accessibles au public, le framework AnimateLCM propose une stratĂ©gie d'accĂ©lĂ©ration efficace pour les adaptateurs qui ne nĂ©cessitent pas de formation des modèles d'enseignant spĂ©cifiques. 

Les contributions du framework AnimateLCM peuvent ĂŞtre très bien rĂ©sumĂ©es comme suit : Le framework AnimateLCM proposĂ© vise Ă  obtenir une gĂ©nĂ©ration vidĂ©o de haute qualitĂ©, rapide et haute fidĂ©litĂ©, et pour y parvenir, le framework AnimateLCM propose une stratĂ©gie de distillation dĂ©couplĂ©e qui dĂ©couple le mouvement et l'image. gĂ©nĂ©rations antĂ©rieures, ce qui se traduit par une meilleure qualitĂ© de gĂ©nĂ©ration et une efficacitĂ© de formation amĂ©liorĂ©e. 

InstantID : Méthodologie et Architecture

Ă€ la base, le framework InstantID s’inspire fortement des modèles de diffusion et des stratĂ©gies de vitesse d’échantillonnage. Les modèles de diffusion, Ă©galement connus sous le nom de modèles gĂ©nĂ©ratifs basĂ©s sur des scores, ont dĂ©montrĂ© des capacitĂ©s gĂ©nĂ©ratives d'images remarquables. Sous la direction de la direction des scores, la stratĂ©gie d'Ă©chantillonnage itĂ©rative mise en Ĺ“uvre par les modèles de diffusion dĂ©bruite progressivement les donnĂ©es corrompues par le bruit. L’efficacitĂ© des modèles de diffusion est l’une des principales raisons pour lesquelles ils sont utilisĂ©s par la majoritĂ© des pays. modèles de diffusion vidĂ©o en s'entraĂ®nant sur des couches temporelles ajoutĂ©es. D’un autre cĂ´tĂ©, les stratĂ©gies de vitesse d’échantillonnage et d’accĂ©lĂ©ration d’échantillonnage aident Ă  lutter contre les vitesses de gĂ©nĂ©ration lentes dans les modèles de diffusion. La mĂ©thode d'accĂ©lĂ©ration basĂ©e sur la distillation ajuste les poids de diffusion d'origine avec une architecture ou un planificateur raffinĂ© pour amĂ©liorer la vitesse de gĂ©nĂ©ration. 

En progressant, le framework InstantID est construit sur le modèle de diffusion stable qui permet Ă  InstantID d'appliquer des notions pertinentes. Le modèle traite le processus de diffusion discrète vers l'avant comme un SDE Ă  prĂ©servation de variance en temps continu. De plus, le modèle de diffusion stable est une extension du DDPM ou Denoising Diffusion Probabilistic Model, dans lequel le point de donnĂ©es d'entraĂ®nement est progressivement perturbĂ© par la chaĂ®ne de Markov discrète avec un chenil de perturbation permettant la distribution de donnĂ©es bruyantes Ă  diffĂ©rents pas de temps pour suivre la distribution. 

Pour obtenir une gĂ©nĂ©ration vidĂ©o haute fidĂ©litĂ© avec un nombre minimal d'Ă©tapes, le framework AnimateLCM apprivoise les modèles vidĂ©o stables basĂ©s sur la diffusion pour suivre la propriĂ©tĂ© d'auto-cohĂ©rence. La structure globale de formation du cadre AnimateLCM consiste en une stratĂ©gie d’apprentissage de cohĂ©rence dĂ©couplĂ©e pour une adaptation libre de l’enseignant et un apprentissage de cohĂ©rence efficace. 

Transition des modèles de diffusion aux modèles de cohérence

Le framework AnimateLCM introduit sa propre adaptation du modèle de diffusion stable ou DM au modèle de cohĂ©rence ou CM suite Ă  la conception du modèle de cohĂ©rence latente ou LCM. Il convient de noter que mĂŞme si les modèles de diffusion stable prĂ©disent gĂ©nĂ©ralement le bruit ajoutĂ© aux Ă©chantillons, ils constituent des modèles sigma-diffusion essentiels. Cela contraste avec les modèles de cohĂ©rence qui visent Ă  prĂ©dire directement la solution de la trajectoire PF-ODE. De plus, dans les modèles de diffusion stables avec certains paramètres, il est essentiel que le modèle utilise une stratĂ©gie de guidage sans classificateur pour gĂ©nĂ©rer des images de haute qualitĂ©. Le framework AnimateLCM utilise cependant un solveur ODE augmentĂ© Ă  guidage sans classificateur pour Ă©chantillonner les paires adjacentes dans les mĂŞmes trajectoires, ce qui entraĂ®ne une meilleure efficacitĂ© et une qualitĂ© amĂ©liorĂ©e. De plus, les modèles existants ont indiquĂ© que la qualitĂ© de la gĂ©nĂ©ration et l'efficacitĂ© de la formation sont fortement influencĂ©es par le nombre de points discrets dans la trajectoire. Un plus petit nombre de points discrets accĂ©lère le processus de formation, tandis qu'un nombre plus Ă©levĂ© de points discrets entraĂ®ne moins de biais pendant la formation. 

Apprentissage de cohérence découplé

Pour le processus de distillation de cohĂ©rence, les dĂ©veloppeurs ont observĂ© que les donnĂ©es utilisĂ©es pour la formation influencent fortement la qualitĂ© de la gĂ©nĂ©ration finale des modèles de cohĂ©rence. Cependant, le problème majeur avec les ensembles de donnĂ©es accessibles au public actuellement est qu'ils sont souvent constituĂ©s de donnĂ©es filigranĂ©es, ou de mauvaise qualitĂ©, et peuvent contenir des lĂ©gendes trop brèves ou ambiguĂ«s. De plus, entraĂ®ner le modèle directement sur des vidĂ©os Ă  grande rĂ©solution est coĂ»teux en termes de calcul et prend du temps, ce qui en fait une option non rĂ©alisable pour la majoritĂ© des chercheurs. 

Compte tenu de la disponibilitĂ© d'ensembles de donnĂ©es filtrĂ©s de haute qualitĂ©, le framework AnimateLCM propose de dĂ©coupler la distillation des a priori de mouvement et des a priori de gĂ©nĂ©ration d'images. Pour ĂŞtre plus prĂ©cis, le framework AnimateLCM distille d'abord les modèles de diffusion stables en modèles de cohĂ©rence d'image avec des ensembles de donnĂ©es de texte d'image filtrĂ©s de haute qualitĂ© avec une meilleure rĂ©solution. Le cadre entraĂ®ne ensuite les poids LoRA lĂ©gers au niveau des couches du modèle de diffusion stable, gelant ainsi les poids du modèle stable. modèle de diffusion. Une fois que le modèle a rĂ©glĂ© les poids LoRA, il fonctionne comme un module d'accĂ©lĂ©ration polyvalent et a dĂ©montrĂ© sa compatibilitĂ© avec d'autres modèles personnalisĂ©s dans les communautĂ©s de diffusion stables. Pour l'infĂ©rence, le framework AnimateLCM fusionne les poids de la LoRA avec les poids d'origine sans corrompre la vitesse d'infĂ©rence. Une fois que le framework AnimateLCM a obtenu le modèle de cohĂ©rence au niveau de la gĂ©nĂ©ration d'images, il gèle les poids du modèle de diffusion stable et les poids LoRA dessus. De plus, le modèle gonfle les noyaux de convolution 2D en noyaux pseudo-3D pour former les modèles de cohĂ©rence pour la gĂ©nĂ©ration vidĂ©o. Le modèle ajoute Ă©galement des couches temporelles avec une initialisation nulle et une connexion rĂ©siduelle au niveau du bloc. La configuration globale permet de garantir que la sortie du modèle ne sera pas influencĂ©e lors de son premier entraĂ®nement. Le cadre AnimateLCM, sous la direction de modèles de diffusion vidĂ©o open source, entraĂ®ne les couches temporelles Ă©tendues Ă  partir des modèles de diffusion stables. 

Il est important de comprendre que, bien que les pondĂ©rations spatiales LoRA soient conçues pour accĂ©lĂ©rer le processus d'Ă©chantillonnage sans tenir compte de la modĂ©lisation temporelle, et que les modules temporels soient dĂ©veloppĂ©s Ă  l'aide de techniques de diffusion standard, leur intĂ©gration directe tend Ă  corrompre la reprĂ©sentation dès le dĂ©but de l'apprentissage. Cela pose des dĂ©fis importants pour les fusionner efficacement et en minimisant les conflits. Grâce Ă  des recherches empiriques, le framework AnimateLCM a identifiĂ© une approche d'initialisation efficace qui non seulement exploite les priors de cohĂ©rence des pondĂ©rations spatiales LoRA, mais attĂ©nue Ă©galement les effets nĂ©gatifs de leur combinaison directe. 

Au début de l'apprentissage de la cohérence, les pondérations spatiales LoRA pré-entraînées sont intégrées exclusivement au modèle de cohérence en ligne, évitant ainsi l'insertion du modèle cible. Cette stratégie garantit que le modèle cible, servant de guide pédagogique au modèle en ligne, ne génère pas de prédictions erronées susceptibles de nuire à son apprentissage. Tout au long de la période d'apprentissage, les pondérations LoRA sont progressivement intégrées au modèle cible via un processus de moyenne mobile exponentielle (EMA), atteignant ainsi l'équilibre optimal des pondérations après plusieurs itérations.

Adaptation gratuite pour les enseignants

Les modèles Ă  diffusion stable et les adaptateurs plug and play vont souvent de pair. Cependant, il a Ă©tĂ© observĂ© que mĂŞme si les adaptateurs plug and play fonctionnent dans une certaine mesure, ils ont tendance Ă  perdre le contrĂ´le des dĂ©tails mĂŞme lorsqu'une majoritĂ© de ces adaptateurs sont formĂ©s avec des modèles de diffusion d'images. Pour contrer ce problème, le framework AnimateLCM opte pour une adaptation sans enseignant, une stratĂ©gie simple mais efficace qui soit s'adapte aux adaptateurs existants pour une meilleure compatibilitĂ©, soit forme les adaptateurs Ă  partir de zĂ©ro ou. L'approche permet au cadre AnimateLCM de rĂ©aliser la gĂ©nĂ©ration vidĂ©o contrĂ´lable et la gĂ©nĂ©ration d'image en vidĂ©o avec un nombre minimal d'Ă©tapes sans nĂ©cessiter de modèles d'enseignant. 

AnimateLCM : expĂ©riences et rĂ©sultats

Le framework AnimateLCM utilise Stable Diffusion v1-5 comme modèle de base et implĂ©mente le solveur DDIM ODE Ă  des fins de formation. Le cadre applique Ă©galement la diffusion stable v1-5 avec des poids de mouvement open source comme modèle de diffusion vidĂ©o pour les enseignants, les expĂ©riences Ă©tant menĂ©es sur l'ensemble de donnĂ©es WebVid2M sans aucune donnĂ©e supplĂ©mentaire ou augmentĂ©e. De plus, le cadre utilise l'ensemble de donnĂ©es TikTok avec de brèves invites textuelles sous-titrĂ©es BLIP pour la gĂ©nĂ©ration de vidĂ©os contrĂ´lables. 

Résultats qualitatifs

La figure suivante montre les rĂ©sultats de la mĂ©thode de gĂ©nĂ©ration en quatre Ă©tapes mise en Ĺ“uvre par le framework AnimateLCM dans la gĂ©nĂ©ration texte-vidĂ©o, la gĂ©nĂ©ration image-vidĂ©o et la gĂ©nĂ©ration vidĂ©o contrĂ´lable. 

Comme on peut l'observer, les rĂ©sultats fournis par chacun d'eux sont satisfaisants, les rĂ©sultats gĂ©nĂ©rĂ©s dĂ©montrant la capacitĂ© du framework AnimateLCM Ă  suivre la propriĂ©tĂ© de cohĂ©rence mĂŞme avec diffĂ©rentes Ă©tapes d'infĂ©rence, en conservant un mouvement et un style similaires. 

Résultats quantitatifs

La figure suivante illustre les rĂ©sultats quantitatifs et la comparaison du framework AnimateLCM avec les mĂ©thodes de pointe DDIM et DPM++. 

Comme on peut l’observer, le framework AnimateLCM surpasse largement les mĂ©thodes existantes, en particulier dans le rĂ©gime Ă  faibles Ă©tapes allant de 1 Ă  4 Ă©tapes. De plus, les mĂ©triques AnimateLCM affichĂ©es dans cette comparaison sont Ă©valuĂ©es sans utiliser le CFG ou les conseils gratuits du classificateur, ce qui permet au framework d'Ă©conomiser près de 50 % du temps d'infĂ©rence et du coĂ»t maximal de la mĂ©moire d'infĂ©rence. De plus, pour valider davantage ses performances, les pondĂ©rations spatiales dans le cadre AnimateLCM sont remplacĂ©es par un modèle rĂ©aliste personnalisĂ© accessible au public qui Ă©tablit un bon Ă©quilibre entre fidĂ©litĂ© et diversitĂ©, ce qui contribue Ă  amĂ©liorer davantage les performances. 

Réflexions finales

Dans cet article, nous avons parlé d'AnimateLCM, un modèle de diffusion personnalisé avec des adaptateurs qui vise à générer des vidéos haute fidélité avec des étapes et des coûts de calcul minimes. Le cadre AnimateLCM s'inspire du modèle de cohérence qui accélère l'échantillonnage avec des étapes minimales en distillant des modèles de diffusion d'images pré-entraînés, et de l'extension réussie du modèle de cohérence, du modèle de cohérence latente ou LCM qui facilite la génération d'images conditionnelles. Au lieu de procéder directement à un apprentissage de cohérence sur l'ensemble de données vidéo brutes, le cadre AnimateLCM propose d'utiliser une stratégie d'apprentissage de cohérence découplée qui dissocie la distillation des a priori de génération de mouvement et des a priori de génération d'images, permettant au modèle d'améliorer la qualité visuelle du contenu généré, et améliorer simultanément l'efficacité de la formation.

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.