Intelligence artificielle
DynamiCrafter: Animation d’images ouvertes avec des priorités de diffusion vidéo
La vision par ordinateur est l’un des domaines les plus passionnants et les plus recherchés au sein de la communauté de l’IA aujourd’hui, et malgré l’amélioration rapide des modèles de vision par ordinateur, un défi de longue date qui trouble toujours les développeurs est l’animation d’images. Même aujourd’hui, les cadres d’animation d’images ont du mal à convertir les images fixes en leurs contreparties vidéo respectives qui affichent des dynamiques naturelles tout en préservant l’apparence originale des images. Traditionnellement, les cadres d’animation d’images se concentrent principalement sur l’animation de scènes naturelles avec des mouvements spécifiques au domaine comme les cheveux ou les mouvements du corps humain, ou des dynamiques stochastiques comme les fluides et les nuages. Bien que cette approche fonctionne dans une certaine mesure, elle limite l’applicabilité de ces cadres d’animation à des contenus visuels plus génériques.
En outre, les approches d’animation d’images conventionnelles se concentrent principalement sur la synthèse de mouvements oscillants et stochastiques, ou sur la personnalisation pour des catégories d’objets spécifiques. Cependant, un défaut notable de l’approche est les fortes hypothèses qui sont imposées à ces méthodes qui limitent en fin de compte leur applicabilité, en particulier dans des scénarios généraux comme l’animation d’images ouvertes. Au cours des dernières années, les modèles Texte à Vidéo ou T2V ont démontré un succès remarquable dans la génération de vidéos vivides et diverses à l’aide de prompts textuels, et cette démonstration des modèles T2V est ce qui constitue la base du cadre DynamiCrafter.
Le cadre DynamiCrafter est une tentative pour surmonter les limites actuelles des modèles d’animation d’images et étendre leur applicabilité à des scénarios génériques impliquant des images ouvertes. Le cadre DynamiCrafter tente de synthétiser du contenu dynamique pour des images ouvertes, en les convertissant en vidéos animées. L’idée clé derrière DynamiCrafter est d’incorporer l’image comme guide dans le processus de génération en tentant d’utiliser le priori de mouvement des modèles de diffusion de texte à vidéo existants. Pour une image donnée, le modèle DynamiCrafter implémente d’abord un transformateur de requête qui projette l’image dans un espace de représentation de contexte riche aligné sur le texte, facilitant au modèle de vidéo de digérer le contenu de l’image de manière compatible. Cependant, le modèle DynamiCrafter a encore du mal à préserver certains détails visuels dans les vidéos résultantes, un problème que le modèle DynamiCrafter surmonte en alimentant l’image complète au modèle de diffusion en la concaténant avec les bruits initiaux, supplementant ainsi le modèle avec des informations d’image plus précises.
Cet article vise à couvrir en profondeur le cadre DynamiCrafter, et nous explorons le mécanisme, la méthodologie, l’architecture du cadre ainsi que sa comparaison avec les cadres de génération d’images et de vidéos à l’état de l’art. Alors commençons.
DynamiCrafter : Animation d’images ouvertes
Animer une image fixe offre souvent une expérience visuelle engageante pour le public car cela semble donner vie à l’image fixe. Au fil des ans, de nombreux cadres ont exploré diverses méthodes d’animation d’images fixes. Les premiers cadres d’animation ont mis en œuvre des approches de simulation basées sur la physique qui se concentraient sur la simulation du mouvement d’objets spécifiques. Cependant, en raison de la modélisation indépendante de chaque catégorie d’objets, ces approches n’étaient ni efficaces ni généralisables. Pour reproduire des mouvements plus réalistes, des méthodes basées sur des références ont émergé qui transféraient des informations de mouvement ou d’apparence de signaux de référence comme des vidéos au processus de synthèse. Bien que les approches basées sur des références aient donné de meilleurs résultats avec une meilleure cohérence temporelle par rapport aux approches basées sur la simulation, elles nécessitaient une guidance supplémentaire qui limitait leurs applications pratiques.
Ces dernières années, la majorité des cadres d’animation se concentrent principalement sur l’animation de scènes naturelles avec des mouvements stochastiques, spécifiques au domaine ou oscillants. Bien que l’approche mise en œuvre par ces cadres fonctionne dans une certaine mesure, les résultats qu’ils génèrent ne sont pas satisfaisants, avec une marge de manœuvre significative pour l’amélioration. Les résultats remarquables obtenus par les modèles de génération de texte à vidéo au cours des dernières années ont inspiré les développeurs du cadre DynamiCrafter à exploiter les capacités de génération puissantes des modèles de texte à vidéo pour l’animation d’images.
La fondation clé du cadre DynamiCrafter est d’incorporer une image conditionnelle dans une tentative de gouverner le processus de génération de vidéo des modèles de diffusion de texte à vidéo. Cependant, l’objectif ultime de l’animation d’images reste non trivial puisque l’animation d’images nécessite la préservation des détails ainsi que la compréhension des contextes visuels essentiels pour créer des dynamiques. Cependant, des modèles de diffusion de vidéo multi-modaux contrôlables comme VideoComposer ont tenté de permettre la génération de vidéos avec une guidance visuelle à partir d’une image. Cependant, ces approches ne sont pas adaptées à l’animation d’images puisqu’elles entraînent soit des changements temporels abrupts, soit une faible conformité visuelle à l’image d’entrée en raison de leurs mécanismes d’injection d’images moins complets. Pour contrer cet obstacle, le cadre DynamiCrafter propose une approche d’injection à double flux, consistant en une guidance de détails visuels et une représentation de contexte alignée sur le texte. L’approche d’injection à double flux permet au cadre DynamiCrafter de s’assurer que le modèle de diffusion de vidéo synthétise un contenu dynamique préservant les détails d’une manière complémentaire.

Pour une image donnée, le cadre DynamiCrafter projette d’abord l’image dans l’espace de représentation de contexte aligné sur le texte à l’aide d’un réseau d’apprentissage de contexte spécialement conçu. Plus précisément, l’espace de représentation de contexte se compose d’un transformateur de requête apprenable pour promouvoir davantage son adaptation aux modèles de diffusion, et d’un encodeur d’image CLIP pré-entraîné pour extraire des fonctionnalités d’image alignées sur le texte. Le modèle utilise ensuite les fonctionnalités de contexte riches à l’aide de couches d’attention croisée, et le modèle utilise une fusion à grille pour combiner ces fonctionnalités de texte avec les couches d’attention croisée. Cependant, cette approche échange les représentations de contexte apprises avec des détails visuels alignés sur le texte qui facilitent la compréhension sémantique du contexte d’image, permettant ainsi des dynamiques raisonnables et vivides à être synthétisées. De plus, dans une tentative de supplémenter des détails visuels supplémentaires, le cadre concatène l’image complète avec les bruits initiaux au modèle de diffusion. En conséquence, l’approche d’injection à double flux mise en œuvre par le cadre DynamiCrafter garantit la conformité visuelle ainsi que le contenu dynamique plausible pour l’image d’entrée.
En poursuivant, les modèles de diffusion ou DM ont démontré des performances remarquables et une puissance de génération dans la génération d’images à partir de texte ou T2I. Pour reproduire le succès des modèles T2I dans la génération de vidéos, les modèles de diffusion de vidéo ou VDM sont proposés qui utilisent une architecture U-New factorisée dans l’espace-temps pour modéliser des vidéos à basse résolution. Le transfert des connaissances des cadres T2I aux cadres T2V aidera à réduire les coûts de formation. Bien que les modèles VDM ou les modèles de diffusion de vidéo puissent générer des vidéos de haute qualité, ils n’acceptent que des prompts de texte comme guidance sémantique unique qui peut ne pas refléter les véritables intentions de l’utilisateur ou peut être vague. Cependant, les résultats de la majorité des modèles VDM adhèrent rarement à l’image d’entrée et souffrent du problème de variation temporelle irréaliste. L’approche DynamiCrafter est construite sur des modèles de diffusion de vidéo conditionnés par du texte qui exploitent leur priori dynamique riche pour animer des images ouvertes. Elle le fait en incorporant des conceptions personnalisées pour une meilleure compréhension sémantique et une conformité à l’image d’entrée.
DynamiCrafter : Méthode et Architecture
Pour une image fixe donnée, le cadre DynamiCrafter tente d’animer l’image en vidéo c’est-à-dire produire une courte séquence de vidéos. La séquence de vidéos hérite des contenus visuels de l’image et affiche des dynamiques naturelles. Cependant, il est possible que l’image puisse apparaître à une position arbitraire de la séquence de trames résultante. L’apparition d’une image à une position arbitraire est un défi spécial observé dans les tâches de génération de vidéos conditionnées par une image avec des exigences de conformité visuelle élevées. Le cadre DynamiCrafter surmonte ce défi en utilisant les priori génératifs de modèles de diffusion de vidéo pré-entraînés.
Dynamique d’images à partir de priori de diffusion de vidéo
Généralement, les modèles de diffusion de texte à vidéo ouverts sont connus pour afficher un contenu visuel dynamique modélisé en fonction de descriptions de texte. Pour animer une image fixe avec des priori génératifs de texte à vidéo, les cadres doivent d’abord injecter les informations visuelles dans le processus de génération de vidéo de manière complète. De plus, pour la synthèse dynamique, le modèle de texte à vidéo doit digérer l’image pour la compréhension du contexte, tout en préservant les détails visuels dans les vidéos générées.

Représentation de contexte alignée sur le texte
Pour guider la génération de vidéo avec le contexte d’image, le cadre DynamiCrafter tente de projeter l’image dans un espace d’incrustation aligné permettant au modèle de vidéo d’utiliser les informations d’image d’une manière compatible. Suite à cela, le cadre DynamiCrafter emploie l’encodeur d’image pour extraire les fonctionnalités d’image de l’image d’entrée puisque les incrustations de texte sont générées à l’aide d’un encodeur de texte CLIP pré-entraîné. Maintenant, bien que les jetons sémantiques globaux de l’encodeur d’image CLIP soient alignés avec les légendes d’image, ils représentent principalement le contenu visuel au niveau sémantique, ne capturant ainsi pas la pleine étendue de l’image. Le cadre DynamiCrafter met en œuvre des jetons visuels complets à partir de la dernière couche de l’encodeur CLIP pour extraire des informations plus complètes puisque ces jetons visuels démontrent une grande fidélité dans les tâches de génération d’images conditionnelles. De plus, le cadre emploie des incrustations de contexte et de texte pour interagir avec les fonctionnalités intermédiaires de U-Net à l’aide de couches d’attention croisée doubles. La conception de ce composant facilite la capacité du modèle à absorber les conditions d’image d’une manière dépendante de la couche. De plus, puisque les couches intermédiaires de l’architecture U-Net sont associées davantage à la pose ou à la forme des objets, il est attendu que les fonctionnalités d’image influencent principalement l’apparence des vidéos, surtout depuis que les couches de fin sont plus liées à l’apparence.
Guidage de détails visuels
Le cadre DynamiCrafter emploie une représentation de contexte riche en informations qui permet au modèle de diffusion de vidéo dans son architecture de produire des vidéos qui ressemblent étroitement à l’image d’entrée. Cependant, comme le démontre l’image suivante, le contenu généré peut afficher certaines discordances en raison de la capacité limitée de l’encodeur CLIP pré-entraîné à préserver les informations d’entrée complètement, puisqu’il a été conçu pour aligner les fonctionnalités de langage et visuelles.

Pour améliorer la conformité visuelle, le cadre DynamiCrafter propose de fournir au modèle de diffusion de vidéo des détails visuels supplémentaires extraits de l’image d’entrée. Pour ce faire, le modèle DynamiCrafter concatène l’image conditionnelle avec les bruits initiaux par trame et les alimente au composant U-Net de débruitage en tant que guidance.
Paradigme de formation
Le cadre DynamiCrafter intègre l’image conditionnelle à travers deux flux complémentaires qui jouent un rôle important dans la guidance de détails et le contrôle de contexte. Pour faciliter cela, le modèle DynamiCrafter emploie un processus de formation en trois étapes
- À la première étape, le modèle forme le réseau de représentation de contexte d’image.
- À la deuxième étape, le modèle adapte le réseau de représentation de contexte d’image au modèle de texte à vidéo.
- À la troisième et dernière étape, le modèle affine le réseau de représentation de contexte d’image conjointement avec le composant de guidance de détails visuels.
Pour adapter les informations d’image pour la compatibilité avec le modèle de texte à vidéo (T2V), le cadre DynamiCrafter suggère de développer un réseau de représentation de contexte, P, conçu pour capturer des détails visuels alignés sur le texte à partir de l’image donnée. Reconnaissant que P nécessite de nombreuses étapes d’optimisation pour la convergence, l’approche du cadre implique initialement de former P en utilisant un modèle de texte à image (T2I) plus simple. Cette stratégie permet au réseau de représentation de contexte de se concentrer sur l’apprentissage du contexte d’image avant de l’intégrer au modèle T2V par une formation conjointe de P et des couches spatiales, et non des couches temporelles, du modèle T2V.
Pour assurer la compatibilité avec le modèle T2V, le cadre DynamiCrafter fusionne l’image d’entrée avec les bruits par trame, puis affine les couches spatiales de P et du modèle de discrimination visuelle (VDM). Cette méthode est choisie pour maintenir l’intégrité des connaissances temporelles existantes du modèle T2V sans les effets négatifs de la fusion dense d’images, qui pourrait compromettre les performances et diverger de notre objectif principal. De plus, le cadre emploie une stratégie de sélection aléatoire d’une trame de vidéo comme condition d’image pour atteindre deux objectifs : (i) pour éviter que le réseau ne développe un modèle prévisible qui associe directement l’image fusionnée à une position de trame spécifique, et (ii) pour encourager une représentation de contexte plus adaptable en empêchant la fourniture d’informations trop rigides pour une trame particulière.
DynamiCrafter : Expériences et Résultats
Le cadre DynamiCrafter forme d’abord le réseau de représentation de contexte et les couches d’attention croisée d’image sur la diffusion stable. Le cadre remplace ensuite le composant de diffusion stable avec VideoCrafter et affine davantage le réseau de représentation de contexte et les couches spatiales pour l’adaptation, et avec la concaténation d’images. Lors de l’inférence, le cadre adopte l’échantillonneur DDIM avec une guidance sans classeurs multi-conditionnels. De plus, pour évaluer la cohérence temporelle et la qualité des vidéos synthétisées à la fois dans les domaines temporel et spatial, le cadre rapporte la distance de vidéo de Fréchet ou FVD, ainsi que la distance de noyau de vidéo ou KVD, et évalue les performances à zéro coup sur les références MSR-VTT et UCF-101. Pour investiguer la conformité perceptive entre les résultats générés et l’image d’entrée, le cadre introduit la conformité d’entrée perceptive ou PIC, et adopte la métrique de distance perceptive DreamSim comme fonction de distance.
La figure suivante démontre la comparaison visuelle du contenu animé généré avec différents styles et contenus.

Comme on peut l’observer, parmi toutes les méthodes différentes, le cadre DynamiCrafter adhère bien à la condition d’image d’entrée et génère des vidéos temporellement cohérentes. Le tableau suivant contient les statistiques d’une étude d’utilisateurs avec 49 participants du taux de préférence pour la cohérence temporelle (T.C), et la qualité de mouvement (M.C) ainsi que le taux de sélection pour la conformité visuelle à l’image d’entrée (I.C). Comme on peut l’observer, le cadre DynamiCrafter est capable de surpasser les méthodes existantes d’une marge considérable.

La figure suivante démontre les résultats obtenus en utilisant la méthode d’injection à double flux et le paradigme de formation.

Pensées finales
Dans cet article, nous avons parlé de DynamiCrafter, une tentative pour surmonter les limites actuelles des modèles d’animation d’images et étendre leur applicabilité à des scénarios génériques impliquant des images ouvertes. Le cadre DynamiCrafter tente de synthétiser du contenu dynamique pour des images ouvertes, en les convertissant en vidéos animées. L’idée clé derrière DynamiCrafter est d’incorporer l’image comme guide dans le processus de génération en tentant d’utiliser le priori de mouvement des modèles de diffusion de texte à vidéo existants. Pour une image donnée, le modèle DynamiCrafter implémente d’abord un transformateur de requête qui projette l’image dans un espace de représentation de contexte riche aligné sur le texte, facilitant au modèle de vidéo de digérer le contenu de l’image d’une manière compatible. Cependant, le modèle DynamiCrafter a encore du mal à préserver certains détails visuels dans les vidéos résultantes, un problème que le modèle DynamiCrafter surmonte en alimentant l’image complète au modèle de diffusion en la concaténant avec les bruits initiaux, supplementant ainsi le modèle avec des informations d’image plus précises.












