Intelligence Artificielle

DynamiCrafter : animation d'images en domaine ouvert avec des priorités de diffusion vidéo

Publié 25 mars

Kunal Kejriwal

DynamiCrafter : animation d'images en domaine ouvert avec des priorités de diffusion vidéo

Vision par ordinateur est aujourd'hui l'un des domaines les plus passionnants et les plus étudiés au sein de la communauté de l'IA, et malgré l'amélioration rapide des modèles de vision par ordinateur, un défi de longue date qui préoccupe toujours les développeurs est l'animation d'images. Même aujourd'hui, les frameworks d'animation d'images ont du mal à convertir les images fixes en leurs homologues vidéo respectifs qui affichent une dynamique naturelle tout en préservant l'apparence originale des images. Traditionnellement, les cadres d'animation d'images se concentrent principalement sur l'animation de scènes naturelles avec des mouvements spécifiques à un domaine comme les cheveux humains ou les mouvements du corps, ou des dynamiques stochastiques comme les fluides et les nuages. Bien que cette approche fonctionne dans une certaine mesure, elle limite l'applicabilité de ces cadres d'animation à un contenu visuel plus générique.

De plus, les approches conventionnelles d'animation d'images se concentrent principalement sur la synthèse de mouvements oscillants et stochastiques, ou sur la personnalisation de catégories d'objets spécifiques. Cependant, un défaut notable de cette approche réside dans les hypothèses fortes qui sont imposées à ces méthodes, ce qui limite finalement leur applicabilité, en particulier dans des scénarios généraux tels que l'animation d'images en domaine ouvert. Au cours des dernières années, Modèles T2V ou Text to Video ont démontré un succès remarquable dans la génération de vidéos vives et diversifiées à l'aide d'invites textuelles, et cette démonstration des modèles T2V constitue la base du framework DynamiCrafter.

Le framework DynamiCrafter tente de surmonter les limites actuelles des modèles d'animation d'images et d'étendre leur applicabilité à des scénarios génériques impliquant des images du monde ouvert. Le framework DynamiCrafter tente de synthétiser du contenu dynamique pour des images de domaine ouvert, en les convertissant en vidéos animées. L'idée clé derrière DynamiCrafter est d'incorporer l'image comme guide dans le processus génératif dans le but d'utiliser le mouvement préalable des modèles de diffusion texte-vidéo déjà existants. Pour une image donnée, le modèle DynamiCrafter implémente d'abord un transformateur de requête qui projette l'image dans un espace de représentation contextuel riche aligné sur le texte, permettant ainsi au modèle vidéo de digérer le contenu de l'image de manière compatible. Cependant, le modèle DynamiCrafter a encore du mal à préserver certains détails visuels dans les vidéos résultantes, un problème que le modèle DynamiCrafter surmonte en fournissant l'image complète au modèle de diffusion en concaténant l'image avec les bruits initiaux, complétant ainsi le modèle avec une image plus précise. information.

Cet article vise à couvrir le framework DynamiCrafter en profondeur et nous explorons le mécanisme, la méthodologie, l'architecture du framework ainsi que sa comparaison avec les frameworks de génération d'images et de vidéos de pointe. Alors, commençons.

DynamiCrafter : Animation d'images en domaine ouvert

L'animation d'une image fixe offre souvent une expérience visuelle attrayante au public, car elle semble donner vie à l'image fixe. Au fil des années, de nombreux frameworks ont exploré diverses méthodes d’animation d’images fixes. Les cadres d'animation initiaux implémentaient des approches basées sur la simulation physique axées sur la simulation du mouvement d'objets spécifiques. Cependant, en raison de la modélisation indépendante de chaque catégorie d’objets, ces approches n’étaient ni efficaces ni généralisables. Pour reproduire des mouvements plus réalistes, des méthodes basées sur la référence ont émergé et ont transféré les informations de mouvement ou d'apparence des signaux de référence tels que les vidéos vers le processus de synthèse. Bien que les approches basées sur des références aient donné de meilleurs résultats avec une meilleure cohérence temporelle par rapport aux approches basées sur la simulation, elles avaient besoin de conseils supplémentaires qui limitaient leurs applications pratiques.

Ces dernières années, la majorité des frameworks d'animation se concentrent principalement sur l'animation de scènes naturelles avec des mouvements stochastiques, spécifiques à un domaine ou oscillants. Bien que l’approche mise en œuvre par ces cadres fonctionne dans une certaine mesure, les résultats générés par ces cadres ne sont pas satisfaisants et laissent place à d’importantes améliorations. Les résultats remarquables obtenus par les modèles génératifs Text to Video au cours des dernières années ont inspiré les développeurs du framework DynamiCrafter à exploiter les puissantes capacités génératives des modèles Text to Video pour l'animation d'images.

Le fondement clé du framework DynamiCrafter est d'incorporer une image conditionnelle dans le but de gouverner le processus de génération vidéo de Modèles de diffusion texte vers vidéo. Cependant, le but ultime de l’animation d’images reste non trivial puisque l’animation d’images nécessite la préservation des détails ainsi que la compréhension des contextes visuels essentiels à la création de dynamique. Cependant, des modèles de diffusion vidéo contrôlables multimodaux comme VideoComposer ont tenté de permettre la génération vidéo avec un guidage visuel à partir d'une image. Cependant, ces approches ne conviennent pas à l'animation d'images car elles entraînent soit des changements temporels brusques, soit une faible conformité visuelle à l'image d'entrée en raison de leurs mécanismes d'injection d'image moins complets. Pour surmonter cet obstacle, le framework DyaniCrafter propose une approche d'injection à double flux, comprenant un guidage visuel des détails et une représentation contextuelle alignée sur le texte. L'approche d'injection à double flux permet au framework DynamiCrafter de garantir que le modèle de diffusion vidéo synthétise un contenu dynamique aux détails préservés de manière complémentaire.

Pour une image donnée, le framework DynamiCrafter projette d'abord l'image dans l'espace de représentation contextuelle aligné sur le texte à l'aide d'un réseau d'apprentissage contextuel spécialement conçu. Pour être plus précis, l'espace de représentation du contexte se compose d'un transformateur de requête apprenable pour favoriser davantage son adaptation aux modèles de diffusion, et d'un encodeur d'image CLIP pré-entraîné pour extraire les caractéristiques de l'image alignées sur le texte. Le modèle utilise ensuite les fonctionnalités de contexte riche à l'aide de couches d'attention croisée, et le modèle utilise la fusion fermée pour combiner ces fonctionnalités de texte avec les couches d'attention croisée. Cependant, cette approche échange les représentations contextuelles apprises avec des détails visuels alignés sur le texte, ce qui facilite la compréhension sémantique du contexte de l'image, permettant ainsi de synthétiser une dynamique raisonnable et vivante. De plus, dans le but de compléter des détails visuels supplémentaires, le cadre concatène l'image complète avec le bruit initial au modèle de diffusion. En conséquence, l'approche de double injection mise en œuvre par le framework DynamiCrafter garantit la conformité visuelle ainsi qu'un contenu dynamique plausible à l'image d'entrée.

Au fil du temps, les modèles de diffusion ou DM ont démontré des performances et des prouesses génératives remarquables en matière de génération T2I ou Text to Image. Pour reproduire le succès des modèles T2I dans la génération vidéo, des modèles VDM ou de diffusion vidéo sont proposés, qui utilisent une architecture U-New factorisée dans l'espace-temps dans l'espace des pixels pour modéliser des vidéos basse résolution. Le transfert des apprentissages des frameworks T2I vers les frameworks T2V contribuera à réduire les coûts de formation. Bien que les modèles VDM ou de diffusion vidéo aient la capacité de générer des vidéos de haute qualité, ils n'acceptent que les invites textuelles comme seul guide sémantique qui peuvent ne pas refléter les véritables intentions d'un utilisateur ou être vagues. Cependant, les résultats de la majorité des modèles VDM adhèrent rarement à l’image d’entrée et souffrent d’un problème de variation temporelle irréaliste. L'approche DynamiCrafter repose sur des modèles de diffusion vidéo conditionnés par du texte qui exploitent leur riche dynamique préalable pour animer des images en domaine ouvert. Pour ce faire, il intègre des conceptions sur mesure pour une meilleure compréhension sémantique et une meilleure conformité à l'image d'entrée.

DynamiCrafter : Méthode et Architecture

Pour une image fixe donnée, le framework DyanmiCrafter tente d'animer le image en vidéo c'est-à-dire produire un court clip vidéo. Le clip vidéo hérite du contenu visuel de l’image et présente une dynamique naturelle. Cependant, il est possible que l'image apparaisse à un emplacement arbitraire de la séquence d'images résultante. L'apparition d'une image dans un emplacement arbitraire est un type particulier de défi observé dans les tâches de génération vidéo conditionnées par des images avec des exigences de conformité visuelle élevées. Le framework DynamiCrafter surmonte ce défi en utilisant les a priori génératifs de modèles de diffusion vidéo pré-entraînés.

Dynamique d'image issue de la diffusion vidéo préalable

Habituellement, les modèles de diffusion de texte en vidéo en domaine ouvert sont connus pour afficher un contenu visuel dynamique conditionné par des descriptions textuelles. Pour animer une image fixe avec des priors génératifs Text to Video, les frameworks doivent d'abord injecter les informations visuelles dans le processus de génération vidéo de manière globale. De plus, pour la synthèse dynamique, le modèle T2V doit digérer l'image pour la compréhension du contexte, tout en devant également être capable de préserver les détails visuels dans les vidéos générées.

Représentation contextuelle alignée sur le texte

Pour guider la génération vidéo avec le contexte de l'image, le framework DynamiCrafter tente de projeter l'image dans un espace d'intégration aligné permettant au modèle vidéo d'utiliser les informations de l'image de manière compatible. Suite à cela, le framework DynamiCrafter utilise l'encodeur d'image pour extraire les caractéristiques de l'image de l'image d'entrée puisque les intégrations de texte sont générées à l'aide d'un encodeur de texte CLIP pré-entraîné. Désormais, bien que les jetons sémantiques globaux de l'encodeur d'image CLIP soient alignés sur les légendes de l'image, ils représentent principalement le contenu visuel au niveau sémantique, ne parvenant ainsi pas à capturer toute l'étendue de l'image. Le framework DynamiCrafter implémente des jetons visuels complets de la dernière couche de l'encodeur CLIP pour extraire des informations plus complètes, car ces jetons visuels démontrent une haute fidélité dans les tâches de génération d'images conditionnelles. De plus, le cadre utilise des intégrations de contexte et de texte pour interagir avec les fonctionnalités intermédiaires d'U-Net à l'aide des doubles couches d'attention croisée. La conception de ce composant facilite la capacité du modèle à absorber les conditions de l'image en fonction des couches. De plus, étant donné que les couches intermédiaires de l'architecture U-Net s'associent davantage aux poses ou aux formes des objets, on s'attend à ce que les caractéristiques de l'image influencent principalement l'apparence des vidéos, d'autant plus que les couches aux deux extrémités sont davantage liées à l'apparence.

Guide visuel des détails

Le framework DyanmiCrafter utilise une représentation contextuelle riche en informations qui permet au modèle de diffusion vidéo dans son architecture de produire des vidéos qui ressemblent étroitement à l'image d'entrée. Cependant, comme le montre l'image suivante, le contenu généré peut présenter certaines divergences en raison de la capacité limitée de l'encodeur CLIP pré-entraîné à préserver complètement les informations d'entrée, car il a été conçu pour aligner le langage et les caractéristiques visuelles.

Pour améliorer la conformité visuelle, le framework DynamiCrafter propose de fournir au modèle de diffusion vidéo des détails visuels supplémentaires extraits de l'image d'entrée. Pour y parvenir, le modèle DyanmiCrafter concatène l'image conditionnelle avec le bruit initial par image et les transmet au composant de débruitage U-Net à titre indicatif.

Paradigme de formation

Le framework DynamiCrafter intègre l'image conditionnelle à travers deux flux complémentaires qui jouent un rôle important dans l'orientation détaillée et le contrôle du contexte. Pour faciliter la même chose, le modèle DynamiCrafter utilise un processus de formation en trois étapes

Dans un premier temps, le modèle entraîne le réseau de représentation du contexte d'image.
Dans un deuxième temps, le modèle adapte le réseau de représentation du contexte d'image au modèle Text to Video.
Dans la troisième et dernière étape, le modèle affine le réseau de représentation du contexte de l'image conjointement avec le composant Visual Detail Guidance.

Pour adapter les informations sur l'image afin qu'elles soient compatibles avec le modèle Text-to-Video (T2V), le framework DynamiCrafter suggère de développer un réseau de représentation contextuelle, P, conçu pour capturer les détails visuels alignés sur le texte à partir de l'image donnée. Reconnaissant que P nécessite de nombreuses étapes d'optimisation pour la convergence, l'approche du framework implique initialement de le former à l'aide d'un modèle Text-to-Image (T2I) plus simple. Cette stratégie permet au réseau de représentation du contexte de se concentrer sur l'apprentissage du contexte de l'image avant de l'intégrer au modèle T2V grâce à un entraînement conjoint avec P et les couches spatiales, par opposition aux couches temporelles, du modèle T2V.

Pour garantir la compatibilité T2V, le framework DyanmiCrafter fusionne l'image d'entrée avec le bruit par image, puis peaufine les couches spatiales P et VDM. Cette méthode est choisie pour préserver l'intégrité des informations temporelles existantes du modèle T2V sans les effets négatifs d'une fusion d'images dense, qui pourrait compromettre les performances et s'écarter de notre objectif principal. De plus, le framework utilise une stratégie de sélection aléatoire d'une image vidéo comme condition d'image afin d'atteindre deux objectifs : (i) éviter que le réseau ne développe un modèle prévisible associant directement l'image fusionnée à un emplacement d'image spécifique ; et (ii) favoriser une représentation contextuelle plus adaptable en empêchant la fourniture d'informations trop rigides pour une image donnée.

DynamiCrafter : Expériences et résultats

Le framework DynamiCrafter entraîne d'abord le réseau de représentation du contexte et les couches d'attention croisée des images sur la diffusion stable. Le cadre remplace alors le Diffusion stable avec VideoCrafter et affine davantage le réseau de représentation du contexte et les couches spatiales pour l'adaptation et la concaténation d'images. Lors de l'inférence, le cadre adopte l'échantillonneur DDIM avec un guidage sans classificateur multi-conditions. De plus, pour évaluer la cohérence temporelle et la qualité des vidéos synthétisées dans les domaines temporel et spatial, le cadre rapporte la distance vidéo FVD ou Frechet, ainsi que la distance vidéo KVD ou Kernel, et évalue les performances du zéro plan sur toutes les méthodes. des benchmarks MSR-VTT et UCF-101. Pour étudier la conformité perceptuelle entre les résultats générés et l'image d'entrée, le cadre introduit le PIC ou Perceptual Input Conformity et adopte la métrique de distance perceptuelle DreamSim en fonction de la distance.

La figure suivante montre la comparaison visuelle du contenu animé généré avec différents styles et contenus.

Comme on peut l'observer, parmi toutes les différentes méthodes, le framework DynamiCrafter adhère bien à la condition de l'image d'entrée et génère des vidéos temporellement cohérentes. Le tableau suivant contient les statistiques d'une étude utilisateur auprès de 49 participants sur le taux de préférence pour la cohérence temporelle (TC) et la qualité de mouvement (MC), ainsi que le taux de sélection pour la conformité visuelle à l'image d'entrée. (CI). Comme on peut le constater, le framework DynamiCrafter est capable de surpasser considérablement les méthodes existantes.

La figure suivante montre les résultats obtenus en utilisant la méthode d'injection à double flux et le paradigme de formation.

Réflexions finales

Dans cet article, nous avons parlé de DynamiCrafter, une tentative de surmonter les limites actuelles des modèles d'animation d'images et d'étendre leur applicabilité à des scénarios génériques impliquant des images du monde ouvert. Le framework DynamiCrafter tente de synthétiser du contenu dynamique pour des images de domaine ouvert, en les convertissant en vidéos animées. L'idée clé derrière DynamiCrafter est d'incorporer l'image comme guide dans le processus génératif dans le but d'utiliser le mouvement préalable des modèles de diffusion texte-vidéo déjà existants. Pour une image donnée, le modèle DynamiCrafter implémente d'abord un transformateur de requête qui projette l'image dans un espace de représentation contextuel riche aligné sur le texte, permettant ainsi au modèle vidéo de digérer le contenu de l'image de manière compatible. Cependant, le modèle DynamiCrafter a encore du mal à préserver certains détails visuels dans les vidéos résultantes, un problème que le modèle DynamiCrafter surmonte en fournissant l'image complète au modèle de diffusion en concaténant l'image avec les bruits initiaux, complétant ainsi le modèle avec une image plus précise. information.

Kunal Kejriwal

« Ingénieur de profession, écrivain de cœur ». Kunal est un rédacteur technique avec un amour et une compréhension profonds de l'IA et du ML, dédié à la simplification de concepts complexes dans ces domaines grâce à sa documentation engageante et informative.