Suivez nous sur

Zero123++ : une image unique pour un modèle de base de diffusion multi-vues cohĂ©rent

Intelligence Artificielle

Zero123++ : une image unique pour un modèle de base de diffusion multi-vues cohĂ©rent

mm

Ces dernières annĂ©es ont Ă©tĂ© tĂ©moins d’une progression rapide des performances, de l’efficacitĂ© et des capacitĂ©s gĂ©nĂ©ratives des romans Ă©mergents. Modèles gĂ©nĂ©ratifs d'IA qui exploitent de vastes ensembles de donnĂ©es et des pratiques de gĂ©nĂ©ration de diffusion 2D. Aujourd'hui, les modèles d'IA gĂ©nĂ©rative sont extrĂŞmement capables de gĂ©nĂ©rer diffĂ©rentes formes de contenu multimĂ©dia 2D et, dans une certaine mesure, 3D, notamment du texte, des images, des vidĂ©os, des GIF, etc. 

Dans cet article, nous parlerons du framework Zero123++, un modèle d'IA gĂ©nĂ©ratif de diffusion conditionnĂ© par l'image dans le but de gĂ©nĂ©rer des images Ă  vues multiples cohĂ©rentes en 3D Ă  l'aide d'une seule entrĂ©e de vue. Pour maximiser l'avantage tirĂ© des modèles gĂ©nĂ©ratifs prĂ©-entraĂ®nĂ©s antĂ©rieurs, le framework Zero123++ met en Ĺ“uvre de nombreux schĂ©mas de formation et de conditionnement pour minimiser l'effort nĂ©cessaire pour affiner les modèles d'images de diffusion disponibles dans le commerce. Nous approfondirons l'architecture, le fonctionnement et les rĂ©sultats du framework Zero123++, et analyserons ses capacitĂ©s Ă  gĂ©nĂ©rer des images cohĂ©rentes Ă  vues multiples de haute qualitĂ© Ă  partir d'une seule image. Alors, commençons. 

Zero123 et Zero123++ : une introduction

Le framework Zero123++ est un modèle d'IA gĂ©nĂ©ratif de diffusion conditionnĂ© par l'image qui vise Ă  gĂ©nĂ©rer des images Ă  vues multiples cohĂ©rentes en 3D Ă  l'aide d'une seule entrĂ©e de vue. Le framework Zero123++ est une continuation du framework Zero123 ou Zero-1-to-3 qui exploite une nouvelle technique de synthèse d'images de vue zĂ©ro-shot pour ĂŞtre un pionnier des conversions open source d'image unique en 3D. Bien que le framework Zero123++ offre des performances prometteuses, les images gĂ©nĂ©rĂ©es par le framework prĂ©sentent des incohĂ©rences gĂ©omĂ©triques visibles, et c'est la principale raison pour laquelle l'Ă©cart entre les scènes 3D et les images multi-vues existe toujours. 

Le framework Zero-1-to-3 sert de base Ă  plusieurs autres frameworks, notamment SyncDreamer, One-2-3-45, Consistent123 et bien d'autres, qui ajoutent des couches supplĂ©mentaires au framework Zero123 pour obtenir des rĂ©sultats plus cohĂ©rents lors de la gĂ©nĂ©ration d'images 3D. D'autres frameworks comme ProlificDreamer, DreamFusion, DreamGaussian et bien d'autres suivent une approche basĂ©e sur l'optimisation pour obtenir des images 3D en distillant une image 3D Ă  partir de divers modèles incohĂ©rents. Bien que ces techniques soient efficaces et gĂ©nèrent des images 3D satisfaisantes, les rĂ©sultats pourraient ĂŞtre amĂ©liorĂ©s avec la mise en Ĺ“uvre d'un modèle de diffusion de base capable de gĂ©nĂ©rer des images multi-vues de manière cohĂ©rente. En consĂ©quence, le framework Zero123++ prend le Zero-1 Ă -3 et peaufine un nouveau modèle de diffusion de base multi-vues de Stable Diffusion. 

Dans le cadre zĂ©ro-1-Ă -3, chaque nouvelle vue est gĂ©nĂ©rĂ©e indĂ©pendamment, et cette approche conduit Ă  des incohĂ©rences entre les vues gĂ©nĂ©rĂ©es car les modèles de diffusion ont une nature d'Ă©chantillonnage. Pour rĂ©soudre ce problème, le framework Zero123++ adopte une approche de disposition en mosaĂŻque, l'objet Ă©tant entourĂ© de six vues en une seule image, et garantit la modĂ©lisation correcte pour la distribution conjointe des images multi-vues d'un objet. 

Un autre défi majeur auquel sont confrontés les développeurs travaillant sur le framework Zero-1-to-3 est qu'il sous-utilise les capacités offertes par Diffusion stable cela conduit finalement à l’inefficacité et à des coûts supplémentaires. Il existe deux raisons principales pour lesquelles le framework Zero-1-to-3 ne peut pas maximiser les capacités offertes par Stable Diffusion.

  1. Lors de l'entraĂ®nement avec des conditions d'image, le cadre Zero-1-to-3 n'intègre pas efficacement les mĂ©canismes de conditionnement locaux ou globaux offerts par Stable Diffusion. 
  2. Pendant la formation, le framework Zero-1-to-3 utilise une rĂ©solution rĂ©duite, une approche dans laquelle la rĂ©solution de sortie est rĂ©duite en dessous de la rĂ©solution de formation, ce qui peut rĂ©duire la qualitĂ© de gĂ©nĂ©ration d'images pour les modèles de diffusion stable. 

Pour rĂ©soudre ces problèmes, le framework Zero123++ implĂ©mente un ensemble de techniques de conditionnement qui maximisent l'utilisation des ressources offertes par Stable Diffusion et maintiennent la qualitĂ© de gĂ©nĂ©ration d'images pour les modèles de diffusion stable. 

Améliorer le conditionnement et les cohérences

Dans le but d'amĂ©liorer le conditionnement des images et la cohĂ©rence des images multi-vues, le framework Zero123++ a mis en Ĺ“uvre diffĂ©rentes techniques, l'objectif principal Ă©tant de rĂ©utiliser des techniques antĂ©rieures provenant du modèle de diffusion stable prĂ©-entraĂ®nĂ©. 

Génération multi-vues

La qualitĂ© indispensable pour gĂ©nĂ©rer des images multi-vues cohĂ©rentes rĂ©side dans la modĂ©lisation correcte de la distribution conjointe de plusieurs images. Dans le cadre Zero-1-to-3, la corrĂ©lation entre les images multi-vues est ignorĂ©e car pour chaque image, le cadre modĂ©lise la distribution marginale conditionnelle de manière indĂ©pendante et sĂ©parĂ©e. Cependant, dans le framework Zero123++, les dĂ©veloppeurs ont optĂ© pour une approche de disposition en mosaĂŻque qui regroupe 6 images en une seule image/image pour une gĂ©nĂ©ration multi-vues cohĂ©rente, et le processus est dĂ©montrĂ© dans l'image suivante. 

De plus, il a Ă©tĂ© remarquĂ© que les orientations des objets ont tendance Ă  lever l'ambiguĂŻtĂ© lors de l'entraĂ®nement du modèle sur les poses de la camĂ©ra, et pour Ă©viter cette ambiguĂŻtĂ©, le cadre Zero-1-to-3 entraĂ®ne les poses de la camĂ©ra avec des angles d'Ă©lĂ©vation et un azimut relatif par rapport Ă  l'entrĂ©e. Pour mettre en Ĺ“uvre cette approche, il est nĂ©cessaire de connaĂ®tre l'angle d'Ă©lĂ©vation de la vue de l'entrĂ©e qui est ensuite utilisĂ© pour dĂ©terminer la pose relative entre les nouvelles vues d'entrĂ©e. Pour tenter de connaĂ®tre cet angle d'Ă©lĂ©vation, les frameworks ajoutent souvent un module d'estimation d'Ă©lĂ©vation, et cette approche se fait souvent au prix d'erreurs supplĂ©mentaires dans le pipeline. 

Horaire de bruit

Programme linĂ©aire Ă  Ă©chelle, le programme de bruit original pour la diffusion stable se concentre principalement sur les dĂ©tails locaux, mais comme on peut le voir dans l'image suivante, il comporte très peu d'Ă©tapes avec un SNR ou un rapport signal/bruit plus faible. 

Ces Ă©tapes de faible rapport signal sur bruit se produisent tĂ´t lors de la phase de dĂ©bruitage, une Ă©tape cruciale pour dĂ©terminer la structure globale des basses frĂ©quences. La rĂ©duction du nombre d'Ă©tapes pendant l'Ă©tape de dĂ©bruitage, que ce soit pendant les interfĂ©rences ou pendant l'entraĂ®nement, entraĂ®ne souvent une plus grande variation structurelle. Bien que cette configuration soit idĂ©ale pour la gĂ©nĂ©ration d'images uniques, elle limite la capacitĂ© du framework Ă  garantir une cohĂ©rence globale entre les diffĂ©rentes vues. Pour surmonter cet obstacle, le framework Zero123++ affine un modèle LoRA sur le framework de prĂ©diction v Stable Diffusion 2 pour effectuer une tâche de jouet, et les rĂ©sultats sont dĂ©montrĂ©s ci-dessous. 

Avec le programme de bruit linĂ©aire et mis Ă  l'Ă©chelle, le modèle LoRA ne surajuste pas, mais blanchit seulement lĂ©gèrement l'image. Ă€ l'inverse, lorsque vous travaillez avec le programme de bruit linĂ©aire, le cadre LoRA gĂ©nère avec succès une image vierge quelle que soit l'invite de saisie, signifiant ainsi l'impact du programme de bruit sur la capacitĂ© du cadre Ă  s'adapter aux nouvelles exigences Ă  l'Ă©chelle mondiale. 

Attention de référence adaptée aux conditions locales

L'entrée de vue unique ou les images de conditionnement dans le cadre Zero-1-to-3 sont concaténées avec les entrées bruitées dans la dimension caractéristique à bruiter pour le conditionnement d'image.

Cette concatĂ©nation conduit Ă  une correspondance spatiale incorrecte au niveau des pixels entre l'image cible et l'entrĂ©e. Pour fournir une entrĂ©e de conditionnement local appropriĂ©e, le framework Zero123++ utilise une attention de rĂ©fĂ©rence mise Ă  l'Ă©chelle, une approche dans laquelle l'exĂ©cution d'un modèle UNet de dĂ©bruitage est rĂ©fĂ©rencĂ©e sur une image de rĂ©fĂ©rence supplĂ©mentaire, suivie de l'ajout de matrices de valeurs et d'une clĂ© d'auto-attention de la rĂ©fĂ©rence. image aux couches d'attention respectives lorsque l'entrĂ©e du modèle est dĂ©bruitĂ©e, et cela est dĂ©montrĂ© dans la figure suivante. 

L'approche Reference Attention est capable de guider le modèle de diffusion pour gĂ©nĂ©rer des images partageant une texture ressemblant Ă  l'image de rĂ©fĂ©rence et un contenu sĂ©mantique sans aucun rĂ©glage fin. Avec un rĂ©glage fin, l’approche Reference Attention fournit des rĂ©sultats supĂ©rieurs avec la mise Ă  l’échelle du latent. 

Conditionnement global : FlexDiffuse

Dans l'approche originale de diffusion stable, les incorporations de texte sont la seule source d'incorporations globales, et l'approche utilise le framework CLIP comme encodeur de texte pour effectuer des examens croisĂ©s entre les incorporations de texte et les latents du modèle. Par consĂ©quent, les dĂ©veloppeurs sont libres d'utiliser l'alignement entre les espaces de texte et les images CLIP rĂ©sultantes pour l'utiliser pour le conditionnement global des images. 

Le framework Zero123++ propose d'utiliser une variante entraĂ®nable du mĂ©canisme de guidage linĂ©aire pour intĂ©grer le conditionnement global de l'image dans le framework avec un minimum de rĂ©glage fin nĂ©cessaire, et les rĂ©sultats sont dĂ©montrĂ©s dans l’image suivante. Comme on peut le constater, sans prĂ©sence d'un conditionnement global de l'image, la qualitĂ© du contenu gĂ©nĂ©rĂ© par le framework est satisfaisante pour les rĂ©gions visibles qui correspondent Ă  l'image d'entrĂ©e. Cependant, la qualitĂ© de l'image gĂ©nĂ©rĂ©e par le cadre pour les rĂ©gions invisibles connaĂ®t une dĂ©tĂ©rioration significative, principalement due Ă  l'incapacitĂ© du modèle Ă  dĂ©duire la sĂ©mantique globale de l'objet. 

Architecture du modèle

Le framework Zero123++ est formĂ© avec le modèle Stable Diffusion 2v comme base en utilisant les diffĂ©rentes approches et techniques mentionnĂ©es dans l'article. Le framework Zero123++ est prĂ©-entraĂ®nĂ© sur l'ensemble de donnĂ©es Objaverse qui est rendu avec un Ă©clairage HDRI alĂ©atoire. Le cadre adopte Ă©galement l'approche du calendrier de formation par Ă©tapes utilisĂ©e dans le cadre des variations d'image de diffusion stable dans le but de minimiser davantage la quantitĂ© de rĂ©glage fin requis et de prĂ©server autant que possible la diffusion stable prĂ©cĂ©dente. 

Le fonctionnement ou l'architecture du framework Zero123++ peut ĂŞtre divisĂ© en Ă©tapes ou phases sĂ©quentielles. La première phase voit le cadre affiner les matrices KV des couches d'attention croisĂ©e et les couches d'auto-attention de Stable Diffusion avec AdamW comme optimiseur, 1000 Ă©tapes d'Ă©chauffement et le programme de taux d'apprentissage du cosinus maximisant Ă  7 Ă— 10.-5. Dans la deuxième phase, le cadre utilise un taux d'apprentissage constant très conservateur avec 2000 XNUMX sĂ©ries d'Ă©chauffement et utilise l'approche Min-SNR pour maximiser l'efficacitĂ© pendant la formation. 

Zero123++ : Comparaison des résultats et des performances

Performances qualitatives

Pour Ă©valuer les performances du framework Zero123++ sur la base de sa qualitĂ© gĂ©nĂ©rĂ©e, il est comparĂ© Ă  SyncDreamer et Zero-1-to-3-XL, deux des meilleurs frameworks de pointe pour la gĂ©nĂ©ration de contenu. Les cadres sont comparĂ©s Ă  quatre images d'entrĂ©e avec une portĂ©e diffĂ©rente. La première image est un chat jouet Ă©lectrique, tirĂ©e directement de l'ensemble de donnĂ©es Objaverse, et prĂ©sente une grande incertitude Ă  l'arrière de l'objet. La deuxième est l'image d'un extincteur et la troisième est l'image d'un chien assis sur une fusĂ©e, gĂ©nĂ©rĂ©e par le modèle SDXL. L'image finale est une illustration animĂ©e. Les Ă©tapes d'Ă©lĂ©vation requises pour les cadres sont obtenues Ă  l'aide de la mĂ©thode d'estimation d'Ă©lĂ©vation du cadre One-2-3-4-5, et la suppression de l'arrière-plan est obtenue Ă  l'aide du cadre SAM. Comme on peut le voir, le framework Zero123++ gĂ©nère de manière cohĂ©rente des images multi-vues de haute qualitĂ© et est capable de se gĂ©nĂ©raliser Ă©galement Ă  l'illustration 2D hors domaine et aux images gĂ©nĂ©rĂ©es par l'IA. 

Analyse quantitative

Pour comparer quantitativement le framework Zero123++ aux frameworks de pointe Zero-1-to-3 et Zero-1to-3 XL, les dĂ©veloppeurs Ă©valuent le score LPIPS (Learned Perceptual Image Patch Similarity) de ces modèles sur les donnĂ©es fractionnĂ©es de validation, un sous-ensemble du jeu de donnĂ©es Objaverse. Pour Ă©valuer les performances du modèle en matière de gĂ©nĂ©ration d'images multi-vues, les dĂ©veloppeurs juxtaposent respectivement les images de rĂ©fĂ©rence de vĂ©ritĂ© terrain et 6 images gĂ©nĂ©rĂ©es, puis calculent le score LPIPS (Learned Perceptual Image Patch Similarity). Les rĂ©sultats sont dĂ©montrĂ©s ci-dessous et comme on peut le voir clairement, le framework Zero123++ obtient les meilleures performances sur l'ensemble fractionnĂ© de validation. 

Texte vers évaluation multi-vues

Pour Ă©valuer la capacitĂ© du framework Zero123++ Ă  gĂ©nĂ©rer du contenu Text to Multi-View, les dĂ©veloppeurs utilisent d'abord le framework SDXL avec des invites de texte pour gĂ©nĂ©rer une image, puis utilisent le framework Zero123++ pour l'image gĂ©nĂ©rĂ©e. Les rĂ©sultats sont dĂ©montrĂ©s dans l'image suivante, et comme on peut le voir, comparĂ© au framework Zero-1-to-3 qui ne peut pas garantir une gĂ©nĂ©ration multi-vue cohĂ©rente, le framework Zero123++ renvoie des multi-vues cohĂ©rentes, rĂ©alistes et très dĂ©taillĂ©es. afficher les images en implĂ©mentant le texte en image vers multi-vue approche ou pipeline. 

Zero123++ ContrĂ´le de profondeurNet

En plus du framework de base Zero123++, les dĂ©veloppeurs ont Ă©galement publiĂ© Depth ControlNet Zero123++, une version contrĂ´lĂ©e en profondeur du framework original construit Ă  l'aide de l'architecture ControlNet. Les images linĂ©aires normalisĂ©es sont rendues dans le respect des images RVB ultĂ©rieures, et un cadre ControlNet est formĂ© pour contrĂ´ler la gĂ©omĂ©trie du cadre Zero123++ Ă  l'aide de la perception de la profondeur. 

Conclusion

Dans cet article, nous avons parlĂ© de Zero123++, un modèle d'IA gĂ©nĂ©ratif de diffusion conditionnĂ© par l'image dans le but de gĂ©nĂ©rer des images Ă  vues multiples cohĂ©rentes en 3D Ă  l'aide d'une seule entrĂ©e de vue. Pour maximiser l'avantage tirĂ© des modèles gĂ©nĂ©ratifs prĂ©-entraĂ®nĂ©s antĂ©rieurs, le framework Zero123++ met en Ĺ“uvre de nombreux schĂ©mas de formation et de conditionnement pour minimiser l'effort nĂ©cessaire pour affiner les modèles d'images de diffusion disponibles dans le commerce. Nous avons Ă©galement discutĂ© des diffĂ©rentes approches et amĂ©liorations mises en Ĺ“uvre par le framework Zero123++ qui l'aident Ă  atteindre des rĂ©sultats comparables, voire dĂ©passant ceux obtenus par les frameworks de pointe actuels. 

Cependant, malgré son efficacité et sa capacité à générer des images multi-vues de haute qualité de manière cohérente, le cadre Zero123++ peut encore être amélioré, les domaines de recherche potentiels étant un

  • Modèle de raffineur Ă  deux Ă©tages cela pourrait rĂ©soudre l'incapacitĂ© de Zero123++ Ă  rĂ©pondre aux exigences mondiales de cohĂ©rence. 
  • Mises Ă  l'Ă©chelle supplĂ©mentaires pour amĂ©liorer encore la capacitĂ© de Zero123++ Ă  gĂ©nĂ©rer des images de qualitĂ© encore supĂ©rieure. 

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.