Intelligence artificielle
Dreamcraft3D : Génération hiérarchique 3D avec un modèle de diffusion amorcé

Les modèles de génération d’IA ont été un sujet de discussion brûlant au sein de l’industrie de l’IA depuis un certain temps. Le succès récent des modèles de génération 2D a ouvert la voie aux méthodes que nous utilisons pour créer du contenu visuel aujourd’hui. Bien que la communauté de l’IA ait obtenu un succès remarquable avec les modèles de génération 2D, la génération de contenu 3D reste un défi majeur pour les cadres d’IA génératifs profonds. C’est particulièrement vrai alors que la demande de contenu généré 3D atteint un niveau sans précédent, alimentée par une large gamme de jeux visuels, d’applications, de réalité virtuelle et même de cinéma. Il est important de noter que même s’il existe des cadres d’IA génératifs 3D qui livrent des résultats acceptables pour certaines catégories et tâches, ils sont incapables de générer efficacement des objets 3D. Ce défaut peut être attribué au manque de données 3D étendues pour former les cadres. Récemment, les développeurs ont proposé d’utiliser les conseils offerts par des modèles d’IA génératifs de texte à image pré-formés, une approche qui a montré des résultats prometteurs.
Dans cet article, nous allons discuter du cadre DreamCraft3D, un modèle hiérarchique pour générer du contenu 3D qui produit des objets 3D cohérents et de haute fidélité de haute qualité. Le cadre DreamCraft3D utilise une image de référence 2D pour guider l’étape de sculpture de la géométrie, en améliorant la texture en se concentrant sur la résolution des problèmes de cohérence rencontrés par les cadres ou les méthodes actuels. De plus, le cadre DreamCraft3D utilise un modèle de diffusion dépendant de la vue pour la distillation de score, aidant à sculpter la géométrie qui contribue à un rendu cohérent.
Nous allons plonger plus profondément dans le cadre DreamCraft3D pour la génération de contenu 3D. De plus, nous allons explorer le concept d’utilisation de modèles T2I (Texte-à-Image) pré-formés pour la génération de contenu 3D et examiner comment le cadre DreamCraft3D vise à utiliser cette approche pour générer un contenu 3D réaliste.
DreamCraft3D : Une introduction
DreamCraft3D est une pipeline hiérarchique pour générer du contenu 3D. Le cadre DreamCraft3D tente d’utiliser un cadre T2I ou Texte à Image génératif de pointe pour créer des images 2D de haute qualité à l’aide d’un texte de prompt. L’approche permet au cadre DreamCraft3D de maximiser les capacités des modèles de diffusion 2D de pointe pour représenter les sémantiques visuelles décrites dans le texte de prompt tout en conservant la liberté créative offerte par ces cadres d’IA génératifs 2D. L’image générée est ensuite soulevée à 3D avec l’aide de phases de boost de texture géométrique et de sculpture géométrique, et des techniques spécialisées sont appliquées à chaque étape avec l’aide de la décomposition du problème.
Pour la géométrie, le cadre DreamCraft3D se concentre fortement sur la structure 3D globale et la cohérence multi-vue, ce qui fait place à des compromis sur les textures détaillées des images. Une fois que le cadre se débarrasse des problèmes de géométrie, il se concentre sur l’optimisation de textures cohérentes et réalistes en mettant en œuvre une diffusion 3D qui amorce l’approche d’optimisation 3D. Il y a deux considérations de conception clés pour les deux phases d’optimisation, à savoir la sculpture géométrique et le boost de texture.
Avec tout ce qui a été dit, il serait sage de décrire le DreamCraft3D comme un cadre d’IA génératif qui utilise une pipeline de génération de contenu 3D hiérarchique pour essentiellement transformer des images 2D en leurs contreparties 3D tout en conservant la cohérence 3D holistique.
Utilisation de modèles T2I ou Texte-à-Image pré-formés
L’idée d’utiliser des modèles T2I ou Texte-à-Image pré-formés pour générer du contenu 3D a été introduite pour la première fois par le cadre DreamFusion en 2022. Le cadre DreamFusion a tenté d’imposer une perte de distillation de score pour optimiser le cadre 3D de telle sorte que les rendus à des vues aléatoires s’alignent sur les distributions d’images conditionnées par le texte, interprétées par un cadre de diffusion d’image texte efficace. Bien que l’approche DreamFusion ait livré des résultats décents, il y avait deux problèmes majeurs, la flou et la sur-saturation. Pour résoudre ces problèmes, des travaux récents mettent en œuvre diverses stratégies d’optimisation étape par étape dans une tentative d’améliorer la perte de distillation 2D, ce qui conduit à de meilleures qualités et à des images 3D générées réalistes.
Cependant, malgré le succès récent de ces cadres, ils sont incapables de rivaliser avec la capacité des cadres de génération 2D à synthétiser du contenu complexe. De plus, ces cadres sont souvent encombrés du « problème de Janus », une condition dans laquelle les rendus 3D qui semblent plausibles individuellement montrent des incohérences stylistiques et sémantiques lorsqu’ils sont examinés dans leur ensemble.
Pour résoudre les problèmes rencontrés par les travaux antérieurs, le cadre DreamCraft3D explore la possibilité d’utiliser une pipeline de génération de contenu 3D hiérarchique holistique et cherche l’inspiration dans le processus artistique manuel dans lequel un concept est d’abord esquissé dans un brouillon 2D, après quoi l’artiste sculpte la géométrie grossière, affine les détails géométriques et peint des textures de haute fidélité. En suivant la même approche, le cadre DreamCraft3D divise les tâches de génération de contenu 3D ou d’image en diverses étapes gérables. Il commence par générer une image 2D de haute qualité à l’aide d’un texte de prompt, puis utilise le boost de texture et la sculpture géométrique pour soulever l’image dans les étapes 3D. La division du processus en étapes ultérieures aide le cadre DreamCraft3D à maximiser le potentiel de la génération hiérarchique, ce qui aboutit finalement à une génération d’images 3D de qualité supérieure.
Dans la première étape, le cadre DreamCraft3D déploie la sculpture géométrique pour produire des formes géométriques 3D cohérentes et plausibles à l’aide de l’image 2D comme référence. De plus, l’étape utilise non seulement la perte SDS pour les pertes photométriques et les vues nouvelles à la vue de référence, mais le cadre introduit également une large gamme de stratégies pour promouvoir la cohérence géométrique. Le cadre vise à utiliser le Zero-1-to-3, un modèle de traduction d’image conditionné par la vue, pour utiliser l’image de référence pour modéliser la distribution des vues nouvelles. De plus, le cadre passe de la représentation de surface implicite à la représentation de maillage pour l’affinement géométrique grossier à fin.
La deuxième étape du cadre DreamCraft3D utilise une approche de distillation de score amorcée pour améliorer les textures de l’image, car les modèles de diffusion conditionnés par la vue actuels sont formés sur une quantité limitée de données 3D, ce qui les empêche souvent de rivaliser avec la performance ou la fidélité des modèles de diffusion 2D. Grâce à cette limitation, le cadre DreamCraft3D affine le modèle de diffusion en fonction des images multi-vues de l’instance 3D qui est optimisée, et cette approche aide le cadre à améliorer les textures 3D tout en conservant la cohérence multi-vue. Lorsque le modèle de diffusion se forme sur ces rendus multi-vues, il fournit une meilleure orientation pour l’optimisation de la texture 3D, et cette approche aide le cadre DreamCraft3D à atteindre un niveau élevé de détail de texture tout en conservant la cohérence de la vue.

Comme on peut l’observer dans les images ci-dessus, le cadre DreamCraft3D est capable de produire des images 3D créatives et du contenu avec des textures réalistes et des structures géométriques complexes. Dans la première image, il s’agit du corps de Son Goku, un personnage d’anime mélangé avec la tête d’un sanglier sauvage en train de courir, tandis que la deuxième image représente un Beagle vêtu de l’uniforme d’un détective. Voici quelques exemples supplémentaires.

DreamCraft3D : Fonctionnement et architecture
Le cadre DreamCraft3D tente d’utiliser un cadre T2I ou Texte à Image génératif de pointe pour créer des images 2D de haute qualité à l’aide d’un texte de prompt. L’approche permet au cadre DreamCraft3D de maximiser les capacités des modèles de diffusion 2D de pointe pour représenter les sémantiques visuelles décrites dans le texte de prompt tout en conservant la liberté créative offerte par ces cadres d’IA génératifs 2D. L’image générée est ensuite transformée en 3D avec l’aide de phases de boost de texture géométrique et de sculpture géométrique, et des techniques spécialisées sont appliquées à chaque étape avec l’aide de la décomposition du problème. Le suivant est une brève description du fonctionnement du cadre DreamCraft3D.

Examinons en détail les considérations de conception clés pour les phases de boost de texture et de sculpture géométrique.
Sculpture géométrique
La sculpture géométrique est la première étape où le cadre DreamCraft3D tente de créer un modèle 3D qui s’aligne sur l’apparence de l’image de référence à la même vue de référence tout en garantissant une plausibilité maximale même sous différents angles de vue. Pour garantir une plausibilité maximale, le cadre utilise la perte SDS pour encourager des rendus d’images plausibles pour chaque vue échantillonnée individuelle que peut reconnaître un modèle de diffusion pré-formé. De plus, pour utiliser efficacement les conseils de l’image de référence, le cadre pénalise les différences photométriques entre l’image de référence et les images rendues à la vue de référence, et la perte est calculée uniquement dans la région avant-plan de la vue. De plus, pour encourager la parcimonie de la scène, le cadre met également en œuvre une perte de masque qui rend le silhouette. Malgré cela, maintenir l’apparence et les sémantiques à travers les vues arrière de manière cohérente reste un défi, ce qui oblige le cadre à employer des approches supplémentaires pour produire une géométrie détaillée et cohérente.
Modèle de diffusion 3D conscient
Les méthodes d’optimisation 3D utilisant uniquement la supervision par vue sont sous-contraintes, ce qui est la principale raison pour laquelle le cadre DreamCraft3D utilise le Zero-1-to-3, un modèle de diffusion conditionné par la vue, car le Zero-1-to-3 offre une conscience améliorée de la vue puisqu’il a été formé sur une plus grande échelle de données 3D. De plus, le Zero-1-to-3 est un modèle de diffusion affiné qui hallucine l’image en relation avec la pose de la caméra étant donné l’image de référence.
Formation de vue progressive
Dériver directement des vues libres à 360 degrés peut conduire à des artefacts géométriques ou à des incohérences comme une jambe supplémentaire sur une chaise, un événement qui peut être attribué à l’ambiguïté inhérente à une seule image de référence. Pour relever cet obstacle, le cadre DreamCraft3D élargit progressivement les vues de formation, après quoi la géométrie bien établie est propagée pour obtenir des résultats à 360 degrés.
Recul de l’étape de temps de diffusion
Le cadre DreamCraft3D emploie une stratégie de recul de l’étape de temps de diffusion pour s’aligner sur la progression grossière à fine de l’optimisation 3D. Au début du processus d’optimisation, le cadre donne la priorité à l’échantillonnage d’une plus grande étape de temps de diffusion, dans une tentative de fournir la structure globale. À mesure que le cadre progresse dans le processus de formation, il anneale linéairement la plage d’échantillonnage sur le cours de centaines d’itérations. Grâce à la stratégie d’annealing, le cadre parvient à établir une géométrie globale plausible pendant les premières étapes d’optimisation avant de raffiner les détails structurels.
Amélioration structurelle détaillée
Le cadre DreamCraft3D optimise initialement une représentation de surface implicite pour établir une structure grossière. Le cadre utilise ensuite ce résultat et le couple avec une grille tétraédrique déformable ou DMTet pour initialiser une représentation de maillage 3D texturé, qui dissocie l’apprentissage de la texture et de la géométrie. Lorsque le cadre termine l’amélioration structurelle, le modèle est capable de conserver les détails à haute fréquence obtenus à partir de l’image de référence en affinant uniquement les textures.
Amélioration de la texture à l’aide de l’échantillonnage de score amorcé
Bien que l’étape de sculpture géométrique mette l’accent sur l’apprentissage de la géométrie détaillée et cohérente, elle peut flouer la texture dans une certaine mesure, ce qui peut être le résultat de la dépendance du cadre à un modèle de priorité 2D fonctionnant à une résolution grossière ainsi que de la netteté limitée offerte par le modèle de diffusion 3D. De plus, des problèmes de texture courants, y compris la sur-saturation et le lissage excessif, apparaissent en raison d’une grande orientation sans classe.
Le cadre utilise une perte de distillation de score variationnel pour améliorer le réalisme des textures. Le cadre opte pour un modèle de diffusion stable pendant cette phase pour obtenir des gradients à haute résolution. De plus, le cadre maintient la grille tétraédrique fixe pour promouvoir un rendu réaliste et optimiser la structure globale du maillage. Pendant la phase d’apprentissage, le cadre DreamCraft3D n’utilise pas le Zero-1-to-3, car il a un effet négatif sur la qualité des textures, et ces textures incohérentes peuvent être récurrentes, conduisant ainsi à des sorties 3D étranges.
Expériences et résultats
Pour évaluer les performances du cadre DreamCraft3D, il est comparé aux cadres actuels de pointe, et les résultats qualitatifs et quantitatifs sont analysés.
Comparaison avec les modèles de base
Pour évaluer les performances, le cadre DreamCraft3D est comparé à 5 cadres de pointe, notamment DreamFusion, Magic3D, ProlificDreamer, Magic123 et Make-it-3D. Le banc de test comprend 300 images de test qui sont un mélange d’images du monde réel et de celles générées par le cadre de diffusion stable. Chaque image du banc de test a un texte de prompt, une carte de profondeur prédite et un masque alpha pour le premier plan. Le cadre tire les textes de prompt pour les images réelles d’un cadre de légende d’image.
Analyse qualitative
L’image suivante compare le cadre DreamCraft3D avec les modèles de base actuels, et comme on peut le voir, les cadres qui s’appuient sur l’approche texte-3D rencontrent souvent des problèmes de cohérence multi-vue.

D’une part, vous avez le cadre ProlificDreamer qui offre des textures réalistes, mais il ne parvient pas à générer un objet 3D plausible. Les cadres comme le Make-it-3D qui s’appuient sur les méthodes Image-3D parviennent à créer des vues frontales de haute qualité, mais ils ne peuvent pas maintenir la géométrie idéale pour les images. Les images générées par le cadre Magic123 offrent une meilleure régularisation géométrique, mais elles génèrent des textures géométriques et des détails sur-saturés et lissés. Lorsqu’ils sont comparés à ces cadres, le cadre DreamCraft3D qui utilise une méthode de distillation de score amorcée non seulement maintient la cohérence sémantique, mais il améliore également la diversité d’imagination globale.

Analyse quantitative
Dans une tentative de générer des images 3D convaincantes qui non seulement ressemblent à l’image de référence, mais également transmettent des sémantiques de manière cohérente à partir de diverses perspectives, les techniques utilisées par le cadre DreamCraft3D sont comparées aux modèles de base, et le processus d’évaluation utilise quatre métriques : PSNR et LPIPS pour mesurer la fidélité à la vue de référence, la distance contextuelle pour évaluer la congruence au niveau des pixels, et CLIP pour estimer la cohérence sémantique. Les résultats sont présentés dans l’image suivante.

Conclusion
Dans cet article, nous avons discuté du DreamCraft3D, une pipeline hiérarchique pour générer du contenu 3D. Le cadre DreamCraft3D vise à utiliser un cadre T2I ou Texte à Image génératif de pointe pour créer des images 2D de haute qualité à l’aide d’un texte de prompt. Cette approche permet au cadre DreamCraft3D de maximiser les capacités des modèles de diffusion 2D de pointe pour représenter les sémantiques visuelles décrites dans le texte de prompt tout en conservant la liberté créative offerte par ces cadres d’IA génératifs 2D. L’image générée est ensuite transformée en 3D avec l’aide de phases de boost de texture géométrique et de sculpture géométrique, et des techniques spécialisées sont appliquées à chaque étape avec l’aide de la décomposition du problème. En conséquence, le cadre DreamCraft3D peut produire des actifs 3D de haute fidélité et cohérents avec des textures convaincantes, visibles sous plusieurs angles.
