Intelligence artificielle

Dreamcraft3D : Génération hiérarchique 3D avec diffusion à démarrage automatique

Publié le 16 novembre 2023

Mis à jour le 22 mai 2026

Par

Kunal Kejriwal

Les modèles d’intelligence artificielle générative ont été un sujet de discussion dans l’industrie de l’IA depuis un certain temps. Le succès récent des modèles génératifs 2D a ouvert la voie aux méthodes que nous utilisons aujourd’hui pour créer du contenu visuel. Bien que la communauté de l’IA ait obtenu des résultats remarquables avec les modèles génératifs 2D, la génération de contenu 3D reste un défi majeur pour les cadres d’IA générative profonde. C’est particulièrement vrai alors que la demande de contenu généré 3D atteint un niveau sans précédent, alimentée par une large gamme de jeux visuels, d’applications, de réalité virtuelle et même de cinéma. Il convient de noter que, même si il existe des cadres d’IA générative 3D qui produisent des résultats acceptables pour certaines catégories et tâches, ils sont incapables de générer efficacement des objets 3D. Cette lacune peut être attribuée au manque de données 3D étendues pour former les cadres. Récemment, les développeurs ont proposé d’utiliser les conseils offerts par des modèles d’IA générative de texte à image pré-entraînés, une approche qui a montré des résultats prometteurs.

Dans cet article, nous allons discuter du cadre DreamCraft3D, un modèle hiérarchique pour générer du contenu 3D qui produit des objets 3D cohérents et de haute qualité. Le cadre DreamCraft3D utilise une image de référence 2D pour guider l’étape de sculpture de la géométrie, en améliorant la texture en se concentrant sur la résolution des problèmes de cohérence rencontrés par les cadres ou les méthodes actuels. De plus, le cadre DreamCraft3D utilise un modèle de diffusion dépendant de la vue pour la distillation du score, aidant à sculpter la géométrie qui contribue à un rendu cohérent.

Nous allons examiner de plus près le cadre DreamCraft3D pour la génération de contenu 3D. De plus, nous allons explorer le concept d’utilisation de modèles de texte à image (T2I) pré-entraînés pour la génération de contenu 3D et examiner comment le cadre DreamCraft3D vise à utiliser cette approche pour générer du contenu 3D réaliste.

DreamCraft3D : Introduction

DreamCraft3D est une pipeline hiérarchique pour générer du contenu 3D. Le cadre DreamCraft3D tente d’utiliser un cadre génératif de texte à image (T2I) de pointe pour créer des images 2D de haute qualité à l’aide d’une invite de texte. L’approche permet au cadre DreamCraft3D de maximiser les capacités des modèles de diffusion 2D de pointe pour représenter les sémantiques visuelles décrites dans l’invite de texte, tout en conservant la liberté créative offerte par ces cadres génératifs 2D. L’image générée est ensuite transformée en 3D avec l’aide de phases de boost de texture géométrique et de sculpture de géométrie, et des techniques spécialisées sont appliquées à chaque étape avec l’aide de la décomposition du problème.

Pour la géométrie, le cadre DreamCraft3D se concentre fortement sur la structure 3D globale et la cohérence multi-vue, ce qui laisse place à des compromis sur les textures détaillées dans les images. Une fois que le cadre a résolu les problèmes liés à la géométrie, il se concentre sur l’optimisation des textures cohérentes et réalistes en mettant en œuvre une diffusion 3D qui démarre automatiquement l’approche d’optimisation 3D. Il y a deux considérations de conception clés pour les deux phases d’optimisation, à savoir la sculpture de la géométrie et le boost de texture.

Tout considéré, il serait sage de décrire DreamCraft3D comme un cadre génératif d’IA qui utilise une pipeline de génération de contenu 3D hiérarchique pour essentiellement transformer des images 2D en leurs contreparties 3D tout en conservant la cohérence 3D globale.

Utilisation de modèles de texte à image (T2I) pré-entraînés

L’idée d’utiliser des modèles de texte à image (T2I) pré-entraînés pour générer du contenu 3D a été introduite pour la première fois par le cadre DreamFusion en 2022. Le cadre DreamFusion a tenté d’imposer une perte de distillation de score (SDS) pour optimiser le cadre 3D de telle sorte que les rendus à des points de vue aléatoires correspondent aux distributions d’images conditionnées par le texte, telles que interprétées par un cadre de diffusion de texte à image efficace. Bien que l’approche DreamFusion ait donné des résultats décents, il y avait deux problèmes majeurs, la flou et la sur-saturation. Pour résoudre ces problèmes, des travaux récents mettent en œuvre diverses stratégies d’optimisation étape par étape pour améliorer la perte de distillation 2D, ce qui conduit finalement à de meilleures qualités et à des images 3D générées plus réalistes.

Cependant, malgré le succès récent de ces cadres, ils sont incapables de rivaliser avec la capacité des cadres génératifs 2D à synthétiser du contenu complexe. De plus, ces cadres sont souvent confrontés au « problème de Janus », une condition dans laquelle les rendus 3D qui apparaissent plausibles individuellement montrent des incohérences stylistiques et sémantiques lorsqu’ils sont examinés dans leur ensemble.

Pour résoudre les problèmes rencontrés par les travaux précédents, le cadre DreamCraft3D explore la possibilité d’utiliser une pipeline de génération de contenu 3D hiérarchique et cherche inspiration dans le processus artistique manuel dans lequel un concept est d’abord esquissé dans un brouillon 2D, après quoi l’artiste sculpte la géométrie grossière, affine les détails géométriques et peint des textures de haute fidélité. En suivant la même approche, le cadre DreamCraft3D divise les tâches de génération d’images de contenu 3D en plusieurs étapes gérables.

Dans la première étape, le cadre DreamCraft3D déploie la sculpture de la géométrie pour produire des formes géométriques 3D cohérentes et plausibles à l’aide de l’image 2D comme référence. De plus, l’étape utilise non seulement la perte SDS pour les pertes photométriques et les vues nouvelles à la vue de référence, mais le cadre introduit également diverses stratégies pour promouvoir la cohérence géométrique. Le cadre vise à utiliser le modèle de traduction d’image conditionné par le point de vue Zero-1-to-3 pour utiliser l’image de référence pour modéliser la distribution des vues nouvelles. De plus, le cadre passe d’une représentation de surface implicite à une représentation de maillage pour une affinement géométrique grossier à fin.

La deuxième étape du cadre DreamCraft3D utilise une approche de distillation de score à démarrage automatique pour améliorer les textures de l’image, car les modèles de diffusion conditionnés par la vue actuels sont formés sur une quantité limitée de données 3D, ce qui les empêche souvent de correspondre à la performance ou à la fidélité des modèles de diffusion 2D. Grâce à cette limitation, le cadre DreamCraft3D affine le modèle de diffusion en fonction des images multi-vues de l’instance 3D qui est optimisée, et cette approche aide le cadre à améliorer les textures 3D tout en conservant la cohérence multi-vue. Lorsque le modèle de diffusion est formé sur ces rendus multi-vues, il fournit une meilleure orientation pour l’optimisation des textures 3D, et cette approche aide le cadre DreamCraft3D à atteindre un niveau élevé de détails de texture tout en conservant la cohérence de la vue.

Comme on peut le voir dans les images ci-dessus, le cadre DreamCraft3D est capable de produire des images et du contenu 3D créatifs avec des textures réalistes et des structures géométriques complexes. Dans la première image, il s’agit du corps de Son Goku, un personnage d’anime mélangé avec la tête d’un sanglier sauvage en train de courir, tandis que la deuxième image représente un basset habillé en détective. Voici quelques exemples supplémentaires.

DreamCraft3D : Fonctionnement et Architecture

Le cadre DreamCraft3D tente d’utiliser un cadre génératif de texte à image (T2I) de pointe pour créer des images 2D de haute qualité à l’aide d’une invite de texte. L’approche permet au cadre DreamCraft3D de maximiser les capacités des modèles de diffusion 2D de pointe pour représenter les sémantiques visuelles décrites dans l’invite de texte, tout en conservant la liberté créative offerte par ces cadres génératifs 2D. L’image générée est ensuite transformée en 3D avec l’aide de phases de boost de texture géométrique et de sculpture de géométrie, et des techniques spécialisées sont appliquées à chaque étape avec l’aide de la décomposition du problème. L’image suivante résume brièvement le fonctionnement du cadre DreamCraft3D.

Examinons de plus près les considérations de conception clés pour les phases de boost de texture et de sculpture de la géométrie.

Sculpture de la Géométrie

La sculpture de la géométrie est la première étape où le cadre DreamCraft3D tente de créer un modèle 3D qui correspond à l’apparence de l’image de référence à la même vue de référence, tout en garantissant une plausibilité maximale même sous différents angles de vue. Pour garantir une plausibilité maximale, le cadre utilise la perte SDS pour encourager des rendus d’images plausibles pour chaque vue échantillonnée individuelle que peut reconnaître un modèle de diffusion pré-entraîné. De plus, pour utiliser efficacement les conseils de l’image de référence, le cadre pénalise les différences photométriques entre l’image de référence et les images rendues à la vue de référence, et la perte est calculée uniquement dans la région avant-plan de la vue. De plus, pour encourager la rareté de la scène, le cadre met également en œuvre une perte de masque qui rend le contour. Malgré cela, maintenir l’apparence et les sémantiques à travers les vues arrière de manière cohérente reste un défi, ce qui explique pourquoi le cadre utilise des approches supplémentaires pour produire une géométrie détaillée et cohérente.

Diffusion 3D avec conscience

Les méthodes d’optimisation 3D qui utilisent uniquement la supervision par vue sont sous-déterminées, ce qui est la principale raison pour laquelle le cadre DreamCraft3D utilise Zero-1-to-3, un modèle de diffusion conditionné par la vue, car le cadre Zero-1-to-3 offre une conscience améliorée du point de vue, car il a été formé sur un plus grand ensemble de données 3D. De plus, le cadre Zero-1-to-3 est un modèle de diffusion affiné qui hallucine l’image en relation avec la pose de la caméra donnée l’image de référence.

Entraînement progressif de la vue

Dériver des vues libres directement à 360 degrés peut conduire à des artefacts géométriques ou à des incohérences, comme une jambe supplémentaire sur une chaise, un événement qui peut être attribué à l’ambiguïté inhérente à une seule image de référence. Pour résoudre cet obstacle, le cadre DreamCraft3D élargit progressivement les vues de formation, après quoi la géométrie bien établie est propagée pour obtenir des résultats à 360 degrés.

Recuit de l’étape de diffusion

Le cadre DreamCraft3D utilise une stratégie de recuit de l’étape de diffusion pour s’aligner sur la progression grossier à fin de l’optimisation 3D. Au début du processus d’optimisation, le cadre donne la priorité à l’échantillonnage d’une plus grande étape de diffusion, dans une tentative de fournir la structure globale. À mesure que le cadre progresse dans le processus de formation, il réduit linéairement la plage d’échantillonnage au cours de centaines d’itérations. Grâce à la stratégie de recuit, le cadre parvient à établir une géométrie globale plausible pendant les premières étapes d’optimisation avant de raffiner les détails structurels.

Amélioration structurelle détaillée

Le cadre DreamCraft3D optimise d’abord une représentation de surface implicite pour établir une structure grossière. Le cadre utilise ensuite ce résultat et le couple avec un maillage tétraédrique déformable (DMTet) pour initialiser une représentation de maillage 3D texturé qui dissocie l’apprentissage de la texture et de la géométrie. Lorsque le cadre a terminé l’amélioration structurelle, le modèle est capable de conserver les détails à haute fréquence obtenus à partir de l’image de référence en raffinant uniquement les textures.

Boost de texture à l’aide d’un échantillonnage de score à démarrage automatique

Bien que l’étape de sculpture de la géométrie se concentre sur l’apprentissage d’une géométrie détaillée et cohérente, elle floue légèrement la texture, ce qui peut être le résultat de la dépendance du cadre à un modèle de priorité 2D fonctionnant à une résolution grossière, ainsi que de la limitation de netteté offerte par le modèle de diffusion 3D. De plus, des problèmes de texture courants, tels que la sur-saturation et le lissage excessif, apparaissent en raison d’une guidance sans classeur importante.

Le cadre utilise une perte de distillation de score variationnel (VSD) pour améliorer le réalisme des textures. Le cadre opte pour un modèle de diffusion stable pendant cette phase pour obtenir des gradients de haute résolution. De plus, le cadre maintient le maillage tétraédrique fixe pour promouvoir un rendu réaliste et optimiser la structure globale du maillage. Pendant la phase d’apprentissage, le cadre DreamCraft3D n’utilise pas le cadre Zero-1-to-3, car il a un effet négatif sur la qualité des textures, et ces textures incohérentes peuvent être répétitives, ce qui conduit à des sorties 3D étranges.

Expériences et Résultats

Pour évaluer les performances du cadre DreamCraft3D, il est comparé aux cadres actuels de pointe, et les résultats qualitatifs et quantitatifs sont analysés.

Comparaison avec les modèles de référence

Pour évaluer les performances, le cadre DreamCraft3D est comparé à 5 cadres de pointe, notamment DreamFusion, Magic3D, ProlificDreamer, Magic123 et Make-it-3D. Le banc de test comprend 300 images de référence qui sont un mélange d’images du monde réel et de celles générées par le cadre de diffusion stable. Chaque image du banc de test a une invite de texte, une carte de profondeur prédite et un masque alpha pour le premier plan. Le cadre obtient les invites de texte pour les images du monde réel à partir d’un cadre de légende d’image.

Analyse qualitative

L’image suivante compare le cadre DreamCraft3D avec les modèles de référence actuels, et comme on peut le voir, les cadres qui s’appuient sur l’approche de texte à 3D sont souvent confrontés à des problèmes de cohérence multi-vue.

D’une part, vous avez le cadre ProlificDreamer qui offre des textures réalistes, mais il échoue lorsqu’il s’agit de générer un objet 3D plausible. Les cadres comme le cadre Make-it-3D qui s’appuient sur des méthodes d’image à 3D parviennent à créer des vues frontales de haute qualité, mais ils ne peuvent pas maintenir la géométrie idéale pour les images. Les images générées par le cadre Magic123 offrent une meilleure régularisation géométrique, mais elles génèrent des textures géométriques et des détails excessivement saturés et lissés. En comparaison avec ces cadres, le cadre DreamCraft3D qui utilise une méthode de distillation de score à démarrage automatique non seulement maintient la cohérence sémantique, mais améliore également la diversité d’imagination globale.

Analyse quantitative

Dans une tentative de générer des images 3D convaincantes qui non seulement ressemblent à l’image de référence, mais également transmettent des sémantiques de manière cohérente à partir de diverses perspectives, les techniques utilisées par le cadre DreamCraft3D sont comparées aux modèles de référence, et le processus d’évaluation utilise quatre métriques : PSNR et LPIPS pour mesurer la fidélité à la vue de référence, la distance contextuelle pour évaluer la congruence au niveau des pixels, et CLIP pour estimer la cohérence sémantique. Les résultats sont présentés dans l’image suivante.

Conclusion

Dans cet article, nous avons discuté du cadre DreamCraft3D, une pipeline hiérarchique pour générer du contenu 3D. Le cadre DreamCraft3D vise à utiliser un cadre génératif de texte à image (T2I) de pointe pour créer des images 2D de haute qualité à l’aide d’une invite de texte. Cette approche permet au cadre DreamCraft3D de maximiser les capacités des modèles de diffusion 2D de pointe pour représenter les sémantiques visuelles décrites dans l’invite de texte, tout en conservant la liberté créative offerte par ces cadres génératifs 2D. L’image générée est ensuite transformée en 3D avec l’aide de phases de boost de texture géométrique et de sculpture de géométrie, et des techniques spécialisées sont appliquées à chaque étape avec l’aide de la décomposition du problème. En conséquence de cette approche, le cadre DreamCraft3D peut produire des actifs 3D de haute fidélité et cohérents avec des textures convaincantes, visibles à partir de multiples angles.

Kunal Kejriwal

Un ingénieur de profession, un écrivain de cœur. Kunal est un rédacteur technique avec une profonde affection et une compréhension de l'IA et du ML, dédié à simplifier les concepts complexes dans ces domaines grâce à sa documentation engageante et informative.