Connect with us

人工知能

Dreamcraft3D: 階層型3D生成とブートストラップ拡散事前分布

mm

生成AIモデルは、AI業界でしばらくの間議論の的となっています。2D生成モデルの最近の成功により、今日の視覚コンテンツを作成する方法が開拓されました。2D生成モデルでAIコミュニティが著しい成功を収めたにもかかわらず、3Dコンテンツの生成は、深層生成AIフレームワークにとって大きな課題です。これは、視覚ゲーム、応用、アプリケーション、バーチャルリアリティ、さらには映画によって3D生成コンテンツの需要が史上最高水準に達しているためです。注目すべきは、あるカテゴリやタスクではある程度の成果を上げている3D生成AIフレームワークも存在するものの、3Dオブジェクトを効率的に生成することができないことです。この欠点は、フレームワークをトレーニングするための3Dデータが不足していることによるものです。最近、開発者は、事前トレーニング済みのテキストからイメージのAI生成モデルから得られるガイダンスを活用することを提案しており、これは有望な結果を示しています。

この記事では、DreamCraft3Dフレームワークについて説明します。DreamCraft3Dフレームワークは、高品質の3Dオブジェクトを生成する階層型モデルです。DreamCraft3Dフレームワークは、2Dリファレンスイメージを使用して、幾何学的スカルプティングステージをガイドし、テクスチャを一貫性の問題に対処することに重点を置いて強化します。さらに、DreamCraft3Dフレームワークは、幾何学的スカルプティングに貢献する一貫したレンダリングを支援するために、ビュー依存の拡散モデルを使用してスコア抽出サンプリングを行います。

DreamCraft3Dフレームワークの3Dコンテンツ生成について詳しく見ていきます。さらに、事前トレーニング済みのテキストからイメージ(T2I)モデルを使用した3Dコンテンツ生成の概念を探り、DreamCraft3Dフレームワークがこのアプローチを使用してリアルな3Dコンテンツを生成する方法を調べます。

DreamCraft3D : 概要

DreamCraft3Dは、3Dコンテンツを生成するための階層型パイプラインです。DreamCraft3Dフレームワークは、テキストプロンプトを使用して、高品質の2Dイメージを作成するために、最先端のT2Iまたはテキストからイメージの生成フレームワークを活用しようとします。このアプローチにより、DreamCraft3Dフレームワークは、テキストプロンプトで記述された視覚的意味を表現するために、最先端の2D拡散モデルを最大限に活用しながら、これらの2D AI生成フレームワークが提供する創造的自由を維持することができます。生成されたイメージは、幾何学的テクスチャブーストと幾何学的スカルプティングの段階を使用して3Dに変換され、各段階で問題を分解することで、特殊なテクニックが適用されます。

幾何学的スカルプティングの段階では、DreamCraft3Dフレームワークは、グローバルな3D構造とマルチビューの一貫性に重点を置きます。したがって、イメージの詳細なテクスチャに妥協する余地が生まれます。一旦幾何学的問題が解決されると、フレームワークは、一貫したリアルなテクスチャを最適化することに重点を置き、3D最適化アプローチをブートストラップする3Dアウェア拡散を実装します。幾何学的スカルプティングとテクスチャブーストの2つの段階に、2つの重要な設計上の考慮事項があります。

上記の通り、DreamCraft3Dは、階層型3Dコンテンツ生成パイプラインを使用して、2Dイメージをその3Dカウンターパートに変換するAI生成フレームワークとみなすことができます。これは、全体的な3Dの一貫性を維持しながら行われます。

事前トレーニング済みT2Iまたはテキストからイメージモデルを使用する

3Dコンテンツを生成するために事前トレーニング済みT2Iまたはテキストからイメージモデルを使用するというアイデアは、2022年にDreamFusionフレームワークによって最初に提案されました。DreamFusionフレームワークは、3Dフレームワークを最適化するために、SDSまたはスコア抽出サンプリング損失を適用しようとしました。ランダムな視点からのレンダリングが、効率的なテキストからイメージ拡散フレームワークによって解釈されるテキスト条件付きイメージ分布と一致するようにします。DreamFusionアプローチは、ある程度の成果を上げましたが、2つの大きな問題、ぼけと過剰な彩度がありました。これらの問題に対処するために、最近の研究では、2D抽出損失を改善するために、段階的な最適化戦略を実装しています。これにより、より高い品質とリアルな3D生成イメージが得られます。

しかし、最近の成功にもかかわらず、これらのフレームワークは、複雑なコンテンツを合成する2D生成フレームワークの能力に匹敵することができません。さらに、これらのフレームワークは、個々の3Dレンダリングが妥当であるにもかかわらず、全体としてスタイルと意味の一貫性が欠如している「Janus問題」に悩まされています。

これまでの研究で直面した問題に対処するために、DreamCraft3Dフレームワークは、階層型3Dコンテンツ生成パイプラインの可能性を探り、概念を2Dスケッチにペンで書き、粗い幾何学を彫刻し、幾何学的詳細を精密化し、高品質のテクスチャをペイントする手法的なアーティスティックプロセスからインスピレーションを得ています。同様のアプローチに従うと、DreamCraft3Dフレームワークは、3Dコンテンツまたはイメージ生成タスクを、さまざまな管理可能なステップに分解します。テキストプロンプトを使用して、高品質の2Dイメージを生成し始め、テクスチャブーストと幾何学的スカルプティングを使用してイメージを3Dに変換します。プロセスを段階的に分割することで、DreamCraft3Dフレームワークは、最終的に優れた品質の3Dイメージ生成につながる、階層型生成の潜在能力を最大化することができます。

最初の段階では、DreamCraft3Dフレームワークは、幾何学的スカルプティングを使用して、2Dイメージを参照して、一貫性と妥当性のある3D幾何学的形状を生成します。さらに、この段階では、SDS損失を使用して、参照ビューの写真的損失と新しいビューのために、幾何学的一貫性を促進するための幅広い戦略を実装します。フレームワークは、Zero-1-to-3、ビュー条件付きのオフザシェルフイメージ変換モデルを使用して、参照イメージを使用して、新しいビューの分布をモデル化します。さらに、フレームワークは、暗黙的な表面表現からメッシュ表現への移行を使用して、粗い幾何学的精密化を実行します。

DreamCraft3Dフレームワークの2番目の段階では、ブートストラップスコア抽出アプローチを使用して、テクスチャをブーストします。幾何学的スカルプティング段階では、詳細で一貫した幾何学的形状を学習することに重点が置かれますが、テクスチャはある程度ぼけます。これは、フレームワークが2D事前分布モデルに依存していること、および3D拡散モデルが提供する制限されたシャープネスによるものです。さらに、過剰な彩度や過度なスムージングなどの一般的なテクスチャ問題が、広範なクラスフリーガイダンスの結果として発生します。

フレームワークは、VSDまたは変分スコア抽出損失を使用して、テクスチャのリアリズムを高めます。Stable Diffusionモデルを使用して、高解像度のグラデーションを取得します。さらに、テトラヘドロン格子を固定して、リアリスティックなレンダリングを促進し、メッシュの全体的な構造を最適化します。学習段階では、Zero-1-to-3フレームワークは使用されません。なぜなら、テクスチャの品質に悪影響を及ぼし、不一致なテクスチャが繰り返し発生する可能性があり、異常な3D出力につながるからです。

上記のイメージから、DreamCraft3Dフレームワークが、リアリスティックなテクスチャと複雑な幾何学的構造を持つ、創造的な3Dイメージとコンテンツを生成できることがわかります。最初のイメージは、アニメキャラクターのSon Gokuのボディと、走る野生の猪の頭を組み合わせたものです。2番目のイメージは、探偵の服を着たビーグル犬を描いています。以下は、追加の例です。

DreamCraft3D : 動作とアーキテクチャ

DreamCraft3Dフレームワークは、テキストプロンプトを使用して、高品質の2Dイメージを作成するために、最先端のT2Iまたはテキストからイメージの生成フレームワークを活用しようとします。このアプローチにより、DreamCraft3Dフレームワークは、テキストプロンプトで記述された視覚的意味を表現するために、最先端の2D拡散モデルを最大限に活用しながら、これらの2D AI生成フレームワークが提供する創造的自由を維持することができます。生成されたイメージは、幾何学的テクスチャブーストと幾何学的スカルプティングの段階を使用して3Dに変換され、各段階で問題を分解することで、特殊なテクニックが適用されます。以下のイメージは、DreamCraft3Dフレームワークの動作を簡潔にまとめています。

テクスチャブーストと幾何学的スカルプティングの段階の重要な設計上の考慮事項について、詳しく見ていきます。

幾何学的スカルプティング

幾何学的スカルプティングは、DreamCraft3Dフレームワークが、3Dモデルを、参照イメージの外観と一致するように生成する最初の段階です。さらに、フレームワークは、SDS損失を使用して、個々のサンプルビューの妥当なイメージレンダリングを促進します。さらに、参照イメージからのガイダンスを効果的に活用するために、フレームワークは、参照ビューでの参照イメージとレンダリングイメージの写真的差異を罰則します。損失は、ビューの前景領域内でのみ計算されます。さらに、シーンのスパース性を促進するために、フレームワークは、シルエットをレンダリングするマスク損失を実装します。にもかかわらず、後方ビューでの外観と意味の一貫性を維持することは、依然として課題です。したがって、フレームワークは、詳細で一貫した幾何学的形状を生成するために、追加のアプローチを採用します。

3Dアウェア拡散事前分布

ビューごとの監督のみを使用する3D最適化方法は、制約が不足しているため、DreamCraft3Dフレームワークは、Zero-1-to-3、ビュー条件付き拡散モデルを使用します。Zero-1-to-3フレームワークは、より大きなスケールの3Dデータアセットでトレーニングされたため、強化されたビュー認識を提供します。さらに、Zero-1-to-3フレームワークは、参照イメージに基づいて、カメラポーズに関連してイメージを想起する、ファインチューンされた拡散モデルです。

プログレッシブビュートレーニング

360度の自由ビューを直接取得すると、幾何学的アーティファクトや不一致、たとえば椅子に余分な脚が付いている、が発生する可能性があります。これは、単一の参照イメージの曖昧さによるものです。 この課題に対処するために、DreamCraft3Dフレームワークは、トレーニングビューを徐々に拡大し、確立された幾何学を徐々に伝播して、360度の結果を取得します。

拡散時間ステップアニーリング

DreamCraft3Dフレームワークは、3D最適化の粗いから細かい進捗に合わせて、拡散時間ステップアニーリング戦略を採用します。最適化プロセスの開始時に、フレームワークは、より大きな拡散時間ステップをサンプリングすることを優先し、グローバル構造を提供します。トレーニングプロセスが進むにつれて、フレームワークは、数百のイテレーションの間に線形的にサンプリング範囲をアニーリングします。アニーリング戦略により、フレームワークは、初期の最適化ステップで、妥当なグローバル幾何学を確立し、後に構造の詳細を精密化することができます。

詳細な構造強化

DreamCraft3Dフレームワークは、粗い構造を確立するために、最初に暗黙的な表面表現を最適化します。次に、結果を使用して、テクスチャと幾何学の学習を分離する、変形可能なテトラヘドロン格子(DMTet)と組み合わせて、テクスチャ付き3Dメッシュ表現を初期化します。構造の強化が完了すると、モデルは、テクスチャのみを精密化することで、参照イメージから得た高周波数の詳細を保持することができます。

ブートストラップスコアサンプリングを使用したテクスチャブースト

幾何学的スカルプティング段階では、詳細で一貫した幾何学的形状を学習することに重点が置かれますが、テクスチャはある程度ぼけます。これは、フレームワークが2D事前分布モデルに依存していること、および3D拡散モデルが提供する制限されたシャープネスによるものです。さらに、過剰な彩度や過度なスムージングなどの一般的なテクスチャ問題が、広範なクラスフリーガイダンスの結果として発生します。

フレームワークは、VSDまたは変分スコア抽出損失を使用して、テクスチャのリアリズムを高めます。Stable Diffusionモデルを使用して、高解像度のグラデーションを取得します。さらに、テトラヘドロン格子を固定して、リアリスティックなレンダリングを促進し、メッシュの全体的な構造を最適化します。学習段階では、Zero-1-to-3フレームワークは使用されません。なぜなら、テクスチャの品質に悪影響を及ぼし、不一致なテクスチャが繰り返し発生する可能性があり、異常な3D出力につながるからです。

実験と結果

DreamCraft3Dフレームワークのパフォーマンスを評価するために、現在の最先端フレームワークと比較し、定性的および定量的な結果を分析します。

ベースラインモデルとの比較

パフォーマンスを評価するために、DreamCraft3Dフレームワークは、5つの最先端フレームワーク、DreamFusion、Magic3D、ProlificDreamer、Magic123、Make-it-3Dと比較されます。テストベンチマークは、300の入力イメージで構成され、実世界のイメージと、Stable Diffusionフレームワークによって生成されたイメージの混合です。テストベンチマークの各イメージには、テキストプロンプト、予測された深度マップ、前景のアルファマスクがあります。フレームワークは、実世界のイメージのテキストプロンプトを、イメージキャプションフレームワークから取得します。

定性的分析

以下のイメージは、DreamCraft3Dフレームワークと現在のベースラインモデルを比較し、テキストから3Dアプローチに依存するフレームワークは、多視点の一貫性の問題に直面していることがわかります。

一方で、ProlificDreamerフレームワークは、リアリスティックなテクスチャを提供しますが、妥当な3Dオブジェクトを生成することに失敗します。Image-to-3D方法に依存するMake-it-3Dフレームワークは、高品質の前面ビューを生成しますが、イメージの理想的な幾何学を維持することができません。Magic123フレームワークによって生成されたイメージは、幾何学的正規化が改善されていますが、過剰に彩度とスムージングされた幾何学的テクスチャと詳細を生成します。DreamCraft3Dフレームワークは、ブートストラップスコア抽出方法を使用して、不 only 一貫性を維持するだけでなく、想像力の多様性も向上させます。

定量的分析

妥当な3Dイメージを生成し、参照イメージと一致するだけでなく、さまざまな視点からの意味を一貫して伝えるために、DreamCraft3Dフレームワークで使用されるテクニックは、ベースラインモデルと比較され、評価プロセスでは、4つのメトリック、PSNRとLPIPS(参照ビューでの忠実度を測定)、Contextual Distance(ピクセルレベルの一貫性を評価)、CLIP(意味の一貫性を推定)が使用されます。結果は、以下のイメージに示されています。

結論

この記事では、DreamCraft3D、3Dコンテンツを生成するための階層型パイプラインについて説明しました。DreamCraft3Dフレームワークは、テキストプロンプトを使用して、高品質の2Dイメージを作成するために、最先端のT2Iまたはテキストからイメージの生成フレームワークを活用しようとします。このアプローチにより、DreamCraft3Dフレームワークは、テキストプロンプトで記述された視覚的意味を表現するために、最先端の2D拡散モデルを最大限に活用しながら、これらの2D AI生成フレームワークが提供する創造的自由を維持することができます。生成されたイメージは、幾何学的テクスチャブーストと幾何学的スカルプティングの段階を使用して3Dに変換され、各段階で問題を分解することで、特殊なテクニックが適用されます。結果として、DreamCraft3Dフレームワークは、高品質で一貫性のある3Dアセットを生成し、複雑なテクスチャと、多角度から見える幾何学的構造を実現します。

職業はエンジニア、心は作家。クナルは、AIとMLを深く愛し理解しているテクニカルライターで、これらの分野の複雑な概念を魅力的で情報の多いドキュメンテーションを通じて簡素化することに尽力しています。