Artificial Intelligence

Paint3D : 画像生成用のライティングレス拡散モデル

公開済み 2024 年 1 月 23 日

クナル・ケジリワル

AI 生成モデル、特にディープ生成 AI モデルの急速な開発により、自然言語生成、3D 生成、画像生成、および音声合成の機能が大幅に進歩しました。これらのモデルは、さまざまな業界の 3D 制作に革命をもたらしました。ただし、多くの企業は課題に直面しています。複雑な配線や生成されたメッシュは、物理ベースレンダリング (PBR) などの従来のレンダリングパイプラインと互換性がないことがよくあります。特に照明テクスチャを使用しない拡散ベースのモデルは、印象的な多様な 3D アセット生成を実証し、映画制作、ゲーム、AR/VR の 3D フレームワークを強化します。

この記事では、ビジュアルまたはテキスト入力を条件として、テクスチャなしの 3D メッシュ用の多様な高解像度 2K UV テクスチャマップを作成するための新しいフレームワークである Paint3D について紹介します。 Paint3D の主な課題は、埋め込み照明なしで高品質のテクスチャを生成し、最新のグラフィックスパイプライン内でユーザーが再編集または再照明できるようにすることです。マルチビューテクスチャフュージョン用に事前トレーニングされた 2D 拡散モデルを採用し、初期の粗いテクスチャマップを生成します。ただし、照明効果を無効にし、2D 形状を完全に表現する際の 3D モデルの制限により、これらのマップには照明アーティファクトや不完全な領域が表示されることがよくあります。 Paint3D の仕組み、アーキテクチャ、および他の深い生成フレームワークとの比較について詳しく説明します。さぁ、始めよう。

ペイント 3D : 概要

自然言語生成、3D 生成、画像合成タスクにおける Deep Generative AI モデルの機能はよく知られており、実際のアプリケーションに実装されており、3D 生成業界に革命をもたらしています。その驚くべき機能にもかかわらず、現代のディープ generative AI フレームワークは、PBR や物理ベースのレンダリングを含む従来のレンダリングパイプラインと互換性のない、複雑な配線とカオスな照明テクスチャを特徴とするメッシュを生成します。ディープ生成 AI モデルと同様に、テクスチャ合成も、特に 2D 拡散モデルの利用において急速に進歩しました。テクスチャ合成モデルは、事前にトレーニングされた画像に対する深度を使用します拡散モデルテキスト条件を効果的に使用して高品質のテクスチャを生成します。ただし、これらのアプローチは、次の図に示すように、最終的な 3D 環境のレンダリングに大きな影響を与え、一般的なワークフロー内でライトが変更されるときに照明エラーが発生する可能性がある事前照明テクスチャに関する問題に直面しています。

ご覧のとおり、フリーイルミネーションを使用したテクスチャマップは従来のレンダリングパイプラインと同期して動作し、正確な結果を提供しますが、プリイルミネーションを使用したテクスチャマップには、再ライティングが適用されたときに不適切な影が含まれます。一方、3D データでトレーニングされたテクスチャ生成フレームワークは、フレームワークが特定の 3D オブジェクトのジオメトリ全体を理解することによってテクスチャを生成する代替アプローチを提供します。より良い結果が得られる可能性もありますが、3D データでトレーニングされたテクスチャ生成フレームワークには一般化機能が欠けており、トレーニングデータの外部の 3D オブジェクトにモデルを適用する機能が妨げられます。

現在のテクスチャ生成モデルは、2 つの重大な課題に直面しています。2 つは、画像ガイダンスまたは多様なプロンプトを使用して、さまざまなオブジェクトにわたってより広範な一般化を達成することです。もう 3 つは、事前トレーニングから得られた結果に対する結合照明を排除することです。事前にイルミネーションされたテクスチャは、レンダリングエンジン内のテクスチャオブジェクトの最終的な結果に干渉する可能性があります。また、事前トレーニングされた XNUMXD 拡散モデルはビュードメインでのみ XNUMXD 結果を提供するため、形状の包括的な理解が不足しており、形状を理解できません。 XNUMXD オブジェクトのビューの一貫性を維持します。

上記の課題のため、Paint3D フレームワークは、さまざまな事前トレーニング済み生成モデルに一般化して、稲妻のないテクスチャ生成を学習しながらビューの一貫性を維持する 3D オブジェクト用の XNUMX 段階のテクスチャ拡散モデルの開発を試みています。

Paint3D は、事前トレーニングされた強力なプロンプトガイダンスと画像生成機能を活用することを目的とした、粗いテクスチャから細かいテクスチャへの XNUMX 段階のテクスチャ生成モデルです。 generative AI モデルをテクスチャ 3D オブジェクトに変換します。最初の段階では、Paint3D フレームワークはまず、事前トレーニングされた深度認識 2D 画像拡散モデルからマルチビュー画像を段階的にサンプリングし、さまざまなプロンプトからの高品質でリッチなテクスチャ結果の一般化を可能にします。次にモデルは、これらのイメージを 3D メッシュサーフェスに逆投影することによって、初期テクスチャマップを生成します。第 3 段階では、モデルは、照明の影響の除去と不完全な領域の形状を意識したリファインに特化した拡散モデルで採用されるアプローチを実装することにより、照明のないテクスチャを生成することに焦点を当てます。プロセス全体を通じて、Paint2D フレームワークは一貫して高品質の XNUMXK テクスチャをセマンティックに生成することができ、固有の照明効果を排除します。

要約すると、Paint3D は、粗いから細かいまでの新しい生成 AI モデルであり、テクスチャ化されていない 2D メッシュに対して多様でライティングのない高解像度の 3K UV テクスチャマップを生成し、さまざまな条件で 3D オブジェクトをテクスチャリングする際に最先端のパフォーマンスを達成することを目的としています。テキストや画像を含む入力に対応しており、合成やグラフィック編集タスクに大きな利点をもたらします。

方法論とアーキテクチャ

Paint3D フレームワークは、次の図に示すように、画像やプロンプトなどの必要な条件付き入力を使用して、3D モデル用の多様で高品質のテクスチャマップを生成するために、テクスチャマップを段階的に生成および調整します。

粗い段階では、Paint3D モデルは事前トレーニングされた 2D 画像拡散モデルを使用してマルチビュー画像をサンプリングし、これらの画像をメッシュの表面に逆投影する初期テクスチャマップを作成します。第 3 段階、つまり洗練段階では、PaintXNUMXD モデルは UV 空間で拡散プロセスを使用して粗いテクスチャマップを強化し、最終テクスチャの視覚的な魅力と完全性を保証する高品質、修復、ライティングレス機能を実現します。。

ステージ 1: 段階的な粗いテクスチャの生成

プログレッシブ粗テクスチャー生成段階では、Paint3D モデルは、事前トレーニングされた深度認識 3D 拡散モデルを使用する 2D メッシュの粗い UV テクスチャマップを生成します。具体的には、モデルはまずさまざまなカメラビューを使用して深度マップをレンダリングし、次に深度条件を使用して画像拡散モデルから画像をサンプリングし、これらの画像をメッシュサーフェスに逆投影します。フレームワークは、レンダリング、サンプリング、逆投影のアプローチを交互に実行してテクスチャメッシュの一貫性を向上させ、最終的にはテクスチャマップのプログレッシブ生成に役立ちます。

モデルは、3D メッシュに焦点を当てたカメラビューで可視領域のテクスチャの生成を開始し、3D メッシュを最初のビューから深度マップにレンダリングします。次に、モデルは、外観条件と深さ条件のためにテクスチャ画像をサンプリングします。次に、モデルは画像を 3D メッシュに逆投影します。視点については、Paint3D モデルは同様のアプローチを実行しますが、イメージペインティングアプローチを使用してテクスチャサンプリングプロセスを実行するというわずかな変更が加えられています。さらに、モデルは以前の視点からのテクスチャ領域を考慮するため、レンダリングプロセスで深度イメージだけでなく、現在のビューで色付けされていないマスクを使用して部分的に色付けされた RGB イメージも出力できるようになります。

次にモデルは、修復エンコーダーを備えた深度認識画像修復モデルを使用して、RGB イメージ内の色のない領域を塗りつぶします。次に、モデルは、ペイントされたイメージを現在のビューの下の 3D メッシュに逆投影することにより、ビューからテクスチャマップを生成します。これにより、モデルはテクスチャマップを段階的に生成し、粗い構造マップ全体に到達することができます。最後に、モデルはテクスチャサンプリングプロセスを複数のビューを持つシーンまたはオブジェクトに拡張します。より具体的には、モデルは一対のカメラを利用して、対称的な視点からの最初のテクスチャサンプリング中に XNUMX つの深度マップをキャプチャします。次に、モデルは XNUMX つの深度マップを結合し、深度グリッドを構成します。このモデルは、単一の深度イメージを深度グリッドに置き換えて、マルチビューの深度を意識したテクスチャサンプリングを実行します。

ステージ 2: UV 空間でのテクスチャのリファインメント

粗いテクスチャマップの外観は論理的ですが、2D 画像拡散モデルの関与により、セルフオクルージョンや稲妻の影によってレンダリングプロセス中に発生するテクスチャホールなど、いくつかの課題に直面します。 Paint3D モデルは、粗いテクスチャマップに基づいて UV 空間で拡散プロセスを実行することを目的としており、問題を軽減し、テクスチャのリファイン中にテクスチャマップの視覚的な魅力をさらに高めることを目指しています。ただし、UV 空間のテクスチャマップを使用して主流の画像拡散モデルを調整すると、テクスチャの不連続性が生じます。これは、テクスチャマップが 3D サーフェスのテクスチャの UV マッピングによって生成され、連続したテクスチャが UV 内の一連の個々のフラグメントに分割されるためです。空間。断片化の結果、モデルは断片間の 3D 隣接関係を学習することが困難になり、テクスチャの不連続性の問題が発生します。

モデルは、テクスチャフラグメントの隣接情報に基づいて拡散プロセスを実行することにより、UV 空間内のテクスチャマップを洗練します。 UV 空間では、テクスチャフラグメントの 3D 隣接情報を表すのは位置マップであり、モデルは背景以外の各要素を 3D 点座標として扱うことに注意することが重要です。拡散プロセス中に、モデルは事前トレーニングされた画像拡散モデルに個別の位置マップエンコーダーを追加することによって 3D 隣接情報を融合します。新しいエンコーダは ControlNet フレームワークの設計に似ており、画像拡散モデルに実装されたエンコーダと同じアーキテクチャを持ち、この XNUMX つを接続するゼロ畳み込み層を備えています。さらに、テクスチャ拡散モデルはテクスチャと位置マップで構成されるデータセットでトレーニングされ、モデルはノイズの多い潜在に追加されるノイズを予測する方法を学習します。次に、モデルは位置エンコーダーを最適化し、画像拡散タスクのためにトレーニングされたデノイザーをフリーズします。

次に、モデルは条件付きエンコーダと他のエンコーダの位置を同時に使用して、UV 空間でリファインメントタスクを実行します。この点において、モデルには UVHD または UV 高解像度と UV 修復という 3 つのリファインメント機能があります。 UVHD メソッドは、テクスチャマップの視覚的な魅力と美しさを強化するように構成されています。 UVHD を実現するために、モデルは画像強化エンコーダーと拡散モデルを備えた位置エンコーダーを使用します。モデルは、UV 修復方法を使用して UV プレーン内のテクスチャホールを埋めることで、レンダリング中に生成されるセルフオクルージョンの問題を回避できます。洗練段階では、Paint3D モデルは最初に UV 修復を実行し、次に UVHD を実行して最終的な洗練されたテクスチャマップを生成します。 XNUMX つの改良方法を統合することにより、PaintXNUMXD フレームワークは、完全で多様な高解像度のライティングレス UV テクスチャマップを生成できます。

Paint3D : 実験と結果

Paint3D モデルは安定拡散 text2image モデルは、画像エンコーダコンポーネントを使用して画像条件を処理しながら、テクスチャ生成タスクを支援します。画像の修復、深度、画像の高解像度などの条件付きコントロールのグリップ力をさらに強化するために、Paint3D フレームワークは ControlNet ドメインエンコーダを採用しています。モデルは PyTorch フレームワークに実装されており、レンダリングとテクスチャプロジェクションは Kaolin に実装されています。

テキストとテクスチャの比較

そのパフォーマンスを分析するには、テキストプロンプトを使用して条件付けされた場合の Paint3D のテクスチャ生成効果を評価することから始め、Text2Tex、TEXTure、LatentPaint などの最先端のフレームワークと比較します。次のイメージでわかるように、Paint3D フレームワークは、高品質のテクスチャの詳細を生成することに優れているだけでなく、照明のないテクスチャマップも適切に合成します。

比較すると、Latent-Paint フレームワークはぼやけたテクスチャを生成する傾向があり、最適ではない視覚効果が生じます。一方、TEXTure フレームワークは鮮明なテクスチャを生成しますが、滑らかさに欠け、つなぎ目や継ぎ目が目立ちます。最後に、Text2Tex フレームワークは滑らかなテクスチャを非常にうまく生成しますが、複雑な詳細を含む細かいテクスチャを生成するパフォーマンスを再現することはできません。

次の図は、Paint3D フレームワークと最先端のフレームワークを定量的に比較しています。

ご覧のとおり、Paint3D フレームワークは既存のすべてのモデルよりも優れており、FID ベースラインで約 30% 向上、KID ベースラインで約 40% 向上という大幅なパフォーマンスを示しています。 FID および KID ベースラインスコアの向上は、Paint3D がさまざまなオブジェクトやカテゴリにわたって高品質のテクスチャを生成できることを示しています。

画像とテクスチャの比較

視覚的なプロンプトを使用して Paint3D の生成機能を生成するには、TEXTure モデルをベースラインとして使用します。前述したように、Paint3D モデルは、Stable Diffusion の text2image モデルをソースとする画像エンコーダを採用しています。次の画像でわかるように、Paint3D フレームワークは絶妙なテクスチャを非常にうまく合成し、画像の状態に関して高い忠実度を維持することができます。

一方、TEXTure フレームワークは、Paint3D と同様のテクスチャを生成できますが、画像状態のテクスチャの詳細を正確に表現するには不十分です。さらに、次の画像に示されているように、TEXTure フレームワークと比較すると、Paint3D フレームワークは FID および KID ベースラインスコアが向上しており、前者は 40.83 から 26.86 に低下し、後者は 9.76 から 4.94 に低下しています。

最終的な考え

この記事では、ビジュアル入力またはテキスト入力に基づいて条件付けされたテクスチャなしの 3D メッシュに対して、ライティングなしで多様な高解像度の 2K UV テクスチャマップを作成できる、粗いから細かいまでの新しいフレームワークである Paint3D について説明しました。 Paint3D フレームワークの主なハイライトは、画像やテキストの入力に条件付けされることなく、意味的に一貫したライティングのない高解像度 2K UV テクスチャを生成できることです。 Paint3D フレームワークは、粗いものから細かいものへのアプローチにより、ライティングのない多様な高解像度のテクスチャマップを生成し、現在の最先端のフレームワークよりも優れたパフォーマンスを提供します。