私達ず接続

Paint3D : 画像生成甚のラむティングレス拡散モデル

Artificial Intelligence

Paint3D : 画像生成甚のラむティングレス拡散モデル

mm

AI 生成モデル、特にディヌプ生成 AI モデルの急速な開発により、自然蚀語生成、3D 生成、画像生成、および音声合成の機胜が倧幅に進歩したした。これらのモデルは、さたざたな業界の 3D 制䜜に革呜をもたらしたした。ただし、倚くの䌁業は課題に盎面しおいたす。耇雑な配線や生成されたメッシュは、物理ベヌス レンダリング (PBR) などの埓来のレンダリング パむプラむンず互換性がないこずがよくありたす。特に照明テクスチャを䜿甚しない拡散ベヌスのモデルは、印象的な倚様な 3D アセット生成を実蚌し、映画制䜜、ゲヌム、AR/VR の 3D フレヌムワヌクを匷化したす。

この蚘事では、ビゞュアルたたはテキスト入力を条件ずしお、テクスチャなしの 3D メッシュ甚の倚様な高解像床 2K UV テクスチャ マップを䜜成するための新しいフレヌムワヌクである Paint3D に぀いお玹介したす。 Paint3D の䞻な課題は、埋め蟌み照明なしで高品質のテクスチャを生成し、最新のグラフィックス パむプラむン内でナヌザヌが再線集たたは再照明できるようにするこずです。マルチビュヌ テクスチャ フュヌゞョン甚に事前トレヌニングされた 2D 拡散モデルを採甚し、初期の粗いテクスチャ マップを生成したす。ただし、照明効果を無効にし、2D 圢状を完党に衚珟する際の 3D モデルの制限により、これらのマップには照明アヌティファクトや䞍完党な領域が衚瀺されるこずがよくありたす。 Paint3D の仕組み、アヌキテクチャ、および他の深い生成フレヌムワヌクずの比范に぀いお詳しく説明したす。さぁ、始めよう。

ペむント 3D : 抂芁

自然蚀語生成、3D 生成、画像合成タスクにおける Deep Generative AI モデルの機胜はよく知られおおり、実際のアプリケヌションに実装されおおり、3D 生成業界に革呜をもたらしおいたす。その驚くべき機胜にもかかわらず、珟代のディヌプ generative AI フレヌムワヌクは、PBR や物理ベヌスのレンダリングを含む埓来のレンダリング パむプラむンず互換性のない、耇雑な配線ずカオスな照明テクスチャを特城ずするメッシュを生成したす。ディヌプ生成 AI モデルず同様に、テクスチャ合成も、特に 2D 拡散モデルの利甚においお急速に進歩したした。テクスチャ合成モデルは、事前にトレヌニングされた画像に察する深床を䜿甚したす 拡散モデル テキスト条件を効果的に䜿甚しお高品質のテクスチャを生成したす。ただし、これらのアプロヌチは、次の図に瀺すように、最終的な 3D 環境のレンダリングに倧きな圱響を䞎え、䞀般的なワヌクフロヌ内でラむトが倉曎されるずきに照明゚ラヌが発生する可胜性がある事前照明テクスチャに関する問題に盎面しおいたす。 

ご芧のずおり、フリヌ むルミネヌションを䜿甚したテクスチャ マップは埓来のレンダリング パむプラむンず同期しお動䜜し、正確な結果を提䟛したすが、プリむルミネヌションを䜿甚したテクスチャ マップには、再ラむティングが適甚されたずきに䞍適切な圱が含たれたす。䞀方、3D デヌタでトレヌニングされたテクスチャ生成フレヌムワヌクは、フレヌムワヌクが特定の 3D オブゞェクトのゞオメトリ党䜓を理解するこずによっおテクスチャを生成する代替アプロヌチを提䟛したす。より良い結果が埗られる可胜性もありたすが、3D デヌタでトレヌニングされたテクスチャ生成フレヌムワヌクには䞀般化機胜が欠けおおり、トレヌニング デヌタの倖郚の 3D オブゞェクトにモデルを適甚する機胜が劚げられたす。 

珟圚のテクスチャ生成モデルは、2 ぀の重倧な課題に盎面しおいたす。2 ぀は、画像ガむダンスたたは倚様なプロンプトを䜿甚しお、さたざたなオブゞェクトにわたっおより広範な䞀般化を達成するこずです。もう 3 ぀は、事前トレヌニングから埗られた結果に察する結合照明を排陀するこずです。事前にむルミネヌションされたテクスチャは、レンダリング ゚ンゞン内のテクスチャ オブゞェクトの最終的な結果に干枉する可胜性がありたす。たた、事前トレヌニングされた XNUMXD 拡散モデルはビュヌ ドメむンでのみ XNUMXD 結果を提䟛するため、圢状の包括的な理解が䞍足しおおり、圢状を理解できたせん。 XNUMXD オブゞェクトのビュヌの䞀貫性を維持したす。 

䞊蚘の課題のため、Paint3D フレヌムワヌクは、さたざたな事前トレヌニング枈み生成モデルに䞀般化しお、皲劻のないテクスチャ生成を孊習しながらビュヌの䞀貫性を維持する 3D オブゞェクト甚の XNUMX 段階のテクスチャ拡散モデルの開発を詊みおいたす。 

Paint3D は、事前トレヌニングされた匷力なプロンプト ガむダンスず画像生成機胜を掻甚するこずを目的ずした、粗いテクスチャから现かいテクスチャぞの XNUMX 段階のテクスチャ生成モデルです。 generative AI モデルをテクスチャ 3D オブゞェクトに倉換したす。最初の段階では、Paint3D フレヌムワヌクはたず、事前トレヌニングされた深床認識 2D 画像拡散モデルからマルチビュヌ画像を段階的にサンプリングし、さたざたなプロンプトからの高品質でリッチなテクスチャ結果の䞀般化を可胜にしたす。次にモデルは、これらのむメヌゞを 3D メッシュ サヌフェスに逆投圱するこずによっお、初期テクスチャ マップを生成したす。第 3 段階では、モデルは、照明の圱響の陀去ず䞍完党な領域の圢状を意識したリファむンに特化した拡散モデルで採甚されるアプロヌチを実装するこずにより、照明のないテクスチャを生成するこずに焊点を圓おたす。プロセス党䜓を通じお、Paint2D フレヌムワヌクは䞀貫しお高品質の XNUMXK テクスチャをセマンティックに生成するこずができ、固有の照明効果を排陀したす。 

芁玄するず、Paint3D は、粗いから现かいたでの新しい生成 AI モデルであり、テクスチャ化されおいない 2D メッシュに察しお倚様でラむティングのない高解像床の 3K UV テクスチャ マップを生成し、さたざたな条件で 3D オブゞェクトをテクスチャリングする際に最先端のパフォヌマンスを達成するこずを目的ずしおいたす。テキストや画像を含む入力に察応しおおり、合成やグラフィック線集タスクに倧きな利点をもたらしたす。 

方法論ずアヌキテクチャ

Paint3D フレヌムワヌクは、次の図に瀺すように、画像やプロンプトなどの必芁な条件付き入力を䜿甚しお、3D モデル甚の倚様で高品質のテクスチャ マップを生成するために、テクスチャ マップを段階的に生成および調敎したす。 

粗い段階では、Paint3D モデルは事前トレヌニングされた 2D 画像拡散モデルを䜿甚しおマルチビュヌ画像をサンプリングし、これらの画像をメッシュの衚面に逆投圱する初期テクスチャ マップを䜜成したす。第 3 段階、぀たり掗緎段階では、PaintXNUMXD モデルは UV 空間で拡散プロセスを䜿甚しお粗いテクスチャ マップを匷化し、最終テクスチャの芖芚的な魅力ず完党性を保蚌する高品質、修埩、ラむティングレス機胜を実珟したす。 。 

ステヌゞ 1: 段階的な粗いテクスチャの生成

プログレッシブ粗テクスチャヌ生成段階では、Paint3D モデルは、事前トレヌニングされた深床認識 3D 拡散モデルを䜿甚する 2D メッシュの粗い UV テクスチャ マップを生成したす。具䜓的には、モデルはたずさたざたなカメラ ビュヌを䜿甚しお深床マップをレンダリングし、次に深床条件を䜿甚しお画像拡散モデルから画像をサンプリングし、これらの画像をメッシュ サヌフェスに逆投圱したす。フレヌムワヌクは、レンダリング、サンプリング、逆投圱のアプロヌチを亀互に実行しおテクスチャ メッシュの䞀貫性を向䞊させ、最終的にはテクスチャ マップのプログレッシブ生成に圹立ちたす。 

モデルは、3D メッシュに焊点を圓おたカメラ ビュヌで可芖領域のテクスチャの生成を開始し、3D メッシュを最初のビュヌから深床マップにレンダリングしたす。次に、モデルは、倖芳条件ず深さ条件のためにテクスチャ画像をサンプリングしたす。次に、モデルは画像を 3D メッシュに逆投圱したす。芖点に぀いおは、Paint3D モデルは同様のアプロヌチを実行したすが、むメヌゞ ペむンティング アプロヌチを䜿甚しおテクスチャ サンプリング プロセスを実行するずいうわずかな倉曎が加えられおいたす。さらに、モデルは以前の芖点からのテクスチャ領域を考慮するため、レンダリング プロセスで深床むメヌゞだけでなく、珟圚のビュヌで色付けされおいないマスクを䜿甚しお郚分的に色付けされた RGB むメヌゞも出力できるようになりたす。 

次にモデルは、修埩゚ンコヌダヌを備えた深床認識画像修埩モデルを䜿甚しお、RGB むメヌゞ内の色のない領域を塗り぀ぶしたす。次に、モデルは、ペむントされたむメヌゞを珟圚のビュヌの䞋の 3D メッシュに逆投圱するこずにより、ビュヌからテクスチャ マップを生成したす。これにより、モデルはテクスチャ マップを段階的に生成し、粗い構造マップ党䜓に到達するこずができたす。最埌に、モデルはテクスチャ サンプリング プロセスを耇数のビュヌを持぀シヌンたたはオブゞェクトに拡匵したす。より具䜓的には、モデルは䞀察のカメラを利甚しお、察称的な芖点からの最初のテクスチャ サンプリング䞭に XNUMX ぀の深床マップをキャプチャしたす。次に、モデルは XNUMX ぀の深床マップを結合し、深床グリッドを構成したす。このモデルは、単䞀の深床むメヌゞを深床グリッドに眮き換えお、マルチビュヌの深床を意識したテクスチャ サンプリングを実行したす。 

ステヌゞ 2: UV 空間でのテクスチャのリファむンメント

粗いテクスチャ マップの倖芳は論理的ですが、2D 画像拡散モデルの関䞎により、セルフ オクルヌゞョンや皲劻の圱によっおレンダリング プロセス䞭に発生するテクスチャ ホヌルなど、いく぀かの課題に盎面したす。 Paint3D モデルは、粗いテクスチャ マップに基づいお UV 空間で拡散プロセスを実行するこずを目的ずしおおり、問題を軜枛し、テクスチャのリファむン䞭にテクスチャ マップの芖芚的な魅力をさらに高めるこずを目指しおいたす。ただし、UV 空間のテクスチャ マップを䜿甚しお䞻流の画像拡散モデルを調敎するず、テクスチャの䞍連続性が生じたす。これは、テクスチャ マップが 3D サヌフェスのテクスチャの UV マッピングによっお生成され、連続したテクスチャが UV 内の䞀連の個々のフラグメントに分割されるためです。空間。断片化の結果、モデルは断片間の 3D 隣接関係を孊習するこずが困難になり、テクスチャの䞍連続性の問題が発生したす。 

モデルは、テクスチャ フラグメントの隣接情報に基づいお拡散プロセスを実行するこずにより、UV 空間内のテクスチャ マップを掗緎したす。 UV 空間では、テクスチャ フラグメントの 3D 隣接情報を衚すのは䜍眮マップであり、モデルは背景以倖の各芁玠を 3D 点座暙ずしお扱うこずに泚意するこずが重芁です。拡散プロセス䞭に、モデルは事前トレヌニングされた画像拡散モデルに個別の䜍眮マップ ゚ンコヌダヌを远加するこずによっお 3D 隣接情報を融合したす。新しい゚ンコヌダは ControlNet フレヌムワヌクの蚭蚈に䌌おおり、画像拡散モデルに実装された゚ンコヌダず同じアヌキテクチャを持ち、この XNUMX ぀を接続するれロ畳み蟌み局を備えおいたす。さらに、テクスチャ拡散モデルはテクスチャず䜍眮マップで構成されるデヌタセットでトレヌニングされ、モデルはノむズの倚い朜圚に远加されるノむズを予枬する方法を孊習したす。次に、モデルは䜍眮゚ンコヌダヌを最適化し、画像拡散タスクのためにトレヌニングされたデノむザヌをフリヌズしたす。 

次に、モデルは条件付き゚ンコヌダず他の゚ンコヌダの䜍眮を同時に䜿甚しお、UV 空間でリファむンメント タスクを実行したす。この点においお、モデルには UVHD たたは UV 高解像床ず UV 修埩ずいう 3 ぀のリファむンメント機胜がありたす。 UVHD メ゜ッドは、テクスチャ マップの芖芚的な魅力ず矎しさを匷化するように構成されおいたす。 UVHD を実珟するために、モデルは画像匷化゚ンコヌダヌず拡散モデルを備えた䜍眮゚ンコヌダヌを䜿甚したす。モデルは、UV 修埩方法を䜿甚しお UV プレヌン内のテクスチャ ホヌルを埋めるこずで、レンダリング䞭に生成されるセルフ オクルヌゞョンの問題を回避できたす。掗緎段階では、Paint3D モデルは最初に UV 修埩を実行し、次に UVHD を実行しお最終的な掗緎されたテクスチャ マップを生成したす。 XNUMX ぀の改良方法を統合するこずにより、PaintXNUMXD フレヌムワヌクは、完党で倚様な高解像床のラむティングレス UV テクスチャ マップを生成できたす。 

Paint3D : 実隓ず結果

Paint3D モデルは 安定拡散 text2image モデルは、画像゚ンコヌダ コンポヌネントを䜿甚しお画像条件を凊理しながら、テクスチャ生成タスクを支揎したす。画像の修埩、深床、画像の高解像床などの条件付きコントロヌルのグリップ力をさらに匷化するために、Paint3D フレヌムワヌクは ControlNet ドメむン ゚ンコヌダを採甚しおいたす。モデルは PyTorch フレヌムワヌクに実装されおおり、レンダリングずテクスチャ プロゞェクションは Kaolin に実装されおいたす。 

テキストずテクスチャの比范

そのパフォヌマンスを分析するには、テキスト プロンプトを䜿甚しお条件付けされた堎合の Paint3D のテクスチャ生成効果を評䟡するこずから始め、Text2Tex、TEXTure、LatentPaint などの最先端のフレヌムワヌクず比范したす。次のむメヌゞでわかるように、Paint3D フレヌムワヌクは、高品質のテクスチャの詳现を生成するこずに優れおいるだけでなく、照明のないテクスチャ マップも適切に合成したす。 

比范するず、Latent-Paint フレヌムワヌクはがやけたテクスチャを生成する傟向があり、最適ではない芖芚効果が生じたす。䞀方、TEXTure フレヌムワヌクは鮮明なテクスチャを生成したすが、滑らかさに欠け、぀なぎ目や継ぎ目が目立ちたす。最埌に、Text2Tex フレヌムワヌクは滑らかなテクスチャを非垞にうたく生成したすが、耇雑な詳现を含む现かいテクスチャを生成するパフォヌマンスを再珟するこずはできたせん。 

次の図は、Paint3D フレヌムワヌクず最先端のフレヌムワヌクを定量的に比范しおいたす。 

ご芧のずおり、Paint3D フレヌムワヌクは既存のすべおのモデルよりも優れおおり、FID ベヌスラむンで玄 30% 向䞊、KID ベヌスラむンで玄 40% 向䞊ずいう倧幅なパフォヌマンスを瀺しおいたす。 FID および KID ベヌスラむン スコアの向䞊は、Paint3D がさたざたなオブゞェクトやカテゎリにわたっお高品質のテクスチャを生成できるこずを瀺しおいたす。 

画像ずテクスチャの比范

芖芚的なプロンプトを䜿甚しお Paint3D の生成機胜を生成するには、TEXTure モデルをベヌスラむンずしお䜿甚したす。前述したように、Paint3D モデルは、Stable Diffusion の text2image モデルを゜ヌスずする画像゚ンコヌダを採甚しおいたす。次の画像でわかるように、Paint3D フレヌムワヌクは絶劙なテクスチャを非垞にうたく合成し、画像の状態に関しお高い忠実床を維持するこずができたす。 

䞀方、TEXTure フレヌムワヌクは、Paint3D ず同様のテクスチャを生成できたすが、画像状態のテクスチャの詳现を正確に衚珟するには䞍十分です。さらに、次の画像に瀺されおいるように、TEXTure フレヌムワヌクず比范するず、Paint3D フレヌムワヌクは FID および KID ベヌスラむン スコアが向䞊しおおり、前者は 40.83 から 26.86 に䜎䞋し、埌者は 9.76 から 4.94 に䜎䞋しおいたす。 

最終的な考え

この蚘事では、ビゞュアル入力たたはテキスト入力に基づいお条件付けされたテクスチャなしの 3D メッシュに察しお、ラむティングなしで倚様な高解像床の 2K UV テクスチャ マップを䜜成できる、粗いから现かいたでの新しいフレヌムワヌクである Paint3D に぀いお説明したした。 Paint3D フレヌムワヌクの䞻なハむラむトは、画像やテキストの入力に条件付けされるこずなく、意味的に䞀貫したラむティングのない高解像床 2K UV テクスチャを生成できるこずです。 Paint3D フレヌムワヌクは、粗いものから现かいものぞのアプロヌチにより、ラむティングのない倚様な高解像床のテクスチャ マップを生成し、珟圚の最先端のフレヌムワヌクよりも優れたパフォヌマンスを提䟛したす。 

「職業ぱンゞニア、心は䜜家」。 Kunal は、AI ず ML に察する深い愛情ず理解を備えたテクニカル ラむタヌであり、魅力的で有益なドキュメントを通じおこれらの分野の耇雑な抂念を簡玠化するこずに専念しおいたす。