スタブ Zero123++: 単一画像から一貫性のあるマルチビュー拡散ベース モデル - Unite.AI
私達と接続

Artificial Intelligence

Zero123++: 単一画像から一貫性のあるマルチビュー拡散ベース モデル

mm

公開済み

 on

過去数年間で、新たな新製品のパフォーマンス、効率、生成能力が急速に進歩しました。 AI生成モデル 広範なデータセットと 2D 拡散生成プラクティスを活用します。 現在、生成 AI モデルは、さまざまな形式の 2D、およびテキスト、画像、ビデオ、GIF などを含む 3D メディア コンテンツをある程度生成する能力が非常に優れています。 

この記事では、単一ビュー入力を使用して 123D 一貫性のあるマルチビュー画像を生成することを目的とした、画像条件付き拡散生成 AI モデルである Zero3++ フレームワークについて説明します。 以前の事前トレーニング済み生成モデルから得られる利点を最大化するために、Zero123++ フレームワークは多数のトレーニングおよび調整スキームを実装して、既製の拡散画像モデルから微調整するのにかかる労力を最小限に抑えます。 Zero123++ フレームワークのアーキテクチャ、動作、結果をさらに深く掘り下げ、単一の画像から一貫した高品質のマルチビュー画像を生成する機能を分析します。 それでは始めましょう。 

Zero123 と Zero123++: 概要

Zero123++ フレームワークは、単一ビュー入力を使用して 3D 一貫性のあるマルチビュー画像を生成することを目的とした画像条件付き拡散生成 AI モデルです。 Zero123++ フレームワークは、Zero123 または Zero-1-to-3 フレームワークの継続であり、ゼロショット ノベル ビュー画像合成技術を活用して、オープンソースの単一画像から 3D への変換を開拓します。 Zero123++ フレームワークは有望なパフォーマンスを提供しますが、フレームワークによって生成された画像には目に見える幾何学的不一致があり、これが 3D シーンとマルチビュー画像の間にギャップが依然として存在する主な理由です。 

Zero-1-to-3 フレームワークは、SyncDreamer、One-2-3-45、Consistent123 などの他のいくつかのフレームワークの基盤として機能し、Zero123 フレームワークに追加のレイヤーを追加して、3D 画像の生成時により一貫した結果を取得します。 ProlificDreamer、DreamFusion、DreamGaussian などの他のフレームワークは、最適化ベースのアプローチに従って、さまざまな矛盾したモデルから 3D 画像を抽出することによって 3D 画像を取得します。 これらの技術は効果的であり、満足のいく 3D 画像を生成しますが、多視点画像を一貫して生成できるベース拡散モデルを実装することで結果を改善できる可能性があります。 したがって、Zero123++ フレームワークは Zero-1 から 3 を採用し、Stable Diffusion からの新しいマルチビュー ベース拡散モデルを微調整します。 

ゼロ 1 から 3 のフレームワークでは、新しいビューはそれぞれ独立して生成されますが、拡散モデルにはサンプリングの性質があるため、このアプローチでは生成されたビュー間に不一致が生じます。 この問題に取り組むために、Zero123++ フレームワークはタイル レイアウト アプローチを採用し、オブジェクトが XNUMX つのビューに囲まれて XNUMX つの画像になり、オブジェクトのマルチビュー画像の結合分布の正しいモデリングを保証します。 

Zero-1-to-3 フレームワークに取り組む開発者が直面するもう XNUMX つの大きな課題は、Zero-XNUMX-to-XNUMX フレームワークが提供する機能を十分に活用していないことです。 安定拡散 それは最終的に非効率性と追加コストにつながります。 Zero-1-to-3 フレームワークが Stable Diffusion によって提供される機能を最大限に活用できない主な理由は XNUMX つあります。

  1. 画像条件を使用してトレーニングする場合、Zero-1-to-3 フレームワークには、Stable Diffusion によって提供されるローカルまたはグローバルな調整メカニズムが効果的に組み込まれていません。 
  2. トレーニング中に、Zero-1-to-3 フレームワークは、出力解像度をトレーニング解像度よりも低くするアプローチである低減解像度を使用します。これにより、安定拡散モデルの画像生成の品質が低下する可能性があります。 

これらの問題に取り組むために、Zero123++ フレームワークは、安定拡散によって提供されるリソースの利用を最大化し、安定拡散モデルの画像生成の品質を維持する一連の調整技術を実装します。 

コンディショニングと一貫性の向上

画像調整とマルチビュー画像の一貫性を改善する試みとして、Zero123++ フレームワークはさまざまな技術を実装しました。主な目的は、事前トレーニングされた安定拡散モデルをソースとする以前の技術を再利用することです。 

マルチビューの生成

一貫した多視点画像を生成するために不可欠な品質は、複数の画像の結合分布を正確にモデル化することにあります。 Zero-1-to-3 フレームワークでは、フレームワークがすべての画像に対して条件付き周辺分布を独立して個別にモデル化するため、マルチビュー画像間の相関は無視されます。 ただし、Zero123++ フレームワークでは、開発者は一貫したマルチビュー生成のために 6 つの画像を XNUMX つのフレーム/画像にタイル化するタイル レイアウト アプローチを選択しており、そのプロセスは次の図で示されています。 

さらに、カメラのポーズでモデルをトレーニングするときにオブジェクトの方向が明確になる傾向があることがわかっています。この曖昧さの解消を防ぐために、Zero-1-to-3 フレームワークは仰角と入力に対する相対方位角を使用してカメラのポーズをトレーニングします。 このアプローチを実装するには、入力ビューの仰角を知る必要があります。この仰角は、新しい入力ビュー間の相対姿勢を決定するために使用されます。 この仰角を知るために、フレームワークは仰角推定モジュールを追加することがよくありますが、このアプローチではパイプラインで追加のエラーが発生することがよくあります。 

騒音スケジュール

スケール線形スケジュールである安定拡散の元のノイズ スケジュールは、主に局所的な詳細に焦点を当てていますが、次の画像でわかるように、SNR または信号対雑音比が低いステップが非常に少ないです。 

これらの低い信号対雑音比のステップは、全体的な低周波数構造を決定するために重要な段階であるノイズ除去段階の初期に発生します。 干渉中またはトレーニング中のノイズ除去段階でステップ数を減らすと、多くの場合、構造の変化が大きくなります。 この設定は単一イメージの生成には理想的ですが、異なるビュー間でグローバルな一貫性を確保するフレームワークの機能が制限されます。 このハードルを克服するために、Zero123++ フレームワークは、Stable Diffusion 2 v 予測フレームワーク上で LoRA モデルを微調整して、おもちゃのタスクを実行します。その結果を以下に示します。 

スケーリングされた線形ノイズ スケジュールを使用すると、LoRA モデルはオーバーフィットせず、画像をわずかに白くするだけです。 逆に、線形ノイズ スケジュールを使用する場合、LoRA フレームワークは入力プロンプトに関係なく空のイメージを正常に生成します。これは、新しい要件にグローバルに適応するフレームワークの能力に対するノイズ スケジュールの影響を示しています。 

地域の状況に対するスケールされた参照の注意

単一ビュー入力または Zero-1-to-3 フレームワークのコンディショニング画像は、画像コンディショニングのためにノイズ処理される特徴次元のノイズを含む入力と連結されます。

この連結により、ターゲット イメージと入力の間のピクセル単位の空間的対応が不正確になります。 適切なローカル コンディショニング入力を提供するために、Zero123++ フレームワークはスケーリングされたリファレンス アテンションを利用します。このアプローチでは、ノイズ除去 UNet モデルの実行が追加のリファレンス イメージで参照され、その後リファレンスからの値行列とセルフ アテンション キーが追加されます。モデル入力のノイズが除去されると、それぞれの注目層に画像が送信されます。これを次の図に示します。 

リファレンス アテンション アプローチは、拡散モデルをガイドして、微調整することなく、参照画像と類似したテクスチャを共有する画像と意味論的なコンテンツを生成することができます。 微調整を行うことで、リファレンス アテンション アプローチは潜在力をスケーリングして優れた結果をもたらします。 

グローバル コンディショニング : FlexDiffuse

オリジナルの安定拡散アプローチでは、テキスト エンベディングがグローバル エンベディングの唯一のソースであり、このアプローチではテキスト エンコーダーとして CLIP フレームワークを使用して、テキスト エンコーダとモデル 潜在の間の相互検査を実行します。 その結果、開発者はテキスト スペース間の位置合わせを自由に使用でき、結果として得られる CLIP 画像をグローバルな画像調整に使用できます。 

Zero123++ フレームワークは、リニア ガイダンス メカニズムのトレーニング可能なバリアントを利用して、最小限の処理でグローバルな画像調整をフレームワークに組み込むことを提案しています。 微調整 必要な結果が次の図に示されています。 見てわかるように、グローバル画像調整が存在しない場合、フレームワークによって生成されたコンテンツの品質は、入力画像に対応する可視領域については満足のいくものです。 ただし、目に見えない領域のフレームワークによって生成された画像の品質は、主にモデルがオブジェクトのグローバル セマンティクスを推論できないことが原因で、大幅に低下します。 

モデルアーキテクチャ

Zero123++ フレームワークは、記事で説明されているさまざまなアプローチとテクニックを使用して、安定拡散 2v モデルを基盤としてトレーニングされます。 Zero123++ フレームワークは、ランダムな HDRI ライティングでレンダリングされる Objaverse データセットで事前トレーニングされています。 このフレームワークは、必要な微調整の量をさらに最小限に抑え、以前の安定した拡散を可能な限り維持するために、安定した拡散画像バリエーション フレームワークで使用されている段階的トレーニング スケジュール アプローチも採用しています。 

Zero123++ フレームワークの動作またはアーキテクチャは、さらに連続したステップまたはフェーズに分割できます。 最初のフェーズでは、フレームワークがクロスアテンション層の KV 行列と、オプティマイザーとして AdamW を使用した安定拡散のセルフアテンション層を微調整し、1000 のウォームアップ ステップと 7×10 で最大化するコサイン学習率スケジュールを確認します。-5。 第 2000 フェーズでは、フレームワークは XNUMX ウォームアップ セットによる非常に保守的な一定学習率を採用し、Min-SNR アプローチを採用してトレーニング中の効率を最大化します。 

Zero123++ : 結果とパフォーマンスの比較

定性的パフォーマンス

生成された品質に基づいて Zero123++ フレームワークのパフォーマンスを評価するために、コンテンツ生成のための最先端の 1 つのフレームワークである SyncDreamer および Zero-3-to-2-XL と比較されます。 フレームワークは、スコープが異なる 3 つの入力イメージと比較されます。 最初の画像は、Objaverse データセットから直接取得された電気おもちゃの猫で、オブジェクトの後端に大きな不確実性があります。 4 番目は消火器の画像、5 番目は SDXL モデルによって生成されたロケットに座っている犬の画像です。 最後の画像はアニメイラストです。 フレームワークに必要な標高ステップは、One-123-2-XNUMX-XNUMX フレームワークの標高推定方法を使用して達成され、背景の除去は SAM フレームワークを使用して達成されます。 ご覧のとおり、ZeroXNUMX++ フレームワークは高品質のマルチビュー画像を一貫して生成し、ドメイン外の XNUMXD イラストレーションや AI 生成画像にも同様に汎用化できます。 

定量分析

Zero123++ フレームワークを最先端の Zero-1-to-3 および Zero-1to-3 XL フレームワークと定量的に比較するために、開発者は、検証分割データであるサブセットでこれらのモデルの学習知覚画像パッチ類似性 (LPIPS) スコアを評価します。 Objaverse データセットの。 マルチビュー画像生成におけるモデルのパフォーマンスを評価するために、開発者はグラウンド トゥルース参照画像と 6 つの生成画像をそれぞれタイル化し、学習知覚画像パッチ類似性 (LPIPS) スコアを計算します。 結果を以下に示します。明らかにわかるように、Zero123++ フレームワークは検証分割セットで最高のパフォーマンスを達成します。 

テキストからマルチビューへの評価

テキストからマルチビューへのコンテンツ生成における Zero123++ フレームワークの機能を評価するには、開発者はまずテキスト プロンプトを備えた SDXL フレームワークを使用して画像を生成し、次に生成された画像に Zero123++ フレームワークを適用します。 結果は次の画像に示されています。一貫したマルチビュー生成を保証できない Zero-1-to-3 フレームワークと比較すると、Zero123++ フレームワークは一貫性があり、現実的で、非常に詳細なマルチビューを返していることがわかります。を実装して画像を表示します テキストから画像、そしてマルチビューへ アプローチまたはパイプライン。 

Zero123++ 深さ制御ネット

基本の Zero123++ フレームワークに加えて、開発者は、ControlNet アーキテクチャを使用して構築された元のフレームワークの深度制御バージョンである Depth ControlNet Zero123++ もリリースしました。 正規化された線形画像は後続の RGB 画像に関してレンダリングされ、ControlNet フレームワークは奥行き認識を使用して Zero123++ フレームワークのジオメトリを制御するようにトレーニングされます。 

まとめ

この記事では、単一ビュー入力を使用して 123D 一貫性のあるマルチビュー画像を生成することを目的とした画像条件付き拡散生成 AI モデルである Zero3++ について説明しました。 以前の事前トレーニング済み生成モデルから得られる利点を最大化するために、Zero123++ フレームワークは多数のトレーニングおよび調整スキームを実装して、既製の拡散画像モデルから微調整するのにかかる労力を最小限に抑えます。 また、Zero123++ フレームワークによって実装され、現在の最先端のフレームワークによって達成される結果と同等、さらにはそれを超える結果を達成するのに役立つさまざまなアプローチと拡張機能についても説明しました。 

ただし、その効率性と高品質のマルチビュー画像を一貫して生成する能力にもかかわらず、Zero123++ フレームワークにはまだ改善の余地があり、潜在的な研究分野は次のとおりです。

  • XNUMX 段階リファイナー モデル これにより、Zero123++ が一貫性に関する世界的な要件を満たせない問題が解決される可能性があります。 
  • 追加のスケールアップ Zero123++ の機能をさらに強化して、さらに高品質の画像を生成します。 

「職業はエンジニア、心は作家」。 Kunal は、AI と ML に対する深い愛情と理解を備えたテクニカル ライターであり、魅力的で有益なドキュメントを通じてこれらの分野の複雑な概念を簡素化することに専念しています。