Artificial Intelligence

テキストから 3D への AI 生成の仕組み: Meta 3D Gen、OpenAI Shap-E など

公開済み 16年2024月XNUMX日

アーユシュ・ミタルミタル

テキストプロンプトから3Dデジタルアセットを生成する機能は、AIとコンピュータグラフィックスの最近の最もエキサイティングな開発の3つです。XNUMXDデジタルアセット市場は、 28.3年には2024億51.8万ドル、2029年にはXNUMX億XNUMX万ドルテキストから 3D への AI モデルは、ゲーム、映画、e コマースなどの業界全体でコンテンツ作成に革命を起こす上で重要な役割を果たす準備ができています。しかし、これらの AI システムは具体的にどのように機能するのでしょうか。この記事では、テキストから 3D への生成の背後にある技術的な詳細を詳しく説明します。

3D世代の課題

テキストから 3D アセットを生成するのは、2D 画像の生成よりもはるかに複雑な作業です。2D 画像は基本的にピクセルのグリッドですが、3D アセットでは、ジオメトリ、テクスチャ、マテリアル、そして多くの場合はアニメーションを XNUMX 次元空間で表現する必要があります。この次元性と複雑さが加わることで、生成タスクははるかに困難になります。

テキストから 3D を生成する際の主な課題は次のとおりです。

3Dジオメトリと構造の表現
3D表面全体に一貫したテクスチャとマテリアルを生成する
複数の視点から物理的な妥当性と一貫性を確保する
細部と全体的な構造を同時に捉える
簡単にレンダリングまたは3Dプリントできるアセットを生成する

これらの課題に対処するために、テキストから 3D モデルへの変換では、いくつかの重要なテクノロジーと手法が活用されます。

テキストから3Dへの変換システムの主要コンポーネント

最先端のテキストから 3D への生成システムのほとんどは、いくつかのコアコンポーネントを共有しています。

テキストエンコーディング: 入力テキストプロンプトを数値表現に変換する
3D表現: 3D形状と外観を表現する方法
生成モデル: 3Dアセットを生成するためのコアAIモデル
レンダリング: 3D表現を2D画像に変換して視覚化する

それぞれについて詳しく見ていきましょう。

テキストエンコーディング

最初のステップは、入力テキストプロンプトをAIモデルが処理できる数値表現に変換することです。これは通常、次のような大規模な言語モデルを使用して行われます。 BERT または GPT.

3D表現

AI モデルで 3D ジオメトリを表現する一般的な方法はいくつかあります。

ボクセルグリッド: 占有率または特徴を表す値の3D配列
点群: 3D点の集合
メッシュ: 表面を定義する頂点と面
暗黙的な関数: 表面を定義する連続関数（例：符号付き距離関数）
神経放射場（NeRF）: 3D空間の密度と色を表現するニューラルネットワーク

それぞれ、解像度、メモリ使用量、生成の容易さの点でトレードオフがあります。最近のモデルの多くは、合理的な計算要件で高品質の結果を可能にするため、暗黙関数または NeRF を使用しています。

たとえば、単純な球を符号付き距離関数として表すことができます。

import numpy as np

def sphere_sdf(x, y, z, radius=1.0):
    return np.sqrt(x**2 + y**2 + z**2) - radius

# Evaluate SDF at a 3D point
point = [0.5, 0.5, 0.5]
distance = sphere_sdf(*point)
print(f"Distance to sphere surface: {distance}")

生成モデル

テキストから3Dへのシステムの核となるのは、テキストから3D表現を生成する生成モデルです。テキスト埋め込み最先端のモデルのほとんどは、2D 画像生成で使用されるものと同様の拡散モデルの何らかのバリエーションを使用しています。

拡散モデルは、データに徐々にノイズを追加し、このプロセスを逆に学習することによって機能します。3D 生成の場合、このプロセスは選択された 3D 表現の空間で発生します。

拡散モデルのトレーニング手順の簡略化された疑似コードは次のようになります。

def diffusion_training_step(model, x_0, text_embedding):
# Sample a random timestep
t = torch.randint(0, num_timesteps, (1,))

# Add noise to the input
noise = torch.randn_like(x_0)
x_t = add_noise(x_0, noise, t)

# Predict the noise
predicted_noise = model(x_t, t, text_embedding)

# Compute loss
loss = F.mse_loss(noise, predicted_noise)

return loss

# Training loop
for batch in dataloader:
x_0, text = batch
text_embedding = encode_text(text)
loss = diffusion_training_step(model, x_0, text_embedding)
loss.backward()
optimizer.step()

生成中は、純粋なノイズから開始し、テキストの埋め込みに応じて繰り返しノイズ除去を行います。

レンダリング

結果を視覚化し、トレーニング中の損失を計算するには、3D 表現を 2D 画像にレンダリングする必要があります。これは通常、勾配がレンダリングプロセスを通じて逆流できるようにする微分可能なレンダリング手法を使用して行われます。

メッシュベースの表現の場合、ラスタライズベースのレンダラーを使用する場合があります。

import torch
import torch.nn.functional as F
import pytorch3d.renderer as pr

def render_mesh(vertices, faces, image_size=256):
    # Create a renderer
    renderer = pr.MeshRenderer(
        rasterizer=pr.MeshRasterizer(),
        shader=pr.SoftPhongShader()
    )
    
    # Set up camera
    cameras = pr.FoVPerspectiveCameras()
    
    # Render
    images = renderer(vertices, faces, cameras=cameras)
    
    return images

# Example usage
vertices = torch.rand(1, 100, 3)  # Random vertices
faces = torch.randint(0, 100, (1, 200, 3))  # Random faces
rendered_images = render_mesh(vertices, faces)

NeRF のような暗黙的な表現の場合、通常はレイマーチング手法を使用してビューをレンダリングします。

すべてをまとめる: テキストから 3D へのパイプライン

主要なコンポーネントについて説明したので、次に、典型的なテキストから 3D への生成パイプラインでそれらがどのように組み合わされるかを見ていきましょう。

テキストエンコーディング: 入力プロンプトは、言語モデルを使用して密なベクトル表現にエンコードされます。
初期世代: テキスト埋め込みを条件とする拡散モデルは、初期の 3D 表現 (NeRF または暗黙の関数など) を生成します。
マルチビューの一貫性: モデルは、生成された 3D アセットの複数のビューをレンダリングし、視点間の一貫性を確保します。
洗練: 追加のネットワークにより、ジオメトリを改良したり、テクスチャを追加したり、詳細を強化したりすることができます。
最終出力: 3D 表現は、下流のアプリケーションで使用するために、必要な形式 (テクスチャメッシュなど) に変換されます。

コード内でこれがどのように表示されるかを示す簡略化された例を次に示します。

class TextTo3D(nn.Module):
    def __init__(self):
        super().__init__()
        self.text_encoder = BertModel.from_pretrained('bert-base-uncased')
        self.diffusion_model = DiffusionModel()
        self.refiner = RefinerNetwork()
        self.renderer = DifferentiableRenderer()
    
    def forward(self, text_prompt):
        # Encode text
        text_embedding = self.text_encoder(text_prompt).last_hidden_state.mean(dim=1)
        
        # Generate initial 3D representation
        initial_3d = self.diffusion_model(text_embedding)
        
        # Render multiple views
        views = self.renderer(initial_3d, num_views=4)
        
        # Refine based on multi-view consistency
        refined_3d = self.refiner(initial_3d, views)
        
        return refined_3d

# Usage
model = TextTo3D()
text_prompt = "A red sports car"
generated_3d = model(text_prompt)

利用可能なトップテキストから3Dアセットモデル

3DGen – メタ

3Dジェネレーションテキストの説明からキャラクター、小道具、シーンなどの 3D コンテンツを生成するという問題に対処するために設計されています。

大規模言語とテキストから3Dモデルへ – 3D-ジェネレーション

3DGen は、現実世界のアプリケーションでリアルな 3D アセットの再照明を行うために不可欠な物理ベースレンダリング (PBR) をサポートしています。また、新しいテキスト入力を使用して、以前に生成された 3D シェイプやアーティストが作成した 3D シェイプの生成的な再テクスチャリングも可能にします。パイプラインには、それぞれテキストから 3D への生成とテキストからテクスチャへの生成を処理する Meta 3D AssetGen と Meta XNUMXD TextureGen という XNUMX つのコアコンポーネントが統合されています。

メタ 3D アセットジェネレーション

Meta 3D AssetGen (Siddiqui 他、2024) は、テキストプロンプトから 3D アセットの初期生成を担当します。このコンポーネントは、テクスチャと PBR マテリアルマップを含む 3D メッシュを約 30 秒で生成します。

メタ 3D テクスチャジェネレータ

Meta 3D TextureGen (Bensadoun 他、2024) は、AssetGen によって生成されたテクスチャを改良します。また、追加のテキスト記述に基づいて、既存の 3D メッシュの新しいテクスチャを生成するためにも使用できます。この段階には約 20 秒かかります。

ポイントE (OpenAI)

OpenAIが開発したPoint-Eは、もう 3 つの注目すべきテキストから 3D への生成モデルです。NeRF 表現を生成する DreamFusion とは異なり、Point-E は XNUMXD ポイントクラウドを生成します。

Point-E の主な特徴:

a) 2段階パイプラインPoint-E は、まずテキストから画像への拡散モデルを使用して合成 2D ビューを生成し、次にこの画像を使用して 3D ポイントクラウドを生成する XNUMX 番目の拡散モデルを調整します。

b) 効率化Point-E は計算効率が高く、単一の GPU で数秒以内に 3D ポイントクラウドを生成できるように設計されています。

c) 色情報: モデルは、幾何学的情報と外観情報の両方を保持しながら、色付きの点群を生成できます。

制限事項：

メッシュベースやNeRFベースのアプローチに比べて忠実度が低い
ポイントクラウドは、多くの下流アプリケーションで追加の処理を必要とする

Shap-E (OpenAI):

OpenAIはPoint-Eを基にしてシャープ-E は、ポイントクラウドの代わりに 3D メッシュを生成します。これにより、計算効率を維持しながら、Point-E のいくつかの制限に対処します。

Shap-E の主な特徴:

a) 暗黙的表現Shap-E は、3D オブジェクトの暗黙的な表現 (符号付き距離関数) を生成することを学習します。

b) メッシュ抽出: このモデルは、マーチングキューブアルゴリズムの微分可能な実装を使用して、暗黙的な表現をポリゴンメッシュに変換します。

c) テクスチャ生成Shap-E は 3D メッシュのテクスチャも生成できるため、視覚的に魅力的な出力が得られます。

Advantages:

生成時間が短い（数秒から数分）
レンダリングや下流のアプリケーションに適した直接メッシュ出力
ジオメトリとテクスチャの両方を生成する機能

GET3D (NVIDIA):

GET3Dは、NVIDIA の研究者によって開発された、高品質のテクスチャ付き 3D メッシュの生成に重点を置いた、もう 3 つの強力なテキストから XNUMXD への生成モデルです。

GET3Dの主な機能:

a) 明示的な表面表現: DreamFusion や Shap-E とは異なり、GET3D は中間の暗黙的な表現なしで明示的なサーフェス表現 (メッシュ) を直接生成します。

b) テクスチャ生成: このモデルには、3D メッシュの高品質なテクスチャを学習して生成するための微分可能なレンダリング手法が含まれています。

c) GANベースのアーキテクチャ: GET3D は生成的敵対ネットワーク (GAN) アプローチを使用しており、モデルのトレーニングが完了すると高速生成が可能になります。

Advantages:

高品質のジオメトリとテクスチャ
推論時間が速い
3Dレンダリングエンジンとの直接統合

制限事項：

3Dトレーニングデータが必要であり、一部のオブジェクトカテゴリでは不足する可能性がある

まとめ：

テキストから 3D への AI 生成は、3D コンテンツの作成方法と操作方法に根本的な変化をもたらします。高度なディープラーニング技術を活用することで、これらのモデルは単純なテキスト記述から複雑で高品質の 3D アセットを作成できます。テクノロジーが進化し続けるにつれて、ゲームや映画から製品設計や建築に至るまで、業界に革命をもたらす、ますます洗練され、高性能なテキストから 3D へのシステムが登場することが期待されます。

関連トピック：3Dアセット 3DGen - メタナーフ aiを開く点パイソンテキストから 3D へトーチ

次に

スクリプトを超えて: ジェネレーティブ AI によるビデオゲーム NPC の未来

お見逃しなく

DIAMOND: Atari では視覚的な詳細が重要であり、世界モデリングには拡散が重要

アーユシュ・ミタル

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェアエンジニアリングプロジェクトに貢献してきました。私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。