Artificial Intelligence

CameraCtrl: テキストからビデオへの生成のためのカメラ制御の有効化

公開済み

3週間前

2024 年 5 月 23 日

テキストからビデオへの生成や T2V の生成を試みる最近のフレームワークは、トレーニングプロセスの安定性を高めるために拡散モデルを活用しています。また、テキストからビデオへの生成フレームワークのパイオニアの 2 つであるビデオ拡散モデルは、2D 画像拡散アーキテクチャを拡張して、ビデオデータを作成し、ビデオと画像を組み合わせてモデルを最初からトレーニングします。これに基づいて、安定拡散のような強力な事前トレーニング済み画像ジェネレーターを実装するために、最近の研究では、事前トレーニング済み 2D レイヤー間に時間レイヤーをインターリーブすることで XNUMXD アーキテクチャを拡張し、目に見えない大規模なデータセットで新しいモデルを微調整しています。そのアプローチにもかかわらず、テキストからビデオへの拡散モデルは、ビデオサンプルの生成にのみ使用されるテキスト記述の曖昧さにより、テキストからビデオへのモデルの生成に対する制御が弱くなることがよくあるため、大きな課題に直面しています。この制限に対処するために、強化されたガイダンスを提供するモデルもあれば、合成ビデオ内のシーンや人間の動きを正確に制御するために正確な信号を使用するモデルもあります。一方、ビデオジェネレーターへの制御信号として画像を採用するテキストビデオフレームワークがいくつかあり、その結果、正確な時間関係のモデリングや高いビデオ品質が得られます。

制御性は、ユーザーが望むコンテンツを作成できるため、画像やビデオの生成タスクにおいて重要な役割を果たしていると言っても過言ではありません。ただし、既存のフレームワークでは、モデルに深い物語のニュアンスをより適切に表現するための映画言語として機能するカメラポーズの正確な制御が見落とされていることがよくあります。現在の制御性の制限に取り組むために、この記事では、テキストからビデオモデルへの正確なカメラポーズ制御を可能にする新しいアイデアである CameraCtrl について説明します。カメラの軌道を正確にパラメータ化した後、モデルはテキストからビデオへのモデル上でプラグアンドプレイカメラモジュールをトレーニングし、他のコンポーネントはそのままにしておきます。さらに、CameraCtrl モデルはさまざまなデータセットの影響に関する包括的な研究も行っており、類似した外観と多様なカメラ分布を持つビデオがモデルの全体的な制御性と汎化能力を強化できることを示唆しています。現実世界のタスクにおける CameraCtrl モデルのパフォーマンスを分析するために行われた実験は、正確でドメインに適応したカメラ制御を達成するフレームワークの効率性を示し、カメラのポーズとテキスト入力からカスタマイズされた動的なビデオ生成を追求するための前進の道を切り開きます。

この記事は、CameraCtrl フレームワークを詳しく説明することを目的としており、フレームワークのメカニズム、方法論、アーキテクチャを、最先端のフレームワークとの比較とともに検討します。それでは始めましょう。

CameraCtrl : T2V 生成用のカメラ制御

近年の普及モデルの開発と進歩により、テキストガイド付きビデオ生成が大幅に進歩し、コンテンツデザインワークフローに革命をもたらしました。制御性は、ユーザーがニーズや要件に応じて生成された結果をカスタマイズできるため、実際のビデオ生成アプリケーションにおいて重要な役割を果たします。高い制御性により、モデルは生成したビデオのリアリズム、品質、使いやすさを向上させることができます。テキストと画像の入力は全体的な制御性を高めるためにモデルによって一般的に使用されますが、多くの場合、動きやコンテンツに対する正確な制御が欠けています。。この制限に対処するために、一部のフレームワークでは、ポーズスケルトン、オプティカルフロー、その他のマルチモーダル信号などの制御信号を活用して、ビデオ生成をガイドするためのより正確な制御を可能にすることが提案されています。既存のフレームワークが直面するもう 1 つの制限は、ビデオ生成時にカメラポイントの刺激や調整を正確に制御できないことです。カメラを制御する機能は、生成されるビデオのリアリズムを高めるだけでなく、カスタマイズされた視点を可能にするため、非常に重要であるためです。ユーザーエンゲージメントを強化します。これは、ゲーム開発、拡張現実、仮想現実に不可欠な機能です。さらに、カメラの動きを巧みに管理することで、クリエイターは登場人物の関係性を強調し、感情を強調し、対象視聴者の焦点を導くことができます。これは映画業界や広告業界で非常に重要なことです。

これらの制限に取り組み、克服するために、ビデオ生成用のカメラの視点を制御する機能を備えた、学習可能で正確なプラグアンドプレイカメラモジュールである CameraCtrl フレームワークが使用されます。ただし、カスタマイズしたカメラを既存のテキストからビデオへのモデルパイプラインに統合することは、言うは易く行うは難しであり、CameraCtrl フレームワークは、カメラをモデルアーキテクチャに効果的に表現して挿入する方法を模索する必要があります。同様に、CameraCtrl フレームワークはカメラパラメーターの主な形式としてプラッカーエンベディングを採用しており、プラッカーエンベディングを選択する理由は、カメラのポーズ情報の幾何学的記述をエンコードできる機能にあると考えられます。さらに、トレーニング後の CameraCtrl モデルの一般化性と適用性を確保するために、モデルにはプラッカー埋め込みのみを入力として受け入れるカメラ制御モデルが導入されています。カメラ制御モデルが効果的にトレーニングされることを保証するために、フレームワークとその開発者は、合成データから現実的なデータまで、さまざまなトレーニングデータがフレームワークにどのような影響を与えるかを調査するための包括的な調査を実施します。実験結果は、多様なカメラポーズ分布と元の基本モデルと同様の外観を持つデータを実装することで、制御性と一般化性の間で最良のトレードオフが達成されることを示しています。 CameraCtrl フレームワークの開発者は、AnimateDiff フレームワーク上にモデルを実装しました。これにより、さまざまなパーソナライズされたビデオ生成における正確な制御が可能になり、幅広いビデオ作成コンテキストでの多用途性と実用性が実証されました。

AnimateDiff フレームワークは効率的なロラさまざまな種類のショットに対するモデルの重みを取得するための微調整アプローチ。 Direct-a-video フレームワークは、ビデオ生成プロセス中にカメラのポーズを制御するカメラエンベッダーを実装することを提案していますが、条件は 3 つのカメラパラメーターのみであり、カメラの制御能力は最も基本的なタイプに制限されています。一方、MotionCtrl などのフレームワークは、3 つ以上の入力パラメーターを受け入れ、より複雑なカメラポーズのビデオを生成できるモーションコントローラーを設計します。ただし、生成されたビデオの一部を微調整する必要があるため、モデルの一般化が妨げられます。さらに、一部のフレームワークは、深度マップなどの追加の構造制御信号をプロセスに組み込んで、画像とテキスト生成の両方の制御性を強化します。通常、モデルはこれらの制御信号を追加のエンコーダーに送り、さまざまな操作を使用して信号をジェネレーターに注入します。

CameraCtrl: モデルアーキテクチャ

カメラエンコーダーのアーキテクチャとトレーニングパラダイムを確認する前に、さまざまなカメラ表現を理解することが重要です。通常、カメラポーズは内部パラメータと外部パラメータを指します。ビデオジェネレータにカメラポーズの条件を与えるための簡単な選択肢の 1 つは、カメラパラメータに関する生の値をジェネレータにフィードすることです。ただし、このようなアプローチを実装しても、いくつかの理由により正確なカメラ制御が向上しない可能性があります。まず、回転行列は直交性によって制約されますが、並進ベクトルは通常、大きさに制約がなく、学習プロセスで不一致が生じ、制御の一貫性に影響を与える可能性があります。第 2 に、生のカメラパラメーターを直接使用すると、モデルがこれらの値を画像ピクセルと関連付けることが難しくなり、視覚的な詳細の制御が低下する可能性があります。これらの制限を回避するために、CameraCtrl フレームワークは、カメラポーズの表現としてプラッカーエンベディングを選択します。これは、プラッカーエンベディングがビデオフレームの各ピクセルの幾何学的表現を持ち、カメラポーズ情報のより精緻な説明を提供できるためです。

ビデオジェネレーターにおけるカメラの制御性

モデルはカメラの軌道をプラッカー埋め込みシーケンス、つまり空間マップにパラメーター化するため、モデルはエンコーダーモデルを使用してカメラの特徴を抽出し、カメラの特徴をビデオジェネレーターに融合するかを選択できます。に似ているテキストから画像へアダプターの CameraCtrl モデルには、ビデオ専用に設計されたカメラエンコーダーが導入されています。カメラエンコーダには、各畳み込みブロックの後に時間的注意モデルが含まれており、ビデオクリップ全体にわたるカメラポーズの時間的関係をキャプチャできます。次の図に示すように、カメラエンコーダーはプラッカー埋め込み入力のみを受け入れ、マルチスケール機能を提供します。マルチスケールカメラ機能を取得した後、CameraCtrl モデルは、これらの機能をテキストからビデオへのモデルの U-net アーキテクチャにシームレスに統合することを目的としており、カメラ情報を効果的に組み込むために使用する必要があるレイヤーを決定します。さらに、既存のフレームワークの大部分は、時間的注意層と空間的注意層の両方を含む U-Net のようなアーキテクチャを採用しているため、CameraCtrl モデルは、時間的注意の機能に裏付けられた決定として、カメラ表現を時間的注意ブロックに注入します。個々のフレームを描写する空間的注意レイヤーを使用して、カメラの軌跡の本質的なカジュアルで連続的な性質に合わせて、時間的な関係をキャプチャするレイヤーを使用します。

学習カメラの配布

ビデオジェネレーター上の CameraCtrl フレームワーク内でカメラエンコーダーコンポーネントをトレーニングするには、モーションからの構造または SfM アプローチを使用してカメラの軌道を取得できるモデルを備えた、適切にラベル付けされ、注釈が付けられた大量のビデオが必要です。 CameraCtrl フレームワークは、ベーステキストのトレーニングデータとビデオモデルに厳密に一致する外観を持つデータセットを選択し、カメラポーズの分布をできるだけ広くしようとします。仮想エンジンを使用して生成されたデータセット内のサンプルは、開発者がレンダリング段階でカメラのパラメーターを柔軟に制御できるため、多様なカメラ分布を示しますが、現実世界のサンプルを含むデータセットと比較すると分布ギャップが発生します。実世界のサンプルを含むデータセットを扱う場合、カメラの分布は通常狭いため、そのような場合、フレームワークは、さまざまなカメラ軌跡間の多様性と個々のカメラ軌跡の複雑さの間のバランスを見つける必要があります。個々のカメラ軌道の複雑さにより、モデルはトレーニングプロセス中に複雑な軌道の制御を確実に学習できる一方、異なるカメラ軌道間の多様性により、モデルが特定の固定パターンに過剰適合しないことが保証されます。さらに、カメラエンコーダのトレーニングプロセスを監視するために、CameraCtrl フレームワークは、生成されたサンプルのカメラ軌道と入力カメラ条件の間の誤差を定量化することによってカメラの制御品質を測定するカメラアライメントメトリックを提案します。

CameraCtrl : 実験と結果

CameraCtrl フレームワークは、AnimateDiff モデルをベースのテキストからビデオへのモデルとして実装します。その主な理由は、AnimateDiff モデルのトレーニング戦略により、そのモーションモジュールがテキストから画像へのベースモデルまたはテキストから画像への LoRA と統合してビデオに対応できるためです。さまざまなジャンルや領域を越えて世代を超えて。モデルは、Adam オプティマイザーを使用して、1e-4 の一定の学習率でモデルをトレーニングします。さらに、モデルが元のビデオ生成機能に影響を与えないようにするため、テキストからビデオへのモデル逆に、CameraCtrl フレームワークは、FID または Frechet Inception Distance メトリックを利用してビデオの外観品質を評価し、カメラモジュールを含める前後で生成されたビデオの品質を比較します。

そのパフォーマンスを評価するために、CameraCtrl フレームワークは、MotionCtrl と AnimateDiff という 2 つの既存のカメラ制御フレームワークに対して評価されます。ただし、AnimateDiff フレームワークは 8 つの基本的なカメラ軌跡しかサポートしていないため、CameraCtrl と AnimateDiff の比較は 3 つの基本的な軌跡に限定されます。一方、MotionCtrl との比較のために、フレームワークはベースのカメラ軌跡に加えて既存のデータセットから 1,000 を超えるランダムなカメラ軌跡を選択し、これらの軌跡を使用してビデオを生成し、TransErr および RotErr メトリクスを使用して評価します。

ご覧のとおり、CameraCtrl フレームワークは基本的な軌道において AnimateDiff フレームワークよりも優れており、複雑な軌道メトリックに関して MotionCtrl フレームワークと比較するとより良い結果をもたらします。

さらに、次の図は、生成されたサンプルの全体的な品質に対するカメラエンコーダアーキテクチャの影響を示しています。行 a から行 d は、アーキテクチャに実装されたカメラエンコーダで生成された結果を表します。それぞれ、ControlNet、時間的アテンションを備えた ControlNet、T2I アダプター、および時間的アテンションを備えた T2I アダプターです。

次の図では、最初の 2 つは、SparseCtrl フレームワークの RGB エンコーダと CameraCtrl フレームワークで使用されるメソッドの組み合わせを使用して生成されたビデオを置き換えています。

最終的な考え

この記事では、テキストからビデオモデルへの正確なカメラポーズ制御を可能にする新しいアイデアである CameraCtrl について説明しました。カメラの軌道を正確にパラメータ化した後、モデルはテキストからビデオへのモデル上でプラグアンドプレイカメラモジュールをトレーニングし、他のコンポーネントはそのままにしておきます。さらに、CameraCtrl モデルはさまざまなデータセットの影響に関する包括的な研究も行っており、類似した外観と多様なカメラ分布を持つビデオがモデルの全体的な制御性と汎化能力を強化できることを示唆しています。現実世界のタスクにおける CameraCtrl モデルのパフォーマンスを分析するために行われた実験は、正確でドメインに適応したカメラ制御を達成するフレームワークの効率性を示し、カメラのポーズとテキスト入力からカスタマイズされた動的なビデオ生成を追求するための前進の道を切り開きます。