私達と接続

時間的に一貫した安定した拡散ビデオ文字のための新しいシステム

Artificial Intelligence

時間的に一貫した安定した拡散ビデオ文字のための新しいシステム

mm
更新中 on
MIMO のプロジェクト ページ (https://menyifang.github.io/projects/MIMO/index.html) からのキャプチャ。モーション駆動型のオオカミの生き物を描いています。

Alibaba Group の新しい取り組みは、安定拡散ベースの基盤モデルから人間の全身アバターを生成するための、私がこれまで見た中で最も優れた方法の 1 つを提供します。

題し MIMO (MIMイライラする Oオブジェクトインタラクション)システムは、CGIベースの人間モデルや アニメイトディフ、ビデオ内で時間的に一貫したキャラクターの置き換えを可能にする、またはユーザー定義の骨格ポーズでキャラクターを駆動する。

ここでは、単一の画像ソースから補間され、事前定義されたモーションによって駆動される文字が表示されます。

[下のビデオをクリックして再生]

単一のソース画像から、MIMO システムを使用して 3D ポーズ シーケンス (左端) によって XNUMX つの異なるキャラクターが駆動されます。 より多くの例と優れた解像度については、プロジェクトの Web サイトと付随する YouTube ビデオ (この記事の最後に埋め込まれています) を参照してください。 出典: https://menyifang.github.io/projects/MIMO/index.html

生成されたキャラクターは、ビデオのフレームやその他のさまざまな方法から取得することもでき、現実世界の映像に統合できます。

MIMO は、キャラクター、シーン、オクルージョン (つまり、描画されているキャラクターの前を何らかの物体または人物が通過するときのマッティング) のそれぞれに対して 3 つの個別のエンコーディングを生成する新しいシステムを提供します。これらのエンコーディングは推論時に統合されます。

[下のビデオをクリックして再生]

MIMO は、元のキャラクターを、ターゲット ビデオの動きに追従するフォトリアリスティックな、または様式化されたキャラクターに置き換えることができます。その他の例と優れた解像度については、プロジェクトの Web サイトと付随する YouTube ビデオ (この記事の最後に埋め込まれています) を参照してください。

このシステムは、研究者がキュレーションしたカスタム データセットを使用して、Stable Diffusion V1.5 モデルでトレーニングされ、現実世界のビデオとシミュレートされたビデオが同数含まれています。

拡散型ビデオの最大の悩みは 時間的安定性ビデオの内容がちらついたり、一貫したキャラクター表現に望ましくない形で「変化」したりします。

MIMOは、代わりに、単一の画像を一貫した誘導のための地図として効果的に使用し、間質性血管疾患によって調整および制限することができます。 SMPL CGIモデル。

ソース参照は一貫しており、システムがトレーニングされるベースモデルは適切な代表的な動作例で強化されているため、時間的に一貫した出力を実現するシステムの機能は、拡散ベースのアバターの一般的な標準をはるかに上回っています。

[下のビデオをクリックして再生]

ポーズ駆動型 MIMO キャラクターのさらなる例。さらなる例と優れた解像度については、プロジェクトの Web サイトと付随する YouTube ビデオ (この記事の最後に埋め込まれています) を参照してください。

単一の画像が、それ自体で、またはテキストプロンプトと組み合わせてマルチモーダルな方法で、効果的な神経表現のソースとして使用されることが一般的になりつつあります。たとえば、人気のある ライブポートレート 顔転写システムは、非常に本物らしいディープフェイクの顔を生成することもできる。 単一の顔画像から.

研究者たちは、MIMO システムで使用される原理は、他の新しいタイプの生成システムやフレームワークにも拡張できると考えています。

AIマーケティング業界は、 新しい紙 というタイトルです MIMO: 空間分解モデリングによる制御可能なキャラクタービデオ合成アリババグループの知能コンピューティング研究所の研究者4人による研究である。この研究にはビデオが満載されている。 プロジェクトページ そして、それに付随します YouTubeビデオこの記事の下部にも埋め込まれています。

方法

MIMOは自動で 監督されない 前述の 3 つの空間コンポーネントをエンドツーエンドのアーキテクチャで分離します (つまり、すべてのサブプロセスがシステムに統合され、ユーザーは入力マテリアルのみを提供する必要があります)。

MIMO の概念図。出典: https://arxiv.org/pdf/2409.16160

MIMO の概念スキーマ。 出典: https://arxiv.org/pdf/2409.16160

ソースビデオ内のオブジェクトは、最初に単眼深度推定器を使用して2Dから3Dに変換されます。 深さ 何でもあらゆるフレーム内の人間的要素は、 チューン・ア・ビデオ プロジェクト。

ボーマン 機能を使用 その後、Facebook Researchの セグメント 2 建築。

シーン レイヤー自体は、他の 2 つのレイヤーで検出されたオブジェクトを削除することによって取得され、ロトスコープ スタイルのマスクが自動的に提供されます。

モーションについては、抽出された 潜在コード 人間の要素は、デフォルトの人間の CGI ベースの SMPL モデルに固定されており、その動きによってレンダリングされた人間のコンテンツのコンテキストが提供されます。

2D 特徴マップ 人間のコンテンツは、 微分可能ラスタライザー から派生 2020年の取り組み NVIDIA から。SMPL から取得した 3D データと NVIDIA 方式で取得した 2D データを組み合わせると、「ニューラル パーソン」を表す潜在コードが最終的なコンテキストと確実に対応します。

この時点で、SMPLを使用するアーキテクチャで一般的に必要とされるリファレンスを確立する必要があります。 標準的なポーズこれはダヴィンチの 「ウィトルウィウス的人体図」これは、コンテンツを受け入れて変形することができ、(実質的に)テクスチャマップされたコンテンツも一緒に持ち込むことができるゼロポーズ テンプレートを表します。

これらの変形、つまり「標準からの逸脱」は人間の動きを表現しますが、SMPL モデルは抽出された人間のアイデンティティを構成する潜在的なコードを保持し、結果として得られるアバターをポーズとテクスチャの点で正しく表現します。

SMPL フィギュアの標準的なポーズの例。出典: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

SMPL フィギュアの標準的なポーズの例。 出典: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

の問題について エンタングルメント (訓練されたデータを訓練された範囲や関連性を超えて拡張すると、柔軟性が失われる可能性がある程度)について、著者は次のように述べています*。

「ポーズをとったビデオフレームから外観を完全に分離するには、単眼ビデオから動的な人間の表現を学習し、それをポーズ空間から標準空間に変換するのが理想的な解決策です。

効率性を考慮して、事前にトレーニングされた人間の姿勢モデルを使用して、ポーズをとった人間の画像を標準的な A ポーズの標準的な結果に直接変換する簡略化された方法を採用しています。合成された標準的な外観画像は、ID エンコーダーに送られ、アイデンティティを取得します。

「このシンプルなデザインにより、アイデンティティとモーション属性の完全な分離が可能になります。誰でもアニメーション化]、IDエンコーダには CLIP [それぞれ]グローバルおよびローカルの特徴を埋め込むための画像エンコーダと参照ネットアーキテクチャ。'

シーンとオクルージョンの側面については、共有され固定された 変分オートエンコーダ (VAE – この場合は 2013年刊行)は、シーンとオクルージョン要素を潜在空間に埋め込むために使用されます。不一致は、 修復 2023年からの方法 プロペインター プロジェクト。

このように組み立ててレタッチすると、ビデオ内の背景と遮蔽物の両方が、動く人間のアバターのマットとして機能します。

これらの分解された属性は、 Uネット バックボーンはStable Diffusion V1.5アーキテクチャに基づいています。完全なシーンコードはホストシステムのネイティブな潜在ノイズと連結されます。人間のコンポーネントは 自己注意 およびクロスアテンション層です。

そうして ノイズ除去 結果はVAEデコーダーを介して出力されます。

データとテスト

訓練のために、研究者らはHUD-7Kというタイトルの人間のビデオデータセットを作成した。これは、5,000本の実際のキャラクターのビデオと、 エン3D システム。MIMO のアーキテクチャにおける図の抽出手順は非意味的であるため、実際のビデオには注釈は必要ありませんでした。合成データには完全に注釈が付けられました。

このモデルは100つのNVIDIA A40 GPU(論文では80GBか50GBのVRAMモデルかは明記されていない)で24のビデオフレームとXNUMX回の反復処理でトレーニングされた。 バッチサイズ 4つまで 収束.

システムのモーションモジュールはAnimateDiffの重みに基づいてトレーニングされました。トレーニングプロセス中に、VAEエンコーダ/デコーダとCLIP画像エンコーダの重みが 凍結 (完全な 微調整、これは基礎モデルにさらに広範な影響を及ぼします。

MIMOは類似のシステムでは試されていないが、研究者らは、 集まる および ミクサモこれらの動作には、登ること、遊ぶこと、踊ることなどが含まれます。

彼らはまた、野生の人間のビデオでこのシステムをテストしました。どちらの場合も、論文では、さまざまな視点からの目に見えない 3D の動きに対して「高い堅牢性」が報告されています。

この論文ではシステムの有効性を示す複数の静止画像結果が示されていますが、MIMO の真のパフォーマンスは、プロジェクト ページで提供されている広範なビデオ結果と、以下に埋め込まれている YouTube ビデオ (この記事の冒頭のビデオはそこから派生したものです) で評価するのが最適です。

著者らは結論する:

「実験結果は、私たちの方法が柔軟なキャラクター、モーション、シーンの制御を可能にするだけでなく、任意のキャラクターへの高度なスケーラビリティ、新しい3Dモーションへの汎用性、インタラクティブなシーンへの適用性も可能にすることを実証しています。」

「また、固有の 3D 特性を考慮し、2D ビデオを階層的な空間コンポーネントに自動的にエンコードする当社のソリューションは、3D 対応のビデオ合成に関する将来の研究に刺激を与える可能性があると考えています。」

「さらに、私たちのフレームワークは、キャラクタービデオの生成に適しているだけでなく、他の制御可能なビデオ合成タスクにも適応できる可能性があります。」

まとめ:

安定拡散に基づくアバターシステムがこのような時間的安定性を実現できるのは新鮮だ。特にガウスアバターは 優位に立つ この特定の研究分野において。

結果に表される様式化されたアバターは効果的であり、MIMO が生成できるフォトリアリズムのレベルは現時点ではガウス スプラッティングが実現できるレベルに匹敵するものではありませんが、意味論に基づく潜在的拡散ネットワーク (LDM) で時間的に一貫した人間を作成することのさまざまな利点は相当なものです。

 

MIMO: 空間分解モデリングによる制御可能なキャラクタービデオ合成 (最初にサウンドをオフにしてください)

* 著者のインライン引用をハイパーリンクに変換し、必要に応じて外部の説明ハイパーリンクを追加しました。

初版発行日:25年2024月XNUMX日水曜日