人工知能

新しいシステム：時系列一貫性のある安定拡散ビデオキャラクター

Published September 25, 2024

Updated April 3, 2026

Martin Anderson

A capture from the project page of MIMO (https://menyifang.github.io/projects/MIMO/index.html), depicting a motion-driven wolf creature.

アリババグループからの新しい取り組みは、Stable Diffusionベースの基礎モデルからフルボディのヒューマンアバターを生成するための、見たことのない最も優れた方法の1つを提供しています。

タイトルは《MIMO》（《MIM》icking with 《O》bject Interactions）で、CGIベースのヒューマンモデルや《AnimateDiff》などの人気のテクノロジーとモジュールを使用して、ビデオ内の時系列一貫性のあるキャラクターレプレイスメントや、ユーザー定義のスケルトンポーズでキャラクターを駆動させることができます。

ここでは、単一の画像ソースから補間されたキャラクターと、事前に定義されたモーションによって駆動されるキャラクターを示します。

《[以下のビデオをクリックして再生]》

単一のソース画像から、3つの多様なキャラクターが3Dポーズシーケンス（遠左）を使用してMIMOシステムによって駆動されます。 プロジェクトのウェブサイトと、この記事の最後に埋め込まれたYouTubeビデオ（以下参照）で、さらに多くの例と高解像度をご覧ください。 ソース: https://menyifang.github.io/projects/MIMO/index.html

生成されたキャラクターは、ビデオのフレームや他の方法からもソース化でき、実世界の映像に統合できます。

MIMOは、キャラクター、シーン、オクルージョン（マッチング、あるいは、キャラクターの前に物体や人が通過するとき）それぞれの3つの離散的なエンコーディングを生成する新しいシステムを提供します。これらのエンコーディングは、推論時に統合されます。

《[以下のビデオをクリックして再生]》

MIMOは、フォトリアルなキャラクターまたはスタイライズされたキャラクターを、ターゲットビデオのモーションに従うように置き換えることができます。この記事の最後に埋め込まれたYouTubeビデオ（以下参照）で、さらに多くの例と高解像度をご覧ください。

システムは、Stable Diffusion V1.5モデルで訓練され、研究者によってキュレーションされたカスタムデータセットを使用しており、実世界のビデオとシミュレートされたビデオが等しく構成されています。

拡散ベースのビデオの大きな問題は、時系列安定性です。ここでは、ビデオのコンテンツがフリッカーしたり、望ましくない方法で「進化」したりします。

MIMOは、代わりに、単一の画像を一貫したガイダンスの地図として使用し、SMPL CGIモデルによって調整および制限できます。

ソース参照は一貫しており、基礎モデルが適切な代表的なモーションの例で強化されているため、システムの時系列一貫性のある出力の能力は、一般的な拡散ベースのアバターよりもはるかに優れています。

《[以下のビデオをクリックして再生]》

ポーズ駆動MIMOキャラクターのさらに多くの例。この記事の最後に埋め込まれたYouTubeビデオ（以下参照）で、さらに多くの例と高解像度をご覧ください。

単一の画像を、効果的なニューラル表現のソースとして使用することは、単独で、またはテキストプロンプトと組み合わせて多モーダルな方法で、より一般的になってきています。たとえば、人気の《LivePortrait》フェイシャル転送システムは、単一の顔画像からも、高度に妥当なディープフェイクの顔を生成できます。

研究者は、MIMOシステムで使用される原理を、他の新しいタイプの生成システムやフレームワークに拡張できることを信じています。

新しい論文は、MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modelingと題され、アリババグループのインテリジェントコンピューティング研究所の4人の研究者によるものです。この研究には、ビデオが豊富に含まれたプロジェクトページと、この記事の最後に埋め込まれたYouTubeビデオがあります。

方法

MIMOは、上記の3つの空間コンポーネントの自動的で無監視の分離を、エンドツーエンドアーキテクチャで実現します（つまり、すべてのサブプロセスがシステムに統合されており、ユーザーは入力資料のみを提供する必要があります）。

MIMOの概念スキーマ。 ソース: https://arxiv.org/pdf/2409.16160

ソースビデオのオブジェクトは、最初に《Depth Anything》というモノキュラーデプス推定器を使用して2Dから3Dに変換されます。フレーム内のヒューマン要素は、Tune-A-Videoプロジェクトから適応された方法で抽出されます。

これらの特徴は、Facebook Researchの《Segment Anything 2》アーキテクチャを使用して、ビデオベースのボリュメトリックファセットに変換されます。

シーンレイヤーは、他の2つのレイヤーで検出されたオブジェクトを削除することによって取得され、自動的にロトスコープスタイルのマスクを提供します。

モーションの場合、ヒューマン要素の抽出された潜在コードのセットは、デフォルトのヒューマンCGIベースのSMPLモデルにアンカーされ、ヒューマンコンテンツのレンダリングにコンテキストを提供するモデルによって提供される動きに結び付けられます。

ヒューマンコンテンツの2D《特徴マップ》は、NVIDIAの2020年のイニシアチブから派生した《可微分ラスタライザー》によって取得されます。SMPLから取得した3DデータとNVIDIAの方法で取得した2Dデータを組み合わせて、ヒューマンコンテンツの「ニューラルパーソン」を表す潜在コードは、最終的なコンテキストに固有の対応関係を持っています。

ここで、SMPLを使用するアーキテクチャで一般的に必要な《共通ポーズ》を確立する必要があります。これは、ダ・ヴィンチの《ヴィトゥヴィアンミュージアム》に似ており、ゼロポーズテンプレートを表し、コンテンツを受け入れて変形し、テクスチャーマップされたコンテンツを伴ってきます。

これらの変形、または「規範からの逸脱」は、ヒューマンモーションを表し、SMPLモデルは、抽出されたヒューマンアイデンティティを構成する潜在コードを保持し、結果としてアバターをポーズとテクスチャの点で正しく表します。

SMPLフィギュアの共通ポーズの例。 ソース: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

《エンタングルメント》（訓練データが訓練された境界や関連性を超えて伸ばされたときに、柔軟性が失われる程度）について、著者は以下のように述べています：

‘動的なヒューマン表現をモノキュラービデオから学び、ポーズ空間から規範空間への変換を行うことが理想的です。’

‘効率性を考慮して、事前訓練されたヒューマンリポーズモデルを使用して、ポーズヒューマン画像を規範結果の標準Aポーズに直接変換します。合成された規範アピアランス画像は、IDエンコーダーに供給されてアイデンティティコードを取得します。’

‘このシンプルな設計により、アイデンティティとモーションの属性が完全にエンタングルメントされます。《Animate Anyone》に従って、IDエンコーダーには、グローバルおよびローカルの特徴を埋め込むための《CLIP》画像エンコーダーとリファレンスネットアーキテクチャが含まれます。’

シーンとオクルージョンの側面については、共有および固定された《Variational Autoencoder》（VAE – この場合は2013年の出版物から派生）を使用して、シーンとオクルージョン要素を潜在空間に埋め込みます。不一致は、2023年の《ProPainter》プロジェクトからインペイント方法によって処理されます。

これらが組み立てられ、修正された後、ビデオの背景と移動するヒューマンアバターの前を通るオブジェクトは、マットを提供します。

これらの分解された属性は、Stable Diffusion V1.5アーキテクチャに基づく《U-Net》バックボーンに供給されます。完全なシーンコードは、ホストシステムのネイティブ潜在ノイズと連結されます。ヒューマンコンポーネントは、セルフアテンションとクロスアテンションレイヤーを介して統合されます。

次に、ノイズ除去された結果は、VAEデコーダーを介して出力されます。

データとテスト

訓練のために、研究者はHUD-7Kというタイトルのヒューマンビデオデータセットを作成しました。これは、5,000の実際のキャラクタービデオと、En3Dシステムによって作成された2,000のシミュレートされたアニメーションで構成されています。実際のビデオには、MIMOのアーキテクチャのフィギュア抽出プロシージャの非セマンティック性のため、注釈が不要でした。シミュレートされたデータは完全に注釈付けされました。

モデルは、8つのNVIDIA A100 GPU（論文では40GBまたは80GB VRAMモデルであるかどうかは指定されていません）で訓練され、50回のイテレーションで、24のビデオフレームとバッチサイズ4で、収束まで訓練されました。

システムのモーションモジュールは、AnimateDiffの重みで訓練されました。訓練プロセス中、VAEエンコーダー/デコーダーとCLIP画像エンコーダーの重みはフリーズされました（対照的に、基礎モデルに大きな影響を与えるファインチューニング全体とは異なります）。

MIMOは、類似のシステムと比較されていませんが、研究者は、AMASSとMixamoから外部のモーションシーケンスでテストしました。これらの動きには、登攀、遊び、ダンスが含まれていました。

彼らはまた、システムを野外のヒューマンビデオでテストしました。どちらの場合でも、論文は、これらの未知の3Dモーションに対して「高いロバスト性」を報告しています。

論文は、システムの有効性を示す多くの静的画像結果を提供しますが、MIMOの真のパフォーマンスは、プロジェクトページと、この記事の最後に埋め込まれたYouTubeビデオで提供される広範なビデオ結果で最も適切に評価できます。

著者は以下の結論に至ります：

‘実験結果は、我々の方法が、柔軟なキャラクター、モーション、シーンの制御だけでなく、任意のキャラクター、novel 3Dモーション、インタラクティブシーンへのスケーラビリティにも対応できることを示しています。’

‘我々は、我々の解決策が、固有の3D性質を考慮し、2Dビデオを階層的な空間コンポーネントに自動的にエンコードできるため、将来の3Dアウェアビデオシンセシスの研究にインスピレーションを与えることができることを信じています。’

‘さらに、我々のフレームワークは、キャラクタービデオを生成するだけでなく、他の制御可能なビデオシンセシスタスクにも適応できる可能性があると考えています。’

結論

時系列安定性のあるStable Diffusionベースのアバターシステムを見ることは、新鮮なものです。特に、ガウシアンミュージアムがこの特定の研究分野で優位性を獲得しているように見えているためです。

結果に表現されたスタイライズされたアバターは効果的であり、MIMOが現在生成できるフォトリアルなレベルは、ガウシアンスプラッティングが可能なものに相当するものではありませんが、セマンティクスベースのラテント拡散ネットワーク（LDM）で時系列一貫性のあるヒューマンを作成することの多様な利点は大きいです。