スタブ テキストガイド入力による一貫した AI ビデオ コンテンツ編集 - Unite.AI
私達と接続

Artificial Intelligence

テキストガイド入力による一貫した AI ビデオ コンテンツ編集

mm
更新中 on

プロの VFX コミュニティは興味をそそられていますが、時にはそう感じることもあります。 少し脅迫された – 画像とビデオの合成における新たなイノベーションにより、ほとんどの AI ベースのビデオ編集プロジェクトでは時間的連続性が欠如しており、これらの取り組みの多くは「サイケデリック」な領域に追いやられています。 きらめいて急速に変化する テクスチャと構造、一貫性のないエフェクト、そして昔を思い出させるような粗野な技術論争。 光化学の時代 視覚効果の。

ディープフェイクの範囲に当てはまらない、ビデオ内の非常に具体的な何かを変更したい場合 (つまり、人物の既存の映像に新しいアイデンティティを課す場合)、現在のソリューションのほとんどは、次の点で非常に厳しい制限の下で動作します。プロダクション品質の視覚効果に必要な精度。

2021 つの例外は、ワイツマン科学研究所の緩やかな学者団体の進行中の活動です。 XNUMX 年に、その研究者のうち XNUMX 人が Adob​​e と協力して、 発表の ビデオを分解し、一貫した内部マッピングをスーパーインポーズする新しい方法 – 層状神経アトラス – アルファチャンネルと時間的に結合した出力を備えた複合出力に変換します。

2021 年の論文より: ソース クリップ内の道路の完全な横断の推定は、従来であれば大規模なロトスコープと一致移動が必要だった方法で、ニューラル ネットワークを介して編集されます。 背景要素と前景要素は異なるネットワークによって処理されるため、マスクはまさに​​「自動」です。 出典: https://layered-neural-atlases.github.io/

2021 年の論文より: ソース クリップ内の道路の完全な横断の推定は、従来であれば広範なロトスコープと一致移動を必要とする方法でニューラル ネットワークを介して編集されます。 背景要素と前景要素は異なるネットワークによって処理されるため、マスクはまさに​​「自動」です。 出典: https://layered-neural-atlases.github.io/

それは、によってカバーされる領域のどこかに該当しますが、 オプティカルフロー VFX パイプラインでは、レイヤード アトラスは従来の CGI ワークフローに直接相当するものはありません。これは本質的に、従来のソフトウェア方法で作成および編集できる「時間テクスチャ マップ」を構成するためです。 上の図の XNUMX 番目の画像では、ビデオの実行時間全体にわたって路面の背景が (比喩的に) 表されています。 そのベース画像 (上の図の左から XNUMX 番目の画像) を変更すると、背景に一貫した変化が生じます。

上の「展開された」アトラスの画像は、解釈された個々のフレームを表しているだけです。 ターゲット ビデオ フレームの一貫した変更は元のフレームにマッピングされ、必要なオクルージョンや影や反射などのその他の必要なシーン効果が保持されます。

コア アーキテクチャは、多層パーセプトロン (MLP) を使用して展開されたアトラス、アルファ チャネル、マッピングを表現します。これらはすべて連携して完全に 2D 空間内で最適化され、3D ジオメトリ ポイント、深度マップ、および同様の CGI スタイルのトラッピング。

個々のオブジェクトの参照アトラスも確実に変更できます。

2021年の枠組みで動く物体への一貫した変更。 出典: https://www.youtube.com/watch?v=aQhakPFC4oQ

2021年の枠組みで動く物体への一貫した変更。 出典: https://www.youtube.com/watch?v=aQhakPFC4oQ

基本的に、2021 システムは、ジオメトリの位置合わせ、マッチの移動、マッピング、再テクスチャ化、ロトスコーピングを個別のニューラル プロセスに組み合わせます。

Text2Live

2021 年の論文の元の研究者 XNUMX 名は、NVIDIA の研究者と協力して、階層化されたアトラスの能力と、今週再び注目を集めているテキストガイド付き CLIP テクノロジーを組み合わせた技術の新たな革新に貢献した者の XNUMX 人です。 OpenAIの リリース DALL-E 2 フレームワークの。

新しいアーキテクチャと題された Text2Liveを使用すると、エンド ユーザーはテキスト プロンプトに基づいて実際のビデオ コンテンツにローカライズされた編集を作成できます。

フォアグラウンド編集の 2 つの例。 より良い解像度と鮮明度については、https://textXNUMXlive.github.io/sm/pages/video_results_atlases.html でオリジナルのビデオをチェックしてください。

フォアグラウンド編集の XNUMX つの例。 より良い解像度と鮮明度については、次の場所でオリジナルのビデオをチェックしてください。 https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live は、影響を受けるビデオ クリップに固有の内部データベースを利用することで、事前トレーニングされたジェネレーターを使用せずに、セマンティックで高度にローカライズされた編集を提供します。

Text2Live での背景と前景 (オブジェクト) の変換。 ソース: https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live での背景と前景 (オブジェクト) の変換。 出典: https://text2live.github.io/sm/pages/video_results_atlases.html

この手法では、一般的なロトスコーピングやグリーン スクリーン ワークフローなど、ユーザーが提供するマスクは必要ありません。 関連性マップ に基づくブートストラッピング技術を通じて 2021リサーチ テルアビブ大学コンピューター サイエンス学部および Facebook AI Research (FAIR) で卒業。

トランスフォーマーベースの汎用アテンション モデルを介して生成された出力マップ。

トランスフォーマーベースの汎用アテンション モデルを介して生成された出力マップ。

新しい というタイトルです Text2LIVE: テキスト駆動のレイヤー化された画像およびビデオ編集。 2021 年のオリジナル チームには、Weizmann 氏の Omer Bar-Tal 氏と、NVIDIA Research の Yoni Kasten 氏が加わりました。

アーキテクチャ

Text2Live は、単一の入力画像とターゲット テキスト プロンプトでトレーニングされたジェネレーターで構成されます。 400 億のテキストと画像のペアで事前トレーニングされた Contrastive Language-Image Pretraining (CLIP) モデルは、ユーザー入力の変換を解釈できる関連する視覚素材を提供します。

ジェネレーターは入力画像 (フレーム) を受け取り、色と不透明度の情報を含むターゲット RGBA レイヤーを出力します。 このレイヤーは、追加の拡張を加えて元の映像に合成されます。

生成された RGBA レイヤーのアルファ チャネルは、After Effects などのピクセルベースのソフトウェアを伴う従来のパイプラインに頼ることなく、内部合成機能を提供します。

生成された RGBA レイヤーのアルファ チャネルは、After Effects などのピクセルベースのソフトウェアを伴う従来のパイプラインに頼ることなく、内部合成機能を提供します。

Text2Live は、ターゲットのビデオまたは画像に関連する内部画像をトレーニングすることにより、次のいずれかの要件を回避します。 転倒 入力画像を敵対的生成ネットワーク (GAN) の潜在空間に挿入します。これは現在行われている手法です。 十分正確とは程遠い プロダクションビデオ編集要件に対応するか、より正確で構成可能な拡散モデルを使用しますが、 忠実性を維持できない 目的のビデオへ。

Text2Live からのさまざまなプロンプトベースの変換編集。

Text2Live からのさまざまなプロンプトベースの変換編集。

以前のアプローチでは、次のいずれかを使用していました 伝播ベースのメソッド or オプティカルフローベース 近づいてきます。 これらの技術はある程度フレームベースであるため、どちらも出力ビデオの変化の一貫した時間的外観を作成することはできません。 代わりに、ニューラル レイヤード アトラスは、変更に対処するための単一のスペースを提供し、ビデオが進行するにつれて、コミットされた変更を忠実に保つことができます。

「焼けつくような」音やランダムな幻覚なし: Text2Live は、テキスト プロンプト「錆びたジープ」の解釈を取得し、解釈されたフレームごとに変換を再開するのではなく、それをビデオ内の車のニューラル レイヤー化アトラスに XNUMX 回適用します。

「焼けつくような」音やランダムな幻覚なし: Text2Live は、テキスト プロンプト「錆びたジープ」の解釈を取得し、解釈されたフレームごとに変換を再開するのではなく、それをビデオ内の車のニューラル レイヤー化アトラスに XNUMX 回適用します。

Text2Live がジープを錆びた遺物に一貫して変換するワークフロー。

Text2Live がジープを錆びた遺物に一貫して変換するワークフロー。

Text2Live は、今週、 第2世代 OpenAI の DALL-E フレームワーク (変換プロセスの一部としてターゲット画像を組み込むことができますが、写真に直接介入する能力には限界があります。 ソーストレーニングデータの打ち切りとフィルターの適用、ユーザーの悪用を防ぐように設計されています)。

むしろ、Text2Live を使用すると、エンド ユーザーはアトラスを抽出し、それを Photoshop などの高度に制御されたピクセルベースの環境 (おそらく、さらに抽象的な画像合成フレームワークなど) で XNUMX 回のパスで編集できます。 ナーフ)、それを、3D 推定や後方視的な CGI ベースのアプローチに依存しない、正しく指向された環境にフィードバックする前に。

さらに、Text2Live は、マスキングと合成を完全に自動で実現する初めての同等のフレームワークであると著者らは主張しています。

 

初版は7年2022月XNUMX日。