Artificial Intelligence
テキストガイド入力による一貫した AI ビデオ コンテンツ編集
プロの VFX コミュニティは興味をそそられていますが、時にはそう感じることもあります。 少し脅迫された – 画像とビデオの合成における新たなイノベーションにより、ほとんどの AI ベースのビデオ編集プロジェクトでは時間的連続性が欠如しており、これらの取り組みの多くは「サイケデリック」な領域に追いやられています。 きらめいて急速に変化する テクスチャと構造、一貫性のないエフェクト、そして昔を思い出させるような粗野な技術論争。 光化学の時代 視覚効果の。
ディープフェイクの範囲に当てはまらない、ビデオ内の非常に具体的な何かを変更したい場合 (つまり、人物の既存の映像に新しいアイデンティティを課す場合)、現在のソリューションのほとんどは、次の点で非常に厳しい制限の下で動作します。プロダクション品質の視覚効果に必要な精度。
2021 つの例外は、ワイツマン科学研究所の緩やかな学者団体の進行中の活動です。 XNUMX 年に、その研究者のうち XNUMX 人が Adobe と協力して、 発表の ビデオを分解し、一貫した内部マッピングをスーパーインポーズする新しい方法 – 層状神経アトラス – アルファチャンネルと時間的に結合した出力を備えた複合出力に変換します。
それは、によってカバーされる領域のどこかに該当しますが、 オプティカルフロー VFX パイプラインでは、レイヤード アトラスは従来の CGI ワークフローに直接相当するものはありません。これは本質的に、従来のソフトウェア方法で作成および編集できる「時間テクスチャ マップ」を構成するためです。 上の図の XNUMX 番目の画像では、ビデオの実行時間全体にわたって路面の背景が (比喩的に) 表されています。 そのベース画像 (上の図の左から XNUMX 番目の画像) を変更すると、背景に一貫した変化が生じます。
上の「展開された」アトラスの画像は、解釈された個々のフレームを表しているだけです。 ターゲット ビデオ フレームの一貫した変更は元のフレームにマッピングされ、必要なオクルージョンや影や反射などのその他の必要なシーン効果が保持されます。
コア アーキテクチャは、多層パーセプトロン (MLP) を使用して展開されたアトラス、アルファ チャネル、マッピングを表現します。これらはすべて連携して完全に 2D 空間内で最適化され、3D ジオメトリ ポイント、深度マップ、および同様の CGI スタイルのトラッピング。
個々のオブジェクトの参照アトラスも確実に変更できます。
基本的に、2021 システムは、ジオメトリの位置合わせ、マッチの移動、マッピング、再テクスチャ化、ロトスコーピングを個別のニューラル プロセスに組み合わせます。
Text2Live
2021 年の論文の元の研究者 XNUMX 名は、NVIDIA の研究者と協力して、階層化されたアトラスの能力と、今週再び注目を集めているテキストガイド付き CLIP テクノロジーを組み合わせた技術の新たな革新に貢献した者の XNUMX 人です。 OpenAIの リリース DALL-E 2 フレームワークの。
新しいアーキテクチャと題された Text2Liveを使用すると、エンド ユーザーはテキスト プロンプトに基づいて実際のビデオ コンテンツにローカライズされた編集を作成できます。
Text2Live は、影響を受けるビデオ クリップに固有の内部データベースを利用することで、事前トレーニングされたジェネレーターを使用せずに、セマンティックで高度にローカライズされた編集を提供します。
この手法では、一般的なロトスコーピングやグリーン スクリーン ワークフローなど、ユーザーが提供するマスクは必要ありません。 関連性マップ に基づくブートストラッピング技術を通じて 2021リサーチ テルアビブ大学コンピューター サイエンス学部および Facebook AI Research (FAIR) で卒業。
新しい 紙 というタイトルです Text2LIVE: テキスト駆動のレイヤー化された画像およびビデオ編集。 2021 年のオリジナル チームには、Weizmann 氏の Omer Bar-Tal 氏と、NVIDIA Research の Yoni Kasten 氏が加わりました。
アーキテクチャ
Text2Live は、単一の入力画像とターゲット テキスト プロンプトでトレーニングされたジェネレーターで構成されます。 400 億のテキストと画像のペアで事前トレーニングされた Contrastive Language-Image Pretraining (CLIP) モデルは、ユーザー入力の変換を解釈できる関連する視覚素材を提供します。
ジェネレーターは入力画像 (フレーム) を受け取り、色と不透明度の情報を含むターゲット RGBA レイヤーを出力します。 このレイヤーは、追加の拡張を加えて元の映像に合成されます。
Text2Live は、ターゲットのビデオまたは画像に関連する内部画像をトレーニングすることにより、次のいずれかの要件を回避します。 転倒 入力画像を敵対的生成ネットワーク (GAN) の潜在空間に挿入します。これは現在行われている手法です。 十分正確とは程遠い プロダクションビデオ編集要件に対応するか、より正確で構成可能な拡散モデルを使用しますが、 忠実性を維持できない 目的のビデオへ。
以前のアプローチでは、次のいずれかを使用していました 伝播ベースのメソッド or オプティカルフローベース 近づいてきます。 これらの技術はある程度フレームベースであるため、どちらも出力ビデオの変化の一貫した時間的外観を作成することはできません。 代わりに、ニューラル レイヤード アトラスは、変更に対処するための単一のスペースを提供し、ビデオが進行するにつれて、コミットされた変更を忠実に保つことができます。
Text2Live は、今週、 第2世代 OpenAI の DALL-E フレームワーク (変換プロセスの一部としてターゲット画像を組み込むことができますが、写真に直接介入する能力には限界があります。 ソーストレーニングデータの打ち切りとフィルターの適用、ユーザーの悪用を防ぐように設計されています)。
むしろ、Text2Live を使用すると、エンド ユーザーはアトラスを抽出し、それを Photoshop などの高度に制御されたピクセルベースの環境 (おそらく、さらに抽象的な画像合成フレームワークなど) で XNUMX 回のパスで編集できます。 ナーフ)、それを、3D 推定や後方視的な CGI ベースのアプローチに依存しない、正しく指向された環境にフィードバックする前に。
さらに、Text2Live は、マスキングと合成を完全に自動で実現する初めての同等のフレームワークであると著者らは主張しています。
初版は7年2022月XNUMX日。