Artificial Intelligence

機械学習を使用してビデオからオブジェクトをより効率的に削除する

更新中 on 2022 年 12 月 9 日

中国の新しい研究では、映像からオブジェクトを巧みに削除できる新しいビデオ修復システムに関する最先端の結果と効率の大幅な向上が報告されています。

ハンググライダーのハーネスは新しい手順で塗りつぶされます。より良い解像度とその他の例については、ソースビデオ (この記事の下部に埋め込まれています) を参照してください。出典: https://www.youtube.com/watch?v=N–qC3T2wc4

この技術は、フローガイド付きビデオ修復のためのエンドツーエンドフレームワークと呼ばれます (E²FGVI）、ビデオコンテンツから透かしやその他のさまざまな種類のオクルージョンを削除することもできます。

E2FGVI は、オクルージョンの背後にあるコンテンツの予測を計算し、顕著で扱いにくい透かしでも除去できるようにします。出典: https://github.com/MCG-NKU/E2FGVI

E2FGVI は、オクルージョンの背後にあるコンテンツの予測を計算し、目立つ透かしや扱いにくい透かしさえも除去できるようにします。 出典: https://github.com/MCG-NKU/E2FGVI

より良い解像度で他の例を確認するには、記事の最後に埋め込まれているビデオを確認してください。

公開された論文で紹介されているモデルは 432px x 240px のビデオ (一般に入力サイズが低く、利用可能な GPU スペースと最適なバッチサイズやその他の要因によって制約される) でトレーニングされましたが、著者らはその後、 E²FGVI-本部、任意の解像度でビデオを処理できます。

現在のバージョンのコードは次のとおりです利用できます先週の日曜日にリリースされた HQ バージョンは GitHub からダウンロードできます。 Googleドライブ & 百度ディスク.

その子は写真の中に残ります。

E²FGVI は、Titan XP GPU (432GB VRAM) 上で 240×0.12 のビデオを 12 フレームあたり XNUMX 秒で処理でき、システムは以下に基づく従来の最先端の方法より XNUMX 倍高速に動作すると報告しています。オプティカルフロー.

テニス選手が予期せぬ退場をする。

画像合成研究のこのサブセクターの標準データセットでテストされたこの新しい方法は、定性的および定量的評価ラウンドの両方で競合他社を上回るパフォーマンスを発揮することができました。

以前のアプローチに対するテスト。 出典：https://arxiv.org/pdf/2204.02663.pdf

　紙というタイトルです フローガイドによるビデオ修復のためのエンドツーエンドのフレームワークに向けて、南開大学の研究者 XNUMX 名と Hisilicon Technologies の研究者 XNUMX 名による共同研究です。

この写真に欠けているもの

視覚効果への明らかな用途に加えて、高品質ビデオ修復は、新しい AI ベースの画像合成および画像変更テクノロジの中核を定義する機能になる予定です。

これは特に、体型を変えるファッションアプリケーションやその他のフレームワークに当てはまります。「痩せる」ことを目指すまたは、画像やビデオのシーンを変更することもできます。このような場合、合成によって露出した余分な背景を説得力を持って「埋める」必要があります。

最近の論文によると、身体の「再形成」アルゴリズムは、被写体のサイズが変更されたときに新たに明らかになった背景を修復する役割を果たしています。ここで、その不足分は、(現実生活、左の画像を参照) より豊満な体型の人が占めていた赤い輪郭で表されています。 https://arxiv.org/pdf/2203.10496.pdf のソース資料に基づく

コヒーレントオプティカルフロー

オプティカルフロー (OF) は、ビデオオブジェクト除去の開発における中核テクノロジーとなっています。のようにアトラス、OF は、時間シーケンスのワンショットマップを提供します。コンピュータービジョンの取り組みで速度を測定するためによく使用される OF は、時間的に一貫したインペインティングも可能にし、ディズニースタイルの「フレームごと」の注意ではなく、タスクの合計を 1 回のパスで考慮することができます。時間的な断絶に。

これまでのビデオ修復方法は、次の XNUMX 段階のプロセスを中心としています。 フローの完了、ビデオは基本的に個別の探索可能なエンティティにマッピングされます。 ピクセルの伝播、「破損した」ビデオの穴は、双方向に伝播するピクセルによって埋められます。と 内容幻覚 （ディープフェイクや DALL-E シリーズなどのテキストから画像へのフレームワークで私たちのほとんどに馴染みのあるピクセルの「発明」）、推定された「不足している」コンテンツが発明され、映像に挿入されます。

E の中心的な革新²FGVI は、これら XNUMX つの段階をエンドツーエンドのシステムに結合し、コンテンツやプロセスに対して手動操作を実行する必要性を排除します。

この論文では、手動介入が必要なため、古いプロセスでは GPU を利用できず、非常に時間がかかることがわかりました。論文より*:

'取っています DFVI 例として、432×240のサイズのXNUMXつの動画を完成させると、 DAVISには約 70 フレームが含まれており、所要時間は約 4 分ですが、現実世界のほとんどのアプリケーションでは許容できません。さらに、上記の欠点を除けば、コンテンツの幻覚段階で事前学習済みの画像修復ネットワークのみを使用すると、時間的に隣接するもの間のコンテンツの関係が無視され、ビデオ内で生成されたコンテンツに一貫性がなくなります。

ビデオ修復の XNUMX つの段階を統合することで、E²FGVI は、第 XNUMX 段階であるピクセル伝播を特徴伝播で置き換えることができます。従来の作業のより細分化されたプロセスでは、各段階が比較的密封されており、ワークフローが半自動化されているだけであるため、機能はそれほど広範囲には利用できません。

さらに、研究者らは、 時間焦点変換器 コンテンツ幻覚段階では、現在のフレーム内のピクセルの直接の隣接ピクセル (つまり、前または次の画像のフレームのその部分で何が起こっているか) だけでなく、何フレームも離れた遠くの隣接ピクセルも考慮されます。ただし、ビデオ全体に対して実行される操作の総合的な効果には影響します。

E2FGVI のアーキテクチャ。

ワークフローの新しい機能ベースの中央セクションは、より多くの機能レベルのプロセスと学習可能なサンプリングオフセットを活用できる一方、著者らによると、プロジェクトの新しいフォーカルトランスフォーマーはフォーカルウィンドウのサイズを「2D から 3D に」拡張します。。

テストとデータ

Eをテストするには²FGVI では、研究者らは次の XNUMX つの一般的なビデオオブジェクトセグメンテーションデータセットに対してシステムを評価しました。 YouTube-VOS, DAVIS。 YouTube-VOS には 3741 のトレーニングビデオクリップ、474 の検証クリップ、508 のテストクリップが含まれており、DAVIS には 60 のトレーニングビデオクリップと 90 のテストクリップが含まれています。

E²FGVI は YouTube-VOS でトレーニングされ、両方のデータセットで評価されました。トレーニング中に、ビデオの完成をシミュレートするためにオブジェクトマスク (上の画像の緑色の領域と下の埋め込みビデオ) が生成されました。

研究者らはメトリクスとして、ピーク信号対雑音比（PSNR）、構造類似性（SSIM）、ビデオベースのフレシェ開始距離（VFID）、およびフローワーピングエラー（後者は影響を受けるビデオの時間的安定性を測定するため）を採用しました。

システムがテストされた以前のアーキテクチャは次のとおりです。 VINet, DFVI, LGTSM, キャップ, FGVC, STTN, ヒューズフォーマー.

論文の定量的結果セクションより。上矢印と下矢印は、それぞれ数値が大きいほど良いことを示し、数値が小さいほど良いことを示します。 E2FGVI は全体的に最高のスコアを達成しています。これらのメソッドは FuseFormer に従って評価されますが、DFVI、VINet、および FGVC はエンドツーエンドシステムではないため、FLOP を推定することは不可能です。

すべての競合システムに対して最高のスコアを達成したことに加え、研究者らは定性的なユーザー調査を実施しました。この調査では、XNUMX つの代表的な方法で変換されたビデオが XNUMX 人のボランティアに個別に表示され、視覚的な品質の観点から評価するよう求められました。