Artificial Intelligence
機械学習を使用してビデオからオブジェクトをより効率的に削除する
中国の新しい研究では、映像からオブジェクトを巧みに削除できる新しいビデオ修復システムに関する最先端の結果と効率の大幅な向上が報告されています。
この技術は、フローガイド付きビデオ修復のためのエンドツーエンド フレームワークと呼ばれます (E2FGVI)、ビデオ コンテンツから透かしやその他のさまざまな種類のオクルージョンを削除することもできます。
より良い解像度で他の例を確認するには、記事の最後に埋め込まれているビデオを確認してください。
公開された論文で紹介されているモデルは 432px x 240px のビデオ (一般に入力サイズが低く、利用可能な GPU スペースと最適なバッチ サイズやその他の要因によって制約される) でトレーニングされましたが、著者らはその後、 E2FGVI-本部、任意の解像度でビデオを処理できます。
現在のバージョンのコードは次のとおりです 利用できます 先週の日曜日にリリースされた HQ バージョンは GitHub からダウンロードできます。 Googleドライブ & 百度ディスク.
E2FGVI は、Titan XP GPU (432GB VRAM) 上で 240×0.12 のビデオを 12 フレームあたり XNUMX 秒で処理でき、システムは以下に基づく従来の最先端の方法より XNUMX 倍高速に動作すると報告しています。 オプティカルフロー.
画像合成研究のこのサブセクターの標準データセットでテストされたこの新しい方法は、定性的および定量的評価ラウンドの両方で競合他社を上回るパフォーマンスを発揮することができました。
紙 というタイトルです フローガイドによるビデオ修復のためのエンドツーエンドのフレームワークに向けて、南開大学の研究者 XNUMX 名と Hisilicon Technologies の研究者 XNUMX 名による共同研究です。
この写真に欠けているもの
視覚効果への明らかな用途に加えて、高品質ビデオ修復は、新しい AI ベースの画像合成および画像変更テクノロジの中核を定義する機能になる予定です。
これは特に、体型を変えるファッション アプリケーションやその他のフレームワークに当てはまります。 「痩せる」ことを目指す または、画像やビデオのシーンを変更することもできます。 このような場合、合成によって露出した余分な背景を説得力を持って「埋める」必要があります。
コヒーレントオプティカルフロー
オプティカル フロー (OF) は、ビデオ オブジェクト除去の開発における中核テクノロジーとなっています。 のように アトラス、OF は、時間シーケンスのワンショット マップを提供します。コンピューター ビジョンの取り組みで速度を測定するためによく使用される OF は、時間的に一貫したインペインティングも可能にし、ディズニー スタイルの「フレームごと」の注意ではなく、タスクの合計を 1 回のパスで考慮することができます。時間的な断絶に。
これまでのビデオ修復方法は、次の XNUMX 段階のプロセスを中心としています。 フローの完了、ビデオは基本的に個別の探索可能なエンティティにマッピングされます。 ピクセルの伝播、「破損した」ビデオの穴は、双方向に伝播するピクセルによって埋められます。 と 内容幻覚 (ディープフェイクや DALL-E シリーズなどのテキストから画像へのフレームワークで私たちのほとんどに馴染みのあるピクセルの「発明」)、推定された「不足している」コンテンツが発明され、映像に挿入されます。
E の中心的な革新2FGVI は、これら XNUMX つの段階をエンドツーエンドのシステムに結合し、コンテンツやプロセスに対して手動操作を実行する必要性を排除します。
この論文では、手動介入が必要なため、古いプロセスでは GPU を利用できず、非常に時間がかかることがわかりました。 論文より*:
'取っています DFVI 例として、432×240のサイズのXNUMXつの動画を完成させると、 DAVISには約 70 フレームが含まれており、所要時間は約 4 分ですが、現実世界のほとんどのアプリケーションでは許容できません。 さらに、上記の欠点を除けば、コンテンツの幻覚段階で事前学習済みの画像修復ネットワークのみを使用すると、時間的に隣接するもの間のコンテンツの関係が無視され、ビデオ内で生成されたコンテンツに一貫性がなくなります。
ビデオ修復の XNUMX つの段階を統合することで、E2FGVI は、第 XNUMX 段階であるピクセル伝播を特徴伝播で置き換えることができます。 従来の作業のより細分化されたプロセスでは、各段階が比較的密封されており、ワークフローが半自動化されているだけであるため、機能はそれほど広範囲には利用できません。
さらに、研究者らは、 時間焦点変換器 コンテンツ幻覚段階では、現在のフレーム内のピクセルの直接の隣接ピクセル (つまり、前または次の画像のフレームのその部分で何が起こっているか) だけでなく、何フレームも離れた遠くの隣接ピクセルも考慮されます。ただし、ビデオ全体に対して実行される操作の総合的な効果には影響します。
ワークフローの新しい機能ベースの中央セクションは、より多くの機能レベルのプロセスと学習可能なサンプリング オフセットを活用できる一方、著者らによると、プロジェクトの新しいフォーカル トランスフォーマーはフォーカル ウィンドウのサイズを「2D から 3D に」拡張します。 。
テストとデータ
Eをテストするには2FGVI では、研究者らは次の XNUMX つの一般的なビデオ オブジェクト セグメンテーション データセットに対してシステムを評価しました。 YouTube-VOS, DAVIS。 YouTube-VOS には 3741 のトレーニング ビデオ クリップ、474 の検証クリップ、508 のテスト クリップが含まれており、DAVIS には 60 のトレーニング ビデオ クリップと 90 のテスト クリップが含まれています。
E2FGVI は YouTube-VOS でトレーニングされ、両方のデータセットで評価されました。 トレーニング中に、ビデオの完成をシミュレートするためにオブジェクト マスク (上の画像の緑色の領域と下の埋め込みビデオ) が生成されました。
研究者らはメトリクスとして、ピーク信号対雑音比(PSNR)、構造類似性(SSIM)、ビデオベースのフレシェ開始距離(VFID)、およびフローワーピングエラー(後者は影響を受けるビデオの時間的安定性を測定するため)を採用しました。
システムがテストされた以前のアーキテクチャは次のとおりです。 VINet, DFVI, LGTSM, キャップ, FGVC, STTN, ヒューズフォーマー.
すべての競合システムに対して最高のスコアを達成したことに加え、研究者らは定性的なユーザー調査を実施しました。この調査では、XNUMX つの代表的な方法で変換されたビデオが XNUMX 人のボランティアに個別に表示され、視覚的な品質の観点から評価するよう求められました。
著者らは、彼らの方法が満場一致で支持されているにもかかわらず、結果の XNUMX つである FGVC が定量的な結果を反映していないことに注目し、これが E の結果を示していると示唆しています。2明らかに、FGVI は「より視覚的に快適な結果」を生成している可能性があります。
効率の観点から、著者らは、システムが DAVIS データセット上の単一の Titan GPU での XNUMX 秒あたりの浮動小数点演算 (FLOP) と推論時間を大幅に短縮し、その結果が E であることを観察しています。2FGVI はフローベースのメソッドよりも 15 倍高速に実行されます。
彼らは次のようにコメントしています。
'[E2FGVI] は、他のすべてのメソッドと比較して、最低の FLOP を保持します。 これは、提案された方法がビデオ修復に非常に効率的であることを示しています。
httpv://www.youtube.com/watch?v=N–qC3T2wc4
*著者のインライン引用をハイパーリンクに変換しました。
初版は19年2022月XNUMX日。