人工知能

マシンラーニングを使用した過剰圧縮されたソーシャルメディアビデオの復元

Published August 19, 2022

Updated May 23, 2026

Martin Anderson

中国からの新しい研究では、WeChatやYouTubeなどのプラットフォームで自動的に圧縮されるユーザーがアップロードしたビデオの詳細と解像度を復元するための新しい方法が提供されています。この方法は、帯域幅とストレージスペースを節約するために、プラットフォームで自動的に圧縮されるビデオの詳細と解像度を復元することを目的としています。

新しい方法と従来の方法の比較。ソーシャルメディアプラットフォームの自動最適化で削除された詳細を再解像度化する能力の比較。出典：https://arxiv.org/pdf/2208.08597.pdf

従来の方法とは異なり、圧縮されたビデオの各フレームに対して、劣化特徴マップ(DFM)を導出します。これは、圧縮によって最も損なわれたまたは劣化したフレーム内の領域の概要です。

新しい論文の削除実験：2番目から右、’純粋’な劣化特徴マップ（DFM）の基準事実；3番目から右、DFMを使用せずに損傷を推定したもの。左、DFMを使用した場合の損傷のより正確なマップ。

復元プロセスは、畳み込みニューラルネットワーク（CNN）を含むいくつかの技術を利用しており、DFM内の情報によって導かれ、集中しています。これにより、新しい方法は従来の方法のパフォーマンスと精度を超えることができます。

プロセスの基準事実は、研究者が高品質のビデオを4つの人気のある共有プラットフォームにアップロードし、圧縮された結果をダウンロードし、圧縮アーティファクトと詳細の損失を抽象的に学習できるコンピュータビジョンパイプラインを開発することで取得されました。これにより、完全に異なるデータに基づいてビデオを元の品質に近づけることができます。

研究者の新しいUVSSMデータセットの例。

研究に使用された資料は、ソーシャルメディアで共有されたユーザービデオ(UVSSM)というHQ/LQデータセットにまとめられ、Baiduでダウンロード可能です（パスワード：rsqw）。これは、プラットフォーム圧縮ビデオを復元する新しい方法を開発しようとする後の研究プロジェクトの利益のために提供されています。

UVSSMデータセット（上記のソースURLを参照）からの2つの等価なHQ/LQサンプルの比較。画像アプリケーション、CMS、CDNなど、複数回の圧縮の対象となる可能性があるため、より正確な比較のために元のソースデータを参照してください。

システムのコードは、Video restOration through adapTive dEgradation Sensing(VOTES)と呼ばれ、GitHubで公開されていますが、実装にはいくつかのプルベースの依存関係が必要です。

論文のタイトルは、ソーシャルメディアで共有されたユーザービデオの復元です。深圳大学の3人の研究者と、香港理工大学電子情報工学科の1人の研究者によるものです。

アーティファクトから事実へ

Webからスクラップしたビデオの品質を、Gigapixelなどのプログラムが提供するような、一般的で時には過剰な詳細の「妄想」なしに復元する能力は、コンピュータビジョン研究分野に影響を及ぼす可能性があります。

ビデオベースのCV技術に関する研究は、YouTubeやTwitterなどのプラットフォームから取得した映像に依存していますが、これらのプラットフォームで使用される圧縮方法やコーデックは厳密に守られており、視覚的な指標やアーティファクトのパターンに基づいて容易に推測することはできません。また、定期的に変更される可能性があります。

Webから見つかったビデオを利用するプロジェクトのほとんどは、圧縮を研究しているわけではなく、利用可能な圧縮ビデオの品質に対応する必要があります。ユーザーがアップロードした元の高品質バージョンにアクセスできないためです。

したがって、プラットフォームが提供する圧縮ビデオの品質と解像度を、無関係なコンピュータビジョンデータセットからのダウンストリームの影響を導入せずに、忠実に復元する能力は、CVプロジェクトが現在行っている頻繁な回避策や対応策を避けるのに役立つ可能性があります。

YouTubeなどのプラットフォームは、ユーザーのビデオの圧縮方法の重大な変更（たとえば、VP9）を時折発表しますが、プロセス全体や使用されるコーデックと設定を明らかにすることはありません。

ユーザーアップロードの出力品質を改善することは、過去10年ほどで、神秘的な技術になりました。さまざまな（主に未確認の）‘回避策’が流行ったり廃れたりしています。

方法

深層学習ベースのビデオ復元に対する従来のアプローチには、単一フレームの復元または光学フローを使用するマルチフレームアーキテクチャが含まれていました（つまり、現在のフレームを復元する際に、隣接するフレームや後のフレームを考慮します）。

これらのアプローチはすべて、「ブラックボックス」効果に対処しなければなりませんでした。コア技術が何であるか、または特定のユーザーアップロードビデオに対してどのように構成されたかが確実ではないため、圧縮効果をコア技術で調査できなかったためです。

VOTESは、代わりに、元のビデオと圧縮ビデオから重要な特徴を抽出し、変換のパターンを一般化して、複数のプラットフォームの標準に適応できるようにします。

VOTESの概念アーキテクチャ。

VOTESは、特に設計された劣化感知モジュール（DSM、上記の画像を参照）を使用して、畳み込みブロックで特徴を抽出します。複数のフレームは、次に特徴抽出および整列モジュール（FEAM）に渡され、次に劣化調整モジュール（DMM）に渡され、最後に復元モジュールが復元されたビデオを出力します。

データと実験

新しい研究では、研究者はWeChatにアップロードされたビデオの復元に重点を置きましたが、結果のアルゴリズムが他のプラットフォームに適応できることを確認したいと考えました。

WeChatのビデオの有効な復元モデルを取得した後、Bilibili、Twitter、YouTubeに適応させるのに、1エポックあたり90秒しかかからなかったことがわかりました（4つのNVIDIA Tesla P40 GPUと合計96GBのVRAMを搭載したマシンで）。

成功したWeChatモデルを他のビデオ共有プラットフォームに適応させることは比較的容易でした。ここでは、VOTESが、著者のUVSSMデータセットとREDSデータセット（以下参照）を使用して、さまざまなプラットフォームでほぼ瞬時にパフォーマンスのパリティを達成していることが示されています。

UVSSMデータセットを構築するために、研究者は、5〜30秒の間隔で、30fpsのフレームレートで、携帯電話のカメラまたはインターネットから直接取得した、264本のビデオを収集しました。ビデオは、1920 x 1080または1280 x 270の解像度でした。

コンテンツ（先ほどの画像を参照）には、都市の景色、風景、人物、動物など、さまざまな主題が含まれていました。これらは、クリエイティブコモンズ属性ライセンスの下で、パブリックデータセットとして利用可能です。

著者は、5つの異なる携帯電話ブランドを使用して、214本のビデオをWeChatにアップロードし、WeChatのデフォルトのビデオ解像度（960×540）を取得しました（元のビデオがこれらの寸法よりも小さい場合を除く）。これは、人気のあるプラットフォームの中で最も「厳しい」変換の1つです。

比較のために、研究者は、元の解像度が1280×270である、50本のビデオ（元の214本には含まれない）をBilibili、YouTube、Twitterにアップロードしました。ダウンロードされたバージョンの解像度は、640×360でした。

これにより、UVSSMデータセットは、WeChatに214、Bilibili、YouTube、Twitterにそれぞれ50の、合計364のHQ/LQビデオのペアになります。

実験では、10本のビデオがテストセットとして選択され、4本が検証セットとして選択され、残りの200本がコアトレーニングセットとして使用されました。実験は5回、K-foldクロスバリデーションで実行され、結果はこれらのインスタンスで平均化されました。

ビデオ復元のテストでは、VOTESはSpatio-Temporal Deformable Fusion（STDF）と比較されました。解像度の向上のテストでは、Enhanced Deformable convolution（EDVR）、RSDN、Video Super-resolution with Temporal Group Attention（VSR_TGA）、およびBasicVSRと比較されました。GoogleのCOMISRという単一ステージの方法も含まれていましたが、これは他の従来の研究とはアーキテクチャタイプが異なります。

方法は、UVSSとREDSデータセットの両方でテストされ、VOTESは最高のスコアを獲得しました：