スタブ ディープフェイク動画の忠実性とリアリズム - Unite.AI
私達と接続

Artificial Intelligence

ディープフェイク動画の忠実性とリアリズム

mm
更新中 on

すべてのディープフェイク実践者が同じ目的を共有しているわけではありません。それは、画像合成研究部門の推進力であり、次のような影響力のある支持者によって支援されています。 Adobe, NVIDIA & Facebook – 機械学習技術が最終的に高解像度かつ最も困難な条件下で人間の活動を再現または合成できるように、最先端技術を進歩させることです (忠実度).

対照的に、偽情報を広めるためにディープフェイク技術を使用したいと考えている人々の目的は、ディープフェイクされた顔の単なる真実性以外の多くの方法で、現実の人々のもっともらしいシミュレーションを作成することです。 このシナリオでは、コンテキストやもっともらしさなどの付属要素は、顔をシミュレートするビデオの可能性とほぼ同等です。 (リアリズム).

この「巧妙な」アプローチは、ディープフェイクビデオの最終的な画質の劣化にまで拡張され、ビデオ全体 (ディープフェイクされた顔によって表される欺瞞的な部分だけでなく) が、正確な一貫した「見た目」を持つようになります。メディアとして期待される品質。

「一貫性がある」は「良い」という意味である必要はありません。元のコンテンツと挿入され、混ぜ合わせられたコンテンツ全体で品質が一貫しており、期待に沿っているだけで十分です。 Skype や Zoom などのプラットフォームでの VOIP ストリーミング出力に関しては、途切れ、ビデオのぎくしゃく感、あらゆる種類の潜在的な圧縮アーティファクトがあり、その影響を軽減するために設計された「平滑化」アルゴリズムによって、ハードルは著しく低くなります。それ自体が、ライブ ストリーミングの制約と奇抜さの当然の結果として受け入れられた、追加の「本物ではない」効果を構成します。

DeepFaceLive の動作: このプレミア ディープフェイク ソフトウェア DeepFaceLab のストリーミング バージョンは、限られたビデオ品質のコンテキストでフェイクを提示することで、再生の問題やその他の繰り返し発生する接続アーティファクトを備えた、状況に応じたリアリズムを提供できます。 出典: https://www.youtube.com/watch?v=IL517EgYH8U

DeepFaceLive の動作: このプレミア ディープフェイク ソフトウェア DeepFaceLab のストリーミング バージョンは、限られたビデオ品質のコンテキストでフェイクを提示することで、再生の問題やその他の繰り返し発生する接続アーティファクトを備えた、状況に応じたリアリズムを提供できます。 出典: https://www.youtube.com/watch?v=IL517EgYH8U

内蔵の劣化

実際、最も人気のある 2017 つのディープフェイク パッケージ (どちらも物議を醸した XNUMX 年のソース コードから派生したもの) には、生成された顔を劣化させることによって、ディープフェイクされた顔を「歴史的」または低品質のビデオのコンテキストに統合することを目的としたコンポーネントが含まれています。 の ディープフェイスラボ bicubic_degrade_power パラメータはこれを実現します。 フェイススワップ、Ffmpeg 構成の「粒子」設定も同様に、エンコード中に粒子を保持することで偽の顔の統合に役立ちます*。

FaceSwap の「グレイン」設定は、非 HQ ビデオ コンテンツや、最近では比較的まれになっているフィルム グレイン エフェクトを特徴とするレガシー コンテンツへの本格的な統合を支援します。

FaceSwap の「グレイン」設定は、非 HQ ビデオ コンテンツや、最近では比較的まれになっているフィルム グレイン エフェクトを特徴とするレガシー コンテンツへの本格的な統合を支援します。

多くの場合、ディープフェイク作成者は、完全で統合されたディープフェイク ビデオの代わりに、アルファ チャネルを含む分離された一連の PNG ファイルを出力します。各画像には合成顔出力のみが表示され、より洗練されたプラットフォームで画像ストリームをビデオに変換できます。エフェクト機能の劣化、Adobe After Effectsなど、偽の要素と本物の要素が結合されて最終的なビデオが完成する前に。

これらの意図的な劣化に加えて、ディープフェイク作品のコンテンツは、YouTube や Facebook などのプラットフォームでアルゴリズム (ソーシャル メディア プラットフォームがユーザーのアップロードの軽量バージョンを作成することで帯域幅を節約しようとする場合) によって、または元の作品を再処理することによって、頻繁に再圧縮されます。アニメーション GIF、詳細セクション、または元のリリースを開始点として扱い、その後追加の圧縮を導入するその他の多様な動機を持つワークフロー。

現実的なディープフェイク検出コンテキスト

これを念頭に置いて、スイスの新しい論文は、ディープフェイクコンテンツが意図的に劣化したコンテキストで表示された場合にディープフェイクコンテンツの特徴を学習するように検出システムに教えることで、ディープフェイク検出アプローチの背後にある方法論の刷新を提案している。

新しい論文で使用されているデータセットの 2203.11807 つに確率的データ拡張が適用されており、ガウス ノイズ、ガンマ補正、ガウスぼかし、および JPEG 圧縮によるアーティファクトが特徴です。 出典: https://arxiv.org/pdf/XNUMX.pdf

新しい論文で使用されているデータセットの XNUMX つに確率的データ拡張が適用されており、ガウス ノイズ、ガンマ補正、ガウスぼかし、および JPEG 圧縮によるアーティファクトが特徴です。 出典:https://arxiv.org/pdf/2203.11807.pdf

新しい論文の中で研究者らは、バンガードディープフェイク検出パッケージは、適用するメトリクスのコンテキストに関して非現実的なベンチマーク条件に依存しており、現実的にはディープフェイク出力が「劣化」しているにもかかわらず、検出の最低品質閾値を下回る可能性があると主張している。 「汚れた」コンテンツは、文脈に正しく注意を払っているため、視聴者を騙す可能性があります。

研究者らは、新しい「現実世界」データ劣化プロセスを確立し、「クリーン」データによって得られた元の検出率の精度をわずかに損なうことなく、主要なディープフェイク検出器の汎用性を向上させることに成功した。 また、広範なアブレーション研究に裏付けられた、現実世界の状況におけるディープフェイク検出器の堅牢性を評価できる新しい評価フレームワークも提供します。

  というタイトルです 現実的な状況における学習ベースのディープフェイク検出を改善するための新しいアプローチこれは、どちらもローザンヌに拠点を置くマルチメディア信号処理グループ (MMSPG) とローザンヌ連邦工科大学 (EPFL) の研究者によるものです。

便利な混乱

劣化した出力をディープフェイク検出アプローチに組み込むこれまでの取り組みには、次のようなものがあります。 ミックスアップニューラルネットワーク、MIT と FAIR による 2018 年の製品、および オーグミックス、DeepMind と Google の 2020 年のコラボレーションであり、どちらも一般化を促進する傾向にある方法でトレーニング資料を「濁す」ことを試みるデータ拡張手法です。

新作の研究者らも注目 事前の 研究 これは、派生特徴とそれが埋め込まれているノイズとの間の関係の境界を確立するために、ガウス ノイズと圧縮アーティファクトをトレーニング データに適用しました。

新しい研究では、画像取得プロセスと圧縮、および配信プロセスで画像出力をさらに劣化させる可能性のあるその他のさまざまなアルゴリズムの両方の妥協した条件をシミュレートするパイプラインを提供します。 この現実世界のワークフローを評価フレームワークに組み込むことで、アーティファクトに対する耐性がより高いディープフェイク検出器用のトレーニング データを生成することが可能になります。

新しいアプローチの概念的なロジックとワークフロー。

新しいアプローチの概念的なロジックとワークフロー。

劣化プロセスは、ディープフェイク検出に使用される XNUMX つの人気があり成功したデータセットに適用されました。 FaceForensics ++ & セレブ-DFv2。 さらに、主要なディープフェイク検出フレームワーク カプセルフォレンジック & XceptionNet XNUMX つのデータセットの混ぜ合わせたバージョンでトレーニングされました。

検出器は、Adam オプティマイザーを使用してそれぞれ 25 エポックと 10 エポックでトレーニングされました。 データセット変換では、劣化プロセスを追加する前に、各トレーニング ビデオから 100 フレームがランダムにサンプリングされ、テスト用に 32 フレームが抽出されました。

ワークフローで考慮された歪みは次のとおりです。 ノイズ、ゼロ平均ガウス ノイズが XNUMX つの異なるレベルで適用されました。 サイズ変更、典型的な屋外映像の低解​​像度をシミュレートします。 通常影響を与える 検出器; 、さまざまな JPEG 圧縮レベルがデータ全体に適用されます。 スムージングここでは、「ノイズ除去」に使用される XNUMX つの典型的な平滑化フィルターがフレームワークに対して評価されます。 強化、コントラストと明るさが調整されました。 と 組み合わせここでは、前述の XNUMX つの方法を任意に組み合わせて XNUMX つの画像に同時に適用されます。

テストと結果

データをテストする際に、研究者らは次の XNUMX つの指標を採用しました。 受信機下の領域の動作特性曲線 (AUC); そして F1スコア.

研究者らは、偽装データに対して XNUMX つのディープフェイク検出器の標準トレーニング済みバージョンをテストしたところ、以下の点が欠けていることがわかりました。

「一般に、現実的な歪みや処理のほとんどは、通常のトレーニングを受けた学習ベースのディープフェイク検出器にとって非常に有害です。 たとえば、Capsule-Forensics メソッドは、それぞれのデータセットでトレーニングした後、非圧縮 FFpp と Celeb-DFv2 テスト セットの両方で非常に高い AUC スコアを示しますが、その後、評価フレームワークから変更されたデータでは大幅なパフォーマンスの低下に悩まされます。 同様の傾向が XceptionNet 検出器でも観察されています。

対照的に、XNUMX つの検出器のパフォーマンスは、変換されたデータでトレーニングされることによって著しく向上し、各検出器は目に見えない欺瞞的なメディアを検出できるようになりました。

「データ拡張スキームにより XNUMX つの検出器の堅牢性が大幅に向上し、同時に元の変更されていないデータでも高いパフォーマンスが維持されます。」

研究で評価された XNUMX つのディープフェイク検出器で使用された生のデータセットと拡張されたデータセット間のパフォーマンスの比較。

研究で評価された XNUMX つのディープフェイク検出器で使用された生のデータセットと拡張されたデータセット間のパフォーマンスの比較。

この論文は次のように結論づけています。

現在の検出方法は、特定のベンチマークで可能な限り高いパフォーマンスを達成するように設計されています。 これにより、より現実的なシナリオへの汎化能力が犠牲になることがよくあります。 この論文では、自然な画像劣化プロセスに基づいて慎重に考えられたデータ拡張スキームを提案します。

「広範な実験により、このシンプルだが効果的な手法により、典型的なイメージング ワークフローにおけるさまざまな現実的な歪みや処理操作に対するモデルの堅牢性が大幅に向上することがわかりました。」

 

* 生成された顔の木目の一致は、変換プロセス中のスタイル転送の機能です。

初公開日:29 年 2022 月 8 日。Ffmpeg での穀物の使用を明確にするために東部標準時間午後 33 時 XNUMX 分に更新されました。