人工知能

研究者がディープフェイクの頑強な特性を特定し、長期的な検出を支援する可能性がある

Published July 22, 2022

Updated April 28, 2026

Martin Anderson

2018年に最初のディープフェイク検出ソリューションが登場して以来、コンピュータビジョンとセキュリティ研究分野は、ディープフェイク動画の基本的な特性、つまり、人気のある顔合成テクノロジー（例：オートエンコーダーベースのディープフェイクパッケージであるDeepFaceLabとFaceSwap、およびジェネレーティブ・アドバーサリアル・ネットワークを使用して人間の顔を再現、シミュレート、または変更する）に対して耐性を持つシグナルを定義しようとしています。

多くの「特徴」、たとえば瞬きの不足は、ディープフェイクの改善により使い物にならなくなりました。一方、デジタル・プロベナンス・テクノロジー（コンテンツ・オーセンティシティ・イニシアティブを主導するアドビなど）の潜在的な使用、ブロックチェーン・アプローチ、またはデジタル・ウォーターマークを使用して潜在的なソース写真を保護することは、既存のインターネット上の利用可能なソース画像のボディ全体に対して大規模で高価な変更を必要とします。あるいは、検証および認証システムを作成するために、国や政府間で著名な協力が必要です。

したがって、改変された、捏造された、またはアイデンティティが入れ替わった人間の顔を含む画像および動画コンテンツに、真正に基本的で頑強な特性が存在することが判明することは非常に役立つでしょう。この特性は、大規模な検証、暗号化アセット・ハッシュ、コンテキスト・チェック、妥当性評価、artifact中心の検出ルーチン、その他の負担の多いディープフェイク検出アプローチを必要とせずに、偽造された動画から直接推測できる特性です。

ディープフェイクのフレーム

中国とオーストラリアの新しい研究コラボレーションは、規則性の破壊の形式でこの「聖杯」を発見したと考えています。

著者らは、実動画の空間的完全性と時間的連続性をディープフェイク・コンテンツを含む動画と比較する方法を考案し、ディープフェイクのいかなる種類の干渉も、たとえわずかでも、画像の規則性を破壊することを発見しました。

これは、ディープフェイク・プロセスがターゲット動画をフレームに分割し、各（置換）フレームにトレーニング済みのディープフェイク・モデルを適用するためです。人気のあるディープフェイク・ディストリビューションは、この点でアニメーターと同様に動作し、各フレームの信憑性よりも、各フレームが動画全体の空間的完全性と時間的連続性に貢献することに重点を置いています。

論文から: A) データ種別の違い。ここでは、p-fakeの乱れがディープフェイクと同様に画像の空間時間的品質を変更することを示しています。B) 3種類のデータのノイズ分析。p-fakeがディープフェイクの乱れを模倣することを示しています。C) 3種類のデータの時間的視覚化。実データは変動にgreaterな完全性を示しています。D) 実、偽、p-fake動画の抽出された特徴のT-SNE視覚化。ソース: https://arxiv.org/pdf/2207.10402.pdf

これは、動画コーデックが元の記録を作成または処理するときに、シリーズのフレームを扱う方法とは異なります。ファイルサイズを節約したり、動画をストリーミングに適した形式にしたりするために、動画コーデックは大量の情報を破棄します。最高品質の設定でも、コーデックはキーフレーム（ユーザーが設定できる変数）を割り当てます。つまり、動画内の一定間隔で発生する、ほぼ非圧縮の画像です。

キーフレーム間の間のフレームは、ある程度、キーフレームからの情報を再利用して、キーフレームと同じ完全なフレームではなく、推定されたフレームとして扱われます。

左側に、完全なキーフレーム、または「i-フレーム」が、圧縮動画に保存され、ファイルサイズのコストで保存されています。右側に、間の「デルタフレーム」が、よりデータの豊富なキーフレームからの適用可能な部分を再利用しています。ソース: https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/

このように、ブロック（キーフレーム設定に応じてx数のフレームを含む）は、通常の圧縮動画では、個々のフレームよりも小さい単位と考えられます。キーフレーム自体、i-フレームと呼ばれるものは、この単位の一部を形成します。

伝統的なアニメーションにおけるトゥイーニングと同様に、コーデックはトゥイーニングを実行しています。ここで、キーフレームは、間のデルタフレームと呼ばれる推定されたフレームのためのテントポールとして機能します。

一方、ディープフェイクの重ね合わせは、各個々のフレームに大量の注意とリソースを費やしますが、フレームのより広いコンテキストや、圧縮とブロックベースのエンコードが「本物の」動画の特性に与える影響については、考慮に入れません。

本物の動画（左）とディープフェイクによって破壊された動画（右）の時間的品質の不連続性の詳細な見方。

いくつかの優れたディープフェイクはAfter Effectsなどのパッケージで広範なポストプロセッシングを使用し、DeepFaceLabディストリビューションにはネイティブの「ブレンド」手順を適用する能力があるものの、このような手法は、本物の動画とディープフェイク動画の間の空間的および時間的品質の不一致に影響を与えません。

新しい論文は、ディープフェイクを検出するためのスパティオ・テンポラル・レギュラリティの破壊と題されています。清華大学、百度公司のVIS（コンピュータビジョン・テクノロジー部門）、およびメルボルン大学の研究者によるものです。

「偽の」ディープフェイク動画

この研究の背後にある研究者は、研究の機能をPseudo-fake Generator（P-fakeジェネレーター）と呼ばれるプラグアンドプレイ・モジュールに組み込んでいます。これは、実動画を「偽の」ディープフェイク動画に変換します。実際のディープフェイク操作を行わずに、同じ方法でそれらを乱れさせます。

テストでは、このモジュールは、ほぼゼロのリソースコストで、すべての既存のディープフェイク検出システムに追加でき、またそのパフォーマンスを著しく向上させることが示されました。

この発見は、ディープフェイク検出研究におけるもう1つの大きな課題である、真正で最新のデータセットの不足を解決するのに役立つ可能性があります。ディープフェイクの生成は複雑で時間のかかるプロセスであるため、コミュニティは過去5年間でいくつかのディープフェイク・データセットを開発してきましたが、多くは古くなっています。

動画の事後に変更されたディープフェイクの側面に焦点を当てた、無制限のサンプルおよびデータセット動画を生成できるようにすることで、規則性の破壊をディープフェイク・agnosticシグナルとして分離する新しい方法は、ディープフェイクの特性を可能にします。

STEブロックの概要。チャンネルごとの時間的畳み込みを使用して、スパティオ・テンポラルに強化されたエンコードを生成するための刺激として使用され、最も説得力のあるディープフェイクでも同じシグネチャが生成されます。この方法により、特定のディストリビューションや、特徴の動作やアルゴリズムのアーティファクトなどの変動する側面に依存せずに、ディープフェイクスタイルの動画と同じシグネチャ特性を持つ「偽の」ディープフェイク動画を生成できます。

テスト

研究者は、ディープフェイク検出研究で使用される6つの著名なデータセット（FaceForensics++（FF++）、WildDeepFake、ディープフェイク検出チャレンジプレビュー（DFDCP）、Celeb-DF、ディープフェイク検出（DFD）、およびFace Shifter（FSh））に対して実験を実施しました。

FF++の場合、研究者はモデルを元のデータセットでトレーニングし、4つのサブセットを個別にテストしました。ディープフェイク素材を使用せずにトレーニングしたにもかかわらず、新しい方法は最先端の結果を超えることができました。

この方法は、FF++ C23圧縮データセットでも、現状の最先端を超える結果を達成しました。ここでは、現実のディープフェイク閲覧環境で信憑性のある圧縮アーティファクトが含まれています。

著者は次のように述べています：

FF++内のパフォーマンスは、私たちの主なアイデアの実現可能性を検証しますが、既存のディープフェイク検出方法では汎用性が大きな問題です。未確認のテクニックで生成されたディープフェイクでテストした場合、パフォーマンスが保証されないからです。

さらに、検出者と偽造者の間の現実の軍拡競争を考慮して、汎用性は、現実世界での検出方法の有効性を測る上で重要な基準です。

研究者は「ロバスト性」に関するいくつかのサブテスト（詳細は論文を参照）や、入力動画の種類（例：実、偽、p-fakeなど）を変えるテストを実施しましたが、最も興味深い結果は、クロスデータセットのパフォーマンスのテストからのものです。

ここで、著者らはモデルを先述の「現実世界」のC23バージョンのFF++でトレーニングし、これを4つのデータセットでテストし、全てで優れたパフォーマンスを達成しました。

クロスデータセット・チャレンジの結果。論文では、SBIが著者らのアプローチと同様のアプローチを使用していることを指摘していますが、研究者は、p-fakeがスパティオ・テンポラル・レギュラリティの破壊においてより優れたパフォーマンスを示したと主張しています。

論文では次のように述べられています：

最も挑戦的なDeepwildでは、私たちの方法は約10パーセント・ポイントでSOTA方法を上回りました。私たちは、これはDeepwildにおけるディープフェイクの多様性が大きいため、他の方法が既知のディープフェイクから汎用性に失敗するためであると考えています。

テストに使用されたメトリックは、精度スコア（ACC）、受信者操作特性曲線下の面積（AUC）、および等誤認率（EER）でした。

反撃?

メディアは、ディープフェイク開発者とディープフェイク検出研究者の間の緊張を技術戦争として特徴付けますが、前者は単により説得力のある出力を作成しようとしているのであり、ディープフェイク検出の困難性の増大は、これらの努力の付随的な副産物であると考えられます。

開発者がこの新たに明らかになった欠点に対処しようとするかどうかは、規則性の破壊がディープフェイク動画で肉眼で認識可能な不正の兆候であると感じ、したがって質的観点からこのメトリックを対処する価値があるかどうかによって決まるかもしれません。

ディープフェイクは5年前に初めてオンラインで登場しましたが、依然として相対的に新しいテクノロジーであり、コミュニティは詳細と解像度よりもコンテキストや圧縮された動画のシグネチャとの一致に重点を置いていると考えられます。後者は、出力の「劣化」が必要です。これは、現在ディープフェイクコミュニティが闘争しているものです。

そこでの総意が、規則性の破壊は、品質に影響を与えないnascentシグネチャであると判断される場合、そこに対処しようとする努力はなされないかもしれません。そうでなくても、ポストプロセッシングまたはアーキテクチャ内手順によってそれを「キャンセルアウト」できるかどうかははっきりしていません。