Andersonの視点

ディープフェイク検出のための生体認証ベースのアプローチ

公開日 2022年4月8日

更新日 2026年5月24日

著者

Martin Anderson

Images produced by deepfakers at the DeepFaceLab Discord Channel

イタリアとドイツの研究者による新しい論文では、ディープフェイク動画の検出方法を提案しています。顔と声のバイオメトリクス挙動に基づいてディープフェイク動画を検出するというもので、従来のディープフェイク検出方法とは異なり、顔合成システムによって生成されるアーティファクトや高価なウォーターマーキングソリューションに頼るのではなく、人間の生体認証特徴を利用しています。

このフレームワークでは、10本以上の異なる非ディープフェイク動画の入力が必要です。しかし、特定のケースごとにトレーニングや再トレーニング、増強が必要ないため、モデルはすでにリアルとディープフェイク動画の間のベクトル距離を抽象化しています。

POI-Forensicsのアプローチは、対比学習に基づいています。ソースマテリアルから導出されたベクトルは、潜在的な偽動画のベクトルと比較され、動画とオーディオの両方のコンポーネントから特徴と特性が抽出されます。ソース：https://arxiv.org/pdf/2204.03083.pdf

このアプローチは、POI-Forensicsと呼ばれています。ディープフェイク動画の検出に、リアルな個人の運動とオーディオキューより一意の特徴を利用しています。

このシステムは、完全に自動化された「事前レンダリング」認証フレームワークを提供できます。有名人、政治家、YouTubeインフルエンサー、動画素材が豊富に利用できるその他の人々に役立ちます。また、ディープフェイク技術の一般的な被害者が自分に対する攻撃の不正性を証明するためのプラットフォームとしても利用できます。

POI-Forensicsにおける本物と偽の動画からの特徴の抽出の視覚化、t-SNEフレームワークを使用。

著者は、POI-Forensicsがディープフェイク検出の新しい最先端を達成したと主張しています。さまざまなデータセットで、AUCスコアが3％、10％、7％改善されたと報告されています。研究者はコードを公開する予定です。

POI-Forensicsのパフォーマンス、pDFDC、DeepFakeTIMIT、FakeAVCelebV2、KoDFなどのライバルSOTAフレームワークと比較して。

著者は述べています:

‘トレーニングは、実際のトーキングフェイス動画のみで行われ、検出器は特定の操作方法に依存しないため、最高の汎用性を提供します。さらに、私たちの方法は、シングルモダリティ（オーディオのみ、ビデオのみ）とマルチモダリティ（オーディオビデオ）の両方の攻撃を検出でき、低品質のビデオに対してロバストです。’

新しい論文は、Audio-Visual Person-of-Interest DeepFake Detectionと題されています。ナポリのフェデリコ2世大学とミュンヘン工科大学の共同研究です。

ディープフェイクの軍拡競争

この検出システムを破るには、ディープフェイクと人間合成システムは、ターゲットの視覚的およびオーディオのバイオメトリクスキューより一意の特徴をシミュレートする能力が必要です。しかし、これらの技術はまだ数年先のものです。

著者の以前のアプローチ、ID-Revealは、視覚情報のみに焦点を当てていました。ソース：https://arxiv.org/pdf/2012.02512.pdf

人気のあるディープフェイク方法であるFaceSwapとDeepFaceLabは、現在、グラニュラーなバイオメトリクス近似を生成する能力はありません。代わりに、タレントのあるインパーソネーターに頼ったり、適切な「野外」映像を使用したりしています。

これらの2つの主要なディープフェイクパッケージは、オートエンコーダーに基づいています。代替の人間合成方法は、生成対抗ネットワーク（GAN）またはニューラル放射場（NeRF）アプローチを使用して人間のアイデンティティを再現できます。しかし、これらの研究分野は、完全にフォトリアリスティックな人間のビデオを生成するために、まだ数年間の作業が必要です。

オーディオ（偽の声）を除くバイオメトリクスシミュレーションは、人間の画像合成に直面する課題の中で非常に低い優先度です。さらに、人間の声のティンバーと他の特性を再現することは、その独特の特徴や「特徴」を再現することを意味しません。したがって、AI生成の声シミュレーションを完璧にしたとしても、バイオメトリクス認証の潜在的なファイアウォールを解決するものではありません。

Arxivでは、ディープフェイク検出戦略と革新が毎週公開されています。最近のアプローチは、Voice-Face Homogeneity、Local Binary Pattern Histogram（FF-LBPH）、人間の認識によるオーディオディープフェイク、顔のボーダー分析、ビデオ劣化の考慮、および‘Forensic Ballistics’などに基づいています。

最新のディープフェイク検出技術の1つであるヒストグラム分析。ソース：https://arxiv.org/pdf/2203.09928.pdf

アプローチ、データ、およびアーキテクチャ

POI-Forensicsは、マルチモーダルアプローチを採用し、視覚的およびオーディオキューより一意のソフトバイオメトリクスを利用しています。フレームワークには、別々のオーディオおよびビデオネットワークが含まれており、最終的に、比較可能な特徴ベクトルデータを生成します。

POI-Forensicsのアーキテクチャ。

ターゲットクリップに対して、別々の（オーディオまたはビデオ）およびフュージョン分析を実行できます。最終的に、POI類似性指数に到達します。使用される対比損失関数は、2021年の学術的なコラボレーションに基づいています。

ベースデータセットは、アイデンティティごとに分割されました。トレーニングには4608のアイデンティティが使用され、512が検証のために残されました。FakeAVCelebV2（テスト候補、以下参照）の500のアイデンティティは、偏りのない結果を得るために除外されました。

2つのネットワークは、12エポックでトレーニングされ、バッチサイズは2304バッチ/エポックで、各バッチには8×8のビデオセグメント（8つのアイデンティティのそれぞれ8セグメント）が含まれていました。Adamオプティマイザは、デカップルされた重み減衰と学習率10⁻⁴、重み減衰0.01で使用されました。

テストと結果

プロジェクトでテストされたディープフェイクデータセットは、プレビューDeepFake Detection Challengeデータセット、DeepFake-TIMIT、FakeAVCelebV2、およびKoDFでした。

テストでは、Seferbekovディープフェイク検出器、FTCN（Fully Temporal Convolution Network）、LipForensics、およびID-Revealと比較しました。

結果（上記の表参照）では、POI-Forensicsは、Seferbekovを2.5％、精度を1.5％上回りました。低品質のビデオでは、他のすべての参考方法を上回りました。

著者は述べています:

‘実際、低品質のビデオのシナリオでは、アイデンティティベースのアプローチのみが良好なパフォーマンスを維持し、高レベルなセマンティック特徴に依存しているため、画像の劣化に対してロバストです。’

POI-Forensicsは、リアルなビデオのみをソースマテリアルとして使用するため、この成果はさらに重要です。潜在的なディープフェイク被害者のネイティブバイオメトリクス特徴を使用することは、ディープフェイクソフトウェアとディープフェイク検出ソリューションの間の「アーティファクトの冷戦」から脱却するための有望な道であることを示唆しています。

最終テストでは、研究者は入力にアダプティブノイズを追加しました。古典的な高速勾配符号法は、クラシファイアを欺くために特に有効です。

アダプティブ攻撃戦略は、すべての方法とデータセットで成功率を低下させ、AUCは10％から38％まで低下しました。ただし、POI-ForensicsとID-Revealのみが、攻撃シナリオ下での妥当なパフォーマンスを維持できました。これは、高レベルなセマンティック特徴がディープフェイク検出回避に対して非常に耐性があることを示しています。

著者は結論付けます:

‘全体として、私たちの方法は最初のステップであると信じています。特に、高レベルなセマンティック特徴の使用は、将来の研究の有望な分野です。さらに、マルチモーダル分析は、テキストデータなどの他のドメインからの情報を含めることでさらに豊富にできます。’

最初に公開：2022年4月8日。

Martin Anderson

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。

Unite.AI

ディープフェイク検出のための生体認証ベースのアプローチ

ディープフェイクの軍拡競争

アプローチ、データ、およびアーキテクチャ

テストと結果

You may like