Artificial Intelligence

深度情報によりディープフェイクをリアルタイムで明らかにできる

更新中 on 2022 年 12 月 9 日

イタリアで行われた新しい研究では、画像から得られる深度情報が、リアルタイムであってもディープフェイクを検出するのに役立つツールであることが判明しました。

過去 XNUMX 年間のディープフェイク検出に関する研究の大部分は、アーティファクトの識別 (技術を改善することで軽減できるか、ビデオコーデック圧縮が不十分であると誤解される可能性があります)、アンビエント照明, 生体特徴, 一時的な混乱、さらに人間の本能、新しい研究は、深度情報がディープフェイクコンテンツの貴重な暗号である可能性があることを示唆した最初の研究です。

派生した深度マップの例、および本物の画像と偽の画像の間の知覚的な深さ情報の違い。 出典：https://arxiv.org/pdf/2208.11074.pdf

重要なことに、新しい研究のために開発された検出フレームワークは、次のような軽量ネットワーク上で非常にうまく動作します。 Xception、そして許容範囲内で順調に進んでいますモバイルネットそして新しい論文は、そのようなネットワークを通じて提供される推論の低レイテンシーにより、最近のディープフェイク詐欺に代表されるライブディープフェイク詐欺の新たな傾向に対して、リアルタイムのディープフェイク検出が可能になることを認めています。バイナンスへの攻撃.

システムは偽の深度マップと実際の深度マップの違いを判断するためにフルカラー画像を必要とせず、深度情報のグレースケール画像のみで驚くほど効率的に動作できるため、推論時間の大幅な節約が達成できます。

著者らは次のように述べています。 「この結果は、この場合、色のアーティファクトよりも深度の方が分類に対してより適切な寄与を与えることを示唆しています。」

この発見は、次のようなリアルタイム顔合成システムを対象としたディープフェイク検出研究の新たな波の一部を表しています。ディープフェイスライブ – FBIの捜査を受けて、この3〜4か月で顕著に加速した取り組み XNUMX月の警告リアルタイムのビデオとオーディオのディープフェイクのリスクについて。

　紙というタイトルです DepthFake: ディープフェイク動画を検出するための深度ベースの戦略、ローマのサピエンツァ大学のXNUMX人の研究者によるものです。

エッジケース

トレーニング中、オートエンコーダーベースのディープフェイクモデルは、目、鼻、口などの顔の内側の領域を優先します。ほとんどの場合、次のようなオープンソースディストリビューション全体で、ディープフェイスラボおよびフェイススワップ (両方ともオリジナルの 2017 から分岐しました) レディットコード削除前)、顔の外側のリニアメントはトレーニングの非常に後期の段階まで明確に定義されず、顔の内側領域の合成の品質と一致する可能性は低いです。

以前の研究から、顔の「顕著性マップ」が視覚化されたことがわかります。 出典：https://arxiv.org/pdf/2203.01318.pdf

通常、これは重要ではありません。なぜなら、私たちは最初に目に焦点を合わせ、注意レベルが低下すると「外側」を優先する傾向があるため、周辺品質の低下によって動揺する可能性が低いことを意味します。特に、相手と生で話している場合はそうです。別の身分を偽り、社会通念を引き起こしたり、処理の制限「レンダリングされた」ディープフェイク映像を評価するときには存在しません。

ただし、ディープフェイクされた顔の影響を受けるマージン領域の詳細や精度の欠如は、アルゴリズム的に検出できます。 XNUMX月には顔周縁部をキー入力するシステムを導入しました。発表の。ただし、平均を超える量のトレーニングデータが必要なため、現在のコンピュータービジョンやディープフェイク検出技術に由来する人気の顔データセット (ImageNet など) に登場する可能性のある有名人のみを対象としています。

代わりに、次のタイトルの新しいシステムが登場しました。 デプスフェイク、本物のビデオコンテンツと偽のビデオコンテンツの推定深度マップ情報の品質を区別することにより、あいまいなアイデンティティや未知のアイデンティティに対しても一般的に動作できます。

深く行く

深度マップ情報はますますスマートフォンに組み込まれています。 AI 支援によるステレオ実装これは、コンピュータビジョンの研究に特に役立ちます。新しい研究で著者らは、単一ソース画像から深度マップを効率的に推定できる畳み込みエンコーダ/デコーダネットワークであるアイルランド国立大学の FaceDepth モデルを使用しました。

動作中の FaceDepth モデル。 出典: https://tinyurl.com/3ctcazma

次に、イタリアの研究者の新しいフレームワークのパイプラインは、元の RGB 画像と派生した深度マップの両方から被験者の顔の 224 × 224 ピクセルパッチを抽出します。重要なのは、これにより、プロセスがコアコンテンツをサイズ変更せずにコピーできるようになります。サイズ標準のサイズ変更アルゴリズムは対象領域の品質に悪影響を与えるため、これは重要です。

研究者らは、本物とディープフェイクの両方のソースからのこの情報を使用して、それぞれの深度マップの知覚品質の違いに基づいて、本物と偽物のインスタンスを区別できる畳み込みニューラルネットワーク (CNN) をトレーニングしました。

DepthFake の概念的なパイプライン。

FaceDepth モデルは、顔の外側のマージンをより詳細に表示するハイブリッド関数を使用して、現実的なデータと合成データでトレーニングされており、DepthFake に最適です。 MobileNet インスタンスを特徴抽出器として使用し、480×640 の深度マップを出力する 240×320 の入力画像でトレーニングされました。各深度マップは、新しいプロジェクトの弁別器で使用される XNUMX つの入力チャネルの XNUMX 分の XNUMX を表します。

深度マップは元の RGB 画像に自動的に埋め込まれ、最新のスマートフォンのカメラが出力できる、深度情報が豊富な種類の RGBD 画像を提供します。

トレーニング

このモデルは、ImageNet で事前トレーニングされた Xception ネットワークでトレーニングされましたが、重みの正しい初期化を維持しながら追加の深度情報に対応するために、アーキテクチャにはある程度の適応が必要でした。

さらに、深度情報とネットワークが期待する値の間の値の範囲が一致しないため、研究者は値を 0 ～ 255 に正規化する必要がありました。

トレーニング中は反転と回転のみが適用されました。多くの場合、堅牢な推論を展開するために、他のさまざまな視覚的摂動がモデルに提示されますが、ソース写真内の限られた非常に壊れやすいエッジ深度マップ情報を保存する必要があるため、研究者は削減体制を採用する必要がありました。

実行可能なアルゴリズムを取得するためにソース画像がどの程度複雑であるかを決定するために、システムはさらに単純な 2 チャネルグレースケールでトレーニングされました。

トレーニングは、1080 GB の VRAM を搭載した NVIDIA GTX 8 上の TensorFlow API を介して、ADAMAX オプティマイザーを使用し、25 エポック、バッチサイズ 32 で行われました。トリミング中、入力解像度は 224×224 に固定され、顔の検出と抽出はで達成されました dlib C++ライブラリ。

結果

結果の正確性はディープフェイクに対してテストされました。面2面、フェイススワップ、ニューラルテクスチャ、および RGB および RGBD 入力を含む完全なデータセット。フェイスフォレンジック++ フレームワーク。

XNUMX つのディープフェイク手法と、分割されていないデータセット全体に対する精度の結果。結果は、ソース RGB 画像の分析と、推定された深度マップが埋め込まれた同じ画像の分析に分割されます。最良の結果は太字で示されており、その下のパーセンテージの数字は、深度マップ情報によって結果がどの程度改善されるかを示しています。

いずれの場合も、深度チャネルにより、すべての構成にわたってモデルのパフォーマンスが向上します。 Xception は最高の結果をもたらし、機敏な MobileNet がそれに続きます。これについて著者は次のようにコメントしています。

MobileNet が Xception よりわずかに劣っていて、より深い ResNet50 よりも優れていることに注目するのは興味深いことです。これは、リアルタイムアプリケーションの推論時間を短縮するという目標を考慮した場合、注目に値する結果です。これはこの研究の主な貢献ではありませんが、今後の開発にとって心強い結果であると考えています。」

研究者らは、RGB およびストレートグレースケール入力に対する RGBD および 2 チャネルグレースケール入力の一貫した利点にも注目し、計算コストが非常に低い深さ推論のグレースケール変換により、モデルが非常に限られたローカルリソースで改善された結果を得ることができることを観察しました。深さ情報に基づいたリアルタイムディープフェイク検出の将来の開発を促進します。

初版は24年2022月XNUMX日。