Artificial Intelligence
深度情報によりディープフェイクをリアルタイムで明らかにできる
イタリアで行われた新しい研究では、画像から得られる深度情報が、リアルタイムであってもディープフェイクを検出するのに役立つツールであることが判明しました。
過去 XNUMX 年間のディープフェイク検出に関する研究の大部分は、 アーティファクトの識別 (技術を改善することで軽減できるか、ビデオ コーデック圧縮が不十分であると誤解される可能性があります)、 アンビエント照明, 生体特徴, 一時的な混乱、さらに 人間の本能、新しい研究は、深度情報がディープフェイクコンテンツの貴重な暗号である可能性があることを示唆した最初の研究です。
重要なことに、新しい研究のために開発された検出フレームワークは、次のような軽量ネットワーク上で非常にうまく動作します。 Xception、そして許容範囲内で順調に進んでいます モバイルネットそして新しい論文は、そのようなネットワークを通じて提供される推論の低レイテンシーにより、最近のディープフェイク詐欺に代表されるライブディープフェイク詐欺の新たな傾向に対して、リアルタイムのディープフェイク検出が可能になることを認めています。 バイナンスへの攻撃.
システムは偽の深度マップと実際の深度マップの違いを判断するためにフルカラー画像を必要とせず、深度情報のグレースケール画像のみで驚くほど効率的に動作できるため、推論時間の大幅な節約が達成できます。
著者らは次のように述べています。 「この結果は、この場合、色のアーティファクトよりも深度の方が分類に対してより適切な寄与を与えることを示唆しています。」
この発見は、次のようなリアルタイム顔合成システムを対象としたディープフェイク検出研究の新たな波の一部を表しています。 ディープフェイスライブ – FBIの捜査を受けて、この3〜4か月で顕著に加速した取り組み XNUMX月の警告 リアルタイムのビデオとオーディオのディープフェイクのリスクについて。
紙 というタイトルです DepthFake: ディープフェイク動画を検出するための深度ベースの戦略、ローマのサピエンツァ大学のXNUMX人の研究者によるものです。
エッジケース
トレーニング中、オートエンコーダーベースのディープフェイク モデルは、目、鼻、口などの顔の内側の領域を優先します。 ほとんどの場合、次のようなオープンソース ディストリビューション全体で、 ディープフェイスラボ および フェイススワップ (両方ともオリジナルの 2017 から分岐しました) レディットコード 削除前)、顔の外側のリニアメントはトレーニングの非常に後期の段階まで明確に定義されず、顔の内側領域の合成の品質と一致する可能性は低いです。
通常、これは重要ではありません。なぜなら、私たちは最初に目に焦点を合わせ、注意レベルが低下すると「外側」を優先する傾向があるため、周辺品質の低下によって動揺する可能性が低いことを意味します。特に、相手と生で話している場合はそうです。別の身分を偽り、社会通念を引き起こしたり、 処理の制限 「レンダリングされた」ディープフェイク映像を評価するときには存在しません。
ただし、ディープフェイクされた顔の影響を受けるマージン領域の詳細や精度の欠如は、アルゴリズム的に検出できます。 XNUMX月には顔周縁部をキー入力するシステムを導入しました。 発表の。ただし、平均を超える量のトレーニング データが必要なため、現在のコンピューター ビジョンやディープフェイク検出技術に由来する人気の顔データセット (ImageNet など) に登場する可能性のある有名人のみを対象としています。
代わりに、次のタイトルの新しいシステムが登場しました。 デプスフェイク、本物のビデオ コンテンツと偽のビデオ コンテンツの推定深度マップ情報の品質を区別することにより、あいまいなアイデンティティや未知のアイデンティティに対しても一般的に動作できます。
深く行く
深度マップ情報はますますスマートフォンに組み込まれています。 AI 支援によるステレオ実装 これは、コンピュータ ビジョンの研究に特に役立ちます。新しい研究で著者らは、単一ソース画像から深度マップを効率的に推定できる畳み込みエンコーダ/デコーダ ネットワークであるアイルランド国立大学の FaceDepth モデルを使用しました。
次に、イタリアの研究者の新しいフレームワークのパイプラインは、元の RGB 画像と派生した深度マップの両方から被験者の顔の 224 × 224 ピクセル パッチを抽出します。 重要なのは、これにより、プロセスがコア コンテンツをサイズ変更せずにコピーできるようになります。 サイズ標準のサイズ変更アルゴリズムは対象領域の品質に悪影響を与えるため、これは重要です。
研究者らは、本物とディープフェイクの両方のソースからのこの情報を使用して、それぞれの深度マップの知覚品質の違いに基づいて、本物と偽物のインスタンスを区別できる畳み込みニューラル ネットワーク (CNN) をトレーニングしました。
FaceDepth モデルは、顔の外側のマージンをより詳細に表示するハイブリッド関数を使用して、現実的なデータと合成データでトレーニングされており、DepthFake に最適です。 MobileNet インスタンスを特徴抽出器として使用し、480×640 の深度マップを出力する 240×320 の入力画像でトレーニングされました。各深度マップは、新しいプロジェクトの弁別器で使用される XNUMX つの入力チャネルの XNUMX 分の XNUMX を表します。
深度マップは元の RGB 画像に自動的に埋め込まれ、最新のスマートフォンのカメラが出力できる、深度情報が豊富な種類の RGBD 画像を提供します。
トレーニング
このモデルは、ImageNet で事前トレーニングされた Xception ネットワークでトレーニングされましたが、重みの正しい初期化を維持しながら追加の深度情報に対応するために、アーキテクチャにはある程度の適応が必要でした。
さらに、深度情報とネットワークが期待する値の間の値の範囲が一致しないため、研究者は値を 0 ~ 255 に正規化する必要がありました。
トレーニング中は反転と回転のみが適用されました。 多くの場合、堅牢な推論を展開するために、他のさまざまな視覚的摂動がモデルに提示されますが、ソース写真内の限られた非常に壊れやすいエッジ深度マップ情報を保存する必要があるため、研究者は削減体制を採用する必要がありました。
実行可能なアルゴリズムを取得するためにソース画像がどの程度複雑であるかを決定するために、システムはさらに単純な 2 チャネル グレースケールでトレーニングされました。
トレーニングは、1080 GB の VRAM を搭載した NVIDIA GTX 8 上の TensorFlow API を介して、ADAMAX オプティマイザーを使用し、25 エポック、バッチ サイズ 32 で行われました。トリミング中、入力解像度は 224×224 に固定され、顔の検出と抽出はで達成されました dlib C++ライブラリ。
結果
結果の正確性はディープフェイクに対してテストされました。 面2面、フェイススワップ、 ニューラルテクスチャ、および RGB および RGBD 入力を含む完全なデータセット。 フェイスフォレンジック++ フレームワーク。
いずれの場合も、深度チャネルにより、すべての構成にわたってモデルのパフォーマンスが向上します。 Xception は最高の結果をもたらし、機敏な MobileNet がそれに続きます。 これについて著者は次のようにコメントしています。
MobileNet が Xception よりわずかに劣っていて、より深い ResNet50 よりも優れていることに注目するのは興味深いことです。 これは、リアルタイム アプリケーションの推論時間を短縮するという目標を考慮した場合、注目に値する結果です。 これはこの研究の主な貢献ではありませんが、今後の開発にとって心強い結果であると考えています。」
研究者らは、RGB およびストレート グレースケール入力に対する RGBD および 2 チャネル グレースケール入力の一貫した利点にも注目し、計算コストが非常に低い深さ推論のグレースケール変換により、モデルが非常に限られたローカル リソースで改善された結果を得ることができることを観察しました。深さ情報に基づいたリアルタイムディープフェイク検出の将来の開発を促進します。
初版は24年2022月XNUMX日。