人工知能
デプス情報はリアルタイムでディープフェイクを明らかにできる

イタリアからの新しい研究では、画像から得られるデプス情報がディープフェイクを検出するための有用なツールとなることが示された。ディープフェイク検出に関する過去5年間の研究の多くは、アーティファクトの同定(改良されたテクニックによって軽減される可能性があるか、ビデオコーデックの圧縮の悪さと間違われる可能性がある) 、 環境光、 バイオメトリック特性、 時間的混乱、 さらには 人間の直感 に焦点を当てていたが、新しい研究は、デプス情報がディープフェイクコンテンツの有用な暗号となる最初のものである。
検出フレームワークは、Xception などの軽量ネットワークで非常にうまく機能し、MobileNet でも十分に機能する。新しい論文では、ディープフェイク検出の新しい傾向であるリアルタイムのディープフェイク詐欺に対して、リアルタイムのディープフェイク検出を可能にするようなネットワークの低遅延の推論が提供されることを認識している。最近の Binanceへの攻撃 がその例である。
推論時間の短縮は、システムがディープフェイクとリアルの差を判断するためにフルカラー画像を必要としないことから実現できる。グレースケール画像のデプス情報のみで驚くほど効率的に動作できる。
著者は次のように述べている: ‘この結果は、色のアーティファクトよりも、デプスがこの場合に分類により関連する貢献を加えることを示唆している.’
これらの発見は、DeepFaceLive のようなリアルタイムの顔合成システムに対抗するディープフェイク検出研究の新しい波の一部を表している。過去3-4ヶ月で、この分野の研究が顕著に進展している。FBIの 警告 により、リアルタイムのビデオおよびオーディオディープフェイクのリスクについて警告した。
論文 のタイトルは DepthFake: ディープフェイク動画の検出のためのデプスベースの戦略 で、ローマのサピエンツァ大学の5人の研究者によるものである。
エッジケース
訓練中、オートエンコーダーベースのディープフェイクモデルは、目、鼻、口などの顔の内側の領域を優先する。ほとんどの場合、DeepFaceLab や FaceSwap (両方とも2017年の Redditコード のフォーク) のようなオープンソース配布では、顔の外側の線条は訓練の非常に後期になるまで明確にならず、内側の顔の領域の合成の質と一致する可能性は低い。
通常、これは重要ではない。目と優先順位付け、減少する注意のレベルで外側に焦点を当てるという私たちの傾向により、周囲の質の低下によって私たちが混乱する可能性は低い。特に、別のアイデンティティを偽装している人物とライブで話している場合、社会規範と 処理の制限 が発生する。
しかし、ディープフェイク顔の周囲領域の詳細や精度の欠如は、アルゴリズムによって検出できる。3月には、周囲の顔領域に基づくシステムが 発表 された。しかし、平均以上の量のトレーニングデータが必要であるため、ImageNetなどの現在のコンピュータビジョンとディープフェイク検出テクニックで確立されたデータセットに含まれる可能性のある有名人にのみ対象となる。
代わりに、新しいシステム、DepthFake は、リアルと偽のビデオコンテンツの推定されたデプス情報の質を区別することで、一般的に動作し、知名度の低いまたは未知のアイデンティティでも機能する。
深層化
デプス情報は、AI支援ステレオ実装 を含むスマートフォンに組み込まれることが増えており、特にコンピュータビジョン研究では有用である。新しい研究では、著者は、National University of IrelandのFaceDepthモデルを使用している。これは、単一の画像からデプス情報を効率的に推定できる畳み込みエンコーダ/デコーダネットワークである。
次に、イタリアの研究者の新しいフレームワークのパイプラインでは、元のRGB画像と推定されたデプス情報から、被写体の顔の224×224ピクセルのパッチを抽出する。重要なのは、このプロセスがコンテンツをコピーすることなく実行できることである。これは重要である。サイズを標準化するリサイズアルゴリズムは、対象領域の品質に悪影響を及ぼす。
この情報を使用して、研究者は、リアルとディープフェイクのソースから、各デプス情報の知覚的な品質の差に基づいて、リアルと偽のインスタンスを区別できる畳み込みニューラルネットワーク(CNN)を訓練した。
FaceDepthモデルは、リアルと合成されたデータを使用して、顔の外側の領域に詳細を提供するハイブリッド関数で訓練され、DepthFakeに適している。MobileNetのインスタンスを特徴抽出器として使用し、480×640の入力画像から240×320のデプス情報を出力するように訓練された。各デプス情報は、新しいプロジェクトの判別器で使用される4つの入力チャネルのうち1/4を表す。
デプス情報は、自動的に元のRGB画像に埋め込まれて、現代のスマートフォンカメラで出力可能な、デプス情報を含むRGBD画像を提供する。
訓練
モデルは、ImageNetで事前訓練されたXceptionネットワークで訓練されたが、追加のデプス情報を収容し、重みの初期化を維持するために、ネットワークのアーキテクチャの調整が必要だった。
さらに、デプス情報とネットワークが期待する値の範囲の不一致により、研究者は値を0-255に正規化する必要があった。
訓練中、フリップと回転のみが適用された。多くの場合、さまざまな視覚的な変形がモデルに提示されるが、限られたかつ脆弱なデプス情報を保存する必要性により、研究者は簡素化されたレジームを採用した。
システムは、アルゴリズムが動作するために必要なソース画像の複雑さを判断するために、2チャネルのグレースケールでも訓練された。
訓練は、TensorFlow APIを使用して、NVIDIA GTX 1080の8GBのVRAMで、ADAMAXオプティマイザを使用して、25エポック、バッチサイズ32で実行された。入力解像度は、クロッピング中に224×224に固定され、顔検出と抽出は、dlib C++ライブラリで実行された。
結果
結果の精度は、Deepfake、Face2Face、FaceSwap、Neural Texture、およびRGBとRGBD入力でFaceForensic++フレームワークを使用して、完全なデータセットに対してテストされた。

4つのディープフェイク方法と、分割されていない全データセットに対する精度の結果。結果は、ソースRGB画像と、埋め込まれた推定されたデプス情報の画像の分析に分割される。最良の結果は太字で、パーセンテージの数字は、デプス情報が結果を改善する程度を示す。
すべてのケースで、デプスチャネルは、すべての構成でモデルのパフォーマンスを向上させる。Xceptionが最良の結果を得て、軽量のMobileNetがすぐに続く。著者は次のように述べている:
‘[これは] MobileNetがXceptionに少し劣り、より深いResNet50を上回っていることに注意することが興味深い。リアルタイムアプリケーションのための推論時間の短縮を目標としている場合、これは将来の開発のための励ましい結果である.’
研究者はまた、RGBDと2チャネルのグレースケール入力が、RGBと単純なグレースケール入力よりも一貫した優位性があることを観察している。推論のコストが非常に低いデプス情報のグレースケール変換により、モデルは限られたローカルリソースで改善された結果を得ることができる。
初めて公開されたのは2022年8月24日。














