サイバーセキュリティ

ビデオ会議のディープフェイクをスマートフォンの「振動」機能で検出

Published September 24, 2024

Updated April 3, 2026

Martin Anderson

An AI-generated illustration: 'a gorgeous panoramic picture of a man sitting in an office, looking into his smartphone, which he is holding; the man is wearing a Guy Fawkes mask; photorealistic, UHQ' - ChatGPT 3, Tuesday, September 24, 2024 13:27:31

シンガポールからの新しい研究では、DeepFaceLiveなどの方法を使用して他人を装うためにスマートフォンのビデオ会議ツールを使用しているかどうかを検出するための新しい方法を提案しています。

この新しいアプローチは、SFakeと呼ばれ、ほとんどのシステムで使用されている受動的な方法を放棄し、代わりにユーザーの電話を振動させ（スマートフォンで一般的な「振動」メカニズムを使用）、顔が若干ぼけます。

実時間のディープフェイクシステムは、トレーニングデータや事前トレーニングデータにぼけ映像が含まれている限り、モーションぼけを再現することができますが、このような予期せぬぼけには十分に迅速に対応できず、顔のぼけていない部分を出力し続け、ディープフェイク会議の存在を明らかにします。

DeepFaceLiveは、カメラの振動によるぼけをシミュレートするのに十分な時間がない。出典: https://arxiv.org/pdf/2409.10889v1

研究者が独自に作成したデータセット（アクティブなカメラシェイクを含むデータセットがないため）を使用したテスト結果は、SFakeが競合するビデオベースのディープフェイク検出方法を上回ったことを示しています。さらに、他の人とビデオ会議をしているときに、カメラを手で持っている自然な手の動きなど、厳しい状況に直面しても優れた結果を示しました。

ビデオベースのディープフェイク検出の必要性の増大

ビデオベースのディープフェイク検出に関する研究は最近増加しています。数年間にわたる音声ベースのディープフェイク強盗事件の成功を受けて、今年初めに、財務担当者がディープフェイクのCFOを装った人物によって25万ドルを不正送金するように騙されました。

このようなシステムは、高いレベルのハードウェアアクセスを必要としますが、多くのスマートフォンユーザーはすでに、顔認証サービスが顔の特徴を記録することを求めることが慣れています。

したがって、このような方法がビデオ会議システムでますます強制される可能性が高いです。

ほとんどの解決策は、静的なシナリオを前提としています。つまり、通信者は固定されたウェブカメラを使用し、動きや過度な環境や照明の変化は予想されません。スマートフォン会議では、そのような「固定」シナリオはありません。

代わりに、SFakeは、スマートフォンを使用したビデオ会議における多数の視覚的なバリエーションを補償するために、複数の検出方法を使用し、スマートフォンの標準的な振動装置を使用する最初の研究プロジェクトのようです。

方法

SFakeは、クラウドベースのサービスとして設計されており、ローカルアプリがデータをリモートAPIサービスに送信し、結果が返されます。

ただし、そのわずか450MBのフットプリントと最適化された方法論により、ディープフェイク検出をデバイス自体で完全に処理できます。ネットワーク接続により画像が過度に圧縮され、診断プロセスに影響を与える可能性がある場合に限ります。

この方法では、システムはユーザーのカメラフィードに直接アクセスでき、ビデオ会議でよく見られるコーデックの干渉を受けません。

平均分析時間は、ユーザーが静止している4秒間のビデオサンプルを必要とし、SFakeは、DeepFaceLiveなどのシステムが対応できないランダムな間隔で「プローブ」を送信してカメラの振動を引き起こします。

(トレーニングデータセットにぼけ映像が含まれていない攻撃者は、より有利な状況下でもぼけを生成することができず、DeepFaceLiveはトレーニングデータセットが不十分なモデルにこの機能を追加できないことを再び強調する必要があります)

システムは、ぼけ検出の適切な指標ではない眼や眉毛を除外し、顔の特定の領域を潜在的なディープフェイクコンテンツの領域として選択します。

SFakeの概念スキーマ。

上の概念スキーマからわかるように、適切で予測不可能な振動パターンを選択した後、最適な焦点距離を決定し、顔認識（Dlibコンポーネントを使用して、標準の68の顔のランドマークを推定）を行った後、SFakeは入力された顔からグラデーションを導出し、選択された領域に集中します。

変動シーケンスは、分析する短いクリップの各フレームを順番に分析することによって取得され、平均または「理想的な」シーケンスが到達し、残りは無視されます。

これにより、トレーニング済みデータベース（後述）に基づいてディープフェイクコンテンツの確率を数量化できる機能が抽出されます。

システムでは、1920×1080ピクセルの画像解像度と、レンズに少なくとも2倍のズーム要件が必要です。論文では、Microsoft Teams、Skype、Zoom、Tencent Meetingでこれらの解像度（およびそれ以上の解像度）がサポートされていることを指摘しています。

ほとんどのスマートフォンには、前面と背面のカメラがあり、どちらか一方のみがSFakeの要件を満たすズーム機能を持っていることがあります。したがって、アプリは、通信者にどちらのカメラを使用するかを要求する必要があります。

ここでの目的は、システムが分析するビデオストリームに、ユーザーの顔を正しい比率で取得することです。論文では、女性がモバイルデバイスを使用する平均距離は34.7cm、男性は38.2cm（Journal of Optometryに記載されているように）であると述べられており、SFakeはこれらの距離で非常にうまく機能します。

手持ちのビデオでは安定性が問題となるため、SFakeの機能に障害となる手の動きによるぼけに対処するために、研究者はいくつかの方法を試しました。最も成功した方法は、推定されたランドマークの中心点を計算し、それを「アンカー」として使用することであり、実質的にアルゴリズム的な安定化技術です。この方法により、92%の精度が得られました。

データとテスト

適切なデータセットがないため、研究者は独自のデータセットを作成しました：

‘私たちは、8つの異なるスマートフォンブランドを使用して、さまざまな性別や年齢の15人の参加者を記録して、独自のデータセットを作成しました。スマートフォンを20cm離れた参加者の顔に合わせて、2倍のズームで顔全体を捉えながら、さまざまなパターンでスマートフォンを振動させます。’

‘前面カメラのズームができない電話の場合は、後面カメラを代わりに使用します。各20秒の長いビデオを150個記録し、デフォルトでは検出期間が4秒間であると想定します。1つの長いビデオから、開始時間をランダム化して、4秒間の10個のクリップをトリミングします。したがって、合計1500個の実クリップ、各4秒間を取得します。’

DeepFaceLiveは、現在最も広く使用されているオープンソースのライブディープフェイクシステムであるため、この研究の中心的な対象となりましたが、研究者は、Hififace；FS-GANV2；RemakerAI；およびMobileFaceSwapを含む4つの他の方法を、ベース検出モデルをトレーニングするために含めました。後者は、ターゲット環境を考慮すると、特に適切な選択です。

1500個の偽造ビデオと同数の実際の未変更のビデオを使用してトレーニングしました。

SFakeは、SBI；FaceAF；CnnDetect；LRNet；DefakeHopバリアント；および無料のオンラインディープフェイク検出サービスDeepawareなどの複数の分類器に対してテストされました。各ディープフェイク方法の場合、1500個の偽造ビデオと1500個の実際のビデオをトレーニングしました。

ベーステスト分類器としては、ニューラルネットワークの2層構造にReLU活性化関数を使用しました。1000個の実際のビデオと1000個の偽造ビデオ（ただし、偽造ビデオはDeepFaceLiveの例のみ）をランダムに選択しました。

受信者操作特性曲線下面積（AUC/AUROC）と精度（ACC）が使用された。

トレーニングと推論には、NVIDIA RTX 3060を使用し、Ubuntuでテストを実行しました。テストビデオは、Xiaomi Redmi 10x、Xiaomi Redmi K50、OPPO Find x6、Huawei Nova9、Xiaomi 14 Ultra、Honor 20、Google Pixel 6a、Huawei P60で記録されました。

既存の検出方法に従って、テストはPyTorchで実装されました。主なテスト結果は以下の表に示されています：

SFakeと競合する方法の結果。

ここで、著者は以下のように述べています：

‘全てのケースで、SFakeの検出精度は95%を超えました。5つのディープフェイクアルゴリズムのうち、Hififaceを除いて、SFakeは他のディープフェイクアルゴリズムに対する他の6つの検出方法よりも優れています。分類器はDeepFaceLiveによって生成された偽造画像を使用してトレーニングされたため、DeepFaceLiveの検出時には98.8%の最高精度率を達成しました。 ‘

‘RemakerAIによって生成された偽造顔に対して、他の検出方法はあまりよく機能しませんでした。私たちは、これはインターネットからダウンロードしたときに自動的にビデオが圧縮されるため、画像の詳細が失われ、検出精度が低下するためであると推測しています。しかし、これはSFakeの検出には影響せず、RemakerAIに対する検出精度は96.8%でした。’

著者はさらに、SFakeは2倍のズームがレンズに適用されたシナリオで最もパフォーマントの高いシステムであると述べています。なぜなら、このズームは動きを誇張し、非常に課題的なシナリオとなるからです。ただし、SFakeはこの状況でも、2.5と3の倍率における認識精度がそれぞれ84%と83%であることを達成しました。

結論

ライブディープフェイクシステムの弱点を利用するプロジェクトは、ディープフェイク検出が周波数分析（ディープフェイクの進化には免疫ではない）を中心としたアプローチで占められている今年に、風変わりな提案となります。

2022年末、別のシステムは、モニターの明るさの変化を検出のフックとして使用しました。同年、私自身のDeepFaceLiveの、90度の横向きの姿勢に耐えられないというデモは、コミュニティの関心を集めました。

DeepFaceLiveは、このようなプロジェクトの対象として適切です。なぜなら、ビデオ会議詐欺に関して、ディープフェイクに興味を持つ犯罪者にとっての主な対象となるからです。

しかし、最近、VFXコミュニティで非常に人気があるLivePortraitシステムは、横向きの姿勢をDeepFaceLiveよりもはるかにうまく処理することがわかりました。もし、この研究に含めることができていたら、興味深かったでしょう。

初めて発行されたのは、2024年9月24日です。

Unite.AI

ビデオ会議のディープフェイクをスマートフォンの「振動」機能で検出

ビデオベースのディープフェイク検出の必要性の増大

方法

データとテスト

結論

You may like