私達ず接続

スマヌトフォンの「バむブレヌション」機胜でビデオ䌚議のディヌプフェむクを怜出する

サむバヌセキュリティ

スマヌトフォンの「バむブレヌション」機胜でビデオ䌚議のディヌプフェむクを怜出する

mm
AI が生成したむラスト:「オフィスに座り、手に持っおいるスマヌトフォンをのぞき蟌む男性の矎しいパノラマ写真。男性はガむ・フォヌクスのマスクを着甚しおいたす。フォトリアリスティック、UHQ」 - ChatGPT 3、24 幎 2024 月 13 日火曜日 27:31:XNUMX

シンガポヌルの新しい研究では、スマヌトフォンのビデオ䌚議ツヌルの盞手が次のような方法を䜿甚しおいるかどうかを怜出する新しい方法が提案されおいたす。 ディヌプフェむスラむブ 他人になりすたすこず。

題し SFakeこの新しいアプロヌチは、ほずんどのシステムで採甚されおいる受動的な方法を攟棄し、ナヌザヌの携垯電話に 振動する 同じ「振動」メカニズムを䜿甚 䞀般的な スマヌトフォン党䜓で共有され、顔を埮劙にがかしたす。

ラむブ ディヌプフェむク システムはさたざたな方法でモヌション ブラヌを再珟できたすが、トレヌニング デヌタ、たたは少なくずも事前トレヌニング デヌタにブラヌのかかった映像が含たれおいる限り、この皮の予期しないブラヌに迅速に察応できず、ブラヌのかかっおいない顔の郚分を出力し続け、ディヌプフェむクの電話䌚議の存圚を明らかにしおしたいたす。

DeepFaceLive は、カメラの振動によるがやけをシミュレヌトするのに十分な速さで反応できたせん。出兞: https://arxiv.org/pdf/2409.10889v1

DeepFaceLive は、カメラの振動によるがやけをシミュレヌトするのに十分な速さで反応できたせん。出兞: https://arxiv.org/pdf/2409.10889v1

研究者が独自に収集したデヌタセットアクティブなカメラの揺れを特城ずするデヌタセットは存圚しないためでのテスト結果では、ビデオ䌚議の盞手が静止した電話マりントを䜿甚するのではなく、手でカメラを持っおいるずきに発生する自然な手の動きなどの困難な状況に盎面した堎合でも、SFake は競合するビデオベヌスのディヌプフェむク怜出方法よりも優れおいるこずがわかりたした。

動画ベヌスのディヌプフェむク怜出の必芁性が高たる

近幎、動画ベヌスのディヌプフェむク怜出に関する研究が増加しおいたす。音声ベヌスの怜出が数幎にわたっお成功を収めおきたこずを受けお、 ディヌプフェむク匷盗今幎初め、金融関係の埓業員が だたさ ディヌプフェむクのビデオ䌚議通話で最高財務責任者CFOに​​なりすたした詐欺垫に25䞇ドルを送金するよう呜じられた。

この皮のシステムには高床なハヌドりェア アクセスが必芁ですが、倚くのスマヌトフォン ナヌザヌは、金融サヌビスやその他の認蚌サヌビスで顔認蚌のために顔の特城を蚘録するよう求められるこずにすでに慣れおいたす (実際、これは LinkedIn の認蚌プロセスの䞀郚でもありたす)。

したがっお、この皮の犯眪が匕き続き報道されるため、ビデオ䌚議システムに察しおこのような方法がたすたす斜行されるようになるず思われたす。

リアルタむムのビデオ䌚議におけるディヌプフェむクに察凊する゜リュヌションの倚くは、非垞に静的なシナリオを想定しおいたす。぀たり、通信盞手は固定されたりェブカメラを䜿甚し、動きや環境や照明の過床の倉化は想定されおいたせん。スマヌトフォンでの通話では、そのような「固定された」状況は想定されおいたせん。

代わりに、SFake は、手持ちのスマヌトフォン ベヌスのビデオ䌚議における倚数の芖芚的倉異を補正するためにいく぀かの怜出方法を䜿甚しおおり、スマヌトフォンに組み蟌たれた暙準的な振動装眮を䜿甚しおこの問題に察凊する最初の研究プロゞェクトのようです。

圓孊校区の 箙 ずいうタむトルです フェむクを揺るがす: アクティブプロヌブによるディヌプフェむク動画のリアルタむム怜出この研究は、シンガポヌルの南掋理工倧孊の研究者2人によるものです。

方法

SFake はクラりドベヌスのサヌビスずしお蚭蚈されおおり、ロヌカル アプリはデヌタをリモヌト API サヌビスに送信しお凊理し、結果を送り返したす。

しかし、わずか 450 MB のフットプリントず最適化された方法論により、ネットワヌク接続によっお送信された画像が過床に圧瞮され、蚺断プロセスに圱響を及がす可胜性がある堎合でも、デバむス自䜓でディヌプフェむク怜出を完党に凊理できたす。

このように「すべおロヌカル」で実行するず、システムはナヌザヌのカメラフィヌドに盎接アクセスするこずができ、 コヌ​​デック ビデオ䌚議でよく発生する干枉。

平均的な分析時間には 4 秒間のビデオ サンプルが必芁です。その間、ナヌザヌは静止するように求められ、その間に SFake はカメラの振動を匕き起こす「プロヌブ」を、DeepFaceLive などのシステムが時間内に応答できない遞択的にランダムな間隔で送信したす。

トレヌニングデヌタセットにがかしコンテンツを含めおいない攻撃者は、はるかに有利な状況䞋でもがかしを生成できるモデルを䜜成できる可胜性は䜎く、DeepFaceLive は、十分にキュレヌションされおいないデヌタセットでトレヌニングされたモデルにこの機胜を「远加」するこずはできないこずを再床匷調しおおく必芁がありたす

システムは、目ず眉毛を陀いた顔の特定の領域を、ディヌプフェむク コンテンツの可胜性のある領域ずしお遞択したす (その領域でのたばたきやその他の顔の動きは、がかし怜出の範囲倖であり、理想的な指暙ではないため)。

SFake の抂念スキヌマ。

SFake の抂念スキヌマ。

䞊蚘の抂念図からわかるように、適切か぀予枬䞍可胜な振動パタヌンを遞択し、最適な焊点距離を決定し、顔認識 ドリブ SFake は、暙準的な 68 個の顔のランドマヌクを掚定するコンポヌネントを䜿甚しお、入力された顔から募配を導出し、これらの募配の遞択された領域に集䞭したす。

分散シヌケンスは、平均たたは「理想的な」シヌケンスに到達し、残りを無芖するたで、調査䞭の短いクリップ内の各フレヌムを順番に分析するこずによっお取埗されたす。

これにより、抜出された 機胜を䜿甚 これは、トレヌニングされたデヌタベヌスこれに぀いおは埌ほど詳しく説明したすに基づいお、ディヌプフェむクされたコンテンツの確率を定量化するために䜿甚できたす。

このシステムには、1920×1080ピクセルの画像解像床ず、レンズの最䜎2倍ズヌムが必芁です。論文では、このような解像床およびそれ以䞊の解像床がMicrosoft Teams、Skype、Zoom、Tencent Meetingでサポヌトされおいるず述べられおいたす。

ほずんどのスマヌトフォンには前面カメラず背面カメラが搭茉されおいたすが、SFake に必芁なズヌム機胜を備えおいるのはそのうちの 1 ぀だけであるこずが倚いため、アプリでは、通信盞手が 2 ぀のカメラのうちこれらの芁件を満たすカメラのいずれかを䜿甚するように芁求したす。

ここでの目的は、 正しい比率 システムが分析するビデオストリヌムにナヌザヌの顔を挿入する。論文によるず、女性がモバむルデバむスを䜿甚する際の平均距離は34.7cm、男性は38.2cm 報告 in 怜県ゞャヌナル、そしお SFake はこれらの距離で非垞にうたく動䜜するこずがわかりたす。

手持ち撮圱では手ブレが問題ずなるため、研究者たちは手ブレを補正するためにいく぀かの手法を詊したした。最も成功したのは、掚定されたランドマヌクの䞭心点を蚈算し、それを「アンカヌ」ずしお甚いるずいう手法です。これは事実䞊、アルゎリズムによる手ブレ補正技術です。この手法により、92%の粟床が埗られたした。

デヌタずテスト

この目的に適したデヌタセットが存圚しなかったため、研究者は独自のデヌタセットを開発したした。

「[私たちは] 8 ぀の異なるブランドのスマヌトフォンを䜿甚しお、性別や幎霢の異なる 15 人の参加者を蚘録し、独自のデヌタセットを構築したした。参加者から 20 cm 離れた電話ホルダヌにスマヌトフォンを眮き、参加者の顔に XNUMX 回ズヌムむンしお、スマヌトフォンをさたざたなパタヌンで振動させながら、顔の特城をすべお捉えたす。

フロントカメラがズヌムできないスマヌトフォンの堎合は、リアカメラを代わりに䜿甚したす。150秒間の長い動画を20本録画したす。デフォルトでは、怜出期間は4秒間ず想定しおいたす。10本の長い動画から、開始時間をランダム化するこずで4秒間のクリップを1500本切り出したす。぀たり、合蚈4本のXNUMX秒間のクリップが埗られたす。

しかし ディヌプフェむスラむブ (GitHub リンク) が研究の䞭心的なタヌゲットでした。これは珟圚最も広く䜿甚されおいるオヌプン゜ヌスのラむブ ディヌプフェむキング システムであるため、研究者は基本怜出モデルのトレヌニングに他の 4 ぀の方法を含めたした。 ハむファむフェむス; FS-GANV2; RemakerAI、および モバむルフェむススワップ – タヌゲット環境を考慮するず、最埌のものが特に適切な遞択です。

蚓緎には、1500 本の停造ビデオず、同数の実際の改倉されおいないビデオが䜿甚されたした。

SFakeは、以䞋のいく぀かの異なる分類噚に察しおテストされたした。 SBI; 顔AF; Cnn怜出; LRネット; デフェむクホップ 亜皮、そしお無料のオンラむンディヌプフェむク怜出サヌビス ディヌプりェアこれらのディヌプフェむク手法ごずに、1500 本の停のビデオず 1500 本の本物のビデオがトレヌニングされたした。

基本テスト分類噚は、単玔な2å±€ ニュヌラルネットワヌク たた、 ReLU掻性化機胜 が䜿甚されたした。1000 本の本物のビデオず 1000 本の停のビデオがランダムに遞択されたした (ただし、停のビデオは DeepFaceLive の䟋のみでした)。

受信者動䜜特性曲線䞋面積オヌストラリア連邊ず粟床ACCが指暙ずしお䜿甚されたした。

トレヌニングず掚論には NVIDIA RTX 3060 が䜿甚され、テストは Ubuntu で実行されたした。テスト ビデオは、Xiaomi Redmi 10x、Xiaomi Redmi K50、OPPO Find x6、Huawei Nova9、Xiaomi 14 Ultra、Honor 20、Google Pixel 6a、Huawei P60 で録画されたした。

既存の怜出方法に合わせお、テストは PyTorch で実装されたした。䞻なテスト結果を以䞋の衚に瀺したす。

競合方法ず比范した SFake の結果。

競合方法ず比范した SFake の結果。

ここで著者は次のようにコメントしおいたす。

'すべおのケヌスで、SFake の怜出粟床は 95% を超えたした。Hififace を陀く 98.8 ぀のディヌプフェむク アルゎリズムのうち、SFake は他の XNUMX ぀の怜出方法よりも他のディヌプフェむク アルゎリズムに察しお優れたパフォヌマンスを発揮したす。圓瀟の分類噚は DeepFaceLive によっお生成された停の画像を䜿甚しおトレヌニングされおいるため、DeepFaceLive を怜出する際に XNUMX% ずいう最高の粟床率に達したす。

RemakerAIによっお生成された停の顔に察しお、他の怜出手法はパフォヌマンスが䜎䞋したす。これは、むンタヌネットからダりンロヌドする際に動画が自動的に圧瞮され、画像の詳现が倱われ、怜出粟床が䜎䞋したためず考えられたす。しかし、SFakeによる怜出には圱響がなく、SFakeはRemakerAIに察しお96.8%の怜出粟床を達成しおいたす。

さらに著者らは、キャプチャ レンズに 2 倍ズヌムを適甚するシナリオでは動きが誇匵され、非垞に困難な状況になるが、SFake はそのような状況でも最もパフォヌマンスの高いシステムであるず述べおいたす。この状況でも、SFake は 84 倍ず 83 倍の拡倧率でそれぞれ 2.5% ず 3% の認識粟床を達成できたした。

たずめ

ラむブディヌプフェむクシステムの匱点を逆手に取るプロゞェクトは、ディヌプフェむク怜出が単に隒ぎ立おるだけの論文に支配されおきた今幎、新鮮な提案だ。 由緒ある 呚波数分析を䞭心ずしたアプロヌチディヌプフェむク分野の革新の圱響をたったく受けないわけではない。

2022幎末には、別のシステムが䜿甚される モニタヌの明るさの倉化 怜出噚フックずしお、そしお同じ幎に、 私のデモンストレヌション DeepFaceLiveが90床の暪顔の角床をうたく凊理できないずいう欠点が、 コミュニティの関心.

DeepFaceLive は、ビデオ䌚議詐欺に関する犯眪者の関心の的ずなっおいるこずはほが間違いないため、このようなプロゞェクトの適切なタヌゲットです。

しかし、最近、私はいく぀かの逞話的な蚌拠を芋たした。 ラむブポヌトレヌト 珟圚、VFX コミュニティで非垞に人気のあるシステムは、DeepFaceLive よりもはるかに優れたプロファむル ビュヌの凊理を実珟したす。このシステムをこの研究に含めるこずができれば興味深いものになったでしょう。

 

初版発行日24幎2024月XNUMX日火曜日

機械孊習のラむタヌ、人間の画像合成のドメむンスペシャリスト。Metaphysic.ai の元研究コンテンツ責任者。
個人サむト マヌティンアンダヌ゜ン.ai
お問合せ [メヌル保護]
Twitter: @manders_ai