スタブ ディープフェイクは多くの主要な顔の「ライブネス」API を効果的に騙すことができる - Unite.AI
私達と接続

Artificial Intelligence

ディープフェイクは、多くの主要な顔の「Liveness」API を効果的に騙すことができます

mm
更新中 on
DeepFace Live より - アーノルド・シュワルツェネッガー 224 3.03 万回の反復 | RTX A6000 - https://www.youtube.com/watch?v=9tr35y-yQRY
「DeepFace Live - アーノルド・シュワルツェネッガー」より 224 3.03 万回の反復 | RTX A6000 - https://www.youtube.com/watch?v=9tr35y-yQRY

米国と中国の新たな共同研究では、世界最大の顔ベースの認証システムのいくつかがディープフェイクに対する脆弱性を調査し、そのほとんどが発展途上および新たな形態のディープフェイク攻撃に対して脆弱であることが判明した。

この調査では、一般に大手ベンダーによって提供され、航空会社や保険会社などの下流クライアントにサービスとして販売されている顔の生体認証 (FLV) システムに対して展開されたカスタム フレームワークを使用して、ディープフェイク ベースの侵入が行われました。

この論文からは、主要プロバイダーにわたる顔のライブネス検証 (FLV) API の機能の概要が示されています。 出典: https://arxiv.org/pdf/2202.10673.pdf

この論文では、主要プロバイダーにわたる顔のライブネス検証 (FLV) API の機能の概要を示しています。 出典:https://arxiv.org/pdf/2202.10673.pdf

Facial Liveness は、次のようなテクニックの使用を防ぐことを目的としています。 敵対的なイメージ攻撃、 の用法 マスク および事前に録画されたビデオ、いわゆる 「マスターフェイス」、およびその他の形式 ビジュアルIDのクローン作成.

この調査では、これらのシステムに導入されているディープフェイク検出モジュールの数は限られており、その多くは何百万もの顧客にサービスを提供しているが、決して確実なものではなく、現在では時代遅れになったディープフェイク技術に基づいて構成されているか、アーキテクチャに固有すぎる可能性があると結論付けています。 。

著者は注意します:

「[さまざまな] ディープフェイク手法には、さまざまなベンダー間での差異も見られます。対象となる FLV ベンダーの技術的な詳細にアクセスできないため、そのような差異はさまざまなベンダーが導入した防御手段に起因すると推測されます。」 たとえば、特定のベンダーは特定のディープフェイク攻撃に対する防御策を展開する場合があります。

そして続けます:

[ほとんどの] FLV API はディープフェイク対策検出を使用しません。 そのような防御策を持っている人にとっても、その有効性は懸念されます (たとえば、高品質の合成ビデオは検出できるが、低品質のビデオは検出できないなど)。

研究者らは、この点に関して、「信頼性」は相対的なものであると観察しています。

「たとえ合成されたビデオが人間にとって非現実的であっても、非常に高い成功率で現在のディープフェイク対策検出メカニズムを回避することができます。」

上は、著者の実験で認証できたディープフェイク画像のサンプルです。 以下は、認証に失敗した明らかにはるかに現実的な偽造画像です。

上は、著者の実験で認証できたディープフェイク画像のサンプルです。 以下は、認証に失敗した明らかにはるかに現実的な偽造画像です。

もう XNUMX つの発見は、一般的な顔認証システムの現在の構成が白人男性に偏っていることです。 その後、女性および非白人であることのアイデンティティは検証システムを回避するのにより効果的であることが判明し、これらのカテゴリーに属する顧客はディープフェイクベースの技術による侵害のリスクがより高くなります。

このレポートでは、白​​人男性のアイデンティティは、一般的な顔の生気検証 API によって最も厳密かつ正確に評価されていることがわかりました。 上の表では、女性と非白人のアイデンティティがシステムを回避するためにより簡単に利用できることがわかります。

このレポートでは、白​​人男性のアイデンティティは、一般的な顔の生気検証 API によって最も厳密かつ正確に評価されていることがわかりました。 上の表では、女性と非白人のアイデンティティがシステムを回避するためにより簡単に利用できることがわかります。

同紙は次のように指摘している。 「[顔の生存確認]にはバイアスがあり、特定のグループの人々に重大なセキュリティリスクをもたらす可能性があります。」

著者らはまた、中国政府、中国の大手航空会社、中国最大の生命保険会社の XNUMX つ、および R360は、世界最大のユニコーン投資グループの XNUMX つであり、これらの組織による研究対象の API の下流側での使用を回避することに成功したと報告しています。

中国の航空会社の認証回避が成功した場合、ダウンストリーム API は潜在的なディープフェイク素材に対する証拠としてユーザーに「首を振る」ことを要求しましたが、これは研究者が考案した XNUMX つのフレームワークに反して機能しないことが判明しました。ディープフェイクアーキテクチャ。

ユーザーの首の振りに関する航空会社の評価にもかかわらず、ディープフェイクコンテンツはテストに合格することができました。

ユーザーの首の振りに関する航空会社の評価にもかかわらず、ディープフェイクコンテンツはテストに合格することができました。

この論文は、著者らが関与したベンダーに連絡を取り、ベンダーがその成果を認めたと伝えられていると記している。

著者らは、顧客のカメラ フィードからの単一フレームに基づいて認証を行う単一画像認証 (「画像ベース FLV」) の廃止など、FLV の現在の最先端技術を改善するための一連の推奨事項を提供しています。 画像および音声ドメインにわたるディープフェイク検出システムのより柔軟かつ包括的なアップデート。 ユーザービデオ内の音声ベースの認証を唇の動きと同期させる必要性を課す(現在は一般的にそうではない)。 また、現在ディープフェイク システムで再現することが困難なジェスチャや動きをユーザーに要求します (たとえば、 プロフィールビュー 顔の部分的な不明瞭化)。

  というタイトルです 見ることは生きること? ディープフェイク時代の顔の生体認証のセキュリティを再考する、共同主著者であるChangjiang LiとLi Wang、およびペンシルバニア州立大学、浙江大学、山東大学の他のXNUMX人の著者によるものです。

コアターゲット

研究者らは、「最も代表的な」XNUMX つの顔生性検証 (FLV) ベンダーをターゲットにしましたが、調査ではこれらのベンダーは暗号名で匿名化されています。

ベンダーは次のように表されます。 「BD」 および 「TC」 顔関連の API 呼び出し数が最大であり、中国の AI クラウド サービスで最大のシェアを誇る複合企業のサプライヤーです。 「HW」 は「(中国の)最大のパブリック クラウド市場を持つベンダーの XNUMX つ」です。 「CW」 コンピュータ ビジョンの分野で最も急速な成長率を誇り、市場をリードする地位を獲得しています。」 「ST」 は最大手のコンピュータ ビジョン ベンダーの XNUMX つです。 と 「iFT」 その数は中国最大の AI ソフトウェア ベンダーに数えられます。

データとアーキテクチャ

プロジェクトを推進する基礎となるデータには、中国のイニシアチブからの 625,537 枚の画像のデータセットが含まれています CelebA-なりすまし、ミシガン州立大学の 2019 年のライブビデオとともに SiW-M データセット。

すべての実験は、2.40 TB HDD を備えた 5 GB の RAM 上で動作するツイン 2640 GHz Intel Xeon E4-256 v4 CPU、および 1080 つの統合された 44Ti NVIDIA GPU (合計 XNUMX GB の動作 VRAM) を備えたサーバーで実施されました。

シックス・イン・ワン

論文の著者が考案したフレームワークは次のように呼ばれます。 ライブバッガー、FLV システムの XNUMX つの主な防御策に対応する XNUMX つの最先端のディープフェイク フレームワークが組み込まれています。

LiveBugger には多様なディープフェイク アプローチが含まれており、FLV システムの XNUMX つの主要な攻撃ベクトルに重点を置いています。

LiveBugger には多様なディープフェイク アプローチが含まれており、FLV システムの XNUMX つの主要な攻撃ベクトルに重点を置いています。

使用されている 2018 つのディープフェイク フレームワークは次のとおりです。 オックスフォード大学の XNUMX X2フェイス; 米国の学術協力 ICフェイス; 2019年のイスラエルプロジェクトのXNUMXつのバリエーション FSGAN; イタリア人 一次法モデル (FOMM)、2020年初頭から。 と北京大学の Microsoft Research との共同研究 フェイスシフター (ただし、FaceShifter はオープンソースではないため、作成者は公開されているアーキテクチャの詳細に基づいて再構築する必要がありました)。

これらのフレームワークで採用された手法には、LiveBugger の以前の評価モジュールの API 認証要件から抽出された機械的なアクションをスプーフィング ビデオの主体が実行する、事前にレンダリングされたビデオの使用や、効果的な「ディープフェイク パペット」の使用が含まれていました。これは、個人のライブの動きをディープフェイク ストリームに変換し、それが取り込まれたウェブカメラ ストリームに挿入されます。

後者の例としては、 ディープフェイスライブ、その 去年の夏にデビュー 人気番組の付属プログラムとして ディープフェイスラボ、リアルタイムのディープフェイクストリーミングを可能にしますが、これは著者の研究には含まれていません。

XNUMXつのベクトルを攻撃する

一般的な FLV システム内の XNUMX つの攻撃ベクトルは次のとおりです。 画像ベースの FLV、ユーザーが提供した XNUMX 枚の写真を、システムに記録されている顔 ID に対する認証トークンとして使用します。 無音ベースの FLV、ユーザーが自分のビデオクリップをアップロードする必要があります。 アクションベースの FLV、ユーザーはプラットフォームによって指示されたアクションを実行する必要があります。 と 音声ベースの FLV、ユーザーの指示された音声を、そのユーザーの音声パターンに関するシステムのデータベース エントリと照合します。

システムの最初の課題は、API が要件を公開する範囲を確立することです。これは、要件をディープフェイク プロセスで予測して対応できるためです。 これは LiveBugger の Intelligence Engine によって処理され、公開されている API ドキュメントやその他のソースから要件に関する情報を収集します。

公開された要件が API の実際のルーチンに (さまざまな理由で) 存在しない可能性があるため、インテリジェンス エンジンには、探索的な API 呼び出しの結果に基づいて暗黙的な情報を収集するプローブが組み込まれています。 研究プロジェクトでは、開発者の利益のために提供された公式のオフライン「テスト」API と、テストに自分のライブ アカウントの使用を申し出たボランティアによって、これが促進されました。

インテリジェンス エンジンは、API が攻撃に役立つ可能性のある特定のアプローチを現在使用しているかどうかに関する証拠を検索します。 この種の機能には次のものがあります。 コヒーレンス検出、ビデオ内のフレームが時間的に連続しているかどうかをチェックします。この要件は、スクランブルされたビデオ フレームを送信し、これが認証の失敗に寄与するかどうかを観察することによって確立できます。

このモジュールは以下も検索します 口唇言語検出ここで、API はビデオ内の音声が正しいかどうかを確認する場合があります。 ユーザーの唇の動きに同期 (まれなケースです – 以下の「結果」を参照してください)。

結果

著者らは、実験時に評価した XNUMX つの API がすべてコヒーレンス検出を使用していないことを発見しました。そのため、LiveBugger のディープフェイカー エンジンは、ボランティアから提供された素材に基づいて、合成された音声とディープフェイクされたビデオを単純につなぎ合わせることができました。

ただし、一部の下流アプリケーション (つまり、API フレームワークの顧客) がプロセスにコヒーレンス検出を追加していることが判明し、これを回避するために調整されたビデオの事前録画が必要になりました。

さらに、口唇言語検出を使用している API ベンダーはほんのわずかです。 ほとんどの場合、ビデオとオーディオは別個の量として分析され、唇の動きを提供されたオーディオと一致させようとする機能はありません。

FLV API のさまざまな攻撃ベクトルに対して、LiveBugger で利用できるさまざまな偽のテクニックにわたる多様な結果。 数値が大きいほど、攻撃者がディープフェイク技術を使用して認証を突破したことを示します。 すべての API に FLV に対する考えられるすべての防御機能が含まれているわけではありません。 たとえば、ディープフェイクに対する防御を提供しないものもあれば、認証中にユーザーが送信したビデオ内の唇の動きと音声が一致するかどうかを確認しないものもあります。

FLV API のさまざまな攻撃ベクトルに対して、LiveBugger で利用できるさまざまな偽のテクニックにわたる多様な結果。 数値が大きいほど、ディープフェイク技術を使用した FLV 侵入の成功率が高いことを示します。 すべての API に FLV に対する考えられるすべての防御機能が含まれているわけではありません。 たとえば、ディープフェイクに対する防御を提供しないものもあれば、認証中にユーザーが送信したビデオ内の唇の動きと音声が一致するかどうかを確認しないものもあります。

まとめ

この論文の結果と FLV API の将来についての示唆は迷路のようなものですが、著者らはそれらを機能的な「脆弱性のアーキテクチャ」に連結し、FLV 開発者が明らかになった問題の一部をより深く理解できるようにしました。」

この論文は、ディープフェイク攻撃に対する顔ベースのビデオ識別ルーチンの既存および潜在的な脆弱性に関する推奨事項のネットワークです。

この論文は、ディープフェイク攻撃に対する顔ベースのビデオ識別ルーチンの既存および潜在的な脆弱性に関する推奨事項のネットワークです。

推奨事項には次のように記載されています。

「FLV のセキュリティ リスクは多くの実世界のアプリケーションに広く存在しており、そのため数百万のエンドユーザーのセキュリティを脅かしています。」

著者らはまた、アクションベースの FLV の使用は「限界的」であり、ユーザーが実行する必要があるアクションの数を増やしても「セキュリティ上のメリットは得られない」とも述べています。

さらに、著者らは、API プロバイダーが唇の動きを音声に同期することを要求し始めない限り、音声認識と (ビデオでの) 時間的顔認識を組み合わせるのは無駄な防御であると指摘しています。

この論文は最近の状況を踏まえて書かれています FBIが企業に警告 ディープフェイク詐欺の危険性について、この技術の先駆けからほぼ XNUMX 年後、 外国への影響力作戦での使用、との 一般的な恐怖 ライブディープフェイク技術は、ビデオ認証セキュリティアーキテクチャを依然として信頼している一般大衆に対する新たな犯罪の波を促進するだろう。

認証攻撃対象としてのディープフェイクはまだ初期の段階にあります。 2020年には35万ドルでした 不正に抽出された ディープフェイク音声技術を使用してアラブ首長国連邦の銀行から盗み出し、英国の幹部も同様に詐欺に遭い、243,000万XNUMXドルを支払わせた in 2019.

 

初版は23年2022月XNUMX日。