Connect with us

サイバーセキュリティ

説明可能なAIは機密データをより簡単に漏らす可能性がある

mm

シンガポール国立大学の研究者は、AIがより説明可能になるほど、機械学習システムの重要なプライバシー機能を回避することが容易になることを結論付けた。また、モデルが説明可能でない場合でも、類似するモデルの説明を使用して、非説明可能なモデルの機密データを「解読」することが可能であることも発見した。

研究では、Exploiting Explanations for Model Inversion Attacksというタイトルで、ニューラルネットワークが機能する仕組みの「偶発的な」不透明性を、デザインによるセキュリティ機能として使用するリスクを強調している。欧州連合の草案AI規制を含む新しい世界的な取り組みは、説明可能なAI(XAI)を、社会での機械学習の正常化の前提条件として特徴付けている。

研究では、実際のIDが、顔の表情に関する匿名データから、機械学習システムの複数の説明を利用して、成功的に再構築された。Source: https://arxiv.org/pdf/2108.10800.pdf

研究では、実際のIDが、顔の表情に関する匿名データから、機械学習システムの複数の説明を利用して、成功的に再構築された。Source: https://arxiv.org/pdf/2108.10800.pdf

研究者は次のように述べている:

「説明可能な人工知能(XAI)は、モデルによる決定を理解するためにユーザーに追加の情報を提供するが、この追加の知識はプライバシー攻撃に対する追加のリスクをもたらす。したがって、説明を提供することはプライバシーを損なう」

プライベートデータの再同定

機械学習データセットに参加する人は、匿名性を前提として参加したかもしれません。Personal Identifiable Information(PII)がAIシステムに社会ネットワークを介してアドホックなデータ収集によって入力される場合、参加は技術的には合法ですが、「同意」の概念を歪める可能性があります。

最近の年々、明らかに不透明な機械学習データフローからPIIを匿名化解除することができるいくつかの方法が登場しています。モデル抽出は、APIアクセス(「ブラックボックス」アクセス、ソースコードやデータの特別な利用可能性なし)を使用して、Amazon Web Servicesを含む高スケールMLaaSプロバイダーからPIIを抽出します。メンバーシップ推論攻撃(MIAs)は、同様の制約の下で動作し、機密医療情報を取得する可能性があります。属性推論攻撃(AIAs)は、API出力から機密データを回復することができます。

顔の露呈

新しい論文では、研究者は、IDを顔の感情データのサブセットから取得することを目的としたモデルインバージョン攻撃に焦点を当てました。

システムの目的は、インターネット上で見つかった画像(カジュアルに投稿されたものや潜在的なデータ漏洩)を、機械学習アルゴリズムを裏付けるデータセットへの含有と関連付けることでした。

研究者は、元のアーキテクチャへの特別なアクセスなしに、匿名化されたAPI出力から寄与する画像を再構築できるように、インバージョン攻撃モデルをトレーニングしました。以前のこの分野の研究は、保護または露呈がターゲットシステムと攻撃システムの両方の目的であったシステムに焦点を当てていました。この場合、フレームワークは、1つのドメインの出力を利用して、別のドメインに適用するように設計されています。

転置された畳み込みニューラルネットワーク(CNN)は、U-Netアーキテクチャを使用して、感情認識システムのターゲット予測ベクトル(顕著性マップ)に基づいて「元の」ソース顔の予測を行い、顔の再構築パフォーマンスを向上させました。

再同定システムは、説明可能なAI(XAI)によって動作し、多数の公開XAIの側面の1つであるニューロン活性化の知識を利用して、アーキテクチャの内部の仕組みをその出力のみから再構築し、寄与データセット画像の再同定を可能にする。

再同定システムは、説明可能なAI(XAI)によって動作し、多数の公開XAIの側面の1つであるニューロン活性化の知識を利用して、アーキテクチャの内部の仕組みをその出力のみから再構築し、寄与データセット画像の再同定を可能にする。

テスト

システムをテストするために、研究者はそれを3つのデータセットに対して適用しました: iCV-MEFED顔の表情; CelebA; およびMNIST手書き数字。研究者が使用したモデルのサイズに合わせて、3つのデータセットはそれぞれ128×128、265×256、32×32ピクセルにリサイズされました。各セットの50%がトレーニングデータとして使用され、残りの半分が攻撃データセットとして使用され、対立モデルのトレーニングに使用されました。

各データセットには異なるターゲットモデルがあり、各攻撃ネットワークは、説明の一般化を超える複雑さを持つより深いニューラルモデルを使用するのではなく、プロセスを裏付ける説明の制限に合わせてスケーリングされました。

XAI説明タイプには、勾配説明勾配入力Grad-CAM、およびレイヤーごとの関連性伝播(LRP)が含まれていました。研究者はまた、複数の説明を実験全体で評価しました。

XAI認識インバージョン攻撃を使用した3つのデータセット全体での画像の再構築。ターゲットタスクと攻撃タスクは同じです。

XAI認識インバージョン攻撃を使用した3つのデータセット全体での画像の再構築。ターゲットタスクと攻撃タスクは同じです。

テストの指標は、平均二乗誤差(MSE)によって評価されるピクセルごとの類似性でした。画像の類似性(SSIM)は、知覚に基づいた類似性指数です。攻撃の精度は、分類器が再構築された画像を成功的に再ラベルできるかどうかで決定されます。攻撃埋め込みの類似性は、既知のソースデータの特徴埋め込みと再構築されたデータを比較します。

すべてのセットで、再同定が達成され、タスクとデータセットに応じてさまざまなレベルでした。さらに、研究者は、サロゲートターゲットモデル(研究者が完全に制御できる)を組み立てることで、既知のXAI原則に基づいて、外部の「クローズド」モデルからのデータの再同定も達成できることを発見しました。

研究者は、活性化ベース(顕著性マップ)の説明から最も正確な結果が得られたことを発見し、これらは感度ベース(勾配ベース)のアプローチよりもPIIを漏らしました。

将来の研究では、チームは、特徴視覚化概念活性化ベクトルなどの新しい攻撃にさまざまな種類のXAI説明を組み込むことを意図しています。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。