スタブ Explainable AI は機密データをより簡単に放棄できる可能性がある - Unite.AI
私達と接続

サイバーセキュリティ

Explainable AI は機密データをより簡単に放棄する可能性がある

mm

公開済み

 on

シンガポール国立大学の研究者らは、AI の説明可能性が高まるほど、機械学習システムにおける重要なプライバシー機能の回避が容易になると結論付けています。彼らはまた、モデルが説明不可能な場合でも、同様のモデルの説明を使用して、説明不可能なモデル内の機密データを「解読」できることも発見しました。

  研究、題し モデル反転攻撃の説明を悪用するは、ニューラル ネットワークの機能における「偶然の」不透明性をあたかも設計上のセキュリティ機能であるかのように使用することのリスクを強調しています。これは特に、欧州連合を含む新たな世界的取り組みの波が影響しているためです。 AI規制の草案持っている 特徴付ける 社会における機械学習の最終的な正規化の前提条件としての説明可能な AI (XAI)。

この研究では、機械学習システムの複数の説明を利用することで、顔の表情に関連するおそらく匿名のデータから実際のアイデンティティを再構築することに成功しました。 出典: https://arxiv.org/pdf/2108.10800.pdf

この研究では、機械学習システムの複数の説明を利用することで、顔の表情に関連するおそらく匿名のデータから実際のアイデンティティを再構築することに成功しました。 出典:https://arxiv.org/pdf/2108.10800.pdf

研究者らは次のようにコメントしている。

「説明可能な人工知能 (XAI) は、ユーザーがモデルの決定を理解するのに役立つより多くの情報を提供しますが、この追加の知識によりプライバシー攻撃のさらなるリスクが明らかになります。 したがって、説明を行うことはプライバシーを侵害することになります。」

個人データの再識別

機械学習データセットの参加者は、匿名性を前提として含まれることに同意している可能性があります。 アドホックなデータ収集 (ソーシャル ネットワークなど) を介して AI システムに到達する個人識別情報 (PII) の場合、参加は技術的には合法かもしれませんが、「同意」の概念に負担がかかります。

近年、一見不透明な機械学習データ フローから PII を匿名化できないことが証明されたいくつかの方法が登場しました。 モデル抽出 API アクセス (つまり、ソース コードやデータを特別に利用できない「ブラック ボックス」アクセス) を使用して、大規模な MLaaS プロバイダーからでも PII を抽出します。 アマゾン ウェブ サービスを含む、メンバーシップ推論攻撃 (MIA)、同様の制約の下で動作すると、潜在的に 入手する 機密の医療情報。 さらに、属性推論攻撃 (AIA) も可能です。 機密データを回復する API 出力から。

顔を明らかにする

新しい論文では、研究者らは、情報を明らかにすべきではない顔の感情データのサブセットからアイデンティティを取得するように設計されたモデル反転攻撃に焦点を当てました。

このシステムの目的は、実際に発見された画像 (インターネット上に何気なく投稿された画像、または潜在的なデータ侵害の画像) を、機械学習アルゴリズムを支えるデータセットに含まれる画像と関連付けることでした。

研究者らは、元のアーキテクチャに特別にアクセスすることなく、匿名化された API 出力から寄与画像を再構築できる反転攻撃モデルをトレーニングしました。 この分野におけるこれまでの研究は、ターゲット システムと攻撃システムの両方の目的が識別 (保護または暴露) であるシステムに集中していました。 この場合、フレームワークは、XNUMX つのドメインの出力を活用し、それを別のドメインに適用するように設計されています。

A 転置 畳み込みニューラル ネットワーク (CNN) は、感情認識システムのターゲット予測ベクトル (顕著性マップ) に基づいて「元の」ソースの顔を予測するために採用されました。 U-Netアーキテクチャ 顔の再構築パフォーマンスを向上させるため。

再識別システムは、Explainable AI (XAI) によって強化され、情報を提供します。このシステムでは、多くの寄与する公開 XAI ファセットの中で、ニューロンの活性化に関する知識を利用して、その出力からのみアーキテクチャの内部の陰謀を再構築し、寄与している AI の再識別を可能にします。データセットの画像。

再識別システムは、Explainable AI (XAI) によって強化され、情報を提供します。このシステムでは、多くの寄与する公開 XAI ファセットの中で、ニューロンの活性化に関する知識を利用して、その出力からのみアーキテクチャの内部の陰謀を再構築し、寄与している AI の再識別を可能にします。データセットの画像。

テスト

システムをテストする際、研究者らはそれを XNUMX つのデータセットに対して適用しました。  iCV-MEFED 顔の表情。 セレブA、および MNIST 手書き数字。 研究者が使用しているモデルのサイズに合わせて、128 つのデータセットのサイズをそれぞれ 128×265、256×32、32×50 ピクセルに変更しました。 各セットの XNUMX% はトレーニング データとして使用され、残りの半分はアンタゴニスト モデルをトレーニングするための攻撃データセットとして使用されました。

各データセットには異なるターゲット モデルがあり、各攻撃ネットワークは、説明の一般化を超える複雑さのより深いニューラル モデルを使用するのではなく、プロセスを支える説明の制限に合わせて拡張されました。

試行を強化するために使用される XAI 説明タイプが含まれています グラデーションの説明, 勾配入力, 卒業生CAM およびレイヤーごとの関連性の伝播 (LRP)。 研究者らはまた、実験全体にわたって複数の説明を評価しました。

同一のターゲットと攻撃タスクを特徴とする XNUMX つのデータセットにわたる XAI 認識反転攻撃によって画像再構築が促進されました。

同一のターゲットと攻撃タスクを特徴とする XNUMX つのデータセットにわたる XAI 認識反転攻撃によって画像再構築が促進されました。

テストのメトリクスは、ピクセルごとの類似性を次のように評価しました。 平均二乗誤差 (MSE); 画像の類似性 (SSIM)、知覚に基づく類似性インデックス。 攻撃の精度は、分類器が再構成された画像の再ラベル付けに成功するかどうかによって決まります。 もう XNUMX つは、既知のソース データの特徴埋め込みを再構成されたデータと比較する埋め込み類似性攻撃です。

再識別は、タスクとデータセットに応じてさまざまなレベルで、すべてのセットにわたって達成されました。 さらに、研究者らは、代理ターゲット モデル (当然完全に制御できるモデル) を作成することによって、既知の XAI 原理に基づいて、外部の「閉じた」モデルからのデータの再識別を達成できることを発見しました。

研究者らは、最も正確な結果は活性化ベース (顕著性マップ) の説明によって得られ、感度ベース (勾配) のアプローチよりも多くの PII が漏洩することを発見しました。

将来の研究では、チームは、次のようなさまざまな種類の XAI の説明を新しい攻撃に組み込む予定です。 機能の視覚化 & 概念活性化ベクトル.