私達と接続

この XNUMX 年間の最も重要な問題を解決する XNUMX つのプライバシー保護機械学習テクニック

ソートリーダー

この XNUMX 年間の最も重要な問題を解決する XNUMX つのプライバシー保護機械学習テクニック

mm

公開済み

 on

機械学習および AI 研究者、Amogh Tarcar 著 永続的なシステム。

幅広い分野の専門家によると、データプライバシーは、 このXNUMX年間で最も重要な問題。 これは、アルゴリズムに大量のデータが供給される機械学習 (ML) に特に当てはまります。

従来、ML モデリング技術は、複数のソースからのデータを単一のデータセンターに集中化することに依存していました。 結局のところ、ML モデルは、大量のデータにアクセスできるときに最も強力になります。 ただし、この技術にはプライバシーに関する多くの課題があります。 現在、HIPAA、GDPR、CCPA などの規制上の懸念により、複数のソースからの多様なデータを集約することは実現可能性が低くなります。 さらに、データを一元化すると、データ漏洩という形でデータの悪用やセキュリティ上の脅威の範囲と規模が増大します。

これらの課題を克服するために、プライバシー保護機械学習 (PPML​​) のいくつかの柱が、プライバシー リスクを軽減し、データの適切な安全性を確保する特定の技術を使用して開発されました。 最も重要なものをいくつか紹介します。

1.連合学習

連合学習 は、データ集約の問題をひっくり返す ML トレーニング手法です。 データを集約して単一の ML モデルを作成するのではなく、フェデレーテッド ラーニングは ML モデル自体を集約します。 これにより、データがソースの場所を離れることがなくなり、機密データを直接共有することなく、複数の関係者が協力して共通の ML モデルを構築できるようになります。

それはこのように動作します。 まず基本 ML モデルを作成し、それを各クライアント ノードと共有します。 これらのノードは、独自のデータを使用してこのモデルに対してローカル トレーニングを実行します。 モデルの更新はコーディネーター ノードと定期的に共有され、コーディネーター ノードはこれらの更新を処理し、それらを融合して新しいグローバル モデルを取得します。 このようにして、データセットを共有することなく、多様なデータセットから洞察を得ることができます。

出典: 永続システム

医療の文脈では、これは患者データを安全に保ちながら研究者に群衆の知恵を提供する、非常に強力でプライバシーに配慮したツールです。 データを集約しないことにより、フェデレーテッド ラーニングはセキュリティの追加レイヤーを XNUMX つ作成します。 ただし、モデルとモデルの更新自体は、脆弱なままにしておくと依然としてセキュリティ上のリスクをもたらします。

2.差分プライバシー

ML モデルは、メンバーシップ推論攻撃のターゲットになることがよくあります。 がんワクチンの開発を支援するために、自分の医療データを病院と共有することになったとします。 病院はデータを安全に保ちますが、フェデレーテッド ラーニングを使用して公開されている ML モデルをトレーニングします。 数か月後、ハッカーはメンバーシップ推論攻撃を使用して、データがモデルのトレーニングに使用されたかどうかを判断します。 その後、保険会社に洞察が渡され、保険会社はがんのリスクに基づいて保険料を引き上げる可能性があります。

差分プライバシーにより、ML モデルに対する敵対的な攻撃がトレーニング中に使用される特定のデータ ポイントを識別できないことが保証されるため、機械学習で機密トレーニング データが公開されるリスクが軽減されます。 これは、モデルのトレーニング中に「統計ノイズ」を適用してデータまたは機械学習モデルのパラメーターを混乱させることで行われ、攻撃を実行したり、特定の個人のデータがモデルのトレーニングに使用されたかどうかを判断したりすることが困難になります。

たとえば、Facebook が最近リリースした オーパクスは、Differentially Private Stochastic Gradient Descent (DP-SGD) と呼ばれる、差分プライバシー ベースの機械学習トレーニング アルゴリズムを使用して PyTorch モデルをトレーニングするための高速ライブラリです。以下の gif は、ノイズを使用してデータをマスクする方法を示しています。

 

このノイズは、イプシロンと呼ばれるパラメータによって制御されます。 イプシロン値が低い場合、モデルのデータ プライバシーは完璧ですが、実用性と精度が低くなります。 逆に、イプシロン値が高い場合、精度は向上しますが、データのプライバシーは低下します。 重要なのは、バランスをとって両方を最適化することです。

3. 準同型暗号

標準暗号化は従来、データが暗号化されると ML アルゴリズムで理解できなくなるため、機械学習と互換性がありません。 ただし、準同型暗号化は、特定の種類の計算を継続できるようにする特別な暗号化スキームです。

この利点は、完全に暗号化された空間でトレーニングを実行できることです。 データ所有者を保護するだけでなく、モデル所有者も保護します。 モデル所有者は、暗号化されたデータを見たり悪用したりすることなく、そのデータに対して推論を実行できます。

フェデレーション ラーニングに適用すると、モデルの更新の融合は完全に暗号化された環境で行われるため、安全に実行でき、メンバーシップ推論攻撃のリスクが大幅に軽減されます。

プライバシーの XNUMX 年

2021 年に入ると、プライバシー保護の機械学習は、非常に活発な研究が行われている新興分野です。 過去 XNUMX 年がデータのサイロ化の解消に関するものであるとすれば、この XNUMX 年は、フェデレーテッド ラーニング、差分プライバシー、準同型暗号化によって基盤となるデータのプライバシーを保護しながら、ML モデルのサイロ化を解消することに重点が置かれることになります。 これらは、プライバシーを意識した方法で機械学習ソリューションを進歩させるための有望な新しい方法を示しています。

Amogh は機械学習の研究者であり、AI Research Lab の一員です。 永続システム。 彼の現在の研究は、Federated Learning アプリケーションと知識抽出のための NLP ツールの構築に焦点を当てています。