サイバーセキュリティ4 years ago
API出力を通じた機械学習モデルの窃取
カナダからの新たな研究は、攻撃者が高額な機械学習フレームワークの成果を盗む可能性のある手法を示唆している。これは、独自システムへのアクセスが高度にサニタイズされ、一見強固に防御されたAPI(ユーザークエリをサーバー側で処理し、出力レスポンスのみを返すインターフェースまたはプロトコル)のみを通じて行われる場合でも可能だという。 研究セクターが、機械学習サービス(MLaaS)の実装を通じて高コストなモデルトレーニングを収益化することにますます注目する中、この新しい研究は、自己教師あり学習(SSL)モデルがこの種のモデル流出に対してより脆弱であることを示唆している。なぜなら、それらはユーザーラベルなしでトレーニングされるため抽出が簡素化され、また、(隠された)ソースモデルを複製したい者にとって有用な情報を大量に含む結果を提供することが典型的だからだ。 「ブラックボックス」テストシミュレーション(研究者がローカルの「被害者」モデルへのアクセスを、ウェブAPIを通じた典型的なエンドユーザーが持つ以上のものとしない条件)において、研究者は比較的少ないリソースでターゲットシステムを複製することができた: 「[我々の]攻撃は、被害者モデルのトレーニングに使用されたクエリ数の5分の1未満で、かなりの下流タスク性能を達成する被害者モデルのコピーを盗むことができる。ImageNetの120万のラベルなしサンプルでトレーニングされ、下流のFashion-MNIST分類タスクで91.9%の精度を持つ被害者モデルに対して、InfoNCE損失を用いた我々の直接抽出攻撃は、20万クエリで90.5%の精度を達成するエンコーダのコピーを盗んだ。「同様に、CIFAR10の5万のラベルなしサンプルでトレーニングされ、下流のCIFAR10分類タスクで79.0%の精度を持つ被害者モデルに対して、SoftNN損失を用いた我々の直接抽出攻撃は、9,000クエリで76.9%の精度を達成するコピーを盗んだ。」 研究者はまた、教師ありモデルを攻撃から保護するのに適した方法は、教師なしでトレーニングされたモデルにはうまく適応しないと指摘している。そのようなモデルは、画像合成セクターで最も期待され、称賛されている成果の一部を代表しているにもかかわらずだ。 新しい論文は、On the Difficulty of Defending Self-Supervised Learning against Model Extraction(自己教師あり学習のモデル抽出に対する防御の難しさについて)と題され、トロント大学とベクター人工知能研究所からのものだ。 自己認識 自己教師あり学習では、モデルはラベルなしデータでトレーニングされる。ラベルがないため、SSLモデルはデータの暗黙的な構造から関連性やグループを学習し、データの類似した側面を探し、これらの側面を徐々にノードまたは表現へと集約しなければならない。 SSLアプローチが有効な場合、それは非常に生産的である。なぜなら、クラウドワーカーによる高価で(しばしば外部委託され、議論の的となる)分類の必要性を回避し、本質的にデータを自律的に合理化するからだ。 新しい論文の著者らが検討した3つのSSLアプローチは、Siamese NetworkであるSimCLR;表現学習に焦点を当てた別のSiamese NetworkであるSimSiam;そして2021年のリリース時に最先端のImageNet分類器性能を達成したSSLアプローチであるBarlow Twinsである。 ラベル付きデータ(すなわち、教師あり学習を通じてトレーニングされたモデル)のためのモデル抽出は、比較的よく文書化された研究分野である。また、攻撃者が被害者モデルを再現するためにそのラベルを取得しなければならないため、防御も容易である。 ホワイトボックスアクセスがない場合、これは些細なタスクではない。なぜなら、そのようなモデルへのAPIリクエストからの典型的な出力は、典型的なSSL APIよりも少ない情報しか含まないからだ。 論文*より:...