人工知能
コンピュータビジョンデータセットの無許可使用に対する保護

中国の研究者は、コンピュータビジョンのトレーニングに使用される画像データセットを著作権保護する方法を開発しました。データ内の画像に「ウォーターマーク」を付けることで、クラウドベースのプラットフォームを介して、認可されたユーザーのみが「クリーン」な画像を復号化できるようにします。
このシステムのテストでは、著作権保護された画像で機械学習モデルをトレーニングすると、モデルの精度が大幅に低下することがわかりました。2つの人気のあるオープンソース画像データセットを使用してテストを行った結果、86.21%と74.00%の精度を38.23%と16.20%に低下させることができました。

論文から – 左から右へ、クリーン、保護(例:歪んだ)および回復された画像の例。 ソース: https://arxiv.org/pdf/2109.07921.pdf
これにより、高品質で高価なデータセットを広く公開し、デモ用のトレーニングデータセットを提供することが可能になります。
クラウドベースのデータセット認証
論文は、南京航空航天大学の2つの学部から来ています。データセット管理クラウドプラットフォーム(DMCP)を使用して、Adobe Creative Suiteのようなローカルインストールで一般的になっているテレメトリベースの事前検証と同じ種類のリモート認証フレームワークを提供することを想定しています。
保護された画像は、2019年にノースカロライナ州デューク大学で開発された特徴空間の摂動という手法を使用して生成されます。

特徴空間の摂動は、画像の特徴を攻撃画像の特徴空間に押し付ける「アクティベーション攻撃」を実行します。この場合、犬を飛行機として分類するように機械学習の認識システムを強制します。 ソース: https://openaccess.thecvf.com
次に、ブロックペアリングとブロック変換を使用して、歪んだ画像に未変更の画像を埋め込みます。2016年の論文 Reversible Data Hiding in Encrypted Images by Reversible Image Transformationで提案されています。
ブロックペアリング情報を含むシーケンスは、AES暗号化を使用して一時的な画像に埋め込まれます。ここで、キーは認証時にDMCPから取得されます。 最も重要なビット ステガノグラフィー アルゴリズムは、キーを埋め込むために使用されます。著者は、このプロセスを修正可能な画像変換(mRIT)と呼んでいます。
mRIT ルーチンは、復号化時に基本的に逆転され、トレーニング セッションで使用するために「クリーン」な画像が復元されます。
テスト
研究者は、ResNet-18 アーキテクチャを使用して、2 つのデータセットでシステムをテストしました。2009 年の CIFAR-10 とスタンフォードの TinyImageNet です。
ResNet モデルは、3 つの構成 (クリーン、保護、復号化) から 0 からトレーニングされました。両方のデータセットでは、Adam オプティマイザを使用し、初期学習率は 0.01、バッチ サイズは 128、トレーニング エポックは 80 でした。

暗号化システムのテストからのトレーニングとテストの精度。復号化された画像 (復元された画像) のトレーニング統計では、わずかな損失が観察されます。
論文では「回復されたデータセットでのモデルのパフォーマンスは影響を受けない」と結論付けていますが、結果は、CIFAR-10 の場合、86.21%から 85.86%、TinyImageNet の場合、74.00%から 73.20%への精度のわずかな低下を示しています。
ただし、シードのわずかな変更 (および GPU ハードウェア) がトレーニングのパフォーマンスに与える影響を考えると、これは IP 保護に対する精度の妥当なトレードオフであると考えられます。
モデル保護の状況
以前の研究は、主に実際の機械学習モデルを IP 保護することに集中しており、トレーニング データ自体は保護するのが難しいと考えられてきました。2018 年の日本の研究では、ウォーターマークを埋め込む 方法が提案されました。2017 年の以前の研究では、同様のアプローチ が提示されました。
2018 年の イニシアチブ では、IBM から、ニューラル ネットワーク モデルに対するウォーターマークの潜在能力に関する最も深く、最もコミットされた調査が行われました。このアプローチは、新しい研究とは異なり、トレーニング データに非可逆的なウォーターマークを埋め込み、ニューラル ネットワーク内にフィルタを使用してデータの摂動を「割り引く」ことを目的としていました。

IBM のスキームは、ウォーターマークを認識して破棄するように設計されたデータのセクションを保護するアーキテクチャの部分を保護することに依存していました。 ソース: https://gzs715.github.io/pubs/WATERMARK_ASIACCS18.pdf
海賊行為のベクトル
データセットの暗号化フレームワークを IP 保護することへの関心は、オープンソースのレビューとグローバル研究コミュニティ間の情報の共有に依存しているマシンラーニングの文化の文脈では、エッジケースのように思えるかもしれません。ただし、プライバシー保護の身分保護アルゴリズムへの関心は、企業が特定のデータを保護することに興味を持つ場合に、関連するシステムを生み出す可能性があります。
新しい研究では、画像データにランダムな摂動を追加するのではなく、特徴空間の工夫された、強制的なシフトが行われます。したがって、ウォーターマークの除去と画像の強化に関するコンピュータビジョンのプロジェクトは、人間が認識できる画像の品質を高めることなく、特徴の摂動を「復元」することができます。
コンピュータビジョンの多くのアプリケーション、特にラベリングとエンティティの認識を伴うものでは、不正に復元された画像は、依然としてミス分類を引き起こす可能性があります。ただし、画像変換が主な目的である場合 (例: 顔生成またはディープフェイク アプリケーション)、アルゴリズムによって復元された画像は、機能的なアルゴリズムの開発に依然として役立つ可能性があります。













