Artificial Intelligence

敵対的な例による自然言語処理システムの攻撃

更新中 on 2022 年 12 月 9 日

英国とカナダの研究者らは、自然言語処理 (NLP) システムに対する一連のブラックボックス型敵対攻撃を考案しました。これは、Google、Facebook、IBM、Microsoft が広く導入しているシステムを含む、広く普及している言語処理フレームワークに対して効果的です。

この攻撃は、機械学習翻訳システムに意味のないものを強制したり、実際に翻訳の性質を変更させたりすることによって、システムを機能不全にするために使用される可能性があります。 NLP モデルのトレーニングのボトルネックに。有害なコンテンツを誤って分類すること。インデックス作成に欠陥を生じさせ、検索エンジンの結果を汚染する。検索エンジンが、人が完全に読み取れる悪意のあるコンテンツまたは否定的なコンテンツを識別できないようにすること。さらには、NLP フレームワークに対してサービス拒否 (DoS) 攻撃を引き起こすこともあります。

著者らは、この論文で提案されている脆弱性を、研究で取り上げられている製品を所有するさまざまな匿名の関係者に開示していますが、NLP 業界は敵対的攻撃から身を守るのが遅れていると考えています。論文には次のように述べられています。

「これらの攻撃は、目に見えない文字や同形文字などの言語コーディング機能を悪用します。これらは過去にスパムやフィッシング詐欺で時折見られましたが、現在大規模に導入されている多くの NLP システムの設計者はそれらを完全に無視していたようです。」

攻撃のいくつかは、ローカルにインストールされた NLP フレームワークの FOSS バージョンではなく、MLaaS システムへの API 呼び出しを介して、可能な限り「ブラックボックス」環境で実行されました。システムの総合的な効果について、著者は次のように書いています。

すべての実験は、無制限のモデル評価が許可されるブラックボックス設定で実行されましたが、評価されたモデルの重みや状態へのアクセスは許可されません。これは、商用の Machine Learning-as-a-Service (MLaaS) 製品に対する攻撃を含め、ほぼすべての設定で攻撃の可能性がある最も強力な脅威モデルの XNUMX つを表しています。調査されたすべてのモデルは、知覚できない摂動攻撃に対して脆弱でした。

「これらの攻撃の適用可能性は、理論上、適切な防御策が講じられていないテキストベースの NLP モデルに一般化されるはずであると私たちは考えています。」

　紙というタイトルです 悪い文字: 知覚できない NLP 攻撃、ケンブリッジ大学とエディンバラ大学の XNUMX 学部の XNUMX 人の研究者と、トロント大学の XNUMX 人の研究者によるものです。

論文のタイトルは模範的です。論文には、研究者が採用した XNUMX つの主要な攻撃手法の XNUMX つの基礎を形成する「知覚できない」Unicode 文字が埋め込まれています。

論文のタイトルにも謎が隠されています。

メソッド

この論文では、次の XNUMX つの主な効果的な攻撃方法を提案しています。 見えない文字; 同形文字、および 並べ替え。これらは、研究者らがブラックボックスシナリオの NLP フレームワークに対して広範囲に適用できることを発見した「普遍的な」手法です。の使用を伴う追加の方法削除この文字は、オペレーティングシステムのクリップボードを使用する特殊な NLP パイプラインにのみ適していることが研究者によって判明しました。

1: 見えない文字

この攻撃では、Unicode システムのグリフにマップされないフォント内のエンコードされた文字が使用されます。 Unicode システムは電子テキストを標準化するために設計されており、現在では複数の言語および記号グループにわたる 143,859 文字をカバーしています。これらのマッピングの多くには、フォントに表示される文字が含まれません (当然のことながら、Unicode で考えられるすべてのエントリの文字を含めることはできません)。

論文からは、不可視の文字を使用した攻撃の仮想的な例が示されています。この攻撃では、単語が自然言語処理システムにとって何の意味も持たないセグメントに分割されるか、注意深く作成されていれば、正確な翻訳とは異なる意味になる可能性があります。カジュアルな読者にとっては、原文は正しいものです。

論文からは、目に見えない文字を使用した攻撃の仮想的な例が示されています。これは、入力単語を、自然言語処理システムにとって何の意味も持たないセグメントに分割するか、慎重に作成された場合は正確な翻訳を妨げる可能性があります。カジュアルな読者にとっては、どちらの場合も原文は正しいものです。出典：https://arxiv.org/pdf/2106.09898.pdf

通常、これらの非文字のいずれかを使用して幅ゼロのスペースを作成することはできません。これは、ほとんどのシステムが「プレースホルダ」記号 (斜めのボックス内の四角形や疑問符など) をレンダリングして、幅ゼロのスペースを作成するためです。認識されていない文字。

しかし、論文が述べているように、現在のコンピューティングシーンを支配しているフォントはほんの一握りであり、当然のことながら、それらのフォントは Unicode 標準に準拠する傾向があります。

したがって研究者らは、GNU の Unifont グリフを実験に選択しました。その理由の XNUMX つは、GNU が Unicode を「確実にカバーしている」ことだけでなく、NLP システムに供給される可能性が高い他の多くの「標準」フォントに似ているためでもあります。 Unifont から生成された非表示文字はレンダリングされませんが、テストされた NLP システムでは表示文字としてカウントされます。

アプリケーション
論文自体の「細工された」タイトルに戻ると、選択したテキストから Google 検索を実行しても期待した結果が得られないことがわかります。

これはクライアント側の影響ですが、サーバー側への影響はもう少し深刻です。同紙は次のように述べている。

「たとえ摂動された文書が検索エンジンのクローラーによってクロールされたとしても、その文書のインデックス作成に使用される用語は摂動の影響を受けるため、摂動されていない用語での検索ではその文書が表示される可能性は低くなります。したがって、文書を検索エンジンから「一目瞭然」に隠すことが可能です。

「応用例としては、不正な企業が財務書類に含まれるネガティブな情報をマスクして、株式アナリストが使用する専門の検索エンジンが情報を検出できないようにすることが考えられます。」

「目に見えないキャラクター」による攻撃の効果が低いことが判明した唯一のシナリオは、有害なコンテンツ、固有表現認識 (NER)、感情分析モデルに対するものでした。著者らは、これは、非表示の文字も含まれるデータでモデルがトレーニングされたか、モデルのトークナイザー (生の言語入力をモジュール式コンポーネントに分割する) がすでにそれらを無視するように構成されていたためであると推測しています。

2: ホモグリフ

ホモグリフとは、別の文字に似た文字です。意味上の弱点を利用して 2000 年に悪用されました。詐欺レプリカ PayPal 支払い処理ドメインの。

この論文の仮説的な例では、ホモグリフ攻撃により、一般的なラテン文字が視覚的に区別できないホモグリフ (赤で囲まれた部分) に置き換えられ、翻訳の意味が変化します。

著者のコメント*:

「私たちは、機械学習モデルが次のような処理を行うことを発見しました。 ニューラル機械翻訳システムなどのユーザーが提供したテキストは、このスタイルの攻撃に対して特に脆弱です。たとえば、市場をリードするサービスを考えてみましょう。 Google翻訳。書き込み時に「」という文字列を入力すると、ペイパ英語で「l」 ロシアのモデルでは正しく出力されます。ペイパルl」ですが、置き換えます 入力内のラテン文字 a とキリル文字 а 誤って「папа」（英語で「父」）を出力します。

研究者らは、多くの NLP パイプラインは、その言語固有の辞書外にある文字を、 (「不明」) トークンを使用すると、有害なテキストをパイプラインに呼び出すソフトウェアプロセスが、この安全対策が開始される前に、評価のために未知の単語を伝播する可能性があります。著者らは、これは次のように述べています。 「驚くほど大きな攻撃対象領域を開く」.

3: 並べ替え

Unicode では、Unicode の双方向 (ビディ) アルゴリズム。したがって、単一の文字列内に右から左への文字と左から右への文字が混在することは混乱を招くため、Unicode では特殊な制御文字による BIDI のオーバーライドを許可することでこれを考慮しています。これらにより、固定されたエンコード順序でほぼ任意のレンダリングが可能になります。

論文の別の理論的な例では、翻訳メカニズムが間違った右から左/左から右のエンコーディングに従っているため、翻訳されたテキストのすべての文字が間違った順序で配置されます。そうするよう命令する敵対的なソーステキスト（丸で囲んだ部分）。

著者らは、この論文の執筆時点では、この方法は、Google の Chrome ブラウザの上流ソースである Chromium Web ブラウザ、Microsoft の Edge ブラウザ、およびその他のかなりの数のフォークにおける Unicode 実装に対して効果的であったと述べています。

また：削除

その後の結果グラフが明確になるように、ここに含めます。削除攻撃には、バックスペースまたはその他のテキストに影響を与えるコントロール/コマンドを表す文字が含まれます。これらは、テキストマクロに似たスタイルで言語読み取りシステムによって効果的に実装されます。

著者らは次のように観察しています。

'Unicode の少数の制御文字により、 隣接するテキストが削除されます。最も単純な例は、バックスペース (BS) 文字と削除 (DEL) 文字です。キャリッジリターン (CR) を使用すると、テキストレンダリングアルゴリズムが行の先頭に戻り、その内容が上書きされます。

'ために たとえば、「こんにちは」を表すエンコードされたテキスト CRさようなら World」は「Goodbye」として表示されます。 世界"。'

前述したように、この攻撃が機能するには事実上、ありえないレベルのアクセスが必要であり、システム的にかどうかにかかわらず、クリップボード経由でコピーアンドペーストされたテキスト、つまり珍しい NLP インジェストパイプラインでのみ完全に効果を発揮します。

とにかく研究者たちはそれをテストしましたが、その安定した仲間と同等のパフォーマンスを示しました。ただし、最初の XNUMX つの方法を使用した攻撃は、ドキュメントまたは Web ページをアップロードするだけで実装できます (検索エンジンや Web スクレイピング NLP パイプラインに対する攻撃の場合)。

削除攻撃では、細工された文字がその前にあるものを効果的に消去するか、または単一行のテキストを XNUMX 番目の段落に強制的に挿入しますが、どちらの場合も、一般の読者にはそれが明らかではありません。

現在の NLP システムに対する有効性

研究者らは、Facebook、IBM、Microsoft、Google、HuggingFace の XNUMX つの人気のあるクローズドソースモデルと XNUMX つのオープンソースモデルにわたって、さまざまな非標的型攻撃および標的型攻撃を実行しました。

彼らはまたテストしました「スポンジ」攻撃モデルに対して。スポンジ攻撃は、NLP システムにとって事実上 DoS 攻撃であり、入力テキストが「計算されない」ため、トレーニングの重大な速度低下を引き起こします。このプロセスは通常、データの前処理によって不可能にされるはずです。

評価された XNUMX つの NLP タスクは、機械翻訳、有害なコンテンツの検出、テキスト含意分類、固有表現認識、センチメント分析でした。

テストは、それぞれが Ubuntu 上で Intel Xeon Silver 100 CPU を実行する不特定多数の Tesla P4110 GPU で実施されました。 API 呼び出しを行う場合に利用規約に違反しないように、実験は摂動バジェット XNUMX (ソーステキストに影響なし) ～ XNUMX (最大の混乱) で一律に繰り返されました。研究者らは、より多くの反復が許可されれば、得られた結果を超える可能性があると主張しています。

Facebook の Fairseq EN-FR モデルに対して敵対的な例を適用した結果。

Facebook に対して敵対的な例を適用した結果フェアセック EN-FRモデル。

IBM の有害なコンテンツ分類子と Google の Perspective API に対する攻撃の結果。

IBM に対する攻撃の結果有毒成分分類器とGoogleのパースペクティブ API.

Facebook の Fairseq に対する XNUMX つの攻撃: 「ターゲットを絞っていない」攻撃は混乱を目的とし、「ターゲットを絞った」攻撃は翻訳された言語の意味を変更することを目的としています。

研究者らはさらに、同じ方法で「人間が読める」混乱テキストを生成できなかった以前のフレームワークに対してシステムをテストし、そのシステムがこれらのフレームワークとほぼ同等であり、ステルスという大きな利点を維持しながら、多くの場合著しく優れていることを発見しました。

すべての手法、攻撃ベクトル、ターゲットの平均有効性は、実行される反復がほとんどなく、約 80% で推移しています。

研究者らは結果について次のように述べています。

「おそらく、私たちの知覚できない摂動攻撃の最も憂慮すべき側面は、その適用範囲が広いことです。私たちがテストしたテキストベースの NLP システムはすべて影響を受けます。」実際、ユーザーが指定したテキストを入力として取り込む機械学習モデルは、理論的にはこの攻撃に対して脆弱です。

「敵対的な影響はアプリケーションごと、モデルごとに異なる可能性がありますが、すべてのテキストベースのモデルはエンコードされたテキストに基づいており、コーディングが適切に制限されない限り、すべてのテキストは敵対的なエンコードの対象となります。」

ユニバーサル光学式文字認識?

これらの攻撃は、Unicode の事実上の「脆弱性」に依存しており、すべての受信テキストをラスタライズし、サニタイズ手段として光学式文字認識を使用する NLP パイプラインで回避されます。その場合、これらの混乱した攻撃を読んでいる人々に見えるのと同じ悪意のない意味論的な意味が NLP システムに渡されることになります。

しかし、研究者らがこの理論をテストするために OCR パイプラインを実装したところ、BLEU (バイリンガル評価アンダースタディー) スコアはベースライン精度を 6.2% 低下させ、これを改善するには OCR テクノロジーの改善がおそらく必要であることを示唆しています。

彼らはさらに、デフォルトで BIDI 制御文字を入力から削除し、異常なホモグリフをマッピングしてインデックスを作成し (これを「気の遠くなる作業」と特徴付けています)、トークナイザーやその他の取り込みメカニズムを目に見えない文字に対して備えるべきであると提案しています。

最後に、研究グループは、NLP 分野に対して、現在コンピュータービジョン研究で大きな関心が寄せられている分野である敵対的攻撃の可能性に対して、より警戒するよう求めています。

「悪意のある行為者に対してアプリケーションを堅牢にしたい場合、テキストベースの NLP システムを構築および展開するすべての企業がそのような防御を実装することをお勧めします。」

* インライン引用をハイパーリンクに変換しました

18 年 08 月 14 日 2021:XNUMX – IBM に関する重複した言及を削除し、自動内部リンクを引用から移動 – MA