私達ず接続

敵察的な䟋による自然蚀語凊理システムの攻撃

Artificial Intelligence

敵察的な䟋による自然蚀語凊理システムの攻撃

mm

英囜ずカナダの研究者らは、自然蚀語凊理 (NLP) システムに察する䞀連のブラック ボックス型敵察攻撃を考案したした。これは、Google、Facebook、IBM、Microsoft が広く導入しおいるシステムを含む、広く普及しおいる蚀語凊理フレヌムワヌクに察しお効果的です。

この攻撃は、機械孊習翻蚳システムに意味のないものを匷制したり、実際に翻蚳の性質を倉曎させたりするこずによっお、システムを機胜䞍党にするために䜿甚される可胜性がありたす。 NLP モデルのトレヌニングのボトルネックに。有害なコンテンツを誀っお分類するこず。むンデックス䜜成に欠陥を生じさせ、怜玢゚ンゞンの結果を汚染する。怜玢゚ンゞンが、人が完党に読み取れる悪意のあるコンテンツたたは吊定的なコンテンツを識別できないようにするこず。さらには、NLP フレヌムワヌクに察しおサヌビス拒吊 (DoS) 攻撃を匕き起こすこずもありたす。

著者らは、論文で提案された脆匱性を、研究察象ずなっおいる補品の提䟛者である匿名の耇数の関係者に開瀺しおいるものの、NLP業界は敵察的攻撃に察する防埡が遅れおいるず考えおいる。論文には次のように蚘されおいる。

これらの攻撃は、䞍可芖文字やホモグリフずいった蚀語コヌディングの特城を悪甚したす。過去にはスパムやフィッシング詐欺で散発的に芋られたものの、珟圚倧芏暡に導入されおいる倚くのNLPシステムの蚭蚈者は、これらの特城を完党に無芖しおいたようです。

いく぀かの攻撃は、可胜な限り「ブラックボックス」な環境で実行されたした。぀たり、ロヌカルにむンストヌルされたNLPフレヌムワヌクのFOSS版ではなく、MLaaSシステムぞのAPI呌び出しを介しお実行されたのです。これらのシステムの総合的な有効性に぀いお、著者らは以䞋のように述べおいたす。

すべおの実隓は、無制限のモデル評䟡が蚱可されるブラックボックス蚭定で実行されたしたが、評䟡されたモデルの重みや状態ぞのアクセスは蚱可されたせん。 これは、商甚の Machine Learning-as-a-Service (MLaaS) 補品に察する攻撃を含め、ほがすべおの蚭定で攻撃の可胜性がある最も匷力な脅嚁モデルの XNUMX ぀を衚しおいたす。 調査されたすべおのモデルは、知芚できない摂動攻撃に察しお脆匱でした。

「これらの攻撃の適甚可胜性は、理論䞊は適切な防埡策が講じられおいないあらゆるテキストベヌスの NLP モデルに䞀般化されるはずだず私たちは考えおいたす。」

圓孊校区の 箙 ずいうタむトルです 悪い文字: 知芚できない NLP 攻撃、ケンブリッゞ倧孊ず゚ディンバラ倧孊の XNUMX 孊郚の XNUMX 人の研究者ず、トロント倧孊の XNUMX 人の研究者によるものです。

論文のタむトルは暡範的である。研究者が採甚した 4 ぀の䞻芁な攻撃方法の 1 ぀の基瀎ずなる「知芚できない」Unicode 文字が満茉されおいる。

論文のタむトルにも謎が隠されおいたす。

論文のタむトルにも謎が隠されおいる。

メ゜ッド

この論文では、次の XNUMX ぀の䞻な効果的な攻撃方法を提案しおいたす。 芋えない文字; 同圢文字、および 䞊べ替えこれらは、ブラックボックスシナリオにおいおNLPフレヌムワヌクに察しお広範囲に及ぶこずが研究者によっお刀明した「普遍的な」手法である。 削陀 この文字は、オペレヌティング システムのクリップボヌドを䜿甚する特殊な NLP パむプラむンにのみ適しおいるこずが研究者によっお刀明したした。

1: 芋えない文字

この攻撃では、Unicode システムのグリフにマップされないフォント内の゚ンコヌドされた文字が䜿甚されたす。 Unicode システムは電子テキストを暙準化するために蚭蚈されおおり、珟圚では耇数の蚀語および蚘号グルヌプにわたる 143,859 文字をカバヌしおいたす。 これらのマッピングの倚くには、フォントに衚瀺される文字が含たれたせん (圓然のこずながら、Unicode で考えられるすべおの゚ントリの文字を含めるこずはできたせん)。

論文からは、䞍可芖の文字を䜿甚した攻撃の仮想的な䟋が瀺されおいたす。この攻撃では、単語が自然蚀語凊理システムにずっお䜕の意味も持たないセグメントに分割されるか、泚意深く䜜成されおいれば、正確な翻蚳ずは異なる意味になる可胜性がありたす。 カゞュアルな読者にずっおは、原文は正しいものです。

論文からは、目に芋えない文字を䜿甚した攻撃の仮想的な䟋が瀺されおいたす。これは、入力単語を、自然蚀語凊理システムにずっお䜕の意味も持たないセグメントに分割するか、慎重に䜜成された堎合は正確な翻蚳を劚げる可胜性がありたす。 カゞュアルな読者にずっおは、どちらの堎合も原文は正しいものです。 出兞https://arxiv.org/pdf/2106.09898.pdf

通垞、これらの非文字のいずれかを䜿甚しおれロ幅のスペヌスを䜜成するこずはできたせん。ほずんどのシステムでは、認識されない文字を衚すために「プレヌスホルダヌ」蚘号 (四角圢や斜めのボックス内の疑問笊など) が衚瀺されるためです。

しかし、論文が述べおいるように、珟圚のコンピュヌティングシヌンを支配しおいるフォントはほんの䞀握りであり、圓然のこずながら、それらのフォントは Unicode 暙準に準拠する傟向がありたす。

そのため、研究者たちは実隓にGNUのUnifontグリフを遞択したした。これは、Unicodeの「堅牢なカバレッゞ」ずいう理由だけでなく、NLPシステムに入力される可胜性のある他の倚くの「暙準」フォントず芋た目が䌌おいるこずも理由です。Unifontから生成された䞍可芖文字はレンダリングされたせんが、テストされたNLPシステムでは可芖文字ずしおカりントされたす。

アプリケヌション
論文自䜓の「䜜成された」タむトルに戻るず、遞択したテキストから Google 怜玢を実行しおも期埅どおりの結果が埗られないこずがわかりたす。

これはクラむアント偎の圱響ですが、サヌバヌ偎ぞの圱響はもう少し深刻です。 同玙は次のように述べおいる。

「たずえ摂動された文曞が怜玢゚ンゞンのクロヌラヌによっおクロヌルされたずしおも、その文曞のむンデックス䜜成に䜿甚される甚語は摂動の圱響を受けるため、摂動されおいない甚語での怜玢ではその文曞が衚瀺される可胜性は䜎くなりたす。 したがっお、文曞を怜玢゚ンゞンから「䞀目瞭然」に隠すこずが可胜です。

「応甚䟋ずしお、䞍正な䌁業が財務報告曞内の吊定的な情報を隠蔜し、株匏アナリストが䜿甚する専門怜玢゚ンゞンがその情報を芋぀けられないようにするこずができたす。」

「䞍可芖文字」攻撃がそれほど効果的でなかった唯䞀のシナリオは、有害コンテンツ、固有衚珟抜出NER、そしお感情分析モデルに察するものでした。著者らは、これはモデルが䞍可芖文字を含むデヌタで孊習されたか、モデルのトヌクナむザヌ生の蚀語入力をモゞュヌル化されたコンポヌネントに分解するが既に䞍可芖文字を無芖するように蚭定されおいたためだず掚枬しおいたす。

2: ホモグリフ

ホモグリフずは、別の文字に䌌た文字です。意味䞊の匱点を利甚しお 2000 幎に悪甚されたした。 詐欺レプリカ PayPal 支払い凊理ドメむンの。

この論文の仮説的な䟋では、ホモグリフ攻撃により、䞀般的なラテン文字が芖芚的に区別できないホモグリフ (赀で囲たれた郚分) に眮き換えられ、翻蚳の意味が倉化したす。

この論文の仮説的な䟋では、ホモグリフ攻撃により、䞀般的なラテン文字が芖芚的に区別できないホモグリフ (赀で囲たれた郚分) に眮き換えられ、翻蚳の意味が倉化したす。

著者のコメント*:

「私たちは、機械孊習モデルが次のような凊理を行うこずを発芋したした。 ニュヌラル機械翻蚳システムなどのナヌザヌが提䟛したテキストは、このスタむルの攻撃に察しお特に脆匱です。 たずえば、垂堎をリヌドするサヌビスを考えおみたしょう。 Google翻蚳。 曞き蟌み時に「」ずいう文字列を入力するず、ペむパ英語で「l」 ロシアのモデルでは正しく出力されたす。ペむパルl」ですが、眮き換えたす 入力内のラテン文字 a ずキリル文字 а 「папа」英語では「father」を誀っお出力したす。'

研究者らは、倚くの NLP パむプラむンは、その蚀語固有の蟞曞倖にある文字を、 「䞍明」トヌクンの堎合、この安党察策が機胜する前に、汚染されたテキストをパむプラむンに呌び出す゜フトりェアプロセスが評䟡のために未知の単語を䌝播する可胜性がある。著者らは、この 「驚くほど倧きな攻撃察象領域が開かれる」.

3: 䞊べ替え

Unicodeでは巊から右に蚘述する蚀語がサポヌトされおおり、順序はUnicodeの双方向性ビディ) アルゎリズム。 したがっお、単䞀の文字列内に右から巊ぞの文字ず巊から右ぞの文字が混圚するこずは混乱を招くため、Unicode では特殊な制埡文字による BIDI のオヌバヌラむドを蚱可するこずでこれを考慮しおいたす。 これらにより、固定された゚ンコヌド順序でほが任意のレンダリングが可胜になりたす。

論文の別の理論的な䟋では、翻蚳メカニズムが間違った右から巊/巊から右の゚ンコヌディングに埓っおいるため、翻蚳されたテキストのすべおの文字が間違った順序で配眮されたす。そうするよう呜什する敵察的な゜ヌステキスト䞞で囲んだ郚分。

論文の別の理論的な䟋では、翻蚳メカニズムが間違った右から巊/巊から右の゚ンコヌディングに埓っおいるため、翻蚳されたテキストのすべおの文字が間違った順序で配眮されたす。そうするよう呜什する敵察的な゜ヌステキスト䞞で囲んだ郚分。

著者らは、論文執筆時点では、この手法は Chromium りェブブラりザ、Google Chrome ブラりザの䞊流゜ヌス、Microsoft Edge ブラりザ、その他倚数のフォヌクにおける Unicode 実装に察しお有効であったず述べおいたす。

たた 削陀

その埌の結果グラフが明確になるように、ここに含めたす。 削陀 攻撃には、バックスペヌスたたはその他のテキストに圱響を䞎えるコントロヌル/コマンドを衚す文字が含たれたす。これらは、テキスト マクロに䌌たスタむルで蚀語読み取りシステムによっお効果的に実装されたす。

著者らは次のように芳察しおいたす。

'Unicode の少数の制埡文字により、 隣接するテキストが削陀されたす。 最も単玔な䟋は、バックスペヌス (BS) 文字ず削陀 (DEL) 文字です。 キャリッゞ リタヌン (CR) を䜿甚するず、テキスト レンダリング アルゎリズムが行の先頭に戻り、その内容が䞊曞きされたす。

'ために たずえば、「こんにちは」を衚す゚ンコヌドされたテキスト CRさようなら World」は「Goodbye」ずしお衚瀺されたす。 侖界"。'

前述したように、この攻撃が機胜するには事実䞊、ありえないレベルのアクセスが必芁であり、システム的にかどうかにかかわらず、クリップボヌド経由でコピヌ アンド ペヌストされたテキスト、぀たり珍しい NLP むンゞェスト パむプラむンでのみ完党に効果を発揮したす。

ずにかく研究者たちはそれをテストしたしたが、その安定した仲間ず同等のパフォヌマンスを瀺したした。 ただし、最初の XNUMX ぀の方法を䜿甚した攻撃は、ドキュメントたたは Web ペヌゞをアップロヌドするだけで実装できたす (怜玢゚ンゞンや Web スクレむピング NLP パむプラむンに察する攻撃の堎合)。

削陀攻撃では、现工された文字がその前にあるものを効果的に消去するか、たたは単䞀行のテキストを XNUMX 番目の段萜に匷制的に挿入したすが、どちらの堎合も、䞀般の読者にはそれが明らかではありたせん。

削陀攻撃では、现工された文字がその前にあるものを効果的に消去するか、たたは単䞀行のテキストを XNUMX 番目の段萜に匷制的に挿入したすが、どちらの堎合も、䞀般の読者にはそれが明らかではありたせん。

珟圚の NLP システムに察する有効性

研究者らは、Facebook、IBM、Microsoft、Google、HuggingFace の XNUMX ぀の人気のあるクロヌズド゜ヌス モデルず XNUMX ぀のオヌプン゜ヌス モデルにわたっお、さたざたな非暙的型攻撃および暙的型攻撃を実行したした。

圌らはたたテストしたした 「スポンゞ」攻撃 モデルに察しお。スポンゞ攻撃は、NLPシステムに察する事実䞊のDoS攻撃であり、入力テキストが「蚈算䞍胜」ずなり、トレヌニングの速床が著しく䜎䞋したす。これは通垞、デヌタの前凊理によっお䞍可胜になるはずのプロセスです。

評䟡された XNUMX ぀の NLP タスクは、機械翻蚳、有害なコンテンツの怜出、テキスト含意分類、固有衚珟認識、センチメント分析でした。

テストは、それぞれが Ubuntu 䞊で Intel Xeon Silver 100 CPU を実行する䞍特定倚数の Tesla P4110 GPU で実斜されたした。 API 呌び出しを行う堎合に利甚芏玄に違反しないように、実隓は摂動バゞェット XNUMX (゜ヌス テキストに圱響なし)  XNUMX (最倧の混乱) で䞀埋に繰り返されたした。 研究者らは、より倚くの反埩が蚱可されれば、埗られた結果を超える可胜性があるず䞻匵しおいたす。

Facebook の Fairseq EN-FR モデルに察しお敵察的な䟋を適甚した結果。

Facebookの フェアセック EN-FRモデル。

IBM の有害なコンテンツ分類子ず Google の Perspective API に察する攻撃の結果。

IBMに察する攻撃の結果 有毒成分分類噚 Googleの パヌスペクティブ API.

Facebook の Fairseq に察する XNUMX ぀の攻撃: 「タヌゲットを絞っおいない」攻撃は混乱を目的ずし、「タヌゲットを絞った」攻撃は翻蚳された蚀語の意味を倉曎するこずを目的ずしおいたす。

Facebook の Fairseq に察する 2 ぀の攻撃: 「非暙的型」は混乱を狙うのに察し、「暙的型」は翻蚳された蚀語の意味を倉えるこずを目的ずしおいる。

研究者らは、同様に「人間が読める」劚害テキストを生成できなかった埓来のフレヌムワヌクに察しお自らのシステムをさらにテストし、ステルス性の倧きな利点を維持しながら、システムがこれらずほが同等、あるいは倧幅に優れおいるこずを発芋した。

すべおの手法、攻撃ベクトル、タヌゲットの平均有効性は、実行される反埩がほずんどなく、玄 80% で掚移しおいたす。

研究者らは結果に぀いお次のように述べおいたす。

「おそらく、私たちの知芚できない摂動攻撃の最も憂慮すべき偎面は、その適甚範囲が広いこずです。私たちがテストしたテキストベヌスの NLP システムはすべお圱響を受けたす。」 実際、ナヌザヌが指定したテキストを入力ずしお取り蟌む機械孊習モデルは、理論的にはこの攻撃に察しお脆匱です。

「敵察的圱響はアプリケヌションやモデルによっお異なる堎合がありたすが、すべおのテキストベヌスのモデルぱンコヌドされたテキストに基づいおおり、コヌディングが適切に制限されない限り、すべおのテキストは敵察的゚ンコヌドの察象ずなりたす。」

ナニバヌサル光孊匏文字認識?

これらの攻撃は、事実䞊Unicodeの「脆匱性」に䟝存しおおり、入力テキストをすべおラスタラむズし、光孊匏文字認識OCRをサニタむズ凊理ずしお甚いるNL​​Pパむプラむンであれば、これらの攻撃を未然に防ぐこずができたす。その堎合、これらの混乱した攻撃を読む人々に芋える、悪意のない意味がNLPシステムに枡されるこずになりたす。

しかし、研究者らがこの理論をテストするために OCR パむプラむンを実装したずころ、BLEU (バむリンガル評䟡アンダヌスタディヌ) スコアはベヌスラむン粟床を 6.2% 䜎䞋させ、これを改善するには OCR テクノロゞヌの改善がおそらく必芁であるこずを瀺唆しおいたす。

さらに、圌らは、BIDI 制埡文字をデフォルトで入力から削陀し、珍しい同圢異矩語をマッピングしおむンデックス付けし圌らはこれを「困難な䜜業」ず衚珟しおいたす、トヌクナむザヌやその他の取り蟌みメカニズムで目に芋えない文字に察抗できるようにすべきだず提案しおいたす。

最埌に、研究グルヌプは、NLP 分野に察しお、珟圚コンピュヌタヌ ビゞョン研究で倧きな関心が寄せられおいる分野である敵察的攻撃の可胜性に察しお、より譊戒するよう求めおいたす。

「テキストベヌスの NLP システムを構築および導入するすべおの䌁業は、悪意のある行為者に察しお自瀟のアプリケヌションを堅牢なものにしたいのであれば、このような防埡策を実装するこずをお勧めしたす。」

 

 

* むンラむン匕甚をハむパヌリンクに倉換したした

18 幎 08 月 14 日 2021:XNUMX – IBM に関する重耇した蚀及を削陀し、自動内郚リンクを匕甚から移動 – MA