スタブ 機械学習で CAPTCHA を解決し、ダークウェブ研究を可能にする - Unite.AI
私達と接続

サイバーセキュリティ

機械学習で CAPTCHA を解決し、ダークウェブ調査を可能にする

mm

公開済み

 on

米国の共同学術研究プロジェクトが CAPTCHA* テストを阻止する方法を開発し、敵対的生成ネットワークを使用した同様の最先端の機械学習ソリューションを上回るパフォーマンスを示したと報告されています (GAN) 視覚的に複雑な課題を解読します。

現在の最良のフレームワークに対して新しいシステムをテストしたところ、研究者らは、慎重に厳選された現実世界のベンチマーク データセットで自分たちの手法が 94.4% 以上の成功率を達成し、高度に CAPTCHA で保護された新興環境をナビゲートする際に「人間の関与を排除」できることが証明されたことを発見しました。ダーク ネット マーケットプレイス。最大 XNUMX 回の試行で CAPTCHA チャレンジを自動的に解決します。

DW-GAN のアーキテクチャ。 出典: https://arxiv.org/pdf/2201.02799.pdf

DW-GAN のワークフロー。 出典:https://arxiv.org/pdf/2201.02799.pdf

著者らは、彼らのアプローチはサイバーセキュリティ研究者にとって画期的な進歩であると主張している。研究者は従来、通常 Amazon Mechanical Turk (AMT) などのクラウドソーシング プラットフォームを介して CAPTCHA を手動で解決するための人間参加者を供給するコストを負担しなければならなかった。

このシステムが適応性と復元力を備えていることが証明できれば、より自動化された監視システムや、TOR ネットワークのインデックス作成や Web スクレイピングへの道がさらに開かれる可能性があります。 これにより、スケーラブルで大量の分析が可能になるだけでなく、これまで CAPTCHA ファイアウォールによって妨げられてきた新しいサイバーセキュリティのアプローチや技術の開発も可能になります。

  というタイトルです プロアクティブなサイバー脅威インテリジェンスのための敵対的生成学習によるダークウェブのテキストベースの CAPTCHA への対抗、アリゾナ大学、南フロリダ大学、ジョージア大学の研究者によるものです。

含意

ダークウェブ-GAN(DW-GAN)と呼ばれるシステム以来、 GitHubで入手可能) – 明らかに、以前のバージョンよりもはるかにパフォーマンスが向上しているため、この特定の実装、または新しい論文で概説されている一般原則。 ただし、GitHub のストレージには限りがあるため、現時点では、フレームワークに関連するデータを入手するには、筆頭著者である Ning Zhang に連絡する必要があります。

それは、DW-GAN が CAPTCHA を破るという「積極的な」使命を持っているため (TOR 自体がもともと軍事通信と後にジャーナリストを保護するという積極的な使命を持っていたのと同じです)、また CAPTCHA が正当な防御手段であるため (頻繁に物議を醸しています) 中古 ユビキタス CDN 大手 CloudFlare による) であり、違法なダーク Web マーケットプレイスのお気に入りツールであるこのアプローチは、おそらく「平準化」テクノロジーです。

著者自身も、DW-GAN には幅広い用途があることを認めています。

「この研究は、より困難な問題として主にダークウェブの CAPTCHA に焦点を当てていますが、この研究で提案された方法は、一般性を失うことなく他の種類の CAPTCHA にも適用できると期待されています。」

おそらく、DW-GAN または同様のシステムは、ダークウェブ市場が機械解決不可能なソリューションを求めるか、少なくとも CAPTCHA 構成を定期的に進化させるために、広く明確に普及する必要があるでしょう (「冷戦」シナリオ)。

動機

同紙が指摘しているように、ダークウェブはサイバー攻撃に関連するハッカー情報の主な情報源である。 推定 そのため、オニオン ネットワークは、セッション タイムアウト、Cookie、ユーザー認証などのさまざまな方法で侵入者を撃退できる、違法なダーク ネット コミュニティにとって比較的安全な環境であり続けます。

XNUMX 種類の CAPTCHA。どちらも難読化する背景と傾いた文字を使用して、機械で読みにくくします。

XNUMX 種類の CAPTCHA。どちらも難読化する背景と傾いた文字を使用して、機械で読みにくくします。

しかし、著者らは、これらの障害のどれも、「機密性の高い」コミュニティでのブラウジング エクスペリエンスを中断する CAPTCHA の部分ほど大きなものはない、と観察しています。

「これらの対策のほとんどは、クローラー プログラムに自動化された対抗策を実装することで効果的に回避できますが、CAPTCHA はダークウェブで最も妨げとなるクローリング対策であり、多くの場合自動化では備えていない高度な認知能力のため、簡単に回避することはできません」道具」

利用可能なオプションはテキストベースの CAPTCHA だけではありません。 私たちの多くによく知られている、ビデオ、オーディオ、特に画像の解釈をユーザーに要求する亜種があります。 それにもかかわらず、著者らが観察しているように、テキストベースの CAPTCHA は 現在の選択の課題 ダークウェブ市場向けであり、TOR ネットワークを機械分析の影響を受けやすくするための自然な出発点です。

アーキテクチャ

中国の西北大学による以前のアプローチでは、敵対的生成ネットワークを使用して CAPTCHA プラットフォームから特徴パターンを導き出しましたが、新しい論文の著者らは、この方法はチャレンジで認識された文字のより深い調査ではなく、ラスター化された画像の解釈に依存していると指摘しています。 ;そして、DW-GAN の有効性は、ダークウェブの CAPTCHA によく見られる可変長の無意味な単語 (および数値) の影響を受けません。

DW-GAN は XNUMX 段階のパイプラインを使用します。最初に画像がキャプチャされ、次に注釈付き CAPTCHA サンプルでトレーニングされた GAN を使用する背景ノイズ除去モジュールに供給されます。そのため、文字が乱れた背景から文字を区別できます。休んでいます。 抽出された文字は、GAN ベースの抽出後に残っているノイズからさらにフィルタリングされます。

次に、抽出されたテキストに対してセグメンテーションが実行され、輪郭検出アルゴリズムを使用して、構成文字と思われるものに分割されます。

文字セグメンテーションでは、ピクセル グループを分離し、境界トレースによる認識を試みます。

文字セグメンテーションでは、ピクセル グループを分離し、境界トレースによる認識を試みます。

最後に、「推測された」文字セグメントは、畳み込みニューラル ネットワーク (CNN) による文字認識の対象になります。

場合によっては、文字が重なることがあります。これは、マシン システムを騙すために特別に設計されたハイパー カーニングです。 したがって、DW-GAN は間隔ベースのセグメンテーションを使用して境界を強調および分離し、文字を効果的に分離します。 単語は通常ナンセンスであるため、このプロセスを支援する意味論的なコンテキストはありません。

結果

DW-GAN は、1 つの多様なダーク Web データセットからの CAPTCHA 画像と、一般的な CAPTCHA シンセサイザーに対してテストされました。 画像の元となったダーク マーケットは、Rescator-2 と Rescator-XNUMX という XNUMX つのカード ショップと、Yellow Brick と呼ばれる当時の新興市場からの小説セットで構成されていました ( 報告 その後DarkMarketの閉鎖を受けて消滅した)。

XNUMX つのデータセットとオープンソース CAPTCHA シンセサイザーからの CAPTCHA のサンプル。

XNUMX つのデータセットとオープンソース CAPTCHA シンセサイザーからの CAPTCHA のサンプル。

著者らによると、テストに使用されたデータは、ダーク ネット マーケット全体に広く拡散していることに基づいて、サイバー脅威インテリジェンス (CTI) の専門家によって推奨されたものです。

各データセットのテストには、500 枚の CAPTCHA 画像を収集する任務を負った TOR に面したスパイダーの開発が含まれ、その後、これらの画像は CTI アドバイザーによってラベル付けされ、厳選されました。

XNUMXつの実験が考案されました。 XNUMX つ目は、標準の SOTA メソッドに対して DW-GAN の一般的な CAPTCHA を無効にするパフォーマンスを評価しました。 ライバルの手法は、 前処理を備えた画像レベルの CNNグレースケール変換、正規化、ガウス平滑化を含む、イランと英国による共同の学術的取り組み。 文字レベルの CNN 間隔ベースのセグメンテーションを使用します。 と 画像レベルの CNN、英国のオックスフォード大学出身。

最初の実験における DW-GAN の結果と、従来の最先端のアプローチとの比較。

最初の実験における DW-GAN の結果と、従来の最先端のアプローチとの比較。

研究者らは、DW-GAN が以前の結果を全面的に改善できることを発見しました (上の表を参照)。

XNUMX 番目の実験はアブレーション研究で、外部要因または二次要因が結果に影響を与えている可能性を無視するために、アクティブ フレームワークのさまざまなコンポーネントが削除または無効化されます。

アブレーション研究の結果。

アブレーション研究の結果。

ここでも、著者らは、アーキテクチャの主要セクションを無効にすると、ほぼすべてのケースで DW-GAN のパフォーマンスが低下することを発見しました (上の表を参照)。

4 番目のオフライン実験では、意味のない CAPTCHA ワードが任意の場合に DW-GAN の文字評価がその有用性にどの程度影響するかを判断するために、ベンチマーク画像ベースの方法と 7 つの文字レベルの方法に対して DW-GAN の有効性を比較しました。 (事前定義されたものではなく) 長さ。 これらの場合、CAPTCHA の長さは XNUMX ~ XNUMX 文字の間で変化します。

この実験では、著者らは 50,000 枚の CAPTCHA 画像のトレーニング セットを使用しました。そのうち 5,000 枚は、一般的な 90/10 分割でのテスト用に予約されています。

ここでも、DW-GAN は以前のアプローチを上回りました。

ダークネットマーケットでのライブテスト

最後に、DW-GAN は、(当時は稼働していた) Yellow Brick ダーク ネット マーケットに対して導入されました。 このテストのために、DW-GAN をブラウジング機能に統合し、CAPTCHA チャレンジを自動的に解析する Tor Web ブラウザが開発されました。

このシナリオでは、平均 15 HTTP リクエストごとに CAPTCHA が自動クローラに提示されました。 クローラーは、イエロー ブリックで販売されている 1,831 件の麻薬関連製品 (オピオイドやコカインを含む)、1,223 件のハッキング パッケージ、44 件の偽造文書スキャンを含む 286 件の違法商品のインデックスを作成することができました。 このシステムは、盗難されたクレジット カード 102 件と盗難されたアカウント ログイン 131 件を含む、合計 XNUMX 件のサイバーセキュリティ関連アイテムを特定することができました。

著者らは、DW-GAN はすべてのケースで 76 回以下の試行で CAPTCHA を解読でき、1,831 個の製品すべてを保護する CAPTCHA を説明するには XNUMX 分の処理時間が必要だったと述べています。 人間が介入する必要はなく、エンドポイント障害のケースも発生しませんでした。

著者らは、チューリング テストをモデルにしていると思われるものも含め、テキスト CAPTCHA よりも高度なレベルの洗練を提供する課題の出現に注目し、これらの新しいトレンドが普及するにつれて DW-GAN が強化されて対応できる可能性があると観察しています。

 

*別にコンピュータと人間を伝えるために完全に自動化された公開チューリングテスト

初版は11年2022月XNUMX日。