人工知能

AIがインスタグラムの薬物ディーラーを約95%の精度で特定する

mm

米国の研究者は、インスタグラム上の薬物ディーラーのアカウントや投稿を、画像コンテンツを含むさまざまなコンテンツを分析することで特定できる、マルチモーダル機械学習システムを開発しました。

研究は、ウェストバージニア大学の3人の研究者とケース・ウェスタン・リザーブ大学の1人の研究者による共同研究であり、インスタグラム上の違法薬物ディーラーの特定による大規模マルチモーダルデータ・フュージョンというタイトルが付けられています。

このプロジェクトを促進するために、研究者は、インスタグラム上の薬物ディーラーの特定(IDDIG)というデータベースを作成しました。このデータベースには、4,000のユーザーアカウントが含まれており、そのうち1,400は薬物ディーラーのアカウントで、残りは特定プロセスのテスト用のコントロール・グループとして使用されました。

マルチモーダル・ディーラー検出システムのフレームワーク。モデルには、投稿された画像、投稿されたコメント、ホームページの画像、バイオグラフィー・テキストが含まれます。

マルチモーダル・ディーラー検出システムのフレームワーク。モデルには、投稿された画像、投稿されたコメント、ホームページの画像、バイオグラフィー・テキストが含まれます。 ソース: https://arxiv.org/pdf/2108.08301.pdf

この技術の初期テストでは、インスタグラム上の薬物ディーラーを特定する際に約95%の精度が報告されており、このフレームワークは、地理的要因や特定の薬物タイプの識別を利用して、違法薬物の販売に関連する活動の変化する兆候を発見するためのハッシュタグベースのコミュニティ検出プロジェクトにもつながっています。

データベースの作成には手動でのラベル付けが必要だったため、フレームワークには、GoogleのBidirectional Encoder Representations from Transformers (BERT)に基づく分類システムおよびResNetベースの画像分類を使用するユーザー・フレンドリーなアノテーション・システムが含まれています。

IDDIGのウェブベースのアノテーション・システム(ペーパーの著者による追加の指示付き)

IDDIGのウェブベースのアノテーション・システム(ペーパーの著者による追加の指示付き)

薬物関連会話でのディーラーの特定

レクリエーション用の薬物は、インスタグラムのようなソーシャルメディア・プラットフォームを含むさまざまなコンテキストで議論されています。投稿する多くの人々は、販売者ではなく消費者です。地元の規制や処方箋医薬品の可能性によっては、法律で認可された消費者である場合もあります。

プロジェクトのデータベースに取り込まれた薬物関連の画像

プロジェクトのデータベースに取り込まれた薬物関連の画像

さらに、インスタグラム上の薬物ディーラーの行動は常に明示的ではなく、ディーラーはマルチメディア投稿ではなくコメントやハッシュタグで広告することがよくあります。これは、人間やマシンの監視システムの両方にとって、「薬物取引」コンテンツとして識別するのが一般的に容易であるためです。したがって、ハッシュタグやコメントの活動は、新しいシステムの識別アセットとして組み込まれています。

インスタグラム投稿での薬物取引のパターン

インスタグラム投稿での薬物取引のパターン

BERTベースのテキスト分析やResNet由来の画像調査に加えて、この研究では、2016年のIEEE 論文 判別分析: マルチモーダル・バイオメトリック・認証のためのリアルタイム・フィーチャー・レベル・フュージョンで提案されたフィーチャー・レベルのマルチモーダル・データ・フュージョンが含まれています。

ハッシュタグをデータベースの種として

プロジェクトのウェブ・スクレイピング・メカニズムは、ドメインの専門家によって特定された200の薬物関連ハッシュタグをトレースすることから始め、ハッシュタグ検索 APIを使用して、薬物ディーラーのアカウントの特定を開始します。

ハッシュタグを使用する投稿の画像は、VGG-16ベースの二値 分類モデルを使用して分類され、既知の薬物画像に相関する画像はシステムに保存され、投稿は後で取得するためにJSONオブジェクトに変換されます。

フレームワークは、ハッシュタグに参加し、コンテンツが薬物関連としてフラグ付けされた投稿者のホームページにある関連するコメントや情報(テキストと画像の両方)に拡大し、この方法で10,000の潜在的な投稿と23,034のユーザー・ホームページがデータセットに取り込まれました。

薬物関連ハッシュタグは、パターン検出や当局の注意を避けるために常に変化するため、フラグ付けされた投稿に含まれるシード・ハッシュタグ・コレクションの一部ではない新しいハッシュタグは、将来の使用のために記録されます。

ウェブベースのインターフェイス(上の画像を参照)でのラベル付け後、マルチモーダル・データ・フュージョンは、すべての投稿に4つのデータ・タイプのすべてが含まれるとは限らないことを考慮する必要があります。したがって、アルゴリズムは、連結とフュージョンされたフィーチャーを使用して、16のサブ・ポイントのうち9つを許容し、計算では欠落している要素はゼロになります。

NetworkX

データセットは最終的に、2008年にニューメキシコのロスアラモス国立研究所によって提案された NetworkX Python言語パッケージを使用して利用されます。NetworkXは、1000万ノードを超えるグラフを含む大規模な運用で広く使用されてきました。

データセット内のハッシュタグを1つの投稿に含まれているかのように扱うことで、研究者はNetworkXが分析できる薬物関連グラフを生成することができました。

IDDIGデータセットは、マルチモーダル・データ・フュージョン、多源データ・フュージョン、クアドルプルベースのフュージョンを含むさまざまなプロトコルでテストされ、人間による特定方法と比較して、薬物関連投稿やユーザーを特定する際に最大95%の精度を達成しました。

インスタグラム上の薬物関連活動の地理的配置に関する広範な指標を示す「サンバースト・プロット」の生成も可能でした。また、同様のプロジェクトにおける将来の研究のための他の潜在的な方向も示唆されました。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。