Artificial Intelligence
AI が Instagram の麻薬売人をほぼ 95% の精度で特定
米国の研究者らは、画像コンテンツを含むさまざまなコンテンツを分析することで、インスタグラム上の麻薬売人のアカウントや投稿を識別できるマルチモーダル機械学習システムを開発した。
研究、資格あり 大規模なマルチモーダルデータ融合により Instagram 上で違法薬物の売人を特定は、ウェストバージニア大学の XNUMX 人の研究者とケース ウェスタン リザーブ大学の XNUMX 人の研究者による共同研究です。
プロジェクトを促進するために、研究者たちは、と呼ばれるデータベースを作成しました。 Instagram で麻薬売人を特定する (IDDIG) は 4000 のユーザー アカウントを特徴とし、そのうち 1,400 は麻薬売人のアカウント、残りは識別プロセスをテストするための対照グループとして使用されます。
この技術の初期テストでは、Instagram ベースの麻薬売人を特定する精度がほぼ 95% であることが報告されています。また、このフレームワークは、違法薬物の販売に関連する活動の変化する兆候を発見することを目的としたハッシュタグ ベースのコミュニティ検出プロジェクトにもつながりました。地理的要因と特定の薬剤の種類の特定。
このプロジェクト用に開発されたデータベースには手動のラベル付けが必要だったため、このフレームワークには、Google の Bidirectional Encoder Representations from Transformers (BERT) に基づく分類システムと、ResNet ベースの画像分類を使用する、使いやすい注釈システムが搭載されています。
麻薬関連の会話で売人を特定する
娯楽用ドラッグは、Instagram などのソーシャル メディア プラットフォーム全体でさまざまな文脈で議論されています。 投稿者の多くは販売者ではなく消費者です。 地域の規制に応じて、また医薬品に関する法律が異なる地域でも処方薬が提供される可能性もあります。 法的 消費者。
さらに、インスタグラム上での麻薬売人の行動は必ずしも露骨なものではない。 ディーラーはマルチメディア投稿ではなく、コメントやハッシュタグを介して宣伝することがよくありますが、これは一般に、人間と機械の両方の監視システムにとって「麻薬取引」コンテンツとして識別されやすいでしょう。 したがって、ハッシュタグとコメントアクティビティは、新しいシステムのアセットを識別するために組み込まれました。
BERT ベースのテキスト分析と ResNet 由来の画像調査に加えて、この研究には、2016 IEEE で提案されている特徴レベルのマルチモーダル データ融合が組み込まれています。 紙 判別相関分析: マルチモーダル生体認証のためのリアルタイム特徴レベル融合.
データベースのシードとしてのハッシュタグ
プロジェクトの Web スクレイピング メカニズムは、ドメインの専門家によって特定された 200 個の薬物関連のハッシュタグのパスを追跡することで、薬物取引アカウントの特定への旅を開始します。 ハッシュタグ検索 APIです。
ハッシュタグを使用する投稿内の画像は、VGG-16 ベースのバイナリを使用して分類されます。 分類モデル。 既知の薬物画像に関連する画像はシステムに保存され、投稿は後で取得できるように JSON オブジェクトに変換されます。
このフレームワークは、ハッシュタグに参加し、そのコンテンツに薬物関連のフラグが立てられている投稿者のホームページに含まれる関連コメントと情報 (テキストと画像の両方) にまで拡張されます。 このようにして、10,000 件の潜在的な投稿と 23,034 件のユーザーのホームページがデータセットに取り込まれました。
薬物関連のハッシュタグはパターン検出や当局の注意を回避するために常に進化しているため、シード ハッシュタグ コレクションに含まれていないフラグ付き投稿内の新しいハッシュタグはすべて記録され、将来の使用に備えられます。
Web ベースのインターフェイス (上の画像を参照) でラベルを付けた後、マルチモーダル データ フュージョンでは、すべての投稿に 16 つの可能なデータ タイプすべてが含まれるわけではないという事実に対応する必要があります。 したがって、アルゴリズムは、連結および融合特徴を使用して、XNUMX つのデータ タイプ間で合計 XNUMX 個のサブポイントのうち XNUMX 個を許容できます。欠落している要素は計算でゼロに対応します。
ネットワークX
データセットは最終的に、 NetworkX Python 言語パッケージ 2008 年にニューメキシコ州のロスアラモス国立研究所によって提案されました。 Network X は、10 万を超えるノードを含むグラフなどの大規模な運用で広く使用されています。
データセット内のハッシュタグを XNUMX つの投稿に含まれているかのように扱うことで、研究者は NetworkX が分析するための方向性のない医薬品関連のグラフを生成することが可能になりました。
IDDIG データセットは、マルチモーダル データ フュージョン、マルチソース データ フュージョン、クアッドベース フュージョンなどのさまざまなプロトコルでテストされ、薬物関連の投稿とユーザーの特定に関して最大 95% の精度の結果を達成しました。人間参加型の識別方法との比較。
また、インスタグラム上での薬物関連活動の地理的性質に関する広範な指標を明らかにする「サンバーストプロット」や、同様のプロジェクトにおける将来の可能性のある調査項目を生成することも可能だった。