Штучний інтелект
AI ідентифікує дилерів наркотиків в Instagram з майже 95% точністю

Дослідники в США розробили багатомодальну систему машинного навчання, яка здатна ідентифікувати облікові записи та пости дилерів наркотиків в Instagram, аналізуючи різноманітний контент, включаючи зображення.
Дослідження дослідження, яке називається Ідентифікація незаконних дилерів наркотиків в Instagram з великомасштабним багатомодальним об’єднанням даних, є співпрацею між трьома дослідниками Західної Вірджинської університету та одним з Кейс-Вестерн-Резерв університету.
Для полегшення проекту дослідники створили базу даних під назвою Ідентифікація дилерів наркотиків в Instagram (IDDIG), яка містить 4000 облікових записів користувачів, з яких 1 400 облікових записів належать дилерам наркотиків, а решта – контрольна група для тестування процесу ідентифікації.

Фреймворк багатомодальної системи виявлення дилерів. Модель включає опубліковані зображення, коментарі, а також інформацію з домашніх сторінок та біографічних текстів, опублікованих на домашній сторінці. Джерело: https://arxiv.org/pdf/2108.08301.pdf
Початкове тестування методу показало майже 95% точність ідентифікації дилерів наркотиків в Instagram, а фреймворк також привів до проекту виявлення спільнот на основі хештегів, призначеного для відкриття змінюваних ознак діяльності, пов’язаної з продажем незаконних наркотиків, з використанням географічних факторів та ідентифікації конкретних типів наркотиків.
Оскільки база даних, розроблена для проекту, вимагала ручного маркування, фреймворк містить зручну систему анотації, яка використовує класифікаційну систему на основі Bidirectional Encoder Representations від Transformers (BERT) від Google, а також класифікацію зображень на основі ResNet.
Виявлення дилерів у розмовах, пов’язаних з наркотиками
Рекреаційні наркотики обговорюються в широкому числі контекстів на соціальних платформах, таких як Instagram. Багато тих, хто публікує, є споживачами, а не продавцями. залежно від правил у їхньому місці проживання та можливості рецептурних ліків навіть у місцях, що відрізняються законодавством про наркотики, вони також можуть бути легальними споживачами.

Зображення, пов’язані з наркотиками, внесені до бази даних проекту.
Крім того, поведінка дилерів наркотиків в Instagram не завжди явна; часто дилери рекламують через коментарі та хештеги замість мультимедійних публікацій, які загалом були б легше ідентифікувати як контент, пов’язаний з “торгівлею наркотиками”, як для людських, так і для систем машинного нагляду. Тому хештеги та активність коментарів були включені як ідентифікуючі активи в новій системі.
Крім аналізу тексту на основі BERT та дослідження зображень на основі ResNet, робота включає об’єднання багатомодальних даних на рівні функцій, як запропоновано у статті 2016 року IEEE статті Дискримінантний аналіз кореляції: реальний аналіз рівня функцій для багатомодальної біометричної ідентифікації.
Хештеги як початок бази даних
Механізм веб-скрейпінгу проекту починає свій шлях до ідентифікації облікових записів дилерів наркотиків, відстежуючи шлях 200 хештегів, пов’язаних з наркотиками, ідентифікованих експертами-доменами, за допомогою API пошуку хештегів.
Зображення в публікаціях, які використовують хештеги, класифікуються за допомогою бінарної моделі класифікації на основі VGG-16. Зображення, які корелюють із відомими зображеннями наркотиків, зберігаються в системі, а публікація перетворюється на об’єкт JSON для подальшого отримання.
Фреймворк потім розширюється до пов’язаних коментарів та інформації (як тексту, так і зображень), що міститься на домашній сторінці користувачів, які брали участь у хештезі, та чий контент був позначений як пов’язаний з наркотиками. Таким чином, 10 000 потенційних публікацій та 23 034 домашніх сторінок користувачів були включені до набору даних.
Оскільки хештеги, пов’язані з наркотиками, постійно еволюціонують, щоб避нути виявлення закономірностей та уваги органів влади, будь-які нові хештеги в позначеній публікації, які не входили до початкової колекції хештегів, відзначаються та реєструються для майбутнього використання.
Після маркування в веб-інтерфейсі (див. зображення вище) об’єднання багатомодальних даних повинно враховувати той факт, що не всі публікації будуть містити всі чотири можливі типи даних. Тому алгоритм може терпіти дев’ять із шістнадцяти підпунктів серед чотирьох типів даних, використовуючи конкатенацію та об’єднані функції, де відсутні елементи будуть відповідати нулю в розрахунку.
NetworkX
Набір даних нарешті використовується за допомогою пакету NetworkX для мови Python, запропонованого в 2008 році лабораторією Лос-Аламос в штаті Нью-Мексико. NetworkX широко використовувався у великомасштабних операціях, включаючи графи з більш ніж 10 мільйонами вузлів.
Відносячи хештеги в наборі даних до одного поста, дослідникам вдалося згенерувати неорієнтований граф, пов’язаний з наркотиками, для аналізу NetworkX.
Набір даних IDDIG був протестований за різними протоколами, включаючи багатомодальне об’єднання даних, багатокритеріальне об’єднання даних та об’єднання на основі квадруплів, і досягнув результатів точності до 95% щодо ідентифікації публікацій та користувачів, пов’язаних з наркотиками, у порівнянні з методами ідентифікації з людиною в циклі.

Було також можливим згенерувати “сонячні сплески”, які розкривають широкі індикатори географічного розподілу діяльності, пов’язаної з наркотиками, в Instagram, та інші можливі майбутні напрямки дослідження в подібних проектах.















