заглушки ИИ идентифицирует торговцев наркотиками в Instagram с точностью почти 95% - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

ИИ идентифицирует торговцев наркотиками в Instagram с точностью почти 95%

mm
обновленный on

Исследователи из США разработали мультимодальную систему машинного обучения, которая способна идентифицировать аккаунты и посты торговцев наркотиками в Instagram, анализируя различный контент, включая графический контент.

Ассоциация исследованиям, озаглавленный Выявление незаконных торговцев наркотиками в Instagram с помощью крупномасштабного мультимодального объединения данных, является совместным проектом трех исследователей из Университета Западной Вирджинии и одного из Университета Кейс Вестерн Резерв.

Для облегчения проекта исследователи создали базу данных под названием Выявление торговцев наркотиками в Instagram (IDDIG), включающая 4000 учетных записей пользователей, 1,400 учетных записей торговцев наркотиками, а остальные — в качестве контрольной группы для проверки процесса идентификации.

Структура мультимодальной системы обнаружения дилеров. Модель включает размещенные изображения, опубликованные комментарии, а также информацию из изображений главной страницы и текстов биографий, размещенных на главной странице. Источник: https://arxiv.org/pdf/2108.08301.pdf

Структура мультимодальной системы обнаружения дилеров. Модель включает размещенные изображения, опубликованные комментарии, а также информацию из изображений главной страницы и текстов биографий, размещенных на главной странице. Источник: https://arxiv.org/pdf/2108.08301.pdf

Первоначальное тестирование метода сообщает о почти 95-процентной точности выявления наркоторговцев в Instagram, и эта структура также привела к проекту обнаружения сообщества на основе хэштегов, предназначенному для обнаружения меняющихся признаков деятельности, связанной с продажей незаконных наркотиков, с использованием географические факторы и идентификация конкретных видов наркотиков.

Поскольку база данных, разработанная для проекта, требовала ручной маркировки, фреймворк имеет удобную систему аннотаций, в которой используется система классификации, основанная на двунаправленных представлениях кодировщика Google от трансформаторов (BERT), а также классификация изображений на основе ResNet.

Веб-система аннотаций (с дополнительными указаниями авторов статьи) для IDDIG.

Веб-система аннотаций (с дополнительными указаниями авторов статьи) для IDDIG.

Выявление дилеров в разговорах о наркотиках

Рекреационные наркотики обсуждаются в самых разных контекстах на платформах социальных сетей, таких как Instagram. Многие из тех, кто размещает сообщения, являются потребителями, а не продавцами. В зависимости от правил в их местности и возможности рецептурных лекарств даже в тех местностях, которые отличаются своим законодательством о юридически потребители.

Изображения, связанные с наркотиками, внесены в базу данных проекта.

Изображения, связанные с наркотиками, внесены в базу данных проекта.

Кроме того, поведение наркоторговцев в Instagram не всегда откровенно; часто дилеры размещают рекламу с помощью комментариев и хэштегов вместо мультимедийных сообщений, которые в целом было бы легче идентифицировать как контент «торговли наркотиками» как для систем человеческого, так и для машинного контроля. Поэтому хэштеги и активность комментариев были включены в качестве идентификации активов в новую систему.

Несколько моделей торговли наркотиками в постах в Instagram.

Несколько моделей торговли наркотиками в постах в Instagram.

В дополнение к анализу текста на основе BERT и исследованию изображений, полученному с помощью ResNet, работа включает мультимодальное слияние данных на уровне функций, как это было предложено в IEEE 2016 года. бумаги Дискриминантный корреляционный анализ: слияние уровней функций в реальном времени для мультимодального биометрического распознавания.

Хэштеги как семена для базы данных

Механизм веб-скрейпинга проекта начинает свой путь к выявлению учетных записей наркоторговцев, отслеживая пути 200 связанных с наркотиками хэштегов, выявленных экспертами в предметной области, используя поиск по хэштегу API.

Изображения в сообщениях, в которых используются хэштеги, затем классифицируются с использованием двоичного кода на основе VGG-16. модель классификации. Затем изображения, соответствующие известным изображениям наркотиков, сохраняются в системе, а сообщение преобразуется в объект JSON для последующего поиска.

Затем структура распространяется на соответствующие комментарии и информацию (как текст, так и изображения), содержащиеся на главной странице плакатов, которые участвовали в хэштеге и содержание которых было помечено как связанное с наркотиками. Таким образом, в набор данных были включены 10,000 23,034 потенциальных сообщений и XNUMX XNUMX домашних страницы пользователей.

Поскольку хэштеги, связанные с наркотиками, постоянно развиваются, чтобы избежать обнаружения закономерностей и внимания властей, любые новые хэштеги в помеченном посте, которые не были частью исходной коллекции хэштегов, отмечаются и записываются для использования в будущем.

После маркировки в веб-интерфейсе (см. изображение выше) мультимодальное слияние данных должно учитывать тот факт, что не все сообщения будут содержать все четыре возможных типа данных. Таким образом, алгоритм может допускать девять из 16 подточек среди четырех типов данных, используя конкатенацию и объединенные признаки, где отсутствующие элементы будут соответствовать нулю при расчете.

СетьX

Набор данных, наконец, используется через Языковой пакет NetworkX Python предложен в 2008 году Лос-Аламосской национальной лабораторией в Нью-Мексико. Сеть X широко использовалась в крупномасштабных операциях, включая графы с более чем 10 миллионами узлов.

Обрабатывая хэштеги в наборе данных, как если бы они были включены в один пост, исследователи смогли создать неориентированный график, связанный с наркотиками, для анализа NetworkX.

Набор данных IDDIG был протестирован с использованием различных протоколов, включая мультимодальное слияние данных, слияние данных из нескольких источников и слияние на основе четырех источников, и достиг результатов точности до 95% с точки зрения идентификации сообщений и пользователей, связанных с наркотиками. по сравнению с методами идентификации человека в петле.

Также удалось создать «графики солнечных лучей», показывающие общие индикаторы географического расположения деятельности, связанной с наркотиками, в Instagram и другие возможные будущие направления исследований в аналогичных проектах.