Искусственный интеллект

AI определяет дилеров наркотиков в Instagram с точностью почти 95%

mm

Исследователи в США разработали многомодальную систему машинного обучения, способную идентифицировать аккаунты и посты дилеров наркотиков в Instagram, анализируя различные типы контента, включая изображения.

Исследование исследование, озаглавленное Идентификация незаконных дилеров наркотиков в Instagram с помощью крупномасштабной многомодальной фузии данных, является сотрудничеством между тремя исследователями из Университета Западной Вирджинии и одним из Университета Кейс-Вестерн-Резерв.

Чтобы облегчить проект, исследователи создали базу данных под названием Идентификация дилеров наркотиков в Instagram (IDDIG), в которой представлены 4000 учетных записей пользователей, 1400 из которых являются аккаунтами дилеров наркотиков, и остальные как контрольная группа для тестирования процесса идентификации.

Фреймворк многомодальной системы обнаружения дилеров. Модель включает в себя опубликованные изображения, комментарии, а также информацию с изображений домашней страницы и биографии, опубликованных на домашней странице.

Фреймворк многомодальной системы обнаружения дилеров. Модель включает в себя опубликованные изображения, комментарии, а также информацию с изображений домашней страницы и биографии, опубликованных на домашней странице. Источник: https://arxiv.org/pdf/2108.08301.pdf

Первоначальное тестирование метода показало почти 95% точность в идентификации дилеров наркотиков в Instagram, и фреймворк также привел к проекту обнаружения сообществ на основе хэштегов, предназначенному для обнаружения меняющихся сигналов активности, связанной с продажей незаконных наркотиков, с использованием географических факторов и идентификации конкретных типов наркотиков.

Поскольку база данных, разработанная для проекта, требовала ручной маркировки, фреймворк включает в себя удобную систему аннотации, которая использует систему классификации на основе Bidirectional Encoder Representations from Transformers (BERT) от Google, а также классификацию изображений на основе ResNet.

Веб-ориентированная система аннотации (с дополнительными указаниями авторов статьи) для IDDIG.

Веб-ориентированная система аннотации (с дополнительными указаниями авторов статьи) для IDDIG.

Обнаружение дилеров в разговорах о наркотиках

Рекреационные наркотики обсуждаются в широком круге контекстов на социальных медиа-платформах, таких как Instagram. Многие из тех, кто публикует, являются потребителями, а не продавцами. В зависимости от правил в их местности и возможности рецептурных препаратов, даже в местностях, которые различаются в своем законодательстве о наркотиках, они также могут быть законными потребителями.

Изображения, связанные с наркотиками, внесенные в базу данных проекта.

Изображения, связанные с наркотиками, внесенные в базу данных проекта.

Кроме того, поведение дилеров наркотиков в Instagram не всегда явно выражено; часто дилеры рекламируют через комментарии и хэштеги, а не через мультимедийные публикации, которые в целом были бы легче идентифицировать как контент, связанный с “торговлей наркотиками”, как для человеческих, так и для систем машинного надзора. Поэтому хэштеги и активность комментариев были включены в качестве идентифицирующих активов в новой системе.

Множественные закономерности торговли наркотиками на постах Instagram.

Множественные закономерности торговли наркотиками на постах Instagram.

В дополнение к анализу текста на основе BERT и исследованию изображений на основе ResNet, работа включает в себя фузию многомодальных данных на уровне функций, как предложено в статье 2016 года IEEE статье Дискриминантный корреляционный анализ: фузия функций в режиме реального времени для многомодальной биометрической идентификации.

Хэштеги как семена для базы данных

Механизм веб-скрейпинга проекта начинает свой путь к идентификации аккаунтов дилеров наркотиков, отслеживая путь 200 хэштегов, связанных с наркотиками, выявленных экспертами по предмету, с помощью поиска хэштегов API.

Изображения в публикациях, использующих хэштеги, затем классифицируются с помощью бинарной модели классификации на основе VGG-16. Изображения, коррелирующие с известными изображениями наркотиков, затем сохраняются в системе, и публикация преобразуется в объект JSON для последующего извлечения.

Фреймворк затем расширяется до связанных комментариев и информации (как текста, так и изображений), содержащихся на домашней странице пользователей, которые участвовали в хэштеге и чей контент был помечен как связанный с наркотиками. Таким образом, 10 000 потенциальных публикаций и 23 034 домашней страницы пользователей были включены в набор данных.

Поскольку хэштеги, связанные с наркотиками, постоянно эволюционируют, чтобы избежать обнаружения закономерностей и внимания властей, любые новые хэштеги в помеченной публикации, которые не входили в коллекцию семенных хэштегов, отмечаются и записываются для будущего использования.

После маркировки в веб-интерфейсе (см. изображение выше) фузия многомодальных данных должна учитывать тот факт, что не все публикации будут содержать все четыре возможных типа данных. Поэтому алгоритм может терпеть девять из общего количества 16 подпунктов среди четырех типов данных, используя конкатенацию и слиянные функции, где отсутствующие элементы будут соответствовать нулю в расчете.

NetworkX

Набор данных, наконец, используется через пакет NetworkX Python, предложенный в 2008 году Лос-Аламосской национальной лабораторией в Нью-Мексико. NetworkX широко используется в крупномасштабных операциях, включая графы с более чем 10 миллионами узлов.

Относясь к хэштегам в наборе данных как если бы они были включены в одну публикацию, исследователям удалось сгенерировать неориентированный граф, связанный с наркотиками, для анализа NetworkX.

Набор данных IDDIG был протестирован на различных протоколах, включая многомодальную фузию данных, многомодальную фузию данных и фузию на основе четверок, и достиг результатов точности до 95% в плане идентификации публикаций и пользователей, связанных с наркотиками, по сравнению с методами идентификации с человеком в цикле.

Было также возможно сгенерировать “солнечные взрывы”, раскрывающие широкие индикаторы географического расположения деятельности, связанной с наркотиками, на Instagram, и другие возможные будущие направления исследования в подобных проектах.

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.