Intelligence Artificielle
L'IA identifie les trafiquants de drogue sur Instagram avec une précision de près de 95 %

Des chercheurs américains ont développé un système d'apprentissage automatique multimodal capable d'identifier les comptes et les publications des trafiquants de drogue sur Instagram, en analysant une variété de contenus, y compris le contenu des images.
Les Une étude, intitulé Identification des revendeurs de drogues illicites sur Instagram grâce à la fusion de données multimodales à grande échelle, est une collaboration entre trois chercheurs de la West Virginia University et un de la Case Western Reserve University.
Pour faciliter le projet, les chercheurs ont créé une base de données appelée Identifier les trafiquants de drogue sur Instagram (IDDIG), avec 4000 1,400 comptes d'utilisateurs, dont XNUMX XNUMX comptes de trafiquants de drogue et le reste en tant que groupe de contrôle pour tester le processus d'identification.

Le cadre du système multimodal de détection des revendeurs. Le modèle comprend des images publiées, des commentaires publiés, ainsi que des informations provenant d'images de la page d'accueil et de textes de biographie publiés sur la page d'accueil. Source : https://arxiv.org/pdf/2108.08301.pdf
Les tests initiaux de la technique rapportent un taux de précision de près de 95% dans l'identification des trafiquants de drogue basés sur Instagram, et le cadre a également conduit à un projet de détection communautaire basé sur des hashtags conçu pour découvrir les signifiants changeants de l'activité liée à la vente de drogues illégales, en utilisant facteurs géographiques et identification de types de drogues spécifiques.
Étant donné que la base de données développée pour le projet nécessitait un étiquetage manuel, le cadre comprend un système d'annotation convivial, qui utilise un système de classification basé sur les représentations d'encodeurs bidirectionnels de Google (BERT), ainsi qu'une classification d'images basée sur ResNet.

Le système d'annotation basé sur le Web (avec des indications supplémentaires par les auteurs de l'article) pour IDDIG.
Repérer les revendeurs dans les conversations liées à la drogue
Les drogues récréatives sont discutées dans un grand nombre de contextes sur les plateformes de médias sociaux telles qu'Instagram. Beaucoup de ceux qui publient sont des consommateurs plutôt que des vendeurs. En fonction de la réglementation en vigueur dans leur localité et de la possibilité de médicaments sur ordonnance même dans des localités qui diffèrent dans leur législation sur les médicaments, ils peuvent également être le droit consommateurs.

Images liées à la drogue introduites dans la base de données du projet.
De plus, le comportement des trafiquants de drogue sur Instagram n'est pas toujours explicite ; fréquemment, les revendeurs font de la publicité via des commentaires et des hashtags au lieu de messages multimédias, qui seraient en général plus faciles à identifier comme du contenu de « trafic de drogue », pour les systèmes de surveillance humains et automatiques. Par conséquent, les hashtags et les activités de commentaires ont été incorporés en tant qu'actifs d'identification dans le nouveau système.
En plus de l'analyse de texte basée sur BERT et de l'investigation d'images dérivée de ResNet, le travail intègre la fusion de données multimodales au niveau des fonctionnalités, comme proposé dans l'IEEE 2016 papier Analyse de corrélation discriminante : fusion de niveau de fonctionnalité en temps réel pour la reconnaissance biométrique multimodale.
Les hashtags comme graines pour une base de données
Le mécanisme de grattage Web du projet commence son voyage vers l'identification des comptes de trafic de drogue en traçant le chemin de 200 hashtags liés à la drogue identifiés par des experts du domaine, en utilisant le recherche par hashtag API.
Les images dans les messages qui utilisent les hashtags sont ensuite classées à l'aide d'un binaire basé sur VGG-16 modèle de classification. Les images qui correspondent à des images de drogues connues sont ensuite enregistrées dans le système et la publication est convertie en objet JSON pour une récupération ultérieure.
Le cadre s'étend ensuite aux commentaires et informations connexes (textes et images) contenus dans la page d'accueil des affiches qui ont participé au hashtag et dont le contenu a été signalé comme lié à la drogue. De cette manière, 10,000 23,034 messages potentiels et XNUMX XNUMX pages d'accueil d'utilisateurs ont été ingérés dans l'ensemble de données.
Étant donné que les hashtags liés à la drogue évoluent constamment pour échapper à la détection de modèles et à l'attention des autorités, tout nouveau hashtag dans le message signalé qui ne faisait pas partie de la collection de hashtags de semences est noté et enregistré pour une utilisation future.
Après l'étiquetage dans l'interface Web (voir l'image ci-dessus), la fusion de données multimodale doit tenir compte du fait que toutes les publications ne contiendront pas les quatre types de données possibles. Par conséquent, l'algorithme est capable de tolérer neuf sous-points sur un total de 16 parmi les quatre types de données, en utilisant la concaténation et les caractéristiques fusionnées, où les éléments manquants correspondront à zéro dans le calcul.
RéseauX
L'ensemble de données est finalement utilisé via le Paquet de langage NetworkX Python proposé en 2008 par le laboratoire national de Los Alamos au Nouveau-Mexique. Le réseau X a été largement utilisé dans des opérations à grande échelle, y compris des graphiques avec plus de 10 millions de nœuds.
En traitant les hashtags dans l'ensemble de données comme s'ils avaient été inclus dans un seul article, il a été possible pour les chercheurs de générer un graphique non orienté lié à la drogue que NetworkX pourra analyser.
L'ensemble de données IDDIG a été testé sur une variété de protocoles, y compris la fusion de données multimodale, la fusion de données multi-sources et la fusion quadruple, et a obtenu des résultats de précision allant jusqu'à 95 % en termes d'identification des publications et des utilisateurs liés à la drogue, par comparaison avec les méthodes d'identification humaines dans la boucle.
Il a également été possible de générer des «sunburst plots» révélant de larges indicateurs de la disposition géographique de l'activité liée à la drogue sur Instagram, et d'autres pistes d'enquête futures possibles dans des projets similaires.