Artificiell intelligens
AI identifierar Instagram-narkotikahandlare med nästan 95% noggrannhet

Forskare i USA har utvecklat ett multimodalt maskinlärningssystem som kan identifiera konton och inlägg från narkotikahandlare på Instagram, genom att analysera en mängd olika innehåll, inklusive bildinnehåll.
Forskningen, som heter Identifiering av olagliga narkotikahandlare på Instagram med storskalig multimodal dataförening, är ett samarbete mellan tre forskare vid West Virginia University och en från Case Western Reserve University.
För att underlätta projektet skapade forskarna en databas som kallas Identifiering av narkotikahandlare på Instagram (IDDIG), som innehåller 4000 användarkonton, varav 1 400 är narkotikahandlares konton, och resten som en kontrollgrupp för att testa identifieringsprocessen.

Ramverket för det multimodala handlardetekteringssystemet. Modellen inkluderar publicerade bilder, publicerade kommentarer, samt information från startsidans bilder och biografitexter som publiceras på startsidan. Källa: https://arxiv.org/pdf/2108.08301.pdf
Den första testningen av tekniken rapporterar nästan 95% noggrannhet i identifieringen av Instagram-baserade narkotikahandlare, och ramverket har också lett till ett hashtag-baserat community-detektionsprojekt som är utformat för att upptäcka ändrade signifikatorer för aktivitet relaterad till försäljning av olagliga droger, med hjälp av geografiska faktorer och identifiering av specifika drogtyper.
Eftersom databasen som utvecklats för projektet krävde manuell märkning, har ramverket en användarvänlig annoteringssystem, som använder en klassificeringssystem baserad på Google’s Bidirectional Encoder Representations from Transformers (BERT), samt ResNet-baserad bildklassificering.

Det webbaserade annoteringssystemet (med ytterligare indikationer från författarna till artikeln) för IDDIG.
Att upptäcka handlarna i drogrelaterade samtal
Rekreationella droger diskuteras i ett stort antal sammanhang på sociala medieplattformar som Instagram. Många av de som publicerar är konsumenter snarare än säljare. Beroende på reglerna i deras lokala område, och möjligheten till receptbelagda läkemedel även i lokala områden som skiljer sig i sin droglagstiftning, kan de också vara lagliga konsumenter.

Drogrelaterade bilder som tagits med i projektets databas.
Dessutom är narkotikahandlares beteende på Instagram inte alltid uttryckligt; ofta annonserar handlarna via kommentarer och hashtags istället för multimediainlägg, som i allmänhet skulle vara lättare att identifiera som “narkotikahandelsinnehåll” för både mänskliga och maskinbaserade tillsynssystem. Därför har hashtags och kommentarsaktivitet inkorporerats som identifieringsbara tillgångar i det nya systemet.
Utöver BERT-baserad textanalys och ResNet-baserad bildundersökning, omfattar arbetet funktionell multimodal dataförening, som föreslagits i 2016 års IEEE artikel Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition.
Hashtags som frön för en databas
Projektets webbskrapningsmekanism börjar sin resa mot identifieringen av narkotikahandlarkonton genom att spåra vägen för 200 drogrelaterade hashtags identifierade av domänexperter, med hjälp av hashtag-sök API.
Bilder i inlägg som använder hashtags klassificeras sedan med en VGG-16-baserad binär klassificeringsmodell. Bilder som korrelerar till kända drogbilder sparas sedan i systemet, och inlägget konverteras till ett JSON-objekt för senare återvinning.
Ramverket utvidgar sedan till relaterade kommentarer och information (både text och bilder) som finns på startsidan för användare som har deltagit i hashtaggen och vars innehåll har flaggats som drogrelaterat. På detta sätt har 10 000 potentiella inlägg och 23 034 användarstartsida tagits med i datamängden.
Eftersom drogrelaterade hashtags utvecklas konstant för att undvika mönsterteknik och uppmärksamhet från myndigheterna, noteras och sparas alla nya hashtags i de flaggade inläggen som inte var en del av ursprungssamlingen av hashtags för framtida användning.
Efter märkning i det webbaserade gränssnittet (se bild ovan), måste multimodal dataförening kunna hantera det faktum att inte alla inlägg kommer att innehålla alla fyra möjliga typer av data. Därför kan algoritmen tolerera nio av totalt 16 underpunkter bland de fyra datatyperna, med hjälp av konkatenering och förenade funktioner, där saknade element kommer att motsvara noll i beräkningen.
NetworkX
Datamängden används slutligen via NetworkX Python-språkpaketet som föreslagits 2008 av Los Alamos National Laboratory i New Mexico. NetworkX har använts omfattande i storskaliga operationer, inklusive grafer med mer än 10 miljoner noder.
Genom att behandla hashtags i datamängden som om de hade ingått i ett inlägg, var det möjligt för forskarna att generera en odirigerad drogrelaterad graf för NetworkX att analysera.
IDDIG-datamängden testades över en mängd olika protokoll, inklusive multimodal dataförening, multisource-dataförening och quadruple-baserad förening, och uppnådde noggrannhetsresultat på upp till 95% när det gäller att identifiera drogrelaterade inlägg och användare, i jämförelse med human-in-the-loop-metoder för identifiering.

Det var också möjligt att generera “sunburst-plots” som visar breda indikatorer för den geografiska dispositionen av drogrelaterad aktivitet på Instagram, och andra möjliga framtida forskningslinjer i liknande projekt.












