Kunstmatige intelligentie
AI Identificeert Instagram Drugshandelaars Met Bijna 95% Nauwkeurigheid

Onderzoekers in de VS hebben een multimodaal machine learning-systeem ontwikkeld dat in staat is om accounts en berichten van drugshandelaars op Instagram te identificeren, door een verscheidenheid aan inhoud te analyseren, waaronder beeldinhoud.
Het onderzoek, getiteld Identificatie van Illegale Drugshandelaars op Instagram met Grote-schaal Multimodale Data-fusie, is een samenwerking tussen drie onderzoekers aan de West Virginia University en een van de Case Western Reserve University.
Om het project te faciliteren, hebben de onderzoekers een database genaamd Identificatie van Drugshandelaars op Instagram (IDDIG) gemaakt, met 4000 gebruikersaccounts, waarvan 1.400 accounts van drugshandelaars en de rest als controlegroep om het identificatieproces te testen.

Het kader van het multimodale dealer-detectiesysteem. Het model omvat geplaatste afbeeldingen, geplaatste comments, evenals informatie van homepage-afbeeldingen en biografie-teksten op de homepage. Source: https://arxiv.org/pdf/2108.08301.pdf
De initiële testen van de techniek rapporteren bijna een nauwkeurigheid van 95% bij het identificeren van Instagram-gebaseerde drugshandelaars, en het kader heeft ook geleid tot een hashtag-gebaseerd community-detectieproject om veranderingen in activiteiten gerelateerd aan de verkoop van illegale drugs te ontdekken, met behulp van geografische factoren en identificatie van specifieke drugtypen.
Aangezien de database die voor het project is ontwikkeld handmatige labeling vereist, heeft het kader een gebruikersvriendelijk annotatiesysteem, dat een classificatiesysteem op basis van Google’s Bidirectional Encoder Representations from Transformers (BERT) gebruikt, evenals ResNet-gebaseerde beeldclassificatie.

Het web-gebaseerde annotatiesysteem (met aanvullende indicaties van de auteurs van het artikel) voor IDDIG.
Het Opmerken van Dealers in Drug-gerelateerde Conversaties
Recreatieve drugs worden in een groot aantal contexten op sociale media-platforms zoals Instagram besproken. Veel van degenen die posten zijn consumenten in plaats van verkopers. Afhankelijk van de regelgeving in hun lokale omgeving en de mogelijkheid van voorschriftmedicijnen, zelfs in lokale omgevingen die verschillen in hun drugswetgeving, kunnen ze ook wettelijke consumenten zijn.

Drug-gerelateerde afbeeldingen die in de database van het project zijn opgenomen.
Bovendien is het gedrag van drugshandelaars op Instagram niet altijd expliciet; vaak adverteren de handelaars via comments en hashtags in plaats van multimediale berichten, die in het algemeen gemakkelijker te identificeren zouden zijn als ‘drugshandel’-inhoud, zowel voor menselijke als machine-oversichtsystemen. Daarom zijn hashtags en comment-activiteit opgenomen als identificerende assets in het nieuwe systeem.
Naast BERT-gebaseerde tekstanalyse en ResNet-gebaseerde beeldonderzoek, omvat het werk feature-niveau multimodale data-fusie, zoals voorgesteld in de 2016 IEEE paper Discriminant Correlatie-analyse: Real-Time Feature Level Fusie voor Multimodale Biometrische Herkenning.
Hashtags als Zaden voor een Database
Het web-scraping-mechanisme van het project begint zijn reis naar de identificatie van drugshandel-accounts door het traceren van het pad van 200 drug-gerelateerde hashtags die zijn geïdentificeerd door domein-experts, met behulp van de hashtag-zoek API.
Afbeeldingen in berichten die de hashtags gebruiken, worden vervolgens geclassificeerd met behulp van een VGG-16-gebaseerd binaire classificatiemodel. Afbeeldingen die correleren met bekende drug-afbeeldingen worden vervolgens opgeslagen in het systeem, en het bericht wordt omgezet in een JSON-object voor later ophalen.
Het kader breidt zich vervolgens uit naar gerelateerde comments en informatie (zowel tekst als afbeeldingen) op de homepage van posters die hebben deelgenomen aan de hashtag, en wiens inhoud is gemarkeerd als drug-gerelateerd. Op deze manier zijn 10.000 potentiële berichten en 23.034 gebruikershomepages in de dataset opgenomen.
Aangezien drug-gerelateerde hashtags constant evolueren om patroondetectie en de aandacht van de autoriteiten te vermijden, worden nieuwe hashtags in het gemarkeerde bericht die niet deel uitmaakten van de zaadhashtagcollectie, genoteerd en opgeslagen voor toekomstig gebruik.
Na labeling in de web-gebaseerde interface (zie bovenstaande afbeelding), moet multimodale data-fusie rekening houden met het feit dat niet alle berichten alle vier mogelijke datatypen zullen bevatten. Daarom kan het algoritme negen van de zestien subpunten onder de vier datatypen verdragen, met behulp van concatenatie en gefuseerde functies, waarbij ontbrekende elementen zullen overeenkomen met nul in de berekening.
NetworkX
De dataset wordt uiteindelijk gebruikt via het NetworkX Python-taalpakket voorgesteld in 2008 door het Los Alamos National Laboratory in New Mexico. NetworkX is uitgebreid gebruikt in grote-schaaloperaties, waaronder grafieken met meer dan 10 miljoen knooppunten.
Door de hashtags in de dataset te behandelen alsof ze in één bericht waren opgenomen, was het mogelijk voor de onderzoekers om een ongerichte drug-gerelateerde grafiek voor NetworkX te genereren.
De IDDIG-dataset is getest op een verscheidenheid aan protocollen, waaronder Multimodale Data-fusie, Multibron-data-fusie en Quadruple-gebaseerde Fusie, en heeft nauwkeurigheidsresultaten behaald van maximaal 95% bij het identificeren van drug-gerelateerde berichten en gebruikers, in vergelijking met human-in-the-loop-methoden van identificatie.

Het was ook mogelijk om ‘sunburst-plots’ te genereren die brede indicatoren laten zien voor de geografische dispositie van drug-gerelateerde activiteit op Instagram, en andere mogelijke toekomstige onderzoekslijnen in soortgelijke projecten.














