Tekoäly

Tekoäly tunnistaa Instagramin huumekauppiaat lähes 95 prosentin tarkkuudella

mm

Yhdysvaltalaiset tutkijat ovat kehittäneet monimodaalisen koneoppimisjärjestelmän, joka pystyy tunnistamaan huumekauppiaiden tilejä ja julkaisuja Instagramissa analysoimalla erilaisia sisältöjä, mukaan lukien kuvamateriaalia.

Tutkimus, jonka otsikko on Identifying Illicit Drug Dealers on Instagram with Large-scale Multimodal Data Fusion, on yhteistyöhön perustuva tutkimus, jossa ovat mukana kolme tutkijaa West Virginia Universitysta ja yksi tutkija Case Western Reserve Universitysta.

Hankkeen helpottamiseksi tutkijat loivat tietokannan nimeltä Identifying Drug Dealers on Instagram (IDDIG), joka sisältää 4000 käyttäjätiliä, joista 1 400 on huumekauppiaiden tilejä, ja loput toimivat vertailuryhmänä tunnistusprosessin testaamiseksi.

Monimodaalisen kauppiaan tunnistusjärjestelmän rakenne. Malli sisältää julkaistuja kuvia, kommentteja sekä etusivun kuvia ja biografiatekstejä etusivulla. Lähde: https://arxiv.org/pdf/2108.08301.pdf

Monimodaalisen kauppiaan tunnistusjärjestelmän rakenne. Malli sisältää julkaistuja kuvia, kommentteja sekä etusivun kuvia ja biografiatekstejä etusivulla. Lähde: https://arxiv.org/pdf/2108.08301.pdf

Alkuvaiheen testaustulokset osoittavat lähes 95 prosentin tarkkuuden huumekauppiaiden tunnistamisessa, ja rakenne on johtanut hashtag-pohjaiseen yhteisöjen tunnistusprojektiin, jonka tavoitteena on löytää muuttuvia merkkejä toiminnasta, joka liittyy laittoman huumausaineiden myyntiin, käyttäen maantieteellisiä tekijöitä ja tiettyjen huumausaineiden tunnistamista.

Koska hankkeen tietokanta vaati manuaalista merkintää, rakenne sisältää helppokäyttöisen merkintäjärjestelmän, joka perustuu Googleen Bidirectional Encoder Representations from Transformers (BERT) -luokitteluun sekä ResNet-pohjaiseen kuvaluokitteluun.

Web-pohjainen merkintäjärjestelmä (johon on lisätty merkinnät tutkimuksen tekijöiden toimesta) IDDIG:lle.

Web-pohjainen merkintäjärjestelmä (johon on lisätty merkinnät tutkimuksen tekijöiden toimesta) IDDIG:lle.

Huumekauppiaiden tunnistaminen huumausaineisiin liittyvissä keskusteluissa

Vapaa-ajan huumeita käsitellään laajasti eri yhteyksissä sosiaalisessa mediassa, kuten Instagramissa. Monet niistä, jotka julkaisevat sisältöä, ovat kuluttajia eivätkä myyjiä. Riippuen paikallisten sääntöjen mukaan ja mahdollisuuksista saada reseptilääkkeitä, he voivat myös olla laillisia kuluttajia.

Huumausaineisiin liittyvät kuvat, jotka on otettu hankkeen tietokantaan.

Huumausaineisiin liittyvät kuvat, jotka on otettu hankkeen tietokantaan.

Lisäksi huumekauppiaiden käyttäytyminen Instagramissa ei aina ole selkeää; usein kauppiaat mainostavat kommentteja ja hashtag-merkintöjä käyttäen eikä monimediaposteja, jotka yleensä olisivat helpommin tunnistettavissa sekä ihmisille että koneille. Siksi hashtag-merkinnät ja kommenttitoiminta on otettu mukaan tunnistusominaisuuksina uudessa järjestelmässä.

Useita kuvausmalleja huumekaupasta Instagram-posteissa.

Useita kuvausmalleja huumekaupasta Instagram-posteissa.

Lisäksi BERT-pohjaiseen tekstianalyysiin ja ResNet-pohjaiseen kuvatutkimukseen, työ sisältää ominaisuustason monimodaalisen datafusion, kuten ehdotettiin vuoden 2016 IEEE artikkelissa Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition.

Hashtagit tietokannan siemeninä

Hankkeen web-kaaviojärjestelmä aloittaa matkansa huumekauppiaiden tilejen tunnistamiseksi jäljittämällä 200 huumausaineisiin liittyvän hashtagin polkuja, jotka on tunnistettu alan asiantuntijoiden toimesta, käyttäen hashtag-hakua API:aa.

Kuvat posteissa, jotka käyttävät hashtag-merkintöjä, luokitellaan VGG-16-pohjaisen binäärisen luokittelumallin avulla. Kuvat, jotka liittyvät tunnettuun huumekuvaan, tallennetaan järjestelmään, ja posti muunnetaan JSON-objektiksi myöhempää hakua varten.

Rakenne laajenee sitten liittyvien kommenttien ja tietojen (sekä teksti- että kuvatiedot) sisältävään posterin kotisivuun, joka on osallistunut hashtag-merkintöihin ja jonka sisältö on merkitty huumausaineisiin liittyväksi. Tällä tavoin 10 000 potentiaalista postia ja 23 034 käyttäjän kotisivua otettiin tietokantaan.

Koska huumausaineisiin liittyvät hashtagit muuttuvat jatkuvasti välttääkseen mallintunnistuksen ja viranomaisten huomion, kaikki uudet hashtag-merkinnät, jotka eivät ole osa alkuperäistä siemenkokoelmaa, merkitään ja tallennetaan tulevia käyttötarkoituksia varten.

Merkintäjärjestelmän verkkopohjaisessa käyttöliittymässä (ks. yllä oleva kuva), monimodaalisen datafusion on sopeutettava siihen, että ei kaikki postit sisällä kaikkia neljää mahdollista tietotyyppiä. Siksi algoritmi pystyy sietämään yhdeksän pistettä 16:sta alipisteestä neljän tietotyypin kesken, käyttäen yhdistämistä ja fuusioiduista ominaisuuksista, jossa puuttuvat elementit vastaavat nollaa laskelmissa.

NetworkX

Tietokanta käytetään lopulta NetworkX Python-kielen pakettiin vuonna 2008 Los Alamosin kansallisen laboratorion New Mexicossa. NetworkX on käytetty laajasti suurissa operaatioissa, mukaan lukien graafeja, joissa on yli 10 miljoonaa solmua.

Käsiteltyään hashtag-merkintöjä tietokannassa kuin ne olisivat osa yhtä postia, tutkijat pystyivät luomaan suunnattoman huumausaineisiin liittyvän graafin NetworkX:lle analysoitavaksi.

IDDIG-tietokanta testattiin useilla eri protokollilla, mukaan lukien monimodaalinen datafusion, monilähteinen datafusion ja neljän peräkkäisen fuusion, ja saavutti tarkkuustulokset jopa 95 prosenttiin huumausaineisiin liittyvien postien ja käyttäjien tunnistamisessa verrattuna ihmisten toimintaan perustuviin tunnistusmenetelmiin.

Se oli myös mahdollista luoda “auringonsäteitä” osoittavia graafeja, jotka paljastavat laajat osoittimet maantieteelliselle huumausaineiden käytölle Instagramissa ja muut mahdolliset tulevat tutkimussuunnat samankaltaisissa hankkeissa.

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]