Connect with us

AI identyfikuje dealerów narkotyków na Instagramie z dokładnością prawie 95%

Sztuczna inteligencja

AI identyfikuje dealerów narkotyków na Instagramie z dokładnością prawie 95%

mm

Naukowcy z USA opracowali wielomodalny system uczenia maszynowego, który potrafi identyfikować konta i posty dealerów narkotyków na Instagramie, analizując różnego rodzaju treści, w tym treści obrazkowe.

Badanie badawcze, zatytułowane Identifying Illicit Drug Dealers on Instagram with Large-scale Multimodal Data Fusion, jest współpracą między trzema naukowcami z West Virginia University i jednym z Case Western Reserve University.

W celu ułatwienia projektu, naukowcy stworzyli bazę danych o nazwie Identifying Drug Dealers on Instagram (IDDIG), zawierającą 4000 kont użytkowników, z których 1,400 to konta dealerów narkotyków, a reszta to grupa kontrolna do testowania procesu identyfikacji.

The framework of the multimodal dealer-detection system. The model includes posted images, posted comments, as well as information from homepage images and biography texts posted on the homepage. Source: https://arxiv.org/pdf/2108.08301.pdf

Ramka systemu wielomodalnej detekcji dealerów. Model obejmuje opublikowane obrazy, komentarze, a także informacje z obrazów i tekstów biograficznych opublikowanych na stronie głównej. Źródło: https://arxiv.org/pdf/2108.08301.pdf

Początkowe testy techniki wykazały prawie 95% dokładność w identyfikowaniu dealerów narkotyków na Instagramie, a ramka ta doprowadziła również do projektu wykrywania społeczności opartych na hashtagach, który ma na celu odkrycie zmieniających się wskaźników aktywności związanej z handlem nielegalnymi narkotykami, z wykorzystaniem czynników geograficznych i identyfikacji konkretnych rodzajów narkotyków.

Ponieważ baza danych opracowana dla projektu wymagała ręcznego oznaczania, ramka ta posiada przyjazny system anotacji, który wykorzystuje system klasyfikacji oparty na Google’s Bidirectional Encoder Representations from Transformers (BERT), a także klasyfikację obrazów opartą na ResNet.

The web-based annotation system (with additional indications by the paper's authors) for IDDIG.

System anotacji oparty na sieci web (z dodatkowymi wskazówkami autorów artykułu) dla IDDIG.

Wykrywanie dealerów w rozmowach związanych z narkotykami

Narkotyki rekreacyjne są dyskutowane w szerokim zakresie kontekstów na platformach społecznościowych, takich jak Instagram. Wielu osób, które publikują, są konsumentami, a nie sprzedawcami. W zależności od przepisów w ich miejscu zamieszkania, a także możliwości leków na receptę, nawet w miejscach, które różnią się w swoich przepisach dotyczących narkotyków, mogą być również legalnymi konsumentami.

Obrazy związane z narkotykami wprowadzone do bazy danych projektu.

Obrazy związane z narkotykami wprowadzone do bazy danych projektu.

Ponadto, zachowanie dealerów narkotyków na Instagramie nie jest zawsze jawne; często dealowie reklamują się za pomocą komentarzy i hashtagów zamiast postów multimedialnych, które w ogóle byłyby łatwiejsze do zidentyfikowania jako “zawartość handlu narkotykami” zarówno dla systemów nadzoru ludzkiego, jak i maszynowego. Dlatego też hashtagi i aktywność komentarzy zostały uwzględnione jako aktywa identyfikujące w nowym systemie.

Różne wzory handlu narkotykami na postach Instagrama.

Różne wzory handlu narkotykami na postach Instagrama.

Oprócz analizy tekstu opartej na BERT i badania obrazu opartego na ResNet, praca ta obejmuje również poziomowe łączenie danych wielomodalnych, zgodnie z propozycją zawartą w artykule z 2016 roku artykule Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition.

Hashtagi jako nasiona dla bazy danych

Mechanizm scrapingu internetowego rozpoczyna swoją drogę do identyfikacji kont dealerów narkotyków, śledząc ślad 200 hashtagów związanych z narkotykami, zidentyfikowanych przez ekspertów z dziedziny, z wykorzystaniem wyszukiwania hashtagów API.

Obrazy w postach, które używają tych hashtagów, są następnie klasyfikowane przy użyciu modelu klasyfikacji binarnej opartego na VGG-16. Obrazy, które korelują z znanymi obrazami narkotyków, są zapisywane w systemie, a post jest konwertowany do obiektu JSON do późniejszego pobrania.

Ramka ta następnie rozszerza się na powiązane komentarze i informacje (zarówno tekst, jak i obrazy) zawarte na stronie głównej osób, które wzięły udział w hashtagu i których zawartość została oznaczona jako związana z narkotykami. W ten sposób 10 000 potencjalnych postów i 23 034 strony główne użytkowników zostały wprowadzone do zestawu danych.

Ponieważ hashtagi związane z narkotykami ewoluują ciągle, aby uniknąć wykrycia wzorców i uwagi władz, każdy nowy hashtag w oznaczonym poście, który nie był częścią kolekcji hashtagów nasion, jest zauważany i zapisywany do przyszłego użycia.

Po oznaczeniu w interfejsie opartym na sieci web (patrz powyżej), łączenie danych wielomodalnych musi uwzględniać fakt, że nie wszystkie posty będą zawierać wszystkie cztery możliwe typy danych. Dlatego algorytm jest w stanie tolerować dziewięć z szesnastu punktów podstawowych wśród czterech typów danych, z wykorzystaniem konkatencji i połączonych cech, gdzie brakujące elementy będą odpowiadać zeru w obliczeniach.

NetworkX

Zestaw danych jest ostatecznie wykorzystywany za pomocą pakietu języka Python NetworkX zaproponowanego w 2008 roku przez Los Alamos National Laboratory w Nowym Meksyku. NetworkX był wykorzystywany w dużych operacjach, w tym w grafach z ponad 10 milionami węzłów.

Traktując hashtagi w zestawie danych tak, jakby zostały uwzględnione w jednym poście, było możliwe wygenerowanie nieskierowanego grafu związanego z narkotykami dla NetworkX do analizy.

Zestaw danych IDDIG został przetestowany w różnych protokołach, w tym łączeniu danych wielomodalnych, łączeniu danych wieloźródłowych i łączeniu opartym na czwórkach, i osiągnął wyniki dokładności do 95% w zakresie identyfikacji postów i użytkowników związanych z narkotykami, w porównaniu z metodami identyfikacji z udziałem człowieka.

Było również możliwe wygenerowanie “wykresów słońca” ujawniających szerokie wskaźniki dla geograficznego rozmieszczenia aktywności związanej z narkotykami na Instagramie, oraz innych możliwych przyszłych kierunków badań w podobnych projektach.

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.