Umelá inteligencia

Identifikácia Instagram Crowdturfers pomocou strojového učenia

Aktualizované on Decembra 9, 2022

Výskumníci v Taliansku a Iráne tvrdia, že sformulovali prvý systém strojového učenia, ktorý dokáže rozpoznať aktivitu „crowdturfingu“ ľudských (a nie automatizovaných) účtov influencerov na platforme Instagram. Crowdturfers sú skutoční ľudia, ktorí vykonávajú služby „budovania profilu“ pre platformy, ktoré predávajú takúto činnosť na veľkoobchodnom základe.

Nová metóda si nárokuje skóre presnosti okolo 95 % a využíva učenie sa čiastočne pod dohľadom v systémoch spracovania prirodzeného jazyka (NLP).

Autori tvrdia, že podľa ich najlepšieho vedomia predstavuje ich systém prvý crowdturfingový (CT) detektorový systém, ktorý sa dokáže spoľahlivo zamerať na účty bez robotov, ktoré sa zaoberajú falošným, plateným zapojením a posilňovaním profilu.

Aby to dosiahli, autori zakúpili 1293 crowdturfingových profilov od 11 poskytovateľov platforiem CT, aby získali údaje na trénovanie ich CT detektora. Keďže Instagram má zavedených množstvo účinných opatrení proti botom, vedci poznamenávajú, že tí, ktorí sa snažia využiť obrovskú používateľskú základňu platformy na komerčné účely, sa obrátili na platenie skutočne vplyvných instagramerov, aby „strategicky spolupracovali“ s „klientskymi“ účtami. zdieľaním komentárov alebo prostredníctvom aktivity súvisiacej s komentármi k príspevkom.

Po vyškolení modelu sa autori rozhodli analyzovať profily zapojenia 20 „megainfluencerov“, z ktorých každý má viac ako 1 milión sledovateľov, pričom dospeli k záveru, že „viac ako 20 % ich zasnúbenia bolo umelé“.

papier je s názvom Sme všetci v Truman Show? Pozorovanie Instagram Crowdturfingu prostredníctvom samotréningua pochádza od piatich výskumníkov z Univerzity v Padove v Taliansku a z iránskej univerzity Imáma Rezu.

Porušenie TOS Instagramu

Na rozdiel od Twitteru, ktorý výskumníci v oblasti sociálnych médií uprednostňujú vďaka svojmu záväzku pomáhať pri výskume, Instagram nielenže neposkytuje žiadne API ani aktualizované výpisy údajov, ktoré by výskumníkom pomohli, ale vo svojich zmluvných podmienkach zakazuje aj strojovo riadené prehliadanie. Preto prvou úlohou výskumníkov bolo získať výnimku z ich riadiacej rady pre inštitucionálnu kontrolu, čo bolo odôvodnené prior práce ktorý použil podobný prístup na skúmanie „podzemných aktivít“.

Crowdturfingové služby boli zakúpené pre čerstvé účty Instagramu vytvorené výskumníkmi na ich účely, pričom všetky boli po experimente vymazané, čím sa predišlo zapojeniu „legitímnych“ používateľov. Nie sú menované ani skúmané účty influencerov, ani služby platformy CT.

Ďalšou etickou prekážkou bolo, že výskumníci nemohli požiadať o súhlas skúmaných influencerov Hawthorne efekt (tj mohlo to zmeniť správanie ovplyvňovateľov) a túto výnimku udelila aj IRB.

Napokon, keďže Instagram umožňuje „ručné zhromažďovanie“ údajov, výskumníci pristúpili k porušeniu TOS tým, že nastavili svoje automatizované nástroje na škrabanie na „ľudskú rýchlosť“, čo si vyžiadalo päťmesačnú fázu zhromažďovania údajov.

Ľudia na predaj

Výskumníci kúpili 100 profilov „falošných sledovateľov“ od každého z 11 (nemenovaných) poskytovateľov.

V liste sa píše *:

„Všetci poskytovatelia, ktorých sme vybrali, zabezpečujú, že doručujú sledovateľov, ktorí interagujú s cieľovými profilmi lajkom a komentovaním ich príspevkov, aby zvýšili mieru ich zapojenia.

'Tieto profily CT sú identifikované ako vysokokvalitní sledovatelia a zvyčajne stoja viac ako „základné“ falošné profily. Spoľahlivosť týchto poskytovateľov podporujú známe platformy [recenzie] ako TrustPilot.“

Z dokumentu vyplýva, že štatistiky o (anonymizovaných) poskytovateľoch platforiem CT, z ktorých každý je trhovisko pre „skazené“ účty influencerov v reálnom svete. Táto tabuľka uvádza informácie, ktoré poskytli poskytovatelia a ktoré získali výskumníci prostredníctvom analýzy 100 profilov zakúpených z každého zdroja. Zdroj: https://arxiv.org/pdf/2206.12904.pdf

Priemerné náklady na nákup instagramového influencera, papierové poznámky, nie sú také vysoké, približne 3 doláre pre 100 „vysoko kvalitných“ sledovateľov. Autori poznamenávajú:

„Väčšina poskytovateľov doručuje sledovateľov v priebehu niekoľkých hodín. Ponúkajú ochranu pred pádom, čo znamená, že počet sledovateľov, ktorých si zákazník zakúpi, zostane buď stabilný, alebo mu budú doručení noví sledovatelia, ktorí doplnia stratených.

Vedci uvádzajú, že niektoré z ich čerstvých účtov na Instagrame utrpeli po mesiaci stratu 15 – 20 % sledovateľov CT, ale v niektorých prípadoch získali viac, ako sa očakávalo. V prípade najdrahšieho poskytovateľa CT (CT-10, v tabuľke vyššie) sa po mesiaci stratili iba traja nasledovníci.

Dokument poznamenáva, že pomer sledovaných/sledovaných sa stáva tým „autentickejším“, čím viac platíte poskytovateľovi CT, pričom druhý najdrahší poskytovateľ ponúka pomer, ktorý je veľmi blízky základnej hodnote štandardného používateľa.

Jednou z charakteristík účtu CT na Instagrame je, že jeho profil bude zriedka nastavený ako „súkromný“ (skutočnosť, ktorá umožňovala získavanie údajov od zakúpených falošných sledovateľov, keďže väčšina analýz sa sústreďovala na profily a súvisiace komentáre), aj keď by to malo sa v tomto ohľade nepovažuje za spoľahlivý „signál“.

„Ľudia, ktorí sa pripájajú k týmto platformám, majú záujem o generovanie minimálneho počtu príspevkov, ktoré ich robia spoľahlivými, s výnimkou niekoľkých prípadov (CT-4, CT-10). Nízkokvalitné profily vykazujú veľmi vysokú nerovnováhu medzi sledovateľmi a sledovanosťou a priemerný počet príspevkov je blízko 0, ďaleko pod profilmi CT.“

dátum

Výskumníci zozbierali údaje prostredníctvom implementácie rámca Selenium na automatizáciu prehliadača. Výsledný súbor údajov obsahuje profilové informácie od 1293 používateľov CT a 1307 používateľov, ktorí nie sú CT.

Toto nepochybne nízke množstvo vzorky umožnilo nastaviť selén na vierohodne ľudskú rýchlosť počas racionálneho časového obdobia. Okrem toho autori poznamenávajú, že reprezentatívna/interpretačná sila techník učenia sa čiastočne pod dohľadom veľmi dobre vyhovuje menším súborom údajov. Po dôkladnom experimentovaní s modelom pod úplným dohľadom výskumníci dospeli k záveru:

„Výsledky v režime s čiastočným dohľadom sa výrazne nelíšia od výsledkov v režime pod dohľadom. To naznačuje, že profily CT majú veľmi podobné [charakteristiky] a že algoritmus môže konvergovať [prostredníctvom malého množstva] označených údajov.“

Autori zhromaždili všetky dostupné údaje zo zdrojového kódu stránok profilu „kompromitovaných“ používateľov vrátane podrobností, ktoré sú pri vykresľovaní zvyčajne zakryté, ako je napríklad prvok #videos.

Potom predspracovali dátové funkcie odstránením tých s nulovým alebo nízkym rozptylom a nakoniec previedli akékoľvek kategorické alebo nečíselné údaje na striktne číselné alebo booleovské znaky.

Charakteristika konečného súboru údajov.

Metóda a prieskumy

Okrem toho, Selenium, technológie použité v experimentoch zahŕňajú: verziu SpaCy implementovanú s potrubím na báze transformátora; scikit učiť samotréningový klasifikátor; a installloader rámec.

V novom dokumente nie je žiadna zvyčajná sekcia „výsledkov“, pretože sa zaoberá cieľom (tj automatizovaným odvodením skorumpovaných účtov na Instagrame), ktorý sa odkláňa od centrálneho miesta záujmu k dnešnému dňu (tj automatizovaného odvodzovania aktivity robota na Instagram), čo znamená, že neexistuje žiadna predchádzajúca práca, s ktorou by sa to dalo porovnať.

Výskumníci prijali širokú škálu metód na dostupných zakúpených používateľoch (ktoré sa cítia pohodlne opísať ako „falošné“, a nie len „ne CT“, keďže tieto skutočné účty vykonávajú neorganické, platené aktivity súvisiace s interakciou) rad technológií súvisiacich s NLP.

Medzi skúmanými aspektmi bola jazyková analýza (ktorá je vo svete CT takmer vždy štandardne nastavená na angličtinu, hoci platformy CT ponúkajú geograficky umiestnených aj neanglických sledovateľov); počet komentárov (kde sa falošní používatelia držia veľmi blízko frekvencie skutočných používateľov zo strachu z odhalenia); a analýza bežných slov:

Slovné mraky od falošných a skutočných používateľov.

Dokument poznamenáva, že výskyt slova „dokter“ (pozri obrázok vyššie) vo falošných účtoch zrejme súvisí s konkrétnou internou kampaňou:

„Dokter“ sa objavil v 1069 rôznych komentároch. Ďalším skúmaním účtov spamujúcich [toto] slovo sme našli malú časť toho, čo sa zdá byť botnetom, ktorého cieľom je spamovať účty „instagramových lekárov“. Profily všetkých týchto lekárov majú obchodný odkaz WhatsApp, na ktorý sa po kliknutí spustí chat so správou, ktorú treba dokončiť.“

Podľa výskumníkov môže byť tento zvláštny artefakt pozostatkom veľkého botnetu, na ktorý narazili pri hľadaní aktivít od skutočných používateľov Instagramu.

Celkovo výskumníci zozbierali 603,007 248,388 komentárov z príspevkov od 55,719 XNUMX jedinečných používateľov Instagramu, z ktorých podľa odhadov autorov bolo XNUMX XNUMX crowdturfingových účtov.

Príspevok so záujmom zaznamenáva dominanciu tém so ženskou tematikou v zhromaždených údajoch. Po použití GPU-PDMM (technika vyvinutá pre povinne krátke príspevky na Twitteri) na extrahovanie 12,830 121,822 vhodných komentárov z dostupného korpusu 12 8 komentárov algoritmus zistil, že pri posudzovaní obsahu od XNUMX mužov a XNUMX žien sa väčšina komentárov týka tém súvisiacich so ženami.

10 najlepších tém extrahovaných z falošných tém v jednom z experimentov výskumníkov.

Vedci dospeli k záveru:

„[Zatiaľ čo] Instagram a výskumná komunita sa veľa zamerali na odhaľovanie robotov a automatizovaných účtov, veríme, že by sa malo vykonať viac štúdií o aktivitách CT, ktoré negatívne ovplyvňujú influencer marketing, platformu Instagram a väčšinu jej používateľov.“

* Citovaná webová adresa TrustPilot výskumníkov bola vynechaná.

Prvýkrát zverejnené 28. júna 2022.