Inteligenta Artificiala

Identificarea Instagram Crowdturfers cu Machine Learning

Actualizat on December 9, 2022

Cercetătorii din Italia și Iran susțin că au formulat primul sistem de învățare automată capabil să recunoască activitatea de „crowdturfing” a conturilor de influență umane (mai degrabă decât automate) pe platforma Instagram. Crowdturfers sunt oameni reali care prestează servicii de „construcție de profil” către platforme care vând astfel de activitate pe bază de angro.

Noua metodă susține un scor de precizie de aproximativ 95% și folosește învățarea semi-supravegheată în sistemele de procesare a limbajului natural (NLP).

Autorii susțin că, după cunoștințele lor, sistemul lor reprezintă primul sistem de detectare crowdturfing (CT) care se poate concentra în mod fiabil pe conturile non-bot care sunt implicate în profil fals, plătit și amplificare.

Pentru a realiza acest lucru, autorii au achiziționat 1293 de profile de crowdturfing de la 11 furnizori de platforme CT pentru a obține date pentru a-și antrena detectorul CT. Întrucât Instagram are o serie de măsuri anti-bot eficiente, notează cercetătorii, cei care doresc să exploateze baza enormă de utilizatori a platformei în scopuri comerciale s-au orientat către plătirea Instagrammerilor cu adevărat influenți pentru a se „interacționa strategic” cu conturile „client”, mai ales prin partajarea comentariilor sau prin activități legate de comentariile la postări.

După ce au instruit modelul, autorii l-au lăsat apoi să analizeze profilurile de implicare a 20 de „mega-influenceri”, fiecare având peste 1 milion de urmăritori, ajungând la concluzia că „mai mult de 20% din implicarea lor a fost artificială”.

hârtie se intitulează Suntem cu toții într-un spectacol Truman? Observând Instagram Crowdturfing prin autoformareși provine de la cinci cercetători de la Universitatea Padova din Italia și de la Universitatea Imam Reza din Iran.

Încălcarea TOS Instagram

Spre deosebire de Twitter, favorizat de cercetătorii din rețelele sociale datorită angajamentului său de a sprijini cercetarea, Instagram nu numai că nu oferă API sau depozite de date actualizate pentru a ajuta cercetătorii, dar interzice navigarea bazată pe mașini în Termenii și condițiile sale. Prin urmare, prima sarcină a cercetătorilor a fost să obțină o scutire de la Consiliul lor de revizuire instituțional, justificată de anterior fabrică care a folosit o abordare similară pentru a investiga „activitățile subterane”.

Serviciile de crowdturfing au fost achiziționate pentru conturi Instagram proaspete create de cercetători în scopurile lor, toate acestea fiind șterse după experiment, evitând implicarea utilizatorilor „legitimi”. Nu sunt denumite nici conturile influencer studiate, nici serviciile platformei CT.

Un alt obstacol etic a fost faptul că cercetătorii nu au putut cere consimțământul influențelor studiați, din cauza Efect Hawthorne (adică ar fi putut schimba comportamentul influențelor), iar această scutire a fost acordată și de IRB.

În cele din urmă, deoarece Instagram permite „colectarea manuală” a datelor, cercetătorii au compromis încălcarea TOS prin setarea instrumentelor lor automate de scraping la „viteza umană”, ceea ce a necesitat o fază de colectare a datelor de cinci luni.

Oameni de vânzare

Cercetătorii au achiziționat 100 de profiluri de „abonați falși” de la fiecare dintre cei 11 furnizori (nenumiti).

Lucrarea precizează*:

„Toți furnizorii pe care i-am selectat se asigură că oferă adepți care interacționează cu profilurile țintă, dând like și comentând postările lor pentru a le crește rata de implicare.

„Aceste profiluri CT sunt identificate ca urmăritori de înaltă calitate și costă de obicei mai mult decât profilurile false „de bază”. Fiabilitatea acestor furnizori este susținută de platforme celebre [de recenzii] precum TrustPilot.'

Din lucrare, statistici despre furnizorii de platforme CT (anonimizate), fiecare fiind o piață pentru conturi de influență „corupte” din lumea reală. Acest tabel prezintă informațiile raportate de furnizori și preluate de cercetători prin analiza celor 100 de profiluri achiziționate din fiecare sursă. Sursă: https://arxiv.org/pdf/2206.12904.pdf

Costul mediu de cumpărare a unui influencer Instagram, notează ziarul, nu este atât de mare, la aproximativ 3 USD pentru 100 de urmăritori „de înaltă calitate”. Autorii notează:

„Majoritatea furnizorilor livrează adepții în câteva ore. Ele oferă o protecție împotriva căderii, ceea ce înseamnă că numărul de urmăritori pe care clienții îi achiziționează fie va rămâne stabil în timp, fie vor fi livrați noi urmăritori pentru a-i reface pe cei pierduți.

Cercetătorii raportează că unele dintre conturile lor proaspete de Instagram au suferit o pierdere de 15-20% din adepții CT după o lună, dar că în anumite cazuri au câștigat mai mult decât se aștepta. Pentru cel mai scump furnizor de CT (CT-10, în tabelul de mai sus), doar trei adepți s-au pierdut după o lună.

Lucrarea notează că raportul urmărit/urmărire devine mai „autentic” cu cât plătiți mai mult furnizorului CT, al doilea cel mai scump furnizor oferind un raport care este foarte aproape de linia de bază a unui utilizator standard.

O caracteristică a unui cont Instagram CT este că profilul său va fi rareori setat la „privat” (un fapt care a permis extragerea datelor de la urmăritorii falși achiziționați, deoarece majoritatea analizelor s-au concentrat pe profiluri și comentarii aferente), deși acest lucru ar trebui nu poate fi privit ca un „semnal” de încredere în acest sens.

„Oamenii care se alătură acestor platforme sunt interesați să genereze o cantitate minimă de postări care să le facă fiabile, cu excepția unor cazuri (CT-4, CT-10). Profilurile de calitate scăzută arată un dezechilibru foarte mare în urmăritori și urmăritori, iar numărul mediu de postări este aproape de 0, mult sub profilurile CT.'

Date

Cercetătorii au colectat date printr-o implementare a cadrului de automatizare a browserului Selenium. Setul de date rezultat include informații de profil de la 1293 CT și 1307 utilizatori non-CT.

Această cantitate de eșantion, desigur scăzută, a făcut posibilă setarea seleniului la o viteză umană credibilă într-o perioadă rațională de timp. În plus, observă autorii, puterea reprezentativă/interpretativă a tehnicilor de învățare semi-supravegheată găzduiește foarte bine seturile de date mai mici. După ce au experimentat, în scopuri de minuțiozitate, un model complet supravegheat, cercetătorii concluzionează:

„[Rezultatele] în modul semi-supravegheat nu diferă semnificativ de cele într-un mod supravegheat. Acest lucru sugerează că profilurile CT au [caracteristici] foarte asemănătoare și că algoritmul poate converge [printr-o cantitate mică de] date etichetate.

Autorii au adunat toate datele disponibile din codul sursă al paginilor de profil ale utilizatorilor „compromiși”, inclusiv detalii în general ascunse atunci când au fost redate, cum ar fi elementul #videos.

Apoi au preprocesat caracteristicile datelor prin eliminarea celor cu varianță zero sau scăzută și, în cele din urmă, au convertit orice date categorice sau nenumerice în caracteristici strict numerice sau booleene.

Caracteristicile setului de date final.

Metodă și explorări

În plus, Selenium, tehnologiile utilizate în cadrul experimentelor includ: o versiune a SpaCy implementată cu o conductă bazată pe transformator; un scikit învață clasificator de autoformare; si instalator cadru.

Nu există o secțiune obișnuită cu „rezultate” în noua lucrare, deoarece tratează un obiectiv (adică, deducerea automată a conturilor Instagram corupte) care se îndepărtează de locul central de interes până în prezent (adică, deducerea automată a activității automate a botului pe Instagram), ceea ce înseamnă că nu există o lucrare anterioară similară cu care să-l comparăm.

Cercetătorii au adoptat o gamă largă de metode cu privire la utilizatorii achiziționați disponibili (pe care se simt confortabil să-i descriu drept „falși” mai degrabă decât „non-CT”, deoarece aceste conturi autentice desfășoară activități de implicare plătite, non-organice), într-un gama de tehnologii legate de NLP.

Printre fațetele studiate s-au numărat analiza lingvistică (care, în lumea CT, aproape întotdeauna este implicită la engleză, deși platformele CT oferă și adepți non-englezi geo-locați); numărul de comentarii (în cazul în care utilizatorii falși sunt foarte aproape de frecvența utilizatorilor reali, de teama de a fi detectați); și analiza cuvintelor comune:

Noruri de cuvinte de la utilizatori falși și reali.

Lucrarea notează că prevalența cuvântului „dokter” (vezi imaginea de mai sus) în conturile false pare să se refere la o anumită campanie internă:

„„Dokter” [a apărut] în 1069 de comentarii distincte. Investigand în continuare conturile care spam [acest] cuvânt, am găsit o mică parte din ceea ce pare a fi un botnet al cărui obiectiv este să spam conturi „medici Instagram”. Toate aceste profiluri ale medicilor au un link de afaceri WhatsApp care, odată dat clic, pornește un chat cu un mesaj de finalizat.'

Din câte pot deduce cercetătorii, acest artefact ciudat poate fi o rămășiță a unei rețele botne mari de care au dat peste cap în timp ce căutau activități de la utilizatorii Instagram reali.

În total, cercetătorii au colectat 603,007 comentarii din postări de pe 248,388 de utilizatori unici de Instagram, dintre care, estimează autorii, 55,719 erau conturi de crowdturfing.

Lucrarea notează cu interes dominația subiectelor cu tematică feminină în datele adunate. După ce a folosit GPU-PDMM (o tehnică dezvoltată pentru postările obligatoriu scurte de pe Twitter) pentru a extrage 12,830 de comentarii potrivite dintr-un corpus disponibil de 121,822 de comentarii, algoritmul a constatat că, luând în considerare conținut de la 12 bărbați și 8 femei, majoritatea comentariilor tratează subiecte legate de femei.

Primele 10 subiecte extrase din subiecte false într-unul dintre experimentele cercetătorilor.

Cercetătorii concluzionează:

„[În timp ce] Instagram și comunitatea de cercetare s-au concentrat mult pe detectarea roboților și a conturilor automate, credem că ar trebui efectuate mai multe studii asupra activităților CT, care au un impact negativ asupra marketingului de influență, platformei Instagram și a majorității utilizatorilor săi.”

* Adresa URL TrustPilot citată de cercetători a fost omisă.

Prima dată publicată pe 28 iunie 2022.

Subiecte asemănătoare:prelucrarea limbajului natural nlp cercetare

Urmeaza

Un sistem de detectare pentru cadre de sinteză a imaginilor pure, cum ar fi DALL-E 2

Nu ratați

AI revitalizează centrele de date

Martin Anderson

Scriitor despre învățare automată, inteligență artificială și date mari.
Site personal: martinanderson.ai
Contact: [e-mail protejat]
Twitter: @manders_ai