Inteligjenca artificiale

Identifikimi i Crowdturfers në Instagram me Learning Machine

Përditësuar on Dhjetor 9, 2022

Studiuesit në Itali dhe Iran pretendojnë se kanë formuluar sistemin e parë të mësimit të makinerive të aftë për të njohur aktivitetin e 'turfingut' të llogarive njerëzore (dhe jo të automatizuara) të influencuesve në platformën Instagram. Crowdturfers janë njerëz të vërtetë që kryejnë shërbime të 'ndërtimit të profilit' për platformat që shesin një aktivitet të tillë me shumicë.

Metoda e re pretendon një rezultat saktësie prej rreth 95%, dhe përdor mësimin gjysmë të mbikëqyrur në sistemet e Përpunimit të Gjuhës Natyrore (NLP).

Autorët pohojnë se me njohuritë më të mira të tyre, sistemi i tyre përfaqëson sistemin e parë të detektorit të grumbullimit të njerëzve (CT) që mund të përmirësojë në mënyrë të besueshme llogaritë jo-bot që janë të përfshirë në përfshirje dhe rritje të profileve të rreme, të paguara.

Për ta arritur këtë, autorët blenë 1293 profile të turfimit nga 11 ofrues të platformave CT, në mënyrë që të merrnin të dhëna për të trajnuar detektorin e tyre CT. Meqenëse Instagram ka një sërë masash efektive kundër robotëve, vërejnë studiuesit, ata që kërkojnë të shfrytëzojnë bazën e madhe të përdoruesve të platformës për qëllime komerciale janë kthyer në pagesën e instagrammerëve me influencë të vërtetë për t'u "angazhuar në mënyrë strategjike" me llogaritë e "klientëve", kryesisht nga ndarja e komenteve, ose përmes aktivitetit që lidhet me komentet në postime.

Pasi e trajnuan modelin, autorët më pas e lanë të lirë të analizonin profilet e angazhimit të 20 'mega-ndikuesve', secili me mbi 1 milion ndjekës, duke arritur në përfundimin se "Më shumë se 20% e angazhimit të tyre ishte artificial".

La letër titullohet A jemi të gjithë në një shfaqje Truman? Shikimi i turfizmit në Instagram përmes vetë-trajnimit, dhe vjen nga pesë studiues në Universitetin e Padovës në Itali, dhe Universitetin Imam Reza të Iranit.

Shkelja e TOS-it të Instagramit

Ndryshe nga Twitter, i favorizuar nga studiuesit e mediave sociale për shkak të angazhimit të tij për të ndihmuar kërkimin, Instagram jo vetëm që nuk ofron API ose deponime të përditësuara të të dhënave për të ndihmuar studiuesit, por ndalon shfletimin e drejtuar nga makineri në Kushtet e tij të Shërbimit. Prandaj, detyra e parë e studiuesve ishte të fitonin një përjashtim nga Bordi i tyre udhëzues i Rishikimit Institucional, i justifikuar nga paraprak punon që përdori një qasje të ngjashme për të hetuar 'aktivitetet e nëndheshme'.

Shërbimet crowdturfing u blenë për llogari të reja në Instagram të krijuara nga studiuesit për qëllimet e tyre, të cilat të gjitha u fshinë pas eksperimentit, duke shmangur përfshirjen e përdoruesve 'legjitimë'. As llogaritë e ndikuesve të studiuar dhe as shërbimet e platformës CT nuk janë emëruar.

Një tjetër pengesë etike ishte se studiuesit nuk mund të kërkonin pëlqimin e ndikuesve që po studioheshin, për shkak të Efekti i Hawthorne (dmth. mund të ketë ndryshuar sjelljen e ndikuesve), dhe ky përjashtim është dhënë gjithashtu nga IRB.

Më në fund, meqenëse Instagram lejon 'mbledhjen manuale' të të dhënave, studiuesit kompromentuan shkeljen e tyre të TOS duke vendosur mjetet e tyre të automatizuara të gërvishtjes në 'shpejtësinë njerëzore', gjë që kërkoi një fazë të mbledhjes së të dhënave prej pesë muajsh.

Njerëz për Shitje

Studiuesit blenë 100 profile të 'ndjekësve të rremë' nga secili prej 11 ofruesve (pa emër).

Në letër thuhet*:

"Të gjithë ofruesit që kemi zgjedhur sigurojnë që të ofrojnë ndjekës që ndërveprojnë me profilet e synuara duke pëlqyer dhe komentuar postimet e tyre për të rritur shkallën e angazhimit të tyre.

'Këto profile CT identifikohen si ndjekës me cilësi të lartë dhe zakonisht kushtojnë më shumë se profilet e rreme "bazë". Besueshmëria e këtyre ofruesve mbështetet nga platforma të famshme [rishikimi] si TrustPilot.'

Nga dokumenti, statistikat mbi ofruesit e platformës CT (të anonimizuar), secili një treg për llogaritë e 'korruptuara' të ndikuesve të botës reale. Kjo tabelë përshkruan informacionin e raportuar nga ofruesit dhe të marrë nga studiuesit përmes analizës së 100 profileve të blera nga secili burim. Burimi: https://arxiv.org/pdf/2206.12904.pdf

Kostoja mesatare e blerjes së një influencuesi në Instagram, vëren gazeta, nuk është aq e lartë, afërsisht 3 dollarë për 100 ndjekës me cilësi të lartë. Autorët vërejnë:

"Shumica e ofruesve i dorëzojnë ndjekësit brenda pak orësh. Ato ofrojnë një mbrojtje nga rënia, që do të thotë se numri i ndjekësve që blen klienti ose do të mbetet i qëndrueshëm me kalimin e kohës ose do të dërgohen ndjekës të rinj për të rimbushur të humburit.'

Studiuesit raportojnë se disa nga llogaritë e tyre të reja në Instagram pësuan një humbje prej 15-20% të ndjekësve të CT pas një muaji, por që në disa raste ata fituan më shumë se sa pritej. Për ofruesin më të shtrenjtë të CT (CT-10, në tabelën e mësipërme), vetëm tre ndjekës humbën pas një muaji.

Gazeta vëren se raporti i ndjekur/pasues bëhet më 'autentik' sa më shumë t'i paguani ofruesit të CT, me ofruesin e dytë më të shtrenjtë që ofron një raport që është shumë afër bazës së një përdoruesi standard.

Një karakteristikë e një llogarie CT Instagram është se profili i saj rrallë do të vendoset në 'privat' (një fakt që mundësoi të nxirren të dhëna nga ndjekësit e rremë të blerë, pasi shumica e analizave përqendroheshin në profile dhe komente të ngjashme), megjithëse kjo duhet të të mos shihet si një 'sinjal' i besueshëm në këtë drejtim.

“Njerëzit që i bashkohen këtyre platformave janë të interesuar të gjenerojnë një sasi minimale postimesh që i bëjnë ato të besueshme, përveç disa rasteve (CT-4, CT-10). Profilet me cilësi të ulët tregojnë një çekuilibër shumë të lartë në ndjekës dhe ndjekës, dhe numri mesatar i postimeve është afër 0, shumë më poshtë se profilet e CT.'

Data

Studiuesit mblodhën të dhëna përmes një zbatimi të kornizës së automatizimit të shfletuesit Selenium. Të dhënat e rezultuara përfshin informacione të profilit nga 1293 CT dhe 1307 përdorues jo-CT.

Kjo sasi e vogël e mostrës e bëri të mundur vendosjen e Selenit në një shpejtësi të besueshme njerëzore gjatë një periudhe racionale kohore. Për më tepër, vënë në dukje autorët, fuqia përfaqësuese/interpretuese e teknikave të të mësuarit gjysmë të mbikëqyrur përshtat shumë mirë grupe të dhënash më të vogla. Duke eksperimentuar, për qëllime të plota, me një model të mbikëqyrur plotësisht, studiuesit përfundojnë:

'[Rezultatet] në modalitetin gjysmë të mbikëqyrur nuk ndryshojnë ndjeshëm nga ato në mënyrë të mbikëqyrur. Kjo sugjeron që profilet CT ndajnë [karakteristika] shumë të ngjashme dhe se algoritmi mund të konvergojë [përmes një sasie të vogël] të dhënash të etiketuara.'

Autorët mblodhën të gjitha të dhënat e disponueshme nga kodi burimor i faqeve të profilit të përdoruesve 'të komprometuar', duke përfshirë detaje që përgjithësisht errësohen kur jepen, siç është elementi #videos.

Më pas ata përpunuan paraprakisht veçoritë e të dhënave duke hequr ato me variancë zero ose të ulët, dhe në fund konvertuan çdo të dhënë kategorike ose jo numerike në veçori numerike ose Boolean.

Karakteristikat e grupit përfundimtar të të dhënave.

Metoda dhe eksplorime

Përveç kësaj, Selenium, teknologjitë e përdorura gjatë eksperimenteve përfshijnë: një version të SpaCy të zbatuar me një tubacion të bazuar në transformator; një scikit mësojnë klasifikues i vetë-trajnimit; dhe instalues korniza.

Nuk ka asnjë seksion të zakonshëm të 'rezultateve' në dokumentin e ri, pasi merret me një objektiv (d.m.th., konkluzioni i automatizuar i llogarive të korruptuara në Instagram) që largohet nga vendi qendror i interesit deri më sot (d.m.th., përfundimi i automatizuar i aktivitetit të automatizuar të robotëve në Instagram), që do të thotë se nuk ka asnjë punë paraprake të ngjashme me të cilën mund të krahasohet.

Studiuesit adoptuan një gamë të gjerë metodash për përdoruesit e blerë në dispozicion, (të cilat ata ndihen rehat t'i përshkruajnë si 'të rreme' dhe jo thjesht 'jo-CT', pasi këto llogari të vërteta po kryejnë aktivitete angazhimi jo organike, të paguara), në të gjithë një gamën e teknologjive të lidhura me NLP.

Ndër aspektet e studiuara ishin analiza gjuhësore (e cila, në botën e CT, pothuajse gjithmonë është e paracaktuar në anglisht, megjithëse platformat CT ofrojnë gjithashtu ndjekës jo-anglisht të vendosur gjeo); numërimi i komenteve (ku përdoruesit e rremë qëndrojnë shumë afër frekuencës së përdoruesve të vërtetë, nga frika e zbulimit); dhe analiza e fjalëve të zakonshme:

Retë e fjalëve nga përdorues të rremë dhe të vërtetë.

Gazeta vëren se mbizotërimi i fjalës 'dokter' (shih imazhin më lart) në llogaritë e rreme duket se lidhet me një fushatë specifike të brendshme:

"Dokter" [u shfaq] në 1069 komente të veçanta. Duke hetuar më tej llogaritë që dërgonin mesazhe të padëshiruara [këtë] fjalë, ne gjetëm një pjesë të vogël të asaj që duket të jetë një botnet, objektivi i të cilit është të dërgojë postë të bezdisshme në llogaritë e "doktorëve në Instagram". Të gjitha profilet e këtyre mjekëve kanë një lidhje biznesi në WhatsApp, e cila pasi të klikohet, fillon një bisedë me një mesazh për të përfunduar.'

Për aq sa studiuesit mund të nxjerrin përfundimin, ky artefakt i çuditshëm mund të jetë një mbetje e një botnet-i të madh, të cilin ata e gjetën duke kërkuar aktivitete nga përdoruesit e vërtetë të Instagramit.

Në total, studiuesit mblodhën 603,007 komente nga postimet e 248,388 përdoruesve unikë të Instagramit, nga të cilët, sipas autorëve, 55,719 ishin llogari të grumbulluara.

Punimi vëren me interes mbizotërimin e temave me tematikë femërore në të dhënat e mbledhura. Duke përdorur GPU-PDMM (një teknikë e zhvilluar për postimet detyrimisht të shkurtra në Twitter) për të nxjerrë 12,830 komente të përshtatshme nga një korpus i disponueshëm prej 121,822 komentesh, algoritmi zbuloi se duke marrë parasysh përmbajtjen nga 12 meshkuj dhe 8 femra, shumica e komenteve kanë të bëjnë me tema të lidhura me femra.

10 temat kryesore të nxjerra nga tema të rreme në një nga eksperimentet e studiuesve.

Studiuesit arrijnë në përfundimin:

"[Ndërsa] Instagram dhe komuniteti i kërkimit u përqendruan shumë në zbulimin e robotëve dhe llogarive të automatizuara, ne besojmë se duhet të kryhen më shumë studime mbi aktivitetet e CT, të cilat ndikojnë negativisht në marketingun e influencuesve, platformën Instagram dhe shumicën e përdoruesve të saj."

* URL-ja e TrustPilot e cituar nga studiuesit është hequr.

Botuar për herë të parë më 28 qershor 2022.

Temat e ngjashme:përpunimi i gjuhës natyrore NLP hulumtim

E rradhes

Një sistem zbulimi për kornizat e sintezës së imazhit të pastër si DALL-E 2

Mos e humbas

AI po rigjallëron qendrat e të dhënave

Martin Anderson

Shkrimtar për mësimin e makinerive, inteligjencën artificiale dhe të dhënat e mëdha.
Faqja personale: martinanderson.ai
Kontaktoni: [email mbrojtur]
Twitter: @manders_ai