Tehisintellekt

Instagrami Crowdturferide tuvastamine masinõppe abil

Ajakohastatud on Detsember 9, 2022

Itaalia ja Iraani teadlased väidavad, et on koostanud esimese masinõppesüsteemi, mis suudab Instagrami platvormil ära tunda inimeste (mitte automatiseeritud) mõjutajakontode "crowdturfing" tegevuse. Crowdturferid on tõelised inimesed, kes osutavad profiili loomise teenuseid platvormidele, mis müüvad sellist tegevust hulgimüügina.

Uus meetod väidab, et täpsusskoor on umbes 95% ja kasutab loomuliku keele töötlemise (NLP) süsteemides pooljärelevalvega õppimist.

Autorid väidavad, et nende teadmiste kohaselt esindab nende süsteem esimest crowdturfingi (CT) detektorisüsteemi, mis suudab usaldusväärselt lihvida mitte-bot-kontosid, mis tegelevad võltsitud, tasulise profiili kaasamisega ja suurendamisega.

Selle saavutamiseks ostsid autorid 1293 CT-platvormi pakkujalt 11 rahvahulga profiili, et saada andmeid oma CT-detektori koolitamiseks. Kuna Instagramis on kasutusel mitmeid tõhusaid robotitevastaseid meetmeid, märgivad teadlased, et need, kes soovivad platvormi tohutut kasutajabaasi ärilistel eesmärkidel ära kasutada, on hakanud maksma tõeliselt mõjukatele Instagrami kasutajatele, et nad saaksid "kliendikontodega strateegiliselt" suhelda, enamasti kommentaaride jagamine või postituste kommenteerimisega seotud tegevus.

Pärast mudeli väljaõpetamist otsustasid autorid analüüsida 20 "mega-mõjutaja" kaasamisprofiile, millest igaühel on üle 1 miljoni jälgija, ja jõudsid järeldusele, et "rohkem kui 20% nende seotusest oli kunstlik".

. paber on pealkirjaga Kas me kõik osaleme Trumani saates? Instagrami Crowdturfingu märkamine enesekoolituse kauduja pärineb viielt Itaalia Padova ülikooli ja Iraani Imam Reza ülikooli teadurilt.

Instagrami TOS-i rikkumine

Erinevalt Twitterist, mida sotsiaalmeedia uurijad eelistavad tänu oma pühendumusele uurimistööle kaasa aidata, ei paku Instagram mitte ainult API-d ega värskendatud andmeväljavõtteid teadlaste abistamiseks, vaid keelab oma teenusetingimustes masinapõhise sirvimise. Seetõttu oli teadlaste esimene ülesanne saada erand oma juhtivast institutsionaalsest ülevaatenõukogust, mis on põhjendatud eelnev töötab mis kasutas sarnast lähenemist "põranda-aluse tegevuse" uurimiseks.

Crowdturfingu teenused osteti uutele Instagrami kontodele, mille uurijad olid oma eesmärkidel loonud ja mis kõik pärast katset kustutati, vältides "õigustatud" kasutajate kaasamist. Uuritud mõjutajakontosid ega CT platvormi teenuseid ei nimetata.

Teine eetiline takistus oli see, et teadlased ei saanud küsida uuritavatelt mõjutajatelt nõusolekut Hawthorne'i efekt (st see võis mõjutada mõjutajate käitumist) ja selle vabastuse andis ka IRB.

Lõpuks, kuna Instagram võimaldab andmete "käsitsi kogumist", seadsid teadlased oma TOS-i rikkumisega ohtu, määrates oma automatiseeritud kraapimistööriistad "inimlikule kiirusele", mis nõudis viiekuulist andmete kogumise etappi.

Inimesed müügiks

Teadlased ostsid igalt 100 (nimeta) pakkujalt 11 võltsjälgijate profiili.

Lehes on kirjas*:

„Kõik meie valitud pakkujad tagavad, et jälgijad, kes suhtlevad sihtprofiilidega, lisavad nende postitustele meeldivaks ja kommenteerivad nende seotuse määra suurendamiseks.

"Neid CT-profiile peetakse kvaliteetseteks jälgijateks ja need maksavad tavaliselt rohkem kui "baas" võltsprofiilid. Nende pakkujate usaldusväärsust toetavad kuulsad [arvustuste] platvormid, nagu TrustPilot.

Paberist on statistika (anonüümseks muudetud) CT platvormi pakkujate kohta, millest igaüks on "rikutud" reaalsete mõjutajakontode turg. See tabel kirjeldab teavet, mille pakkujad on esitanud ja mille teadlased on leidnud igast allikast ostetud 100 profiili analüüsi kaudu. Allikas: https://arxiv.org/pdf/2206.12904.pdf

Paberist on statistika (anonüümseks muudetud) CT platvormi pakkujate kohta, millest igaüks on "rikutud" tegelike mõjutajakontode turg. Selles tabelis on esitatud teave, mille pakkujad on esitanud ja mille teadlased on leidnud igast allikast ostetud 100 profiili analüüsi kaudu. Allikas: https://arxiv.org/pdf/2206.12904.pdf

Paber märgib, et Instagrami mõjutaja ostmise keskmine hind ei ole nii kõrge, umbes 3 dollarit 100 "kvaliteetse" jälgija kohta. Autorid märgivad:

"Enamik teenusepakkujaid edastab jälgijad mõne tunni jooksul. Need pakuvad kukkumiskaitset, mis tähendab, et klientide poolt ostetud jälgijate arv jääb aja jooksul stabiilseks või tuuakse juurde uusi jälgijaid, et kaotatud jälgijaid täiendada.

Uurijad teatavad, et mõned nende värsked Instagrami kontod kaotasid ühe kuu pärast CT jälgijatest 15–20%, kuid teatud juhtudel suurenesid nad oodatust rohkem. Kõige kallima CT pakkuja (ülaltoodud tabelis CT-10) puhul kaotas ühe kuu pärast ainult kolm järgijat.

Dokumendis märgitakse, et jälgitav/jälgitav suhe muutub seda autentsemaks, mida rohkem maksate CT-teenuse pakkujale, kusjuures kalleiselt teine pakkuja pakub suhet, mis on väga lähedane tavakasutaja algtasemele.

CT Instagrami konto üks omadus on see, et selle profiil on harva seatud privaatseks (tõsiasi, mis võimaldas ostetud võltsjälgijate andmeid hankida, kuna enamik analüüse keskendus profiilidele ja nendega seotud kommentaaridele), kuigi see peaks olema ei tohi selles suhtes pidada usaldusväärset "signaali".

„Nende platvormidega liituvad inimesed on huvitatud minimaalse hulga postituste loomisest, mis muudavad need usaldusväärseks, välja arvatud mõnedel juhtudel (CT-4, CT-10). Madala kvaliteediga profiilid näitavad jälgijate ja jälgijate arvu väga suurt tasakaalustamatust ning keskmine postituste arv on 0 lähedal, mis on palju alla CT profiilide.

kuupäev

Teadlased kogusid andmeid brauseri automatiseerimise raamistiku Selenium rakendamise kaudu. Saadud andmekogum sisaldab profiiliteavet 1293 CT ja 1307 mitte-CT kasutajalt.

See tunnistatud väike proovikogus võimaldas reguleerida seleeni mõistliku aja jooksul usutavalt inimlikule kiirusele. Lisaks märgivad autorid, et pooleldi juhendatud õppemeetodite esindus-/tõlgendusjõud mahutab väga hästi väiksemaid andmekogumeid. Olles põhjalikkuse huvides katsetanud täielikult järelevalve all oleva mudeliga, järeldavad teadlased:

„[Tulemused] pooljärelevalvega režiimis ei erine oluliselt järelvalvega režiimi tulemustest. See viitab sellele, et CT-profiilidel on väga sarnased [omadused] ja et algoritm võib koonduda [väikese hulga] märgistatud andmete kaudu.

Autorid kogusid kõik saadaolevad andmed ohustatud kasutajate profiililehtede lähtekoodist, sealhulgas üksikasjad, mis on renderdamisel üldiselt varjatud, näiteks element #videos.

Seejärel eeltöötlesid nad andmefunktsioone, eemaldades need, mille dispersioon oli null või madal, ja teisendasid lõpuks kõik kategoorilised või mittenumbrilised andmed rangelt numbrilisteks või Boole'i funktsioonideks.

Lõpliku andmekogumi omadused.

Meetod ja uuringud

Lisaks seleenile on katsetes kasutatud tehnoloogiad järgmised: SpaCy versioon, mis on rakendatud trafopõhise torujuhtmega; scikit õppida enesetreeningu klassifikaator; ja installloader raamistik.

Uues dokumendis pole tavapärast tulemuste jaotist, kuna see käsitleb eesmärki (st rikutud Instagrami kontode automaatset järeldust), mis kaldub kõrvale senisest kesksest huvipunktist (st automaatne järeldus robotite automaatse tegevuse kohta Instagram), mis tähendab, et pole ühtegi sarnast eelnevat tööd, millega seda võrrelda.

Teadlased võtsid olemasolevate ostetud kasutajate jaoks kasutusele laia valikut meetodeid (mida nad tunnevad mugavalt kirjeldades pigem võltsina kui lihtsalt mitte-CT-ga, kuna need ehtsad kontod teostavad mitteorgaanilisi tasulisi kaasamistegevusi). erinevaid NLP-ga seotud tehnoloogiaid.

Uuritud tahkude hulgas oli keeleanalüüs (mis CT maailmas on peaaegu alati vaikimisi inglise keel, kuigi CT platvormid pakuvad ka geograafiliselt mitteingliskeelseid järgijaid); kommentaaride arv (kui võltskasutajad jäävad tuvastamise kartuses väga lähedale tegelike kasutajate sagedusele); ja levinud sõnade analüüs:

Sõnapilved võlts- ja päriskasutajatelt.

Dokumendis märgitakse, et sõna „dokter” (vt pilti ülal) levimus võltskontodel näib olevat seotud konkreetse sisekampaaniaga:

„Dokter [ilmus] 1069 erinevas kommentaaris. [Seda] sõna rämpspostitavaid kontosid täiendavalt uurides leidsime väikese osa sellest, mis näib olevat botnet, mille eesmärk on rämpsposti saata Instagrami arstide kontodele. Kõigil nendel arstide profiilidel on WhatsAppi ärilink, mis pärast klõpsamist alustab vestlust koos lõpetatava sõnumiga.

Niipalju kui teadlased suudavad järeldada, võib see kummaline artefakt olla jäänuk suurest botnetist, millele nad komistasid Instagrami tõelistelt kasutajatelt tegevust otsides.

Kokku kogusid teadlased 603,007 248,388 unikaalse Instagrami kasutaja postitustest 55,719 XNUMX kommentaari, millest autorite hinnangul XNUMX XNUMX olid rahvahulga kontod.

Töö märgib huviga naisteteemaliste teemade domineerimist kogutud andmetes. Olles kasutanud GPU-PDMM (Twitteris kohustuslikult lühikeste postituste jaoks välja töötatud tehnika), et eraldada saadaolevast 12,830 121,822 kommentaarist koosnevast korpusest 12 8 sobivat kommentaari, leidis algoritm, et XNUMX mehe ja XNUMX naise sisu arvesse võttes käsitleb enamik kommentaare naistega seotud teemasid.

Kümme parimat teemat, mis on ühes teadlaste katses välja võetud võltsiteemadest.

Teadlased järeldavad:

"[Kuigi] Instagram ja teadlaskond keskendusid palju robotite ja automatiseeritud kontode tuvastamisele, usume, et CT tegevuste kohta tuleks läbi viia rohkem uuringuid, mis mõjutavad negatiivselt mõjutajate turundust, Instagrami platvormi ja enamikku selle kasutajaid."

* Teadlaste tsiteeritud TrustPiloti URL on välja jäetud.

Esmakordselt avaldatud 28. juunil 2022.