Connect with us

Kunstig intelligens

Identifikation af Instagram Crowdturfere med Maskinlæring

mm

Forskere i Italien og Iran hævder at have formuleret det første maskinlæringsystem, der kan genkende ‘crowdturfing’-aktiviteten hos menneskelige (i stedet for automatiserede) influencer-konti på Instagram-platformen. Crowdturfere er rigtige mennesker, der udfører ‘profilbygnings’-tjenester til platforme, der sælger sådan aktivitet på grosbasis.

Den nye metode hævder en nøjagtighed på omkring 95% og bruger semi-overvåget læring i Natural Language Processing (NLP)-systemer.

Forfatterne hævder, at så vidt de ved, repræsenterer deres system det første crowdturfing (CT)-detektor-system, der kan pålideligt fokusere på ikke-bot-konti, der er engageret i falsk, betalt profilengagement og boosting.

For at opnå dette købte forfatterne 1293 crowdturfing-profiler fra 11 CT-platform-udbydere for at få data til at træne deres CT-detektor. Da Instagram har en række effektive anti-bot-foranstaltninger på plads, bemærker forskerne, at de, der søger at udnytte platformens enorme brugerbase til kommercielle formål, er gået over til at betale rigtige influencere på Instagram for at ‘engagere strategisk’ med ‘kunde’-konti, mest ved at dele kommentarer eller gennem aktiviteter relateret til kommentarer på indlæg.

Efter at have trænet modellen satte forfatterne den så fri til at analysere engagement-profilerne for 20 ‘mega-influencere’, hver med over 1 million følgere, og konkluderede, at ‘mere end 20% af deres engagement var kunstigt’.

Den artikel har titlen Er vi alle i en Truman Show? Spotting Instagram Crowdturfing gennem Selvtræning og kommer fra fem forskere på universiteterne i Padova i Italien og Imam Reza University i Iran.

Overtrædelse af Instagrams TOS

I modsætning til Twitter, der er favorit blandt sociale medieforskere på grund af sin tilgang til at hjælpe forskning, tilbyder Instagram ikke blot nogen API eller opdaterede data-dumps til at hjælpe forskere, men forbyder også maskin-drevet browsing i sine vilkår. Derfor var forskernes første opgave at opnå en undtagelse fra deres vejledende Institutional Review Board, som blev begrundet i tidligere arbejder, der brugte en lignende tilgang til at undersøge ‘undergrund-aktiviteter’.

Crowdturfing-tjenesterne blev købt til friske Instagram-konti, der var oprettet af forskerne til deres formål, og alle disse konti blev slettet efter eksperimentet, hvilket eliminerede involvering af ‘legitime’ brugere. Ingen af influencer-konti eller CT-platform-tjenesterne er nævnt.

En anden etisk hæmsko var, at forskerne ikke kunne anmode om samtykke fra de influencere, der blev studeret, på grund af Hawthorne-effekten (dvs. det kunne have ændret influencerens adfærd), og denne undtagelse blev også bevilget af IRB.

Til sidst, da Instagram tillader ‘manuel indsamling’ af data, valgte forskerne at gå på kompromis med deres overtrædelse af TOS ved at sætte deres automatiserede scrapingsværktøjer til ‘menneske-lignende’ hastighed, hvilket nødvendiggjorde en data-indsamlingssæson på fem måneder.

Mennesker til salg

Forskerne købte 100 ‘falske følger’-profiler fra hver af 11 (unavngivne) udbydere.

Artiklen siger*:

‘Alle udbyderne, vi valgte, garanterer for at levere følgere, der interagerer med målprofilerne ved at like og kommentere på deres indlæg for at booste deres engagement-rate.

‘Disse CT-profiler identificeres som høj-kvalitets-følgere og koster normalt mere end “base”-falske profiler. Pålideligheden af disse udbydere understøttes af berømte [anmeldelses]platforme som TrustPilot.’

Fra artiklen, statistik over (anonymiserede) CT-platform-udbydere, hver en marked for 'korrupte' rigtige influencer-konti. Denne tabel omfatter oplysninger, der er rapporteret af udbyderne og hentet af forskerne gennem analysen af de 100 profiler, der er købt fra hver kilde. Kilde: https://arxiv.org/pdf/2206.12904.pdf

Fra artiklen, statistik over (anonymiserede) CT-platform-udbydere, hver en marked for ‘korrupte’ rigtige influencer-konti. Denne tabel omfatter oplysninger, der er rapporteret af udbyderne og hentet af forskerne gennem analysen af de 100 profiler, der er købt fra hver kilde. Kilde: https://arxiv.org/pdf/2206.12904.pdf

Gennemsnitsprisen for at købe en Instagram-influencer, bemærker artiklen, er ikke særlig høj, på omkring 3 dollar for 100 ‘høj-kvalitets’-følgere. Forfatterne bemærker:

‘De fleste udbydere leverer følgerne inden for få timer. De tilbyder en drop-beskyttelse, som betyder, at antallet af følgere, kunden køber, enten forbliver stabilt over tid eller nye følgere leveres for at gensende de tabte.’

Forskerne rapporterer, at nogle af deres friske Instagram-konti led et tab på 15-20% af CT-følgere efter en måned, men at i visse tilfælde fik de mere, end de havde forventet. For den dyreste CT-udbyder (CT-10, i tabellen ovenfor), blev kun tre følgere tabt efter en måned.

Artiklen bemærker, at forholdet mellem følgere og følger bliver mere ‘ægte’, jo mere du betaler til CT-udbyderen, med den næstdyreste udbyder, der tilbyder et forhold, der er meget tæt på et standardbrugers baseline.

En karakteristika af en CT-Instagram-konto er, at dens profil sjældent er sat til ‘privat’ (en kendsgerning, der gjorde det muligt at hente data fra de købte falske følgere, da de fleste af analyserne centeredede sig om profiler og relaterede kommentarer), selvom dette ikke skal ses som et pålideligt ‘signal’ i denne henseende.

‘Mennesker, der deltager i disse platforme, er interesseret i at generere et minimum af indlæg, der gør dem pålidelige, bortset fra få tilfælde (CT-4, CT-10). De lav-kvalitets-profiler viser en meget høj ubalance i følgere og følger, og antallet af indlæg er tæt på 0, langt under CT-profilerne.’

Data

Forskerne indsamlede data gennem en implementering af browser-automatiseringsframeworket Selenium. Det resulterende dataset omfatter profilinformation fra 1293 CT- og 1307 ikke-CT-brugere.

Denne åbenbart lave prøvestørrelse gjorde det muligt at sætte Selenium til en troværdig menneske-lignende hastighed over en rationel periode. Derudover bemærker forfatterne, at den repræsentative/tolkende kraft af semi-overvågede læringsteknikker kan håndtere små datasets meget godt. Efter at have eksperimenteret, for grundighedens skyld, med en fuldt overvåget model, konkluderer forskerne:

‘[Resultaterne] i semi-overvåget tilstand adskiller sig ikke væsentligt fra dem i en overvåget måde. Dette tyder på, at CT-profiler deler meget lignende [karakteristika], og at algoritmen kan konvergere [gennem en lille mængde] markeret data.’

Forskerne indsamlede alle tilgængelige data fra kildekoden for de ‘kompromitterede’ brugeres profilside, herunder detaljer, der normalt er skjult, når de vises, såsom #video-elementet.

De behandlede derefter data-funktionerne ved at fjerne dem med nul eller lav variation og omdannede derefter alle kategoriske eller ikke-numeriske data til strengt numeriske eller booleske funktioner.

Karakteristika af det endelige dataset.

Karakteristika af det endelige dataset.

Metode og Undersøgelser

Ud over Selenium omfatter teknologierne, der er brugt i eksperimenterne, en version af SpaCy implementeret med en transformer-baseret pipeline; en scikit learn self-training klassifikator; og Instaloader-frameworket.

Der er ingen traditionel ‘resultater’-sektion i den nye artikel, da den beskæftiger sig med et mål (dvs. automatiseret slutning af korrupte Instagram-konti), der afviger fra den centrale interesse i dag (dvs. automatiseret slutning af automatiserede bot-aktiviteter på Instagram), hvilket betyder, at der ikke er nogen lignende tidligere arbejde at sammenligne med.

Forskerne anvendte en bred vifte af metoder på de købte brugere, (som de føler sig komfortable med at beskrive som ‘falske’ snarere end bare ‘ikke-CT’, da disse ægte konti udfører ikke-organiske, betalte engagement-aktiviteter), på tværs af en række NLP-relaterede teknologier.

Blandt de aspekter, der blev studeret, var sproganalyse (som i CT-verdenen næsten altid default til engelsk, selvom CT-platforme også tilbyder geolokaliserede ikke-engelske følgere); kommentarantal (hvor falske brugere holder sig tæt på hyppigheden af rigtige brugere, af frygt for opdagelse); og almindelige ord-analyse:

Ordskyer fra falske og rigtige brugere.

Ordskyer fra falske og rigtige brugere.

Artiklen bemærker, at forekomsten af ordet ‘dokter’ (se billedet ovenfor) i falske konti synes at relatere til en specifik intern kampagne:

‘“Dokter” [optrådte] i 1069 forskellige kommentarer. Ved at undersøge yderligere de konti, der spammer [dette] ord, fandt vi en lille del af, hvad der synes at være et botnet, hvis formål er at spamme “Instagram-læger”-konti. Alle disse lægers profiler har en WhatsApp-forretningslink, der, når den klikkes, starter en chat med en besked om at fuldføre.’

Så vidt forskerne kan slutte, kan dette underlige artifact muligvis være et levn fra et stort botnet, de stødte på, mens de søgte efter aktiviteter fra rigtige Instagram-brugere.

I alt indsamlede forskerne 603.007 kommentarer fra indlæg på tværs af 248.388 unikke Instagram-brugere, hvoraf forfatterne estimerer, at 55.719 var crowdturfing-konti.

Artiklen bemærker med interesse dominansen af kvindetemaer i de indsamlede data. Efter at have brugt GPU-PDMM (en teknik udviklet til obligatorisk korte indlæg på Twitter) til at trække 12.830 passende kommentarer fra en tilgængelig korpus af 121.822 kommentarer, fandt algoritmen, at når det kommer til indhold fra 12 mænd og 8 kvinder, behandler de fleste kommentarer kvindelige emner.

De 10 mest populære emner, der er trukket fra falske kommentarer i et af forskernes eksperimenter.

De 10 mest populære emner, der er trukket fra falske kommentarer i et af forskernes eksperimenter.

Skribent om maskinlæring, domænespecialist i menneskelig billedsyntese. Tidligere leder af forskningsindhold hos Metaphysic.ai.