Artificial Intelligence

Identificatie van Instagram Crowdturfers met Machine Learning

Bijgewerkt on 9 december 2022

Onderzoekers in Italië en Iran beweren het eerste machine learning-systeem te hebben ontwikkeld dat in staat is de ‘crowdturfing’-activiteit van menselijke (in plaats van geautomatiseerde) influencer-accounts op het Instagram-platform te herkennen. Crowdturfers zijn echte mensen die 'profielopbouw'-diensten verlenen aan platforms die dergelijke activiteiten op groothandelsbasis verkopen.

De nieuwe methode claimt een nauwkeurigheidsscore van ongeveer 95% en maakt gebruik van semi-gecontroleerd leren in Natural Language Processing (NLP)-systemen.

De auteurs beweren dat hun systeem, voor zover ze weten, het eerste crowdturfing (CT)-detectorsysteem is dat op betrouwbare wijze kan inzoomen op niet-botaccounts die zich bezighouden met valse, betaalde profielbetrokkenheid en boosting.

Om dit te bereiken, kochten de auteurs 1293 crowdturfing-profielen van 11 CT-platformaanbieders om gegevens te verkrijgen om hun CT-detector te trainen. Aangezien Instagram een aantal effectieve anti-botmaatregelen heeft ingevoerd, zo merken de onderzoekers op, zijn degenen die de enorme gebruikersbasis van het platform voor commerciële doeleinden willen exploiteren, overgegaan tot het betalen van echt invloedrijke Instagrammers om 'strategisch betrokken te raken' bij 'klant'-accounts, meestal door het delen van opmerkingen, of via activiteiten met betrekking tot opmerkingen op berichten.

Nadat ze het model hadden getraind, lieten de auteurs het vervolgens los om de betrokkenheidsprofielen van 20 'mega-influencers', elk met meer dan 1 miljoen volgers, te analyseren. 'meer dan 20% van hun betrokkenheid was kunstmatig'.

De papier is getiteld Zijn we allemaal in een Truman Show? Crowdturfing op Instagram spotten door middel van zelftraining, en is afkomstig van vijf onderzoekers van de Universiteit van Padova in Italië en de Iraanse Imam Reza Universiteit.

Het overtreden van de Instagram TOS

In tegenstelling tot Twitter, dat de voorkeur geniet van sociale media-onderzoekers vanwege zijn inzet om onderzoek te ondersteunen, biedt Instagram niet alleen geen API of bijgewerkte datadumps om onderzoekers te helpen, maar verbiedt het ook machinaal browsen in de Servicevoorwaarden. Daarom was de eerste taak van de onderzoekers het verkrijgen van vrijstelling van hun leidende Institutional Review Board, gerechtvaardigd door voorafgaand Bedrijven die een vergelijkbare aanpak gebruikten om 'ondergrondse activiteiten' te onderzoeken.

De crowdturfing-services werden gekocht voor nieuwe Instagram-accounts die door de onderzoekers voor hun doeleinden waren gemaakt, die allemaal na het experiment werden verwijderd, waardoor de betrokkenheid van 'legitieme' gebruikers werd vermeden. Noch de onderzochte influencer-accounts, noch de CT-platformdiensten worden genoemd.

Een andere ethische hindernis was dat de onderzoekers geen toestemming konden vragen aan de beïnvloeders die werden bestudeerd vanwege de Hawthorne-effect (dwz het zou het gedrag van de influencers kunnen hebben veranderd), en deze vrijstelling werd ook verleend door de IRB.

Ten slotte, aangezien Instagram 'handmatige verzameling' van gegevens toestaat, sloten de onderzoekers een compromis over hun inbreuk op de TOS door hun geautomatiseerde scraping-tools in te stellen op 'menselijke snelheid', wat een gegevensverzamelingsfase van vijf maanden noodzakelijk maakte.

Mensen te koop

De onderzoekers kochten 100 'nepvolger'-profielen van elk van de 11 (naamloze) providers.

In de krant staat*:

'Alle providers die we hebben geselecteerd, zorgen ervoor dat ze volgers leveren die interactie hebben met de doelprofielen door hun berichten leuk te vinden en erop te reageren om hun betrokkenheid te vergroten.

'Deze CT-profielen worden geïdentificeerd als volgers van hoge kwaliteit en kosten meestal meer dan "basis" nepprofielen. De betrouwbaarheid van deze providers wordt ondersteund door bekende [review] platforms als TrustPilot.'

Uit de krant, statistieken over de (geanonimiseerde) aanbieders van CT-platforms, elk een marktplaats voor 'corrupte' real-world influencer-accounts. Deze tabel geeft een overzicht van de informatie die door de providers is gerapporteerd en door de onderzoekers is opgehaald door de analyse van de 100 profielen die bij elke bron zijn gekocht. Bron: https://arxiv.org/pdf/2206.12904.pdf

De gemiddelde kosten voor het kopen van een Instagram-influencer, zo staat op papier, zijn niet zo hoog, ongeveer $ 3 voor 100 volgers van 'hoge kwaliteit'. De auteurs merken op:

'De meeste providers leveren de volgers binnen een paar uur. Ze bieden bescherming tegen vallen, wat betekent dat het aantal volgers dat de klant koopt in de loop van de tijd stabiel blijft of dat er nieuwe volgers bijkomen om de verloren volgers aan te vullen.'

De onderzoekers melden dat sommige van hun nieuwe Instagram-accounts na een maand een verlies van 15-20% aan CT-volgers leden, maar dat ze in bepaalde gevallen meer wonnen dan verwacht. Bij de duurste CT-aanbieder (CT-10, in de tabel hierboven) gingen na een maand slechts drie volgers verloren.

De paper merkt op dat de ratio gevolgd/volgend 'authentieker' wordt naarmate u meer betaalt aan de CT-provider, waarbij de op één na duurste provider een ratio biedt die heel dicht bij de basislijn van een standaardgebruiker ligt.

Een kenmerk van een CT Instagram-account is dat het profiel ervan zelden op 'privé' wordt gezet (een feit dat het mogelijk maakte om gegevens te halen uit de gekochte nepvolgers, aangezien de meeste analyses gericht waren op profielen en gerelateerde opmerkingen), hoewel dit wel zou moeten in dit opzicht niet als een betrouwbaar 'signaal' worden gezien.

'Mensen die lid worden van deze platforms zijn geïnteresseerd in het genereren van een minimum aantal berichten dat ze betrouwbaar maakt, behalve in enkele gevallen (CT-4, CT-10). De profielen van lage kwaliteit vertonen een zeer grote onbalans in volgers en volgers, en het gemiddelde aantal posts ligt dicht bij 0, ver onder de CT-profielen.'

Data

De onderzoekers verzamelden gegevens via een implementatie van het browserautomatiseringsframework Selenium. De resulterende dataset bevat profielinformatie van 1293 CT- en 1307 niet-CT-gebruikers.

Deze weliswaar lage monsterhoeveelheid maakte het mogelijk om Selenium gedurende een rationele tijdsperiode op een geloofwaardige menselijke snelheid te brengen. Bovendien merken de auteurs op dat de representatieve/interpretatieve kracht van semi-gesuperviseerde leertechnieken zeer goed geschikt is voor kleinere datasets. Na grondig te hebben geëxperimenteerd met een volledig gecontroleerd model, concluderen de onderzoekers:

'[De] resultaten in de semi-gesuperviseerde modus verschillen niet significant van die op een gesuperviseerde manier. Dit suggereert dat CT-profielen erg op elkaar lijken [kenmerken], en dat het algoritme kan convergeren [door een kleine hoeveelheid] gelabelde gegevens.'

De auteurs verzamelden alle beschikbare gegevens uit de broncode van de profielpagina's van de 'gecompromitteerde' gebruikers, inclusief details die over het algemeen verborgen blijven wanneer ze worden weergegeven, zoals het element #videos.

Vervolgens hebben ze de gegevenskenmerken voorverwerkt door die met nul of lage variantie te verwijderen en uiteindelijk alle categorische of niet-numerieke gegevens om te zetten in strikt numerieke of Booleaanse kenmerken.

Kenmerken van de uiteindelijke dataset.

Methode en verkenningen

Naast Selenium, omvatten technologieën die in de experimenten worden gebruikt: een versie van SpaCy geïmplementeerd met een op transformatoren gebaseerde pijplijn; een scikit leren zelflerende classificatie; en de installatielader kader.

Er is geen gebruikelijke sectie 'resultaten' in het nieuwe artikel, omdat het een doel behandelt (dwz automatische gevolgtrekking van corrupte Instagram-accounts) dat afwijkt van de centrale plaats van belang tot nu toe (dwz automatische gevolgtrekking van geautomatiseerde botactiviteit op Instagram), wat betekent dat er geen soortgelijk eerder werk is om het mee te vergelijken.

De onderzoekers hebben een breed scala aan methoden toegepast op de beschikbare gekochte gebruikers (die ze liever omschrijven als 'nep' dan alleen als 'niet-CT', aangezien deze echte accounts niet-organische, betaalde betrokkenheidsactiviteiten uitvoeren), over een scala aan NLP-gerelateerde technologieën.

Tot de bestudeerde facetten behoorden taalanalyse (die in de CT-wereld bijna altijd Engels is, hoewel CT-platforms ook niet-Engelse volgers met geografische locatie bieden); aantal reacties (waarbij nepgebruikers heel dicht bij de frequentie van echte gebruikers blijven, uit angst voor detectie); en veelgebruikte woordenanalyse:

Woordwolken van valse en echte gebruikers.

De krant merkt op dat de prevalentie van het woord 'dokter' (zie afbeelding hierboven) in valse accounts verband lijkt te houden met een specifieke interne campagne:

'“Dokter” [verscheen] in 1069 verschillende commentaren. Door de accounts die [dit] woord spamden verder te onderzoeken, vonden we een klein deel van wat een botnet lijkt te zijn dat als doel heeft om "Instagram-doktoren"-accounts te spammen. Al deze doktersprofielen hebben een zakelijke WhatsApp-link die, eenmaal aangeklikt, een chat start met een bericht om af te ronden.'

Voor zover de onderzoekers kunnen afleiden, is dit vreemde artefact mogelijk een overblijfsel van een groot botnet dat ze tegenkwamen tijdens het zoeken naar activiteiten van echte Instagram-gebruikers.

In totaal verzamelden de onderzoekers 603,007 reacties op posts van 248,388 unieke Instagram-gebruikers, waarvan er naar schatting 55,719 crowdturfing-accounts waren.

De krant constateert met belangstelling de dominantie van onderwerpen met een vrouwelijk thema in de verzamelde gegevens. Gebruikt hebben GPU-PDMM (een techniek die is ontwikkeld voor de verplichte korte berichten op Twitter) om 12,830 geschikte commentaren te extraheren uit een beschikbaar corpus van 121,822 commentaren, ontdekte het algoritme dat bij het overwegen van inhoud van 12 mannen en 8 vrouwen, de meeste opmerkingen betrekking hebben op onderwerpen die verband houden met vrouwen.

De top 10 onderwerpen uit nep-onderwerpen in een van de experimenten van de onderzoekers.

De onderzoekers concluderen:

'[Terwijl] Instagram en de onderzoeksgemeenschap zich veel hebben gericht op het detecteren van bots en geautomatiseerde accounts, zijn we van mening dat er meer onderzoek moet worden gedaan naar CT-activiteiten, die een negatieve invloed hebben op influencer-marketing, het Instagram-platform en de meeste van zijn gebruikers.'

* Door onderzoekers geciteerde TrustPilot-URL weggelaten.

Voor het eerst gepubliceerd op 28 juni 2022.

Gerelateerde onderwerpen:natuurlijke taalverwerking nlp onderzoek

Een detectiesysteem voor Pure Image Synthesis Frameworks zoals DALL-E 2

Mis het niet

AI blaast datacenters nieuw leven in

Martin Anderson

Schrijver over machine learning, kunstmatige intelligentie en big data.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai