Kunstmatige intelligentie
Identificatie van Instagram Crowdturfers met Machine Learning

Onderzoekers in Italië en Iran claimen het eerste machine learning-systeem te hebben ontwikkeld dat in staat is om de ‘crowdturfing’-activiteit van menselijke (in plaats van geautomatiseerde) influencer-accounts op het Instagram-platform te herkennen. Crowdturfers zijn echte mensen die ‘profielopbouw’-diensten uitvoeren voor platforms die dergelijke activiteit in bulk verkopen.
Het nieuwe systeem claimt een nauwkeurigheidsscore van ongeveer 95% en gebruikt semi-ge-superviseerd leren in Natural Language Processing (NLP)-systemen.
De auteurs claimen dat naar hun beste weten hun systeem het eerste crowdturfing (CT)-detectiesysteem vertegenwoordigt dat betrouwbaar kan worden ingesteld op niet-automatische accounts die zijn betrokken bij nep, betaalde profielengagement en verhoging.
Om dit te bereiken, kochten de auteurs 1293 crowdturfing-profielen van 11 CT-platformaanbieders om gegevens te verzamelen om hun CT-detector te trainen. Aangezien Instagram een aantal effectieve anti-botmaatregelen heeft, merken de onderzoekers op dat degenen die het platform willen exploiteren voor commerciële doeleinden, zijn overgestapt op het betalen van echte influentials op Instagram om ‘strategisch’ te engageren met ‘klant’-accounts, meestal door comments te delen of door activiteiten gerelateerd aan comments op posts.
Nadat het model was getraind, lieten de auteurs het los om de engagement-profielen van 20 ‘mega-influencers’ te analyseren, elk met meer dan 1 miljoen volgers, en concludeerden dat ‘meer dan 20% van hun engagement kunstmatig was’.
Het paper heeft als titel Zijn we allemaal in een Truman Show? Crowdturfing op Instagram detecteren met zelftrainingsmethoden en komt van vijf onderzoekers van de Universiteit van Padova in Italië en de Imam Reza Universiteit in Iran.
Schending van de Instagram-gebruiksvoorwaarden
In tegenstelling tot Twitter, dat door socialemedia-onderzoekers wordt gebruikt vanwege zijn toewijding aan het ondersteunen van onderzoek, biedt Instagram geen API of geactualiseerde datapakketten om onderzoekers te helpen, en verbiedt het machinegestuurd browsen in zijn gebruiksvoorwaarden. Daarom was de eerste taak van de onderzoekers om een ontheffing te krijgen van hun leidende Institutioneel Review Board, gerechtvaardigd door eerder werk dat een soortgelijke aanpak gebruikte om ‘ondergrondse activiteiten’ te onderzoeken.
De crowdturfing-diensten werden gekocht voor verse Instagram-accounts die door de onderzoekers voor hun doeleinden waren gemaakt, die allemaal na het experiment werden verwijderd, waardoor de betrokkenheid van ‘legitieme’ gebruikers werd geëlimineerd. De influencer-accounts die werden onderzocht en de CT-platformdiensten worden niet genoemd.
Een ander ethisch obstakel was dat de onderzoekers geen toestemming konden vragen van de influencers die werden onderzocht, vanwege de Hawthorne-effect (d.w.z. het zou het gedrag van de influencers kunnen veranderen), en deze ontheffing werd ook verleend door de IRB.
Ten slotte, aangezien Instagram ‘handmatige gegevensverzameling’ toestaat, vonden de onderzoekers een compromis door hun geautomatiseerde schraaptools in te stellen op ‘menselijke snelheid’, wat een gegevensverzamelingsfase van vijf maanden noodzakelijk maakte.
Mensen te koop
De onderzoekers kochten 100 ‘nepvolgers’-profielen van elk van de 11 (anonieme) aanbieders.
Het paper vermeldt*:
‘Alle aanbieders die we hebben geselecteerd, garanderen dat ze volgers leveren die interactie hebben met de doelprofielen door hun berichten te liken en te commentaren om hun engagementpercentage te verhogen.
‘Deze CT-profielen worden geïdentificeerd als hoge kwaliteit volgers en kosten meestal meer dan “basis”-nepprofielen. De betrouwbaarheid van deze aanbieders wordt ondersteund door bekende [review]platforms zoals TrustPilot.’

Uit het paper, statistieken over de (anonieme) CT-platformaanbieders, elk een marktplaats voor ‘gecorrumpeerde’ echte influencer-accounts. Deze tabel geeft informatie weer die door de aanbieders is gerapporteerd en door de onderzoekers is verkregen door de analyse van de 100 profielen die van elke bron zijn gekocht. Bron: https://arxiv.org/pdf/2206.12904.pdf
De gemiddelde kosten van het kopen van een Instagram-influencer zijn, zoals het paper opmerkt, niet zo hoog, ongeveer $3 voor 100 ‘hoge kwaliteit’ volgers. De auteurs merken op:
‘De meeste aanbieders leveren de volgers binnen een paar uur. Ze bieden een druppelbescherming, wat betekent dat het aantal volgers dat de klant koopt, ofwel stabiel blijft in de loop van de tijd, ofwel dat er nieuwe volgers worden geleverd om de verloren volgers aan te vullen.’
De onderzoekers melden dat sommige van hun verse Instagram-accounts een verlies van 15-20% van CT-volgers na één maand leden, maar dat in bepaalde gevallen ze meer kregen dan verwacht. Voor de duurste CT-aanbieder (CT-10, in de tabel hierboven) gingen slechts drie volgers verloren na één maand.
Het paper merkt op dat de verhouding tussen gevolgd/gevolgde meer ‘authentiek’ wordt naarmate je meer betaalt aan de CT-aanbieder, met de op één na duurste aanbieder die een verhouding biedt die zeer dicht bij de basislijn van een standaardgebruiker ligt.
Een kenmerk van een CT-Instagram-account is dat het profiel zelden op ‘privé’ wordt ingesteld (een feit dat het mogelijk maakte om gegevens te verzamelen van de gekochte nepvolgers, aangezien de meeste analyses waren gericht op profielen en gerelateerde comments), hoewel dit niet moet worden gezien als een betrouwbaar ‘signaal’ in dit opzicht.
‘Mensen die zich bij deze platforms aansluiten, zijn geïnteresseerd in het genereren van een minimumaantal berichten dat hen betrouwbaar maakt, behalve in enkele gevallen (CT-4, CT-10). De lage kwaliteit profielen vertonen een zeer hoge onevenwichtigheid in volgers en volgen, en het gemiddelde aantal berichten is dicht bij 0, ver onder de CT-profielen.’
Gegevens
De onderzoekers verzamelden gegevens door een implementatie van het browser-automatiseringsframework Selenium. De resulterende dataset bevat profielinformatie van 1293 CT- en 1307 niet-CT-gebruikers.
Deze relatief lage steekproefgrootte maakte het haalbaar om Selenium in te stellen op een menselijke snelheid over een redelijke periode. Bovendien merken de auteurs op dat de representatieve/interpretatieve kracht van semi-ge-superviseerde leertechnieken kleine datasets zeer goed aankan. Na te hebben geëxperimenteerd, voor de doeleinden van grondigheid, met een volledig ge-superviseerd model, concluderen de onderzoekers:
‘[De] resultaten in de semi-ge-superviseerde modus verschillen niet significant van die in een ge-superviseerde manier. Dit suggereert dat CT-profielen zeer vergelijkbare [kenmerken] delen, en dat het algoritme kan convergeren [via een kleine hoeveelheid] gelabelde gegevens.’
De auteurs verzamelden alle beschikbare gegevens uit de broncode van de ‘gecompromitteerde’ gebruikersprofielpagina’s, inclusief details die meestal worden verborgen wanneer ze worden weergegeven, zoals het #videos-element.
Ze verwerkten vervolgens de gegevenskenmerken door die met nul of lage variantie te verwijderen en converteerden uiteindelijk alle categorische of niet-numerieke gegevens naar strikt numerieke of Booleaanse kenmerken.

Kenmerken van de definitieve dataset.
Methode en verkenningen
Naast Selenium, worden in de experimenten de volgende technologieën gebruikt: een versie van SpaCy geïmplementeerd met een transformer-gebaseerde pipeline; een scikit learn self-training classifier; en het Instaloader-framework.
Er is geen gebruikelijke ‘resultaten’-sectie in het nieuwe paper, omdat het gaat over een doel (d.w.z. geautomatiseerde inferentie van corrupte Instagram-accounts) dat afwijkt van het centrale interessegebied tot nu toe (d.w.z. geautomatiseerde inferentie van geautomatiseerde botactiviteit op Instagram), wat betekent dat er geen vergelijkbaar eerder werk is om het mee te vergelijken.
De onderzoekers pasten een breed scala aan methoden toe op de beschikbare gekochte gebruikers, (die ze comfortabel kunnen beschrijven als ‘nep’ in plaats van alleen ‘niet-CT’, aangezien deze echte accounts niet-organische, betaalde engagementactiviteiten uitvoeren), over een reeks NLP-gerelateerde technologieën.
Onder de onderzochte aspecten waren taalanalyse (die in de CT-wereld bijna altijd standaard Engels is, hoewel CT-platforms ook geo-gelegen niet-Engelse volgers aanbieden); commentaartellingen (waarbij nepgebruikers zeer dicht bij de frequentie van echte gebruikers blijven, uit angst voor detectie); en gemeenschappelijke woordanalyse:

Woordenwolken van nep- en echte gebruikers.
Het paper merkt op dat de prevalentie van het woord ‘dokter’ (zie afbeelding hierboven) in nep-accounts lijkt te worden gerelateerd aan een specifieke interne campagne:
‘“Dokter” [verscheen] in 1069 verschillende comments. Door verder onderzoek naar de accounts die dit woord spammen, vonden we een klein deel van wat lijkt op een botnet waarvan het doel is om “Instagram-dokters”-accounts te spammen. Alle profielen van deze artsen hebben een WhatsApp-zakelijke link die, zodra deze wordt aangeklikt, een chat start met een bericht om te voltooien.’
Zoals de onderzoekers kunnen afleiden, kan dit vreemde artifact een overblijfsel zijn van een grote botnet die ze tegenkwamen terwijl ze activiteiten van echte Instagram-gebruikers zochten.
In totaal verzamelden de onderzoekers 603.007 comments van posts over 248.388 unieke Instagram-gebruikers, waarvan de auteurs schatten dat 55.719 crowdturfing-accounts waren.
Het paper merkt met interesse op dat de dominantie van vrouwenthema’s in de verzamelde gegevens. Na gebruik te hebben gemaakt van GPU-PDMM (een techniek ontwikkeld voor de verplichte korte posts op Twitter) om 12.830 geschikte comments te extraheren uit een beschikbare corpus van 121.822 comments, vond het algoritme dat bij het overwegen van inhoud van 12 mannen en 8 vrouwen, de meeste comments te maken hadden met vrouwengerelateerde onderwerpen.

De top 10 onderwerpen geëxtraheerd uit nep-comments in een van de experimenten van de onderzoekers.












