Kunstmatige intelligentie
Onderzoek: Anti-Spam Algoritmes Toonden Politieke Voorkeur Tijdens de USA Verkiezingen van 2020

Volgens een nieuwe studie vertoonden de spamfilteralgoritmes (SFAs) van drie van ‘s werelds grootste e-mailproviders een politieke voorkeur tijdens de Amerikaanse verkiezingen van 2020, waarbij Google’s Gmail naar links neigde en Microsoft Outlook en Yahoo Mail e-mails van rechtse kandidaten bevoordeelden.
Het paper vermeldt:
‘Onze [observaties] toonden aan dat alle SFAs politieke voorkeuren vertoonden in de maanden voorafgaand aan de Amerikaanse verkiezingen van 2020. Gmail neigde naar links (democraten), terwijl Outlook en Yahoo naar rechts neigden (republikeinen). Gmail markeerde 59,3% meer e-mails van rechtse kandidaten als spam in vergelijking met linkse kandidaten, terwijl Outlook en Yahoo 20,4% respectievelijk 14,2% meer e-mails van linkse kandidaten als spam markeerden in vergelijking met rechtse kandidaten.’
De analyse van de auteurs toont, naar eigen zeggen, ‘geaggregeerde voorkeuren’ in SFA-activiteit aan.
Het paper erkent ook de mogelijkheid van ‘gecultiveerde’ spammarkering, waarbij actoren die oppositie stemmen willen stilleggen, officiële communicatie van ‘vijandige’ partijen en affiliaties kunnen opvragen of verkrijgen met het doel deze als spam te melden, waardoor de algoritmes die de waarschijnlijkheid van spamherkomst van een bepaalde afzender bepalen, worden beïnvloed.
Echter, de onderzoekers merken op, dit verklaart niet de opvallende variaties in de manier waarop verschillende e-mailproviders lijken te zijn geconfigureerd op basis van feedback van eindgebruikers:
‘Er is ook de mogelijkheid dat de SFAs van e-mailservices hebben geleerd van de keuzes van sommige kiezers om bepaalde campagne-e-mails als spam te markeren en zijn begonnen met het markeren van die / soortgelijke campagne-e-mails als spam voor andere kiezers. Hoewel we geen reden hebben om aan te nemen dat er opzettelijke pogingen waren van deze e-mailservice om deze voorkeuren te creëren om kiezers te beïnvloeden, blijft het feit bestaan dat hun SFAs hebben geleerd om meer e-mails van een politieke affiliatie als spam te markeren in vergelijking met de andere.
‘Aangezien deze prominente e-mailservices actief worden gebruikt door een aanzienlijk deel van de kiezers en aangezien veel van de kiezers vandaag de dag afhankelijk zijn van de informatie die ze zien (of niet zien) online, kunnen dergelijke voorkeuren een onvermijdelijke impact hebben op de uitkomst van een verkiezing.’
Het paper heeft als titel Een Blik in de Politieke Voorkeuren in E-mail Spamfilteralgoritmes Tijdens de VS Verkiezingen 2020 en komt van vier onderzoekers van de afdeling Computerwetenschappen van de North Carolina State University.
Rond de Huizen
De studie van de onderzoekers omvat een periode van vijf maanden van juli 2020 tot en met het einde van november van dat jaar, waarin ze 102 nieuwe e-mailadressen hebben aangemaakt op de drie e-mailplatforms en zijn ingeschreven voor twee presidents-, 78 senaats- en 156 huis-kandidaten e-mailnotificatielijsten.
Om demografische factoren uit te sluiten, zijn de e-mailaccounts aangemaakt met uiteenlopende demografische factoren voor elke (fictieve) eindgebruiker en zijn verdeeld over twee strands: de eerste bestudeerde algemene voorkeurpatronen in spamfilteralgoritmes over alle gecombineerde e-mailservices voor presidents-, Huis- en Senaatskandidaten; en de tweede onderzocht de manieren waarop verschillende e-mailinteracties (zoals het markeren of niet markeren als spam door de eindgebruiker) de gedragingen van algoritmische spamfilters leken te beïnvloeden.
Verschillende belangrijke observaties kwamen in beeld tijdens de studie. De auteurs melden dat Gmail ‘naar links neigde’, terwijl Outlook en Yahoo naar rechts neigden. Yahoo behield 55,2% van alle politieke e-mails in de inbox van de gebruiker, terwijl Outlook 71,8% van de e-mails van politieke kandidaten van alle slag filterde.
‘Gmail behield de meerderheid van de e-mails van linkse kandidaten in de inbox (< 10,12% gemarkeerd als spam) terwijl [de meerderheid van de e-mails van rechtse kandidaten naar de spammap verwees (tot 77,2% gemarkeerd als spam).
‘We hebben verder waargenomen dat het percentage e-mails dat door Gmail als spam werd gemarkeerd van rechtse kandidaten gestaag toenam naarmate de verkiezingsdatum naderde, terwijl het percentage e-mails dat als spam werd gemarkeerd van linkse kandidaten ongeveer hetzelfde bleef.’
Kandidaten Selecteren
Terwijl de presidentskandidaten die waren ingeschreven voor de studie beperkt waren tot Joe Biden en Donald Trump, hebben de onderzoekers ervoor gezorgd om representatieve keuzes te maken bij het inschrijven voor e-mailcommunicatie van senaats- en Huis-kandidaten, om een aantal redenen.
Ten eerste hebben staten een variabel aantal zetels in het Huis, op basis van de bevolkingsomvang van de staat. Ten tweede varieert het aantal senaats- en Huis-kandidaten over de twee belangrijkste politieke partijen over staten. Bovendien werden bepaalde kandidaten alleen vertegenwoordigd door officiële .gov-websites, die statutair verboden zijn om campagne-e-mails te verzenden; en ten slotte waren sommige van de kandidatenlijsten beschermd door CAPTCHAs, die niet konden worden geautomatiseerd door het aangepaste dataverzamingskader van de onderzoekers.

Verdeling van de politieke affiliatie van e-mailabonnementen van senaats- en Huis-kandidaten. Bron: https://arxiv.org/pdf/2203.16743.pdf
Om de resulterende onevenwichtigheid tussen Democratische en Republikeinse kandidaten te egaliseren, schreven de onderzoekers zich in voor campagne-e-mailinformatie van het maximum aantal kandidaten in elke staat waar linkse en rechtse kandidaten in gelijk aantal waren, behalve in staten zoals Alaska, die alleen één Republikeinse senaatskandidaat had.
In totaal moesten de auteurs redelijk rekening houden met 11 dergelijke staten en eindigden uiteindelijk met alle 50 staten vertegenwoordigd. 78 van de abonnementen over 36 staten bedroegen 44 Democratische en 34 Republikeinse senaatskandidatenlijsten, terwijl er 156 abonnementen over 42 staten waren voor Huis-kandidaten – 81 Democraten en 75 Republikeinen.
Gegevens Analyseren
De onderzoekers verzamelden 318.108 e-mails over de drie e-maildiensten in de actieve dataverzamelingsperiode, die werd afgekapt na 20 november vanwege de snelle daling van het e-mailvolume na die datum. De verzamelde gegevens omvatten MIME-Version, Content Type, Onderwerp, Van, Aan, Datum, Message-ID, Geleverd-Aan, Ontvangen-SPF en Ontvangen-Door.
Vanwege de uitdagingen bij het eerlijk vertegenwoordigen van communicatie van beide politieke partijen, werd de Propensity Score Analyse (PSA) gekozen als de statistische methode voor de gegevens. PSA genereert covariaten van onbalansgegevens die de verdelingen in uitzonderlijke omstandigheden egaliseren waarin controlegroepen en traditionele statistische splitsen niet gemakkelijk zijn toe te passen.
De auteurs concluderen dat SFAs voor de onderzochte e-maildiensten een politieke voorkeur vertonen en dat de vroege relatieve consistentie over de diensten uiteenloopt in meer specifiek gedrag over tijd.
Gmail markeert een hoger percentage (67,6%) van rechtse politieke e-mails als spam, in vergelijking met slechts 8,2% van linkse e-mails, maar reageert meer dynamisch op gebruikersinteracties die e-mails uit de spammap verwijderen dan zijn collega’s. Outlook markeert 95,8% van de linkse politieke e-mails als spam, in vergelijking met 75,4% voor rechtse e-mails, en Yahoo markeert 14,2% meer linkse e-mails als spam dan rechtse e-mails.

Cumulatieve verdeling van het percentage van Democratische (blauw) en Republikeinse (rood) e-mails die als spam waren gemarkeerd in e-mailaccounts van elke dienst.
Bovendien suggereren de resultaten dat Gmail over de loop van de onderzoeksperiode generiek reageert op een toename van het e-mailvolume over alle politieke affiliaties door deze steeds vaker als spam te markeren, ongeacht herkomst. Yahoo rapporteert consistent linkse e-mails als spam naarmate de campagnes vorderen, en vermindert tegelijkertijd het aantal rechtse e-mails dat als spam wordt gemarkeerd. Outlook lijkt het minst te zijn beïnvloed door de toename van het e-mailvolume van beide politieke partijen, en behoudt een algemene rechtse voorkeur.

Percentage van e-mails die als spam waren gemarkeerd over beide politieke partijen en alle drie de e-mailproviders over de 153 dagen van de onderzoeksperiode.
Reactie op Gebruikersinteractie
Wanneer we een spam-e-mail als ‘Niet spam’ markeren, is de bedoeling om het e-mailsysteem te trainen om soortgelijke e-mails in de toekomst niet te markeren, hoewel het onderliggende type regel (e-mailgebaseerd, inhoudsgebaseerd, enz.) niet altijd geheel duidelijk is.
De resultaten van de studie toonden aan dat van de drie onderzochte e-mailproviders alleen Gmail opvallend reageerde op een ‘niet spam’-input van de gebruiker. In tegenstelling tot dit had de door de gebruiker aangestuurde spam-naar-inbox (S→I) interactie een zeer beperkt langetermijneffect in Outlook en Yahoo.
De onderzoekers merken op:
‘[Vanwege] de S→I-interactie nam de politieke voorkeur in Gmail aanzienlijk af. Echter, onverwachts nam deze toe in zowel Outlook als Yahoo, omdat geen van beide diensten opvallend reageerde op de wens van de gebruiker om de e-mails die de twee diensten als spam markeerden niet als spam te markeren.’
Conclusie
De auteurs concluderen dat Gmail significant reageert op gebruikersinteractie in vergelijking met Outlook en Yahoo, ondanks zijn eigen linkse voorkeur.
De auteurs verklaren:
‘Terwijl de politieke voorkeur in Gmail onveranderd bleef na de leesinteractie, nam deze aanzienlijk af vanwege de I→S- en S→I-interacties.’
En gaan verder:
‘Terwijl de politieke voorkeuren veranderden als reactie op verschillende interacties, behield Gmail zijn linkse voorkeur, terwijl Outlook en Yahoo hun rechtse voorkeur in alle scenario’s behielden.’
De onderzoekers erkennen een algemene verwachting van de eindgebruiker dat spamfilters kunnen en zullen hun gedrag aanpassen op basis van gebruikersinteractie (zoals het verplaatsen van een e-mail van een spammap naar de inbox, of het markeren van een e-mail als ‘niet spam’), maar dat dit mechanisme niet betrouwbaar is en zeker niet consistent is over de drie onderzochte e-mailproviders.
Het paper vermeldt:
‘[We] vonden geen consistente acties die men aan gebruikers kan aanbevelen om hen te helpen de voorkeur in de manier waarop de SFA politieke e-mails behandelt die aan hen worden verzonden te verminderen.’
Eerst gepubliceerd op 4 april 2022.












