Connect with us

Kunstig intelligens

Forskning: Anti-spam-algoritmer viste politisk bias under 2020 USA-valget

mm

Ifølge en ny studie viste spamfilter-algoritmer (SFAs) fra tre av verdens største e-posttjenester politisk bias under USAs 2020-valg, med Google’s Gmail som hellet mot venstre, og Microsoft Outlook og Yahoo Mail som favoriserte e-poster fra høyreorienterte kandidater.

Papiret sier:

‘Våre [observasjoner] avdekket at alle SFAs viste politisk bias i månedene før 2020 USAs valg. Gmail hellet mot venstre (demokrater), mens Outlook og Yahoo hellet mot høyre (republikanere). Gmail markerte 59,3% flere e-poster fra høyre-kandidater som spam sammenlignet med venstre-kandidater, mens Outlook og Yahoo markerte 20,4% og 14,2% flere e-poster fra venstre-kandidater som spam sammenlignet med høyre-kandidater, henholdsvis.’

Forfatternes analyse, hevder de, demonstrerer ‘sammenlagt bias’ i SFA-aktivitet.

Papiret erkjenner også muligheten for ‘dyrket’ spam-merking, der aktører som søker å tie ned opposisjonsstemmer kunne søke eller få tilgang til offisielle kommunikasjoner fra ‘fiendtlige’ parter og tilhørighet med intensjonen å rapportere kommunikasjonen som spam, og dermed påvirke algoritmer som bestemmer sannsynligheten for spam-proveniens fra en bestemt avsender.

Men forskerne observerer at dette ikke forklarer de merkede variasjonene i måten forskjellige e-posttjenester åpenbart har konfigurert handlinger basert på tilbakemeldinger fra sluttbrukere:

‘Det er også mulig at SFAs for e-posttjenestene lærte av valg av noen velgere som markerte bestemte kampanje-e-poster som spam og startet å markere disse/slike kampanje-e-poster som spam for andre velgere. Mens vi ikke har noen grunn til å tro at det var bevisste forsøk fra disse e-posttjenestene på å skape disse bias for å påvirke velgerne, er det faktum at deres SFAs har lært å markere flere e-poster fra en politisk tilhørighet som spam sammenlignet med den andre.

‘Da disse fremtredende e-posttjenestene er aktivt brukt av en betydelig del av velgerpopulasjonen og da mange av velgerne i dag avhenger av informasjonen de ser (eller ikke ser) online, kan slike bias ha en uignorérbar innvirkning på valgresultatene.’

Papiret papiret heter En glimt inn i den politiske bias i e-post spamfilter-algoritmer under USAs valg 2020, og kommer fra fire forskere ved Department of Computer Science ved North Carolina State University.

Rundt husene

Forskerne studerte en periode på fem måneder fra juli 2020 til slutten av november samme år, hvor de opprettet 102 nye e-postadresser på de tre e-postplattformene, og abonnerte på to president-, 78 senator- og 156 huskandidaters e-postvarslinglister.

For å diskontere demografiske faktorer, ble e-postkontoene opprettet med varierende demografiske faktorer for hver (fiktiv) sluttbruker, og delt inn i to strømmer: den første studerte generell bias-trend i spamfilter-algoritmer på tvers av alle e-posttjenestene for president-, hus- og senator-kandidater; og den andre undersøkte måtene forskjellige e-postinteraksjoner (som å markere eller avmarkere som spam av sluttbrukeren) åpenbart påvirkte atferden til algoritmiske spamfilter.

Flere nøkkelobservasjoner kom i fokus under studiet. Forfatterne rapporterer at Gmail ‘hellet mot venstre’, mens Outlook og Yahoo hellet mot høyre. Yahoo beholdt 55,2% av alle politiske e-poster i brukerens innboks, mens Outlook filtrerte 71,8% av e-poster fra politiske kandidater av alle slag.

‘Gmail beholdt imidlertid majoriteten av venstreorienterte kandidaters e-poster i innboksen (< 10,12% markert som spam) mens [de sendte] majoriteten av høyreorienterte kandidaters e-poster til spam-mappen (opptil 77,2% markert som spam).

‘Vi observerte videre at prosentandelen e-poster markert av Gmail som spam fra høyreorienterte kandidater økte jevnt som valgdatoen nærmet seg, mens prosentandelen e-poster markert som spam fra venstreorienterte kandidater forble omtrent den samme.’

Velg kandidater

Mens presidentkandidatene som abonnerte på studiet var begrenset til Joe Biden og Donald Trump, tok forskerne omsorg til å gjøre representative valg når de vurderte å abonnere på e-postkommunikasjon fra senator- og huskandidater, av en rekke grunner.

Først og fremst har statene varierende antall seter i huset, basert på statens befolkningstall. For det andre varierer antallet senator- og huskandidater på tvers av de to hovedpolitiske partiene på tvers av statene. Videre var visse kandidater bare representert av offisielle .gov-nettsteder, som er lovmessig forbudt fra å sende kampanje-e-poster; og til slutt var noen av kandidatenes abonnementslister beskyttet av CAPTCHAs, som ikke kunne automatiseres av forskernes tilpassede datainnsamlingsramme.

For å equalisere den resulterende ubalansen mellom demokratiske og republikanske kandidater, abonnerte forskerne på kampanje-e-postinformasjon fra det maksimale antallet kandidater i noen stat hvor venstre- og høyrekandidater var like i antall, unntatt i stater som Alaska, som bare hadde en republikansk senator-kandidat.

Til slutt endte forfatterne opp med å representere alle 50 statene. 78 av abonnementene på tvers av 36 stater utgjorde 44 demokratiske og 34 republikanske senator-kandidatlister, mens det var 156 abonnementer på tvers av 42 stater for huskandidater – 81 demokrater og 75 republikanere.

Analysering av data

Forskerne samlet inn 318 108 e-poster på tvers av de tre e-posttjenestene i studiets aktive datainnsamlingsperiode, som ble avkortet etter 20. november på grunn av den raske nedgangen i volum av e-poster etter denne datoen. Datainnhold samlet inn for hver e-post inkluderte MIME-Version, Content Type, Subject, From, To, Date, Message-ID, Delivered-To, Received-SPF og Received-By.

På grunn av utfordringene med å representere både politiske partikommunikasjoner rettferdig, ble Propensity Score Analyse (PSA) valgt som den statistiske metoden for dataene. PSA genererer covariater fra ubalanserte data som equaliserer distribusjoner i unntakstilfeller hvor kontrollgrupper og tradisjonelle statistiske splitt ikke er lett anvendelige.

Forfatterne konkluderer at SFAs for e-posttjenestene studert viser politisk bias, og at tidlig relativ konsistens på tvers av tjenestene divergerer inn i mer spesifikt atferd over tid.

Gmail markerer en høyere prosent (67,6%) av høyreorienterte politiske e-poster som spam, sammenlignet med en beskjeden 8,2% av venstre-tilknyttede e-poster, men reagerer mer dynamisk på brukerinteraksjoner som fjerner e-poster som spam enn sine medtjenester. Outlook markerer 95,8% av venstre-orienterte politiske e-poster som spam, sammenlignet med 75,4% for høyre-orienterte e-poster, og Yahoo markerer 14,2% flere venstre-orienterte e-poster som spam enn høyre-orienterte e-poster.

Fordeling av politisk tilhørighet av e-postabonnement fra senator- og huskandidater. Kilde: https://arxiv.org/pdf/2203.16743.pdf

Fordeling av politisk tilhørighet av e-postabonnement fra senator- og huskandidater. Kilde: https://arxiv.org/pdf/2203.16743.pdf

Videre antyder resultater at over studieperiodens løp, Gmail reagerer ganske generisk på en økning i volum av e-poster på tvers av alle politiske tilhørigheter ved å øke markeringen av dem som spam, uavhengig av proveniens. Yahoo rapporterte konsistent venstre-orienterte e-poster som spam mens kampanjene fremmet, samtidig som de reduerte antallet høyre-orienterte e-poster markert som spam. Outlook syntes å være minst påvirket av økende volum av e-poster fra noen politiske partier, og beholdt en generell høyre-orientert bias.

Kumulativ distribusjon av prosentandelen av demokratiske (blå) og republikanske (rød) e-poster som ble markert som spam i hver av de 22 e-postkontoene i hver tjeneste.

Kumulativ distribusjon av prosentandelen av demokratiske (blå) og republikanske (rød) e-poster som ble markert som spam i e-postkontoer i hver tjeneste.

Prosentandelen e-poster markert som spam på tvers av begge politiske partier og alle tre e-posttjenestene over de 153 dagene i studieperioden.

Prosentandelen e-poster markert som spam på tvers av begge politiske partier og alle tre e-posttjenestene over de 153 dagene i studieperioden.

Respons til brukerinteraksjon

Når vi markerer en spam-e-post som ‘Ikke spam’, er intensjonen å trene e-postsystemet til ikke å flagge lignende e-poster i fremtiden, selv om den underliggende typen regel (e-postbasert, innholdsbasert osv.) ikke alltid er helt klar.

Studiets resultater fant at av de tre e-posttjenestene undersøkt, var det bare Gmail som reagerte merkbart på en ‘ikke spam’-innputt fra brukeren. I kontrast hadde denne brukerstyrt spam-til-innboks- (S→I) interaksjonen en svært begrenset langsiktig effekt i Outlook og Yahoo.

Forskerne observerer:

‘[På grunn av] S→I-interaksjonen, reduerte den politiske biasen i Gmail betydelig. Men uventet, økte den i både Outlook og Yahoo fordi ingen av de to tjenestene reagerte merkbart på brukerens ønske om ikke å markere e-poster som spam som de to tjenestene markerte som spam.’

Konklusjon

Forfatterne konkluderer at Gmail reagerer ‘merkbart’ på brukerinteraksjon i sammenligning med Outlook og Yahoo, til tross for sin egen venstre-orienterte predisposisjon.

Forfatterne sier:

‘ Mens den politiske biasen i Gmail forble uendret etter les-interaksjonen, reduerte den betydelig på grunn av I→S- og S→I-interaksjonene.’

Og fortsetter:

‘Mens de politiske biasene endret seg i respons til ulike interaksjoner, beholdt Gmail sin venstre-orienterte tendens, mens Outlook og Yahoo beholdt sin høyre-orienterte tendens i alle scenarioer.’

Forskerne erkjenner en generell forventning hos sluttbrukeren om at spamfilter kan og vil tilpasse sin atferd basert på brukerintervensjon (som å flytte en e-post fra en spam-mappe til innboksen, eller å markere en e-post som ‘ikke spam’), men at denne mekanismen ikke er pålitelig, og sikkert ikke er konsistent på tvers av de tre e-posttjenestene studert.

Papiret noterer:

‘[Vi] fant ikke noen konsistente handlinger som en kunne anbefale brukerne å hjelpe dem med å redusere biasen i måten SFA behandler politiske e-poster som sendes til dem.’

 

Først publisert 4. april 2022.

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.