Connect with us

Forskning: Anti-spam-algoritmer viste politisk bias under 2020 USA-valget

Kunstig intelligens

Forskning: Anti-spam-algoritmer viste politisk bias under 2020 USA-valget

mm

Ifølge en ny studie viste spam-filtreringsalgoritmerne (SFAs) fra tre af verdens største e-mail-udbydere politisk bias under USA’s 2020-valg, med Google’s Gmail, der havde en venstreorienteret bias, og Microsoft Outlook og Yahoo Mail, der favoriserede e-mails fra højreorienterede kandidater.

Papiret fastslår:

‘Vores [observationer] afslørede, at alle SFAs viste politisk bias i månederne op til 2020-valget i USA. Gmail havde en venstreorienteret bias (demokrater), mens Outlook og Yahoo havde en højreorienteret bias (republikanere). Gmail markerede 59,3% flere e-mails fra højreorienterede kandidater som spam i forhold til venstreorienterede kandidater, mens Outlook og Yahoo markerede 20,4% og 14,2% flere e-mails fra venstreorienterede kandidater som spam i forhold til højreorienterede kandidater, respectively.’

Forfatternes analyse, som de hævder, demonstrerer ‘samlet bias’ i SFA-aktivitet.

Papiret erkender også muligheden for ‘farmed’ spam-markering, hvor aktører, der søger at lukke oppositionens stemmer, kan anmode om eller få adgang til officielle kommunikationer fra ‘fjendtlige’ parter og affiliationer med det formål at rapportere kommunikationen som spam, og dermed påvirke algoritmerne, der bestemmer sandsynligheden for spam-opprindelse fra en given afsender.

Men forskerne observerer, at dette ikke forklarer de markante variationer i, hvordan de forskellige e-mail-udbydere synes at have konfigureret handlinger baseret på feedback fra slutbrugere:

‘Der er også muligheden for, at SFAs for e-mail-tjenesterne har lært af valgernes valg af at markere visse kampagne-e-mails som spam og derefter har markeret disse/sammenlignelige kampagne-e-mails som spam for andre vælgere. Selv om vi ikke har nogen grund til at tro, at der var bevidste forsøg fra disse e-mail-tjenester på at skabe disse bias for at påvirke vælgerne, er det en kendsgerning, at deres SFAs har lært at markere flere e-mails fra en politisk tilknytning som spam i forhold til den anden.

‘Da disse fremtrædende e-mail-tjenester er aktivt brugt af en betydelig del af vælgerne og da mange af vælgerne i dag afhænger af den information, de ser (eller ikke ser) online, kan sådanne bias have en uignorérbar indvirkning på valgresultaterne.’

Den papir er titlen Et glimt ind i de politiske bias i e-mail-spam-filtreringsalgoritmer under US-valget 2020, og kommer fra fire forskere ved Department of Computer Science på North Carolina State University.

Rundt om husene

Forskerne studerede en periode på fem måneder fra juli 2020 til november samme år, hvor de oprettede 102 nye e-mail-adresser på de tre e-mail-platforme, og tilmeldte sig to præsidentkandidaters, 78 senats- og 156 huskandidaters e-mail-notifikationslister.

For at fratage demografiske faktorer oprettede forskerne e-mail-konti med varierende demografiske faktorer for hver (fiktiv) slutbruger, og opdelte dem i to strænger: den første studerede generel bias-tendens i spam-filtreringsalgoritmer på tværs af alle kombinerede e-mail-tjenester for præsident-, hus- og senatskandidater; og den anden undersøgte, hvordan forskellige e-mail-interaktioner (såsom markering eller afmarkering som spam af slutbrugeren) synes at påvirke adfærd hos algorithmiske spam-filtre.

Flere nøgleobservationer kom i fokus under studiet. Forfatterne rapporterer, at Gmail ‘hældede mod venstre’, mens Outlook og Yahoo hældede mod højre. Yahoo beholdt 55,2% af alle politiske e-mails i brugerens indbakke, mens Outlook filtrerede 71,8% af e-mails fra politiske kandidater af alle slags.

‘Gmail beholdt dog de fleste e-mails fra venstreorienterede kandidater i indbakken (< 10,12% markeret som spam) mens [den sendte] de fleste e-mails fra højreorienterede kandidater til spam-mappen (op til 77,2% markeret som spam).

‘Vi observerede desuden, at procentdelen af e-mails, der blev markeret af Gmail som spam fra højreorienterede kandidater, steg støt som valgdatoen nærmede sig, mens procentdelen af e-mails, der blev markeret som spam fra venstreorienterede kandidater, forblev omtrent den samme.’

Valg af kandidater

Selv om præsidentkandidaterne, der var tilmeldt studiet, var begrænsede til Joe Biden og Donald Trump, tog forskerne sig af at træffe repræsentative valg, da de overvejede at tilmelde sig e-mail-kommunikation fra senats- og huskandidater, af en række grunde.

Først og fremmest har staterne varierende antal pladser i Repræsentanternes Hus, baseret på statens befolkningsantal. Dernæst varierer antallet af senats- og huskandidater på tværs af de to største politiske partier på tværs af staterne. Yderligere var visse kandidater kun repræsenteret af officielle .gov-websites, der er lovmæssigt forbudt fra at sende kampagne-e-mails; og endelig var visse kandidaters abonnementslister beskyttet af CAPTCHAs, som ikke kunne automatiseres af forskernes brugerdefinerede dataindsamlingssystem.

For at equalisere den resulterende ubalance mellem demokratiske og republikanske kandidater tilmeldte forskerne sig kampagne-e-mail-information fra det maksimale antal kandidater i enhver stat, hvor venstre- og højre-kandidater var lige i antal, undtagen i stater som Alaska, der kun havde én republikansk senatskandidat.

I alt havde forfatterne til at give en retfærdig beskrivelse af 11 sådanne stater og endte med at have alle 50 stater repræsenteret. 78 af abonnementerne på tværs af 36 stater udgjorde 44 demokratiske og 34 republikanske senatskandidat-lister, mens der var 156 abonnementer på tværs af 42 stater for huskandidater – 81 demokrater og 75 republikanere.

Analyse af data

Forskerne indsamlede 318.108 e-mails på tværs af de tre e-mail-tjenester i studiets aktive dataindsamling, der blev afkortet efter den 20. november på grund af den hurtige nedgang i e-mail-volumen efter denne dato. Dataindhold, der blev indsamlet for hver e-mail, omfattede MIME-Version, Content Type, Subject, From, To, Date, Message-ID, Delivered-To, Received-SPF og Received-By.

På grund af udfordringerne med at repræsentere begge politiske partiers kommunikation retfærdigt, blev Propensity Score Analysis (PSA) valgt som den statistiske metode til data. PSA genererer covariater fra ubalanceret data, der equaliserer distributioner i ekstraordinære omstændigheder, hvor kontrolgrupper og traditionelle statistiske splittelse ikke let er anvendelige.

Forfatterne konkluderer, at SFAs for e-mail-tjenesterne studerede viser politisk bias, og at tidlig relativ konsistens på tværs af tjenesterne divergerer ind i mere specifik adfærd over tid.

Gmail markerer en højere procentdel (67,6%) af højreorienterede politiske e-mails som spam i forhold til kun 8,2% af venstre-tilknyttede e-mails, men reagerer mere dynamisk på brugerinteraktioner, der afmarkerer e-mails som spam, end dens kolleger. Outlook markerer 95,8% af venstreorienterede politiske e-mails som spam i forhold til 75,4% for højreorienterede e-mails, og Yahoo markerer 14,2% flere venstreorienterede e-mails som spam end højreorienterede e-mails.

Distribution of political affiliation of email subscriptions from Senate and House candidates. Source: https://arxiv.org/pdf/2203.16743.pdf

Distribution of political affiliation of email subscriptions from Senate and House candidates. Source: https://arxiv.org/pdf/2203.16743.pdf

Yderligere viser resultaterne, at over studieperioden reagerer Gmail ret generisk på en øget volumen af e-mails på tværs af alle politiske tilknytninger ved at øge markeringen som spam, uanset oprindelse. Yahoo rapporterer konsekvent venstreorienterede e-mails som spam, mens kampagnerne skrider frem, på samme tid som den reducerer antallet af højreorienterede e-mails, der markeres som spam. Outlook synes mindst påvirket af en øget volumen af e-mails fra begge politiske partier, og fastholder en generel højreorienteret bias.

Cumulative distribution of the percentage of Democrat (blue) and Republican (red) emails that were marked as spam in each of the 22 email accounts of each service.

Cumulative distribution of the percentage of Democrat (blue) and Republican (red) emails that were marked as spam in email accounts of each service.

Yderligere viser resultaterne, at over studieperioden reagerer Gmail ret generisk på en øget volumen af e-mails på tværs af alle politiske tilknytninger ved at øge markeringen som spam, uanset oprindelse. Yahoo rapporterer konsekvent venstreorienterede e-mails som spam, mens kampagnerne skrider frem, på samme tid som den reducerer antallet af højreorienterede e-mails, der markeres som spam. Outlook synes mindst påvirket af en øget volumen af e-mails fra begge politiske partier, og fastholder en generel højreorienteret bias.

Percentage of emails marked as spam across both political parties and all three email providers over the 153 days of the study period.

Percentage of emails marked as spam across both political parties and all three email providers over the 153 days of the study period.

Reaktion på brugerinteraktion

Når vi markerer en spam-e-mail som ‘Ikke spam’, er det meningen at træne e-mail-systemet til ikke at flagge lignende e-mails i fremtiden, selv om den underliggende type regel (e-mail-baseret, indholdsbaseret osv.) ikke altid er helt klar.

Studiets resultater fandt, at af de tre e-mail-udbydere, der blev undersøgt, var det kun Gmail, der reagerede bemærkelsesværdigt på en ‘ikke spam’-indtastning fra brugeren. I modsætning hertil havde denne brugerstyrede spam-til-indbakke (S→I)-interaktion en meget begrænset langsigtede effekt i Outlook og Yahoo.

Forskerne observerer:

‘[På grund af] S→I-interaktionen reduceredes den politiske bias i Gmail betydeligt. Men uventet øgedes den i både Outlook og Yahoo, fordi ingen af de to tjenester reagerede bemærkelsesværdigt på brugerens ønske om ikke at markere e-mails som spam, som de to tjenester markerede som spam.’

Konklusion

Forfatterne konkluderer, at Gmail reagerer ‘betydeligt’ på brugerinteraktion i sammenligning med Outlook og Yahoo, på trods af sin egen venstreorienterede præference.

Forfatterne fastslår:

‘Gmail reagerer betydeligt på brugerinteraktion i sammenligning med Outlook og Yahoo, på trods af sin egen venstreorienterede præference.’

Og fortsætter:

‘Gmails politiske bias forblev uændret efter læsning-interaktionen, men reduceredes betydeligt på grund af I→S- og S→I-interaktionerne.’

Forskerne erkender en generel forventning fra slutbrugeren om, at spam-filtre kan og vil tilpasse deres adfærd baseret på brugerindgreb (såsom at flytte en e-mail fra en spam-mappe til indbakken eller at markere en e-mail som ‘ikke spam’), men at denne mekanisme ikke er pålidelig og bestemt ikke er konsistent på tværs af de tre e-mail-udbydere, der blev studeret.

Papiret bemærker:

‘[Vi] fandt ikke nogen konsistente handlinger, som man kunne anbefale brugerne at følge for at reducere bias i, hvordan SFA behandler politiske e-mails, der sendes til dem.’

 

Først publiceret 4. april 2022.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.