mozzicone Ricerca: gli algoritmi anti-spam hanno mostrato pregiudizi politici durante le elezioni USA del 2020 - Unite.AI
Seguici sui social

Intelligenza Artificiale

Ricerca: gli algoritmi anti-spam hanno mostrato pregiudizi politici durante le elezioni statunitensi del 2020

mm
aggiornato on

Secondo un nuovo studio, gli algoritmi di filtraggio dello spam (SFA) di tre dei principali provider di posta elettronica più grandi del mondo hanno mostrato pregiudizi politici durante le elezioni del 2020 negli Stati Uniti, con Gmail di Google inclinato a sinistra e Microsoft Outlook e Yahoo Mail che hanno favorito le e-mail da candidati di destra.

Il documento afferma:

"Le nostre [osservazioni] hanno rivelato che tutti gli SFA hanno mostrato pregiudizi politici nei mesi precedenti alle elezioni statunitensi del 2020. Gmail si è inclinato verso sinistra (Democratici) mentre Outlook e Yahoo si sono inclinati verso destra (Repubblicani). Gmail ha contrassegnato come spam il 59.3% in più di email dei candidati di destra rispetto ai candidati di sinistra, mentre Outlook e Yahoo hanno contrassegnato rispettivamente il 20.4% e il 14.2% in più di email dei candidati di sinistra rispetto ai candidati di destra.'

L'analisi degli autori, affermano, dimostra "distorsioni aggregate" nell'attività SFA.

Il documento riconosce anche la possibilità di contrassegnare lo spam "coltivato", in cui gli attori che cercano di mettere a tacere le voci dell'opposizione potrebbero sollecitare o ottenere l'accesso a comunicazioni ufficiali da parti e affiliazioni "ostili" con l'intenzione di segnalare la comunicazione come spam, influenzando così gli algoritmi che determinare la probabilità che lo spam provenga da un particolare mittente.

Tuttavia, osservano i ricercatori, questo non spiega le marcate variazioni nel modo in cui diversi provider di posta elettronica sembrano aver configurato azioni basate sul feedback degli utenti finali:

'Probabilmente, c'è anche questa possibilità che gli SFA dei servizi di posta elettronica abbiano imparato dalle scelte di alcuni elettori che contrassegnano determinate e-mail della campagna come spam e abbiano iniziato a contrassegnare quelle/simili e-mail della campagna come spam per altri elettori. Sebbene non abbiamo motivo di credere che ci siano stati tentativi deliberati da parte di questi servizi di posta elettronica di creare questi pregiudizi per influenzare gli elettori, resta il fatto che i loro SFA hanno imparato a contrassegnare più e-mail da un'affiliazione politica come spam rispetto all'altra.

"Poiché questi importanti servizi di posta elettronica sono attivamente utilizzati da una parte considerevole della popolazione votante e poiché molti elettori oggi fanno affidamento sulle informazioni che vedono (o non vedono) online, tali pregiudizi possono avere un impatto non trascurabile sui risultati di un elezione.'

I carta è intitolato Uno sguardo ai pregiudizi politici negli algoritmi di filtraggio dello spam nelle e-mail durante le elezioni statunitensi del 2020, e proviene da quattro ricercatori del Dipartimento di Informatica della North Carolina State University.

Giro delle Case

Lo studio dei ricercatori copre un periodo di cinque mesi da luglio 2020 fino alla fine di novembre dello stesso anno, in cui hanno creato 102 nuovi indirizzi e-mail sulle tre piattaforme e-mail e si sono iscritti a due notifiche e-mail per candidati presidenziali, 78 senato e 156 camere elenchi.

Per scontare i fattori demografici, gli account di posta elettronica sono stati creati con fattori demografici variabili per ciascun utente finale (fittizio) e suddivisi in due filoni: il primo ha studiato le tendenze generali di distorsione negli algoritmi di filtraggio dello spam in tutti i servizi di posta elettronica combinati per presidenziali, Camera e Senato candidati; e il secondo ha esaminato i modi in cui varie interazioni e-mail (come contrassegnare o deselezionare come spam da parte dell'utente finale) sembravano influenzare il comportamento dei filtri antispam algoritmici.

Diverse osservazioni chiave sono state messe a fuoco durante lo studio. Gli autori riferiscono che Gmail "si inclinava a sinistra", mentre Outlook e Yahoo si inclinavano a destra. Yahoo ha conservato il 55.2% di tutte le e-mail politiche nella posta in arrivo dell'utente, mentre Outlook ha filtrato il 71.8% delle e-mail di candidati politici di ogni genere.

"Gmail, tuttavia, ha mantenuto la maggior parte delle email dei candidati di sinistra nella posta in arrivo (<10.12% contrassegnate come spam) mentre [inviava] la maggior parte delle email dei candidati di destra nella cartella spam (fino al 77.2% contrassegnate come spam).

"Abbiamo inoltre osservato che la percentuale di e-mail contrassegnate da Gmail come spam dai candidati di destra è aumentata costantemente con l'avvicinarsi della data delle elezioni, mentre la percentuale di e-mail contrassegnate come spam dai candidati di sinistra è rimasta pressoché invariata".

Scegliere i candidati

Mentre i candidati presidenziali iscritti allo studio erano limitati a Joe Biden e Donald Trump, i ricercatori si sono preoccupati di fare scelte rappresentative quando hanno preso in considerazione l'iscrizione alle comunicazioni e-mail dei candidati al Senato e alla Camera, per una serie di motivi.

In primo luogo, gli stati hanno un numero variabile di seggi alla Camera, in base al conteggio della popolazione dello stato. In secondo luogo, il numero di candidati al Senato e alla Camera nei due principali partiti politici varia da stato a stato. Inoltre, alcuni candidati erano rappresentati solo da siti Web ufficiali .gov, ai quali è vietato per legge inviare e-mail della campagna; e infine, alcuni degli elenchi di abbonamenti dei candidati erano protetti da CAPTCHA, che non potevano essere automatizzati dal framework di raccolta dati personalizzato dei ricercatori.

Distribuzione dell'affiliazione politica degli abbonamenti e-mail dei candidati al Senato e alla Camera. Fonte: https://arxiv.org/pdf/2203.16743.pdf

Distribuzione dell'affiliazione politica degli abbonamenti e-mail dei candidati al Senato e alla Camera. Fonte: https://arxiv.org/pdf/2203.16743.pdf

Per pareggiare lo squilibrio risultante tra candidati democratici e repubblicani, i ricercatori si sono iscritti alle informazioni e-mail della campagna dal numero massimo di candidati in qualsiasi stato in cui i candidati di sinistra e di destra erano in numero uguale, tranne in stati come l'Alaska, che aveva un solo Senato repubblicano candidato.

In totale, gli autori hanno dovuto rendere conto equamente di 11 di questi stati e alla fine si sono ritrovati con tutti i 50 stati rappresentati. 78 delle sottoscrizioni in 36 stati ammontavano a 44 liste di candidati democratici e 34 al Senato repubblicano, mentre c'erano 156 sottoscrizioni in 42 stati per i candidati alla Camera: 81 democratici e 75 repubblicani.

Analisi dei dati

I ricercatori hanno raccolto 318,108 e-mail attraverso i tre servizi di posta elettronica nel periodo di raccolta dati attivo dello studio, che è stato interrotto dopo il 20 novembre a causa del rapido calo del volume di e-mail dopo quella data. Contenuto dei dati raccolti per ogni email inclusa Versione MIME, Tipo di contenuto, Oggetto, Da, A, Data, ID messaggio, Spedito a, Ricevuto-SPFe Ricevuto da.

A causa delle sfide legate alla rappresentazione equa delle comunicazioni di entrambi i partiti politici, l'analisi del punteggio di propensione (PSA) è stato scelto come metodo statistico per i dati. PSA genera covariate da dati sbilanciati che equalizzano le distribuzioni in circostanze eccezionali in cui i gruppi di controllo e le tradizionali ripartizioni statistiche non sono facilmente applicabili.

Gli autori concludono che gli SFA per i servizi di posta elettronica studiati mostrano pregiudizi politici e che la relativa coerenza iniziale tra i servizi diverge nel tempo in un comportamento piuttosto più specifico.

Gmail contrassegna una percentuale più alta (67.6%) di email politiche di destra come spam, rispetto a un mero 8.2% di email affiliate a sinistra, ma risponde in modo più dinamico alle interazioni degli utenti che contrassegnano le email come spam rispetto alle sue coorti. Outlook, invece, contrassegna come spam il 95.8% delle e-mail politiche di sinistra, rispetto al 75.4% delle e-mail di destra, e Yahoo contrassegna il 14.2% in più di e-mail di sinistra come spam rispetto alle e-mail di destra.

Distribuzione cumulativa della percentuale di e-mail democratiche (blu) e repubblicane (rosse) contrassegnate come spam in ciascuno dei 22 account e-mail di ciascun servizio.

Distribuzione cumulativa della percentuale di email democratiche (blu) e repubblicane (rosse) contrassegnate come spam negli account email di ciascun servizio.

Inoltre, i risultati suggeriscono che, nel corso del periodo dello studio, Gmail risponde in modo abbastanza generico a un aumento del volume di e-mail di tutte le affiliazioni politiche contrassegnandole sempre più come spam, indipendentemente dalla provenienza. Yahoo ha costantemente segnalato le e-mail di sinistra come spam con il progredire delle campagne, diminuendo allo stesso tempo il numero di e-mail di destra contrassegnate come spam. Le prospettive sembravano meno influenzate dall'aumento del volume di posta da entrambi i partiti politici, mantenendo un pregiudizio generale di destra.

Percentuale di e-mail contrassegnate come spam da entrambi i partiti politici e da tutti e tre i provider di posta elettronica nei 153 giorni del periodo di studio.

Percentuale di e-mail contrassegnate come spam da entrambi i partiti politici e da tutti e tre i provider di posta elettronica nei 153 giorni del periodo di studio.

Risposta all'interazione dell'utente

Quando contrassegniamo un'e-mail di spam come "Non spam", l'intenzione è quella di addestrare il sistema di posta elettronica a non contrassegnare messaggi simili in futuro, sebbene il tipo di regola sottostante (basato su e-mail, basato sul contenuto e così via) non sia sempre del tutto chiaro.

I risultati dello studio hanno rilevato che dei tre provider di posta elettronica esaminati, solo Gmail ha risposto in particolare a un input "non spam" da parte dell'utente. Al contrario, questo invio di posta indesiderata guidato dall'utente (S→I) l'interazione ha avuto un effetto a lungo termine molto limitato in Outlook e Yahoo.

I ricercatori osservano:

"[A causa] dell'interazione S→I, il pregiudizio politico in Gmail si è ridotto in modo significativo. Tuttavia, inaspettatamente, è aumentato sia in Outlook che in Yahoo perché nessuno dei due servizi ha reagito in modo evidente al desiderio dell'utente di non contrassegnare come spam le e-mail che i due servizi contrassegnavano come spam.'

Conclusione

Gli autori concludono che Gmail risponde "in modo significativo" all'interazione dell'utente rispetto a Outlook e Yahoo, nonostante la sua predisposizione di sinistra.

Gli autori affermano:

"Sebbene il pregiudizio politico in Gmail sia rimasto invariato dopo l'interazione di lettura, è diminuito in modo significativo a causa delle interazioni I→S e S→I."

E continua:

"Mentre i pregiudizi politici sono cambiati in risposta a varie interazioni, Gmail ha mantenuto la sua inclinazione a sinistra mentre Outlook e Yahoo hanno mantenuto la loro inclinazione a destra in tutti gli scenari".

I ricercatori riconoscono un'aspettativa generale da parte dell'utente finale secondo cui i filtri antispam possono e adatteranno il loro comportamento in base all'intervento dell'utente (come spostare un'e-mail da una cartella spam alla posta in arrivo o contrassegnare un messaggio come "non spam"), ma che questo meccanismo non è affidabile e certamente non è coerente tra i tre provider di posta elettronica studiati.

Il giornale osserva:

"[Noi] non abbiamo trovato alcuna azione coerente che si possa consigliare agli utenti per aiutarli a ridurre i pregiudizi nel modo in cui la SFA tratta le e-mail politiche che vengono loro inviate".

 

Pubblicato per la prima volta l'4 aprile 2022.