Connect with us

Výzkum: Algoritmy proti spamu ukázaly politickou předpojatost během prezidentských voleb v USA v roce 2020

Umělá inteligence

Výzkum: Algoritmy proti spamu ukázaly politickou předpojatost během prezidentských voleb v USA v roce 2020

mm

Podle nové studie spamové filtry (SFAs) od tří největších poskytovatelů e-mailových služeb na světě vykazovaly politickou předpojatost během prezidentských voleb v USA v roce 2020, přičemž Gmail od Googlu se naklonil nalevo, a Microsoft Outlook a Yahoo Mail favorizovali e-maily od kandidátů pravého spektra.

Studie uvádí:

‘Naše pozorování ukázala, že všechny SFAs vykazovaly politickou předpojatost v měsících předcházejících prezidentským volbám v USA v roce 2020. Gmail se naklonil nalevo (demokraté), zatímco Outlook a Yahoo se naklonily napravo (republikáni). Gmail označil o 59,3 % více e-mailů od kandidátů pravého spektra jako spam ve srovnání s kandidáty levého spektra, zatímco Outlook a Yahoo označily o 20,4 % a 14,2 % více e-mailů od kandidátů levého spektra jako spam ve srovnání s kandidáty pravého spektra.’

Autoři analýzy tvrdí, že jejich analýza prokázala “kumulativní předpojatost” v aktivitách SFA.

Studie také uznává možnost “pěstování” označení spamu, kde aktéři, kteří se snaží umlčet opoziční hlasy, mohou získat nebo získat přístup k oficiálním komunikacím od “nepřátelských” stran a afiliací s úmyslem označit komunikaci jako spam, a tím ovlivnit algoritmy, které určují pravděpodobnost původu spamu z konkrétního odesílatele.

Nicméně autoři studie poznamenávají, že toto neexplikuje markantní variace v tom, jak různé poskytovatele e-mailových služeb zdají se nakonfigurovat akce na základě zpětné vazby od koncových uživatelů:

‘Je také možné, že SFAs e-mailových služeb se naučily z voleb některých voličů, kteří označili certainé kampaně e-maily jako spam, a začaly označovat tyto/similar kampaně e-maily jako spam pro ostatní voliče. Ačkoli nemáme žádný důvod věřit, že existovaly úmyslné pokusy od těchto e-mailových služeb vytvořit tyto předpojatosti, aby ovlivnily voliče, fakt zůstává, že jejich SFAs se naučily označovat více e-mailů z jedné politické afiliace jako spam ve srovnání s druhou.’

‘Jelikož tyto prominentní e-mailové služby jsou aktivně používány významnou částí voličské populace a jelikož mnoho voličů dnes závisí na informacích, které vidí (nebo nevidí) online, takové předpojatosti mohou mít neignorovatelný dopad na výsledky voleb.’

Studie studie se jmenuje Nahlédnutí do politických předpojatostí v algoritmech filtrování spamu během prezidentských voleb v USA v roce 2020 a pochází od čtyř výzkumníků z Katedry počítačových věd Univerzity Severní Karolíny.

Okolo domů

Výzkumníci provedli studii, která pokrývá období pěti měsíců od července 2020 do konce listopadu téhož roku, během kterého vytvořili 102 nových e-mailových adres na třech e-mailových platformách a přihlásili se k odběru dvou prezidentských, 78 senátních a 156 kandidátů na dům e-mailových oznámení.

Aby se vyloučily demografické faktory, e-mailové účty byly vytvořeny s různými demografickými faktory pro každého (fiktivního) koncového uživatele a rozděleny do dvou větví: první studovala obecné trendy předpojatosti v algoritmech filtrování spamu napříč všemi kombinovanými e-mailovými službami pro prezidentské, senátní a kandidáty na dům; a druhá zkoumala, jak různé e-mailové interakce (jako označení nebo zrušení označení jako spam koncovým uživatelem) zdají se ovlivňovat chování algoritmických filtrování spamu.

Několik klíčových pozorování se dostalo do popředí během studie. Autoři uvádějí, že Gmail “se naklonil nalevo”, zatímco Outlook a Yahoo se naklonily napravo. Yahoo uchovával 55,2 % všech politických e-mailů v poštovní schránce uživatele, zatímco Outlook filtroval 71,8 % e-mailů od politických kandidátů všech odstínů.

‘Gmail však uchovával většinu e-mailů kandidátů levého spektra v poštovní schránce (< 10,12 % označeno jako spam), zatímco [odeslal] většinu e-mailů kandidátů pravého spektra do složky spam (až 77,2 % označeno jako spam). ‘

‘Dále jsme pozorovali, že procento e-mailů označených Gmailem jako spam z pravého spektra kandidátů rostlo postupně, jak se blížil den voleb, zatímco procento e-mailů označených jako spam z kandidátů levého spektra zůstalo přibližně stejné.’

Výběr kandidátů

Zatímco prezidentskými kandidáty, kteří se zúčastnili studie, byli omezeni na Joea Bidena a Donalda Trumpa, výzkumníci se snažili udělat reprezentativní volby, když se přihlašovali k odběru e-mailových komunikací od senátních a kandidátů na dům, z několika důvodů.

První, státy mají různé počty křesel v domě, na základě počtu obyvatel státu. Druhý, počet senátních a kandidátů na dům se liší napříč státy. Dále, certainé kandidáti byli reprezentováni pouze oficiálními webovými stránkami .gov, které jsou zákonem zakázány zasílat kampaně e-maily; a konečně, některé kandidáty e-mailové seznamy byly chráněny CAPTCHAs, které nemohly být automatizovány výzkumníkovým vlastním rámcem pro sběr dat.

Distribuce politické afiliace e-mailových odběrů od senátních a kandidátů na dům.

Distribuce politické afiliace e-mailových odběrů od senátních a kandidátů na dům. Source: https://arxiv.org/pdf/2203.16743.pdf

Aby se vyrovnala výsledná nerovnováha mezi demokratickými a republikánskými kandidáty, výzkumníci se přihlásili k odběru kampaně e-mailových informací od maximálního počtu kandidátů ve státě, kde leví a praví kandidáti byli rovnoměrně rozděleni, kromě států, jako je Aljaška, která měla pouze jednoho republikánského senátního kandidáta.

Celkem autoři museli spravedlivě zohlednit 11 takových států a nakonec skončili se všemi 50 státy reprezentovanými. 78 odběrů napříč 36 státy se rovnalo 44 demokratickým a 34 republikánským senátním kandidátům, zatímco tam bylo 156 odběrů napříč 42 státy pro kandidáty na dům – 81 demokratů a 75 republikánů.

Analýza dat

Výzkumníci shromáždili 318 108 e-mailů napříč třemi e-mailovými službami ve studijním období aktivního sběru dat, které bylo ukončeno po 20. listopadu kvůli rychlému poklesu objemu e-mailů po tomto datu. Obsah shromážděných dat pro každý e-mail zahrnoval MIME-Version, Content Type, Subject, From, To, Date, Message-ID, Delivered-To, Received-SPF, a Received-By.

Due to the challenges involved in representing both political party communications fairly, Propensity Score Analysis (PSA) was chosen as the statistical method for the data. PSA generates covariates from unbalanced data that equalizes distributions in exceptional circumstances where control groups and traditional statistical splits are not easily applicable.

Autoři závěrem uvádějí, že SFAs pro e-mailové služby studované vykazují politickou předpojatost, a že počáteční relativní konzistence napříč službami se rozchází do spíše specifického chování v průběhu času.

Gmail označuje vyšší procento (67,6 %) pravého spektra politických e-mailů jako spam, ve srovnání s pouhými 8,2 % e-mailů levého spektra, ale reaguje více dynamicky na interakce uživatelů, kteří označí e-maily jako ne-spam, než jeho kolegové. Outlook naopak označuje 95,8 % levě orientovaných politických e-mailů jako spam, ve srovnání s 75,4 % pro pravé e-maily, a Yahoo označuje o 14,2 % více levých e-mailů jako spam než pravé e-maily.

Kumulativní distribuce procenta demokratů (modrá) a republikánů (červená) e-mailů, které byly označeny jako spam v každém z 22 e-mailových účtů každé služby.

Kumulativní distribuce procenta demokratů (modrá) a republikánů (červená) e-mailů, které byly označeny jako spam v e-mailových účtech každé služby.

Dále výsledky naznačují, že v průběhu studijního období Gmail reaguje quite generically na zvýšený objem e-mailů napříč všemi politickými afiliacemi tím, že označuje je jako spam, bez ohledu na původ. Yahoo konzistentně hlásil levé e-maily jako spam, jak kampaně postupovaly, a současně snižoval počet pravých e-mailů označených jako spam. Outlook se zdál být nejméně ovlivněn rostoucím objemem e-mailů z obou politických stran, přičemž udržoval obecnou pravou předpojatost.

Procento e-mailů označených jako spam napříč oběma politickými stranami a všemi třemi e-mailovými poskytovateli v průběhu 153 dnů studijního období.

Procento e-mailů označených jako spam napříč oběma politickými stranami a všemi třemi e-mailovými poskytovateli v průběhu 153 dnů studijního období.

Odpověď na uživatelskou interakci

Když označíme spam e-mail jako “Ne-spam”, naše záměrem je naučit e-mailový systém, aby neznačil podobné e-maily v budoucnu, i když typ podkladového pravidla (založeného na e-mailu, obsahu, atd.) není vždy zcela jasný.

Výsledky studie ukázaly, že z tří e-mailových poskytovatelů pouze Gmail reagoval výrazně na “ne-spam” vstup od uživatele. Na rozdíl od toho tato uživatelsky řízená interakce spam-to-inbox (S→I) měla velmi omezený dlouhodobý účinek v Outlooku a Yahoo.

Výzkumníci poznamenávají:

‘[Vzhledem] k S→I interakci, politická předpojatost v Gmailu se snížila významně. Nicméně neočekávaně, zvýšila se v obou Outlooku a Yahoo, protože ani jedna ze služeb nereagovala výrazně na uživatelské přání neoznačit e-maily jako spam, které tyto služby označovaly jako spam.’

Závěr

Autoři závěrem uvádějí, že Gmail reaguje “významně” na uživatelskou interakci ve srovnání s Outlookem a Yahoo, navzdory své vlastní levé předpojatosti.

Autoři uvádějí:

‘Zatímco politická předpojatost v Gmailu zůstala nezměněna po interakci čtení, snížila se významně kvůli I→S a S→I interakcím.’

A pokračují:

‘Zatímco politické předpojatosti se změnily v reakci na různé interakce, Gmail udržoval svou levou tendenci, zatímco Outlook a Yahoo udržovaly svou pravou tendenci ve všech scénářích.’

Výzkumníci uznávají obecnou očekávání koncovým uživatelem, že spamové filtry mohou a budou přizpůsobovat své chování na základě uživatelské intervence (jako přesunutí e-mailu ze spamové složky do poštovní schránky, nebo označení e-mailu jako “ne-spam”), ale že tento mechanismus není spolehlivý a určitě není konzistentní napříč třemi e-mailovými poskytovateli, kteří byli studováni.

Studie uvádí:

‘[My] jsme nenašli žádné konzistentní akce, které by uživatelé mohli doporučit, aby jim pomohly snížit předpojatost v tom, jak SFA zachází s politickými e-maily, které jsou jim zasílány.’

 

Poprvé publikováno 4. dubna 2022.

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai