výhonek Výzkum: Anti-spamové algoritmy ukázaly politickou zaujatost během voleb v roce 2020 v USA - Unite.AI
Spojte se s námi

Umělá inteligence

Výzkum: Anti-spamové algoritmy ukázaly politickou zaujatost během voleb v USA v roce 2020

mm
aktualizováno on

Podle nové studie vykazovaly algoritmy filtrování spamu (SFA) od tří největších světových velkých poskytovatelů e-mailu během voleb ve Spojených státech v roce 2020 politickou zaujatost, přičemž Gmail společnosti Google se naklonil doleva a Microsoft Outlook a Yahoo Mail upřednostňovaly e-maily od pravicoví kandidáti.

Článek uvádí:

„Naše [pozorování] odhalila, že všechny SFA vykazovaly v měsících před americkými volbami v roce 2020 politické předsudky. Gmail se naklonil doleva (demokrati), zatímco Outlook a Yahoo se naklonil doprava (republikáni). Gmail označil o 59.3 % více e-mailů od správných kandidátů jako spam ve srovnání s levými kandidáty, zatímco Outlook a Yahoo označily o 20.4 % a 14.2 % více e-mailů od levých kandidátů jako spam ve srovnání s těmi správnými kandidáty.'

Tvrdí, že analýza autorů demonstruje „agregované zkreslení“ v aktivitě SFA.

Dokument také uznává možnost „farmovaného“ označování spamu, kdy by aktéři, kteří se snaží umlčet opoziční hlasy, mohli vyžadovat nebo získat přístup k oficiální komunikaci od „nepřátelských“ stran a přidružených organizací se záměrem nahlásit komunikaci jako spam, a tím ovlivnit algoritmy, které určit pravděpodobnost původu spamu od konkrétního odesílatele.

Výzkumníci však pozorují, že to nevysvětluje označené odchylky ve způsobu, jakým se zdá, že různí poskytovatelé e-mailu nakonfigurovali akce na základě zpětné vazby od koncových uživatelů:

„Pravděpodobně existuje také možnost, že se SFA e-mailových služeb naučili z rozhodnutí některých voličů označujících určité e-maily z kampaně jako spam a začali tyto/podobné e-maily z kampaně označovat jako spam pro ostatní voliče. I když nemáme důvod se domnívat, že tyto e-mailové služby byly záměrné pokusy vytvořit tyto předsudky k ovlivnění voličů, faktem zůstává, že jejich SFA se naučily označovat více e-mailů z jedné politické příslušnosti jako spam ve srovnání s druhou.

„Vzhledem k tomu, že tyto prominentní e-mailové služby aktivně využívá značná část voličů a mnoho voličů se dnes spoléhá na informace, které vidí (nebo nevidí) online, mohou mít takové předsudky nezanedbatelný dopad na výsledky volby.'

Projekt papír je s názvem Nahlédnutí do politických předsudků v algoritmech filtrování e-mailového spamu během amerických voleb 2020, a pochází od čtyř výzkumných pracovníků z katedry počítačových věd na Státní univerzitě v Severní Karolíně.

Kolem domů

Studie výzkumníků pokrývá období pěti měsíců od července 2020 do konce listopadu téhož roku, kdy vytvořili 102 nových e-mailových adres napříč třemi e-mailovými platformami a přihlásili se k odběru dvou e-mailových upozornění na prezidenta, 78 senátních a 156 kandidátů do sněmovny. seznamy.

Aby se odstranily demografické faktory, byly e-mailové účty vytvořeny s různými demografickými faktory pro každého (fiktivního) koncového uživatele a rozděleny do dvou větví: první studoval obecné trendy zkreslení v algoritmech filtrování nevyžádané pošty ve všech kombinovaných e-mailových službách pro prezidentské úřady, sněmovnu a senát. kandidáti; a druhý zkoumal způsoby, jak se zdá, že různé e-mailové interakce (jako je označení nebo zrušení označení jako spam koncovým uživatelem) ovlivňují chování algoritmických filtrů nevyžádané pošty.

Během studie se dostalo do centra pozornosti několik klíčových pozorování. Autoři uvádějí, že Gmail se „naklonil doleva“, zatímco Outlook a Yahoo se naklonily doprava. Yahoo si ponechalo 55.2 % všech politických e-mailů ve schránce uživatele, zatímco Outlook odfiltroval 71.8 % e-mailů od politických kandidátů všech kategorií.

„Gmail však ponechal většinu e-mailů levicových kandidátů v doručené poště (< 10.12 % označených jako spam), zatímco [odesílal] většinu e-mailů pravicových kandidátů do složky spam (až 77.2 % označeno jako spam).

"Dále jsme pozorovali, že procento e-mailů označených Gmailem jako spam od pravicových kandidátů neustále rostlo s blížícím se datem voleb, zatímco procento e-mailů označených jako spam od levicových kandidátů zůstalo přibližně stejné."

Výběr kandidátů

Zatímco prezidentští kandidáti, kteří se přihlásili do studie, byli omezeni na Joe Bidena a Donalda Trumpa, vědci se z řady důvodů postarali o to, aby učinili reprezentativní rozhodnutí, když zvažovali přihlášení k odběru e-mailové komunikace od kandidátů do Senátu a Sněmovny.

Za prvé, státy mají různý počet křesel ve sněmovně na základě počtu obyvatel státu. Za druhé, počet kandidátů do Senátu a Sněmovny ve dvou hlavních politických stranách se v jednotlivých státech liší. Dále byli někteří kandidáti zastoupeni pouze oficiálními webovými stránkami .gov, které mají ze zákona zakázáno posílat e-maily o kampani; a konečně, některé seznamy předplatitelů kandidátů byly chráněny pomocí CAPTCHA, které nebylo možné automatizovat pomocí vlastního rámce shromažďování dat výzkumníků.

Distribuce politické příslušnosti odběrů emailů od kandidátů do Senátu a Sněmovny. Zdroj: https://arxiv.org/pdf/2203.16743.pdf

Distribuce politické příslušnosti odběrů emailů od kandidátů do Senátu a Sněmovny. Zdroj: https://arxiv.org/pdf/2203.16743.pdf

Aby se vyrovnala výsledná nerovnováha mezi demokratickými a republikánskými kandidáty, vědci se přihlásili k odběru e-mailových informací kampaně od maximálního počtu kandidátů v jakémkoli státě, kde byl počet levých a pravých kandidátů stejný, s výjimkou států jako Aljaška, které měly pouze jeden republikánský senát. kandidát.

Celkem museli autoři spravedlivě zaúčtovat 11 takových států a nakonec skončili se všemi zastoupenými 50 státy. 78 z předplatných ve 36 státech činilo 44 kandidátních listin demokratů a 34 republikánských kandidátských listin do Senátu, zatímco ve 156 státech bylo 42 předplatných pro kandidáty do Sněmovny – 81 demokratů a 75 republikánů.

Analýza dat

Výzkumníci shromáždili 318,108 20 e-mailů napříč třemi e-mailovými službami v období aktivního shromažďování dat studie, které bylo po XNUMX. listopadu zkráceno kvůli rychlému poklesu objemu e-mailů po tomto datu. Obsah dat shromážděný pro každý zahrnutý e-mail Verze MIME, Typ obsahu, Předmět, od, Na, Datum, ID zprávy, Doručeno, Přijato-SPF, a Přijato.

Vzhledem k problémům spojeným se spravedlivým zastupováním komunikace obou politických stran, analýza skóre sklonu (PSA) byla zvolena jako statistická metoda pro data. PSA generuje kovariáty z nevyvážených dat, která vyrovnává rozdělení za výjimečných okolností, kdy kontrolní skupiny a tradiční statistické rozdělení nelze snadno použít.

Autoři dospěli k závěru, že SFA pro studované e-mailové služby vykazují politickou zaujatost a že časná relativní konzistence napříč službami se postupem času rozchází do poněkud specifičtějšího chování.

Gmail označuje vyšší procento (67.6 %) pravicových politických e-mailů jako spam ve srovnání s pouhými 8.2 % e-mailů přidružených k levici, ale reaguje dynamičtěji na uživatelské interakce, které ruší označení e-mailů jako spam, než jeho kohorty. Outlook místo toho označuje 95.8 % levicově orientovaných politických e-mailů jako spam ve srovnání se 75.4 % u pravicových e-mailů a Yahoo označuje o 14.2 % více levicových e-mailů jako spam než pravicových.

Kumulativní rozdělení procenta e-mailů demokratů (modrá) a republikánů (červená), které byly označeny jako spam v každém z 22 e-mailových účtů každé služby.

Kumulativní rozdělení procenta e-mailů demokratů (modrá) a republikánů (červená), které byly označeny jako spam v e-mailových účtech každé služby.

Kromě toho výsledky naznačují, že v průběhu období studie Gmail zcela obecně reaguje na zvýšený objem e-mailů napříč všemi politickými afilacemi tím, že je stále častěji označuje jako spam, bez ohledu na původ. Yahoo důsledně hlásilo levicové e-maily jako spam, jak kampaně postupovaly, a zároveň snižovalo počet pravicových e-mailů označených jako spam. Výhled se zdál nejméně ovlivněn rostoucím objemem e-mailů od kterékoli z politických stran, přičemž se udržovala obecná pravicová zaujatost.

Procento e-mailů označených jako spam mezi oběma politickými stranami a všemi třemi poskytovateli e-mailu za 153 dní období studie.

Procento e-mailů označených jako spam mezi oběma politickými stranami a všemi třemi poskytovateli e-mailu za 153 dní období studie.

Odezva na interakci uživatele

Když označíme spamový e-mail jako „Není spam“, záměrem je vycvičit e-mailový systém, aby v budoucnu neoznačoval podobné e-maily, i když základní typ pravidla (založený na e-mailu, založený na obsahu atd.) není vždy zcela Průhledná.

Výsledky studie ukázaly, že ze tří zkoumaných poskytovatelů e-mailu pouze Gmail reagoval výrazně na vstup od uživatele „není spam“. Naproti tomu tento uživatelsky řízený spam do doručené pošty (S→I) interakce měla velmi omezený dlouhodobý účinek v aplikacích Outlook a Yahoo.

Výzkumníci pozorují:

„[Díky] interakci S→I se výrazně snížila politická zaujatost v Gmailu. Neočekávaně se však zvýšil v Outlooku i Yahoo, protože žádná z těchto dvou služeb výrazně nereagovala na přání uživatele neoznačovat e-maily jako spam, které obě služby označovaly jako spam.“

Proč investovat do čističky vzduchu?

Autoři dospěli k závěru, že Gmail reaguje „významně“ na interakci uživatele ve srovnání s Outlookem a Yahoo, a to navzdory své vlastní levicové predispozici.

Autoři uvádějí:

"Zatímco politické předsudky v Gmailu zůstaly po interakci čtení nezměněny, výrazně se snížily díky interakcím I→S a S→I."

A pokračujte:

"Zatímco se politické předsudky měnily v reakci na různé interakce, Gmail si zachoval svůj levý sklon, zatímco Outlook a Yahoo si zachovaly svůj pravý sklon ve všech scénářích."

Výzkumníci uznávají obecné očekávání koncového uživatele, že spamové filtry mohou a budou přizpůsobovat své chování na základě zásahu uživatele (jako je přesun e-mailu ze složky se spamem do doručené pošty nebo označení e-mailu jako „není spam“). tento mechanismus není spolehlivý a rozhodně není konzistentní u všech tří zkoumaných poskytovatelů e-mailu.

Papírové poznámky:

"[Nenašli jsme] žádné konzistentní kroky, které by bylo možné doporučit uživatelům, aby jim pomohly snížit zaujatost ve způsobu, jakým SFA zachází s politickými e-maily, které jim jsou zasílány."

 

Poprvé publikováno 4. dubna 2022.