Sztuczna inteligencja
Badania: algorytmy antyspamowe wykazały stronniczość polityczną podczas wyborów w USA w 2020 roku

Zgodnie z nową analizą, algorytmy filtrowania spamu (SFAs) z trzech największych dostawców usług pocztowych na świecie wykazały stronniczość polityczną podczas wyborów prezydenckich w Stanach Zjednoczonych w 2020 roku, przy czym Gmail miał tendencję do lewej strony, a Microsoft Outlook i Yahoo Mail faworyzowały e-maile od kandydatów prawicowych.
Artykuł stwierdza:
‘Nasze obserwacje wykazały, że wszystkie algorytmy SFAs wykazały stronniczość polityczną w miesiącach poprzedzających wybory prezydenckie w USA w 2020 roku. Gmail skłaniał się ku lewej stronie (Demokraci), podczas gdy Outlook i Yahoo skłaniały się ku prawej stronie (Republikanie). Gmail oznaczył o 59,3% więcej e-maili od kandydatów prawicowych jako spam w porównaniu z kandydatami lewicowymi, podczas gdy Outlook i Yahoo oznaczyły o 20,4% i 14,2% więcej e-maili od kandydatów lewicowych jako spam w porównaniu z kandydatami prawicowymi, odpowiednio.’
Analiza autorów, jak twierdzą, wykazuje ‘zbiorowe stronniczości’ w działaniu algorytmów SFAs.
Artykuł również przyznaje możliwość “uprawiania” spamu, gdzie aktorzy starający się uciszyć głosy opozycji mogliby próbować uzyskać dostęp do oficjalnych komunikatów od “wrogich” partii i afiliacji w celu zgłoszenia tej komunikacji jako spam, wpływając w ten sposób na algorytmy, które określają prawdopodobieństwo pochodzenia spamu od konkretnego nadawcy.
Jednakże, jak zauważają badacze, nie wyjaśnia to znacznych różnic w sposobie, w jaki różni dostawcy usług pocztowych wydają się konfigurować działania na podstawie opinii użytkowników końcowych:
‘Można również argumentować, że algorytmy SFAs usług pocztowych nauczyły się z wyborów niektórych wyborców, którzy oznaczyli pewne e-maile kampanijne jako spam i zaczęły oznaczać te/similarne e-maile kampanijne jako spam dla innych wyborców. Chociaż nie mamy powodu wierzyć, że były celowe próby ze strony tych usług pocztowych, aby stworzyć te stronniczości w celu wpływania na wyborców, fakt pozostaje taki, że ich algorytmy SFAs nauczyły się oznaczać więcej e-maili od jednej afiliacji politycznej jako spam w porównaniu z inną.
‘Ponieważ te prominentne usługi pocztowe są aktywnie używane przez znaczną część populacji wyborców i ponieważ wielu wyborców dzisiaj polega na informacjach, które widzą (lub nie widzą) w sieci, takie stronniczości mogą mieć nieignorowany wpływ na wyniki wyborów.’
Artykuł artykuł nosi tytuł Spojrzenie na stronniczości polityczne w algorytmach filtrowania spamu podczas wyborów prezydenckich w USA w 2020 roku, i pochodzi od czterech badaczy z Wydziału Informatyki na Uniwersytecie Stanu Karolina Północna.
Wokół domów
Badania obejmują okres pięciu miesięcy od lipca 2020 do końca listopada tego samego roku, podczas którego stworzono 102 nowe adresy e-mail na trzech platformach pocztowych, i zapisano się do dwóch list mailingowych kandydatów prezydenckich, 78 list mailingowych kandydatów do Senatu i 156 list mailingowych kandydatów do Izby Reprezentantów.
Aby wykluczyć czynniki demograficzne, konta e-mail zostały utworzone z różnymi czynnikami demograficznymi dla każdego (fikcyjnego) użytkownika końcowego, i podzielone na dwa nurty: pierwszy badał ogólne tendencje stronniczości w algorytmach filtrowania spamu we wszystkich połączonych usługach pocztowych dla kandydatów prezydenckich, kandydatów do Izby Reprezentantów i kandydatów do Senatu; i drugi badał, w jaki sposób różne interakcje e-mail (takie jak oznaczenie lub odznaczenie jako spam przez użytkownika końcowego) wpływały na zachowanie algorytmów filtrowania spamu.
W trakcie badania pojawiło się kilka kluczowych obserwacji. Autorzy donoszą, że Gmail “skłaniał się ku lewej stronie”, podczas gdy Outlook i Yahoo skłaniały się ku prawej stronie. Yahoo zachował 55,2% wszystkich e-maili politycznych w skrzynce odbiorczej użytkownika, podczas gdy Outlook filtrował 71,8% e-maili od kandydatów politycznych wszystkich opcji.
‘Gmail zachował większość e-maili kandydatów lewicowych w skrzynce odbiorczej (< 10,12% oznaczonych jako spam), podczas gdy wysyłał większość e-maili kandydatów prawicowych do folderu spamu (do 77,2% oznaczonych jako spam).
‘Stwierdziliśmy również, że procent e-maili oznaczonych przez Gmail jako spam od kandydatów prawicowych rosł stale w miarę zbliżania się daty wyborów, podczas gdy procent e-maili oznaczonych jako spam od kandydatów lewicowych pozostawał mniej więcej taki sam.’
Wybór kandydatów
Podczas gdy kandydaci prezydenccy, którzy zostali zapisani do badania, byli ograniczeni do Joe Bidena i Donalda Trumpa, badacze zadbali o to, aby wybrać reprezentatywne wybory, gdy rozważali zapisywanie się do komunikatów e-mail od kandydatów do Senatu i Izby Reprezentantów, z kilku powodów.
Po pierwsze, stany mają różną liczbę miejsc w Izbie Reprezentantów, w zależności od liczby ludności stanu. Po drugie, liczba kandydatów do Senatu i Izby Reprezentantów w dwóch głównych partiach politycznych różni się w zależności od stanu. Ponadto, niektórzy kandydaci mieli tylko oficjalne strony internetowe .gov, które są zabronione przez prawo do wysyłania e-maili kampanijnych; i wreszcie, niektóre listy subskrybentów kandydatów były chronione przez CAPTCHY, które nie mogły być zautomatyzowane przez ramę gromadzenia danych badaczy.

Rozkład przynależności politycznej subskrypcji e-mail kandydatów do Senatu i Izby Reprezentantów. Źródło: https://arxiv.org/pdf/2203.16743.pdf
Aby zrównoważyć wynikający z tego brak równowagi między kandydatami Demokratów i Republikanów, badacze zapisali się do informacji o kampanii e-mailowej od maksymalnej liczby kandydatów w każdym stanie, w którym kandydaci lewicowi i prawicowi byli równi pod względem liczby, z wyjątkiem stanów takich jak Alaska, który miał tylko jednego republikańskiego kandydata do Senatu.
W sumie autorzy musieli wziąć pod uwagę 11 takich stanów i ostatecznie mieli wszystkie 50 stanów reprezentowanych. 78 subskrypcji w 36 stanach wyniosło 44 listy kandydatów Demokratów do Senatu i 34 listy kandydatów Republikanów, podczas gdy było 156 subskrypcji w 42 stanach dla kandydatów do Izby Reprezentantów – 81 Demokratów i 75 Republikanów.
Analiza danych
Badacze zebrali 318 108 e-maili w trzech usługach pocztowych w okresie aktywnego gromadzenia danych, który został przerwany po 20 listopada z powodu gwałtownego spadku objętości poczty po tej dacie. Zebrane dane obejmowały MIME-Version, Content Type, Subject, From, To, Date, Message-ID, Delivered-To, Received-SPF, i Received-By.
Ze względu na wyzwania związane z reprezentowaniem komunikatów obu partii politycznych w sposób sprawiedliwy, analiza skorygowana (PSA) została wybrana jako metoda statystyczna dla danych. PSA generuje covariates z niezrównoważonych danych, które równoważą dystrybucje w wyjątkowych okolicznościach, w których grupy kontrolne i tradycyjne podziały statystyczne nie są łatwo stosowalne.
Autorzy konkludują, że algorytmy SFAs dla usług pocztowych badanych wykazują stronniczość polityczną, i że wczesna względna spójność w usługach rozbiega się w bardziej szczegółowe zachowanie w czasie.
Gmail oznacza wyższy procent (67,6%) e-maili politycznych prawicowych jako spam, w porównaniu z zaledwie 8,2% e-maili afiliowanych z lewicą, ale reaguje bardziej dynamicznie na interakcje użytkowników, które oznaczają e-maile jako nie-spam, niż jego koledzy. Outlook zamiast tego oznacza 95,8% e-maili lewicowych jako spam, w porównaniu z 75,4% dla e-maili prawicowych, i Yahoo oznacza o 14,2% więcej e-maili lewicowych jako spam niż e-maili prawicowych.

Kumulatywny rozkład procentu e-maili Demokratów (niebieski) i Republikanów (czerwony), które zostały oznaczone jako spam w kontach e-mailowych każdej usługi.
Ponadto wyniki sugerują, że w trakcie badania Gmail reaguje dość generycznie na zwiększoną objętość e-maili we wszystkich afiliacjach politycznych, oznaczając je jako spam, niezależnie od pochodzenia. Yahoo konsekwentnie zgłasza e-maile lewicowe jako spam w miarę postępu kampanii, jednocześnie zmniejszając liczbę e-maili prawicowych oznaczonych jako spam. Outlook wydaje się najmniej dotknięty przez zwiększoną objętość e-maili od obu partii politycznych, utrzymując ogólną stronniczość prawicową.

Procent e-maili oznaczonych jako spam we wszystkich partiach politycznych i trzech usługach pocztowych w ciągu 153 dni badania.
Reakcja na interakcję użytkownika
Gdy oznaczamy e-mail spam jako “nie-spam”, naszą intencją jest nauczenie systemu e-mailowego, aby nie oznaczał podobnych e-maili w przyszłości, chociaż podstawowy typ reguły (oparty na e-mailu, zawartości itp.) nie jest zawsze całkowicie jasny.
Wyniki badania wykazały, że spośród trzech badanych usług pocztowych tylko Gmail reagował znacznie na dane wejściowe “nie-spam” od użytkownika. W przeciwieństwie do tego, interakcja spam-to-inbox (S→I) miała bardzo ograniczony długoterminowy efekt w Outlook i Yahoo.
Badacze zauważają:
‘[Ze względu] na interakcję S→I, stronniczość polityczna w Gmailu znacznie się zmniejszyła. Jednak nieoczekiwanie, zwiększyła się w obu Outlook i Yahoo, ponieważ żadna z tych dwóch usług nie zareagowała zauważalnie na pragnienie użytkownika, aby nie oznaczać e-maili jako spam, które dwie usługi oznaczały jako spam.’
Podsumowanie
Autorzy konkludują, że Gmail reaguje “znacznie” na interakcję użytkownika w porównaniu z Outlook i Yahoo, pomimo własnej lewicowej tendencji.
Autorzy stwierdzają:
‘Chociaż stronniczość polityczna w Gmailu pozostała niezmieniona po interakcji z odczytem, znacznie się zmniejszyła z powodu interakcji I→S i S→I.’
I kontynuują:
‘Chociaż stronniczości polityczne zmieniały się w odpowiedzi na różne interakcje, Gmail utrzymywał swoją lewicową tendencję, podczas gdy Outlook i Yahoo utrzymywały swoją prawicową tendencję we wszystkich scenariuszach.’
Badacze przyznają ogólny oczekiwany przez użytkownika końcowego, że filtry spamu mogą i będą dostosowywać swoje zachowanie na podstawie interwencji użytkownika (takiej jak przeniesienie e-maila ze skrzynki spamu do skrzynki odbiorczej lub oznaczenie e-maila jako “nie-spam”), ale że mechanizm ten nie jest niezawodny i na pewno nie jest spójny w trzech badanych usługach pocztowych.
Artykuł zauważa:
‘[My] nie znaleźliśmy żadnych konsekwentnych działań, które można by polecić użytkownikom, aby pomóc im zmniejszyć stronniczość w sposobie, w jaki SFA traktuje e-maile polityczne, które są do nich wysyłane.’
Po raz pierwszy opublikowane 4 kwietnia 2022.












