Connect with us

Forschung: Anti-Spam-Algorithmen zeigten politische Voreingenommenheit während der USA-Wahlen 2020

Künstliche Intelligenz

Forschung: Anti-Spam-Algorithmen zeigten politische Voreingenommenheit während der USA-Wahlen 2020

mm

Laut einer neuen Studie zeigten die Spam-Filter-Algorithmen (SFAs) von drei der größten E-Mail-Anbieter der Welt während der US-Präsidentschaftswahlen 2020 politische Voreingenommenheit, wobei Google’s Gmail nach links tendierte und Microsoft Outlook und Yahoo Mail E-Mails von Kandidaten der Rechten bevorzugten.

Das Papier besagt:

‘Unsere [Beobachtungen] zeigten, dass alle SFAs politische Voreingenommenheit in den Monaten vor den US-Wahlen 2020 aufwiesen. Gmail tendierte nach links (Demokraten), während Outlook und Yahoo nach rechts (Republikaner) tendierten. Gmail markierte 59,3 % mehr E-Mails von Kandidaten der Rechten als Spam im Vergleich zu Kandidaten der Linken, während Outlook und Yahoo 20,4 % bzw. 14,2 % mehr E-Mails von linken Kandidaten als Spam im Vergleich zu Kandidaten der Rechten markierten.’

Die Analyse der Autoren zeigt, dass dies ‘gesammelte Voreingenommenheit’ in der SFA-Aktivität demonstriert.

Das Papier erkennt auch die Möglichkeit von ‘gezüchtetem’ Spam-Markieren an, bei dem Akteure, die oppositionelle Stimmen zum Schweigen bringen wollen, offizielle Kommunikationen von ‘feindlichen’ Parteien und Affiliationen erhalten und diese als Spam melden, um so die Algorithmen zu beeinflussen, die die Wahrscheinlichkeit von Spam-Herkunft von einem bestimmten Absender bestimmen.

Die Forscher bemerken jedoch, dass dies die deutlichen Unterschiede in der Art und Weise, wie verschiedene E-Mail-Anbieter ihre Aktionen aufgrund von Feedback von Endbenutzern konfiguriert haben, nicht erklärt:

‘Es ist auch möglich, dass die SFAs der E-Mail-Dienste aus den Entscheidungen einiger Wähler gelernt haben, bestimmte Kampagnen-E-Mails als Spam zu markieren, und begannen, diese/solche Kampagnen-E-Mails für andere Wähler als Spam zu markieren. Obwohl wir keinen Grund haben zu glauben, dass es bewusste Versuche von diesen E-Mail-Diensten gab, diese Voreingenommenheit zu schaffen, um die Wähler zu beeinflussen, bleibt die Tatsache bestehen, dass ihre SFAs gelernt haben, mehr E-Mails von einer politischen Affiliation als Spam zu markieren im Vergleich zu anderen.’

‘Da diese prominenten E-Mail-Dienste von einem großen Teil der Wählerschaft aktiv genutzt werden und da viele Wähler heute auf die Informationen angewiesen sind, die sie online sehen (oder nicht sehen), können solche Voreingenommenheiten einen nicht zu ignorierenden Einfluss auf die Ergebnisse einer Wahl haben.’

Das Papier trägt den Titel A Peek into the Political Biases in Email Spam Filtering Algorithms During US Election 2020 und stammt von vier Forschern der Abteilung für Informatik der North Carolina State University.

Rund um die Häuser

Die Studie der Forscher umfasst einen Zeitraum von fünf Monaten von Juli 2020 bis zum Ende November desselben Jahres, in dem sie 102 neue E-Mail-Adressen auf den drei E-Mail-Plattformen erstellten und sich für zwei Präsidentschafts-, 78 Senats- und 156 Repräsentantenhaus-Kandidaten-E-Mail-Verteilerlisten anmeldeten.

Um demografische Faktoren auszuschließen, wurden die E-Mail-Konten mit unterschiedlichen demografischen Faktoren für jeden (fiktiven) Endbenutzer erstellt und in zwei Stränge aufgeteilt: der erste untersuchte allgemeine Voreingenommenheitstrends in Spam-Filter-Algorithmen über alle kombinierten E-Mail-Dienste für Präsidentschafts-, Repräsentantenhaus- und Senatskandidaten; und der zweite untersuchte, wie verschiedene E-Mail-Interaktionen (wie das Markieren oder Entmarkieren als Spam durch den Endbenutzer) das Verhalten von algorithmischen Spam-Filtern zu beeinflussen schienen.

Während der Studie kamen mehrere wichtige Beobachtungen zum Vorschein. Die Autoren berichten, dass Gmail ‘nach links tendierte’, während Outlook und Yahoo nach rechts tendierten. Yahoo behielt 55,2 % aller politischen E-Mails im Posteingang, während Outlook 71,8 % der E-Mails von politischen Kandidaten aller Art filterte.

‘Gmail behielt die Mehrheit der E-Mails von linken Kandidaten im Posteingang (< 10,12 % als Spam markiert), während es die Mehrheit der E-Mails von rechten Kandidaten in den Spam-Ordner verschieben ließ (bis zu 77,2 % als Spam markiert). '

‘Wir beobachteten weiter, dass der Prozentsatz der E-Mails, die von Gmail als Spam von rechten Kandidaten markiert wurden, stetig anstieg, als der Wahltag näher rückte, während der Prozentsatz der E-Mails, die von linken Kandidaten als Spam markiert wurden, etwa gleich blieb.’

Kandidaten auswählen

Während die für die Studie abonnierten Präsidentschaftskandidaten auf Joe Biden und Donald Trump beschränkt waren, achteten die Forscher darauf, repräsentative Auswahlmöglichkeiten zu treffen, als sie sich für den Bezug von E-Mail-Kommunikationen von Senats- und Repräsentantenhaus-Kandidaten entschieden, und zwar aus mehreren Gründen.

Zunächst haben die Staaten eine unterschiedliche Anzahl von Sitzen im Repräsentantenhaus, basierend auf der Bevölkerungszahl des Staates. Zweitens variiert die Anzahl der Senats- und Repräsentantenhaus-Kandidaten über die beiden Hauptparteien in den Staaten. Weiterhin wurden bestimmte Kandidaten nur durch offizielle .gov-Websites repräsentiert, die gesetzlich verboten sind, Wahlkampf-E-Mails zu senden; und schließlich wurden einige der Kandidaten-Abonnements durch CAPTCHAs geschützt, die nicht durch das benutzerdefinierte Daten-Sammel- Framework der Forscher automatisiert werden konnten.

Verteilung der politischen Affiliation von E-Mail-Abonnements von Senats- und Repräsentantenhaus-Kandidaten. Quelle: https://arxiv.org/pdf/2203.16743.pdf

Verteilung der politischen Affiliation von E-Mail-Abonnements von Senats- und Repräsentantenhaus-Kandidaten. Quelle: https://arxiv.org/pdf/2203.16743.pdf

Um die resultierende Ungleichheit zwischen Demokraten und Republikanern auszugleichen, abonnierten die Forscher Kampagnen-E-Mail-Informationen von der maximalen Anzahl von Kandidaten in jedem Staat, in dem linke und rechte Kandidaten gleich zahlreich waren, mit Ausnahme von Staaten wie Alaska, die nur einen republikanischen Senatskandidaten hatten.

Insgesamt mussten die Autoren gerecht für 11 solcher Staaten werden und endeten letztendlich mit allen 50 Staaten. 78 Abonnements über 36 Staaten beliefen sich auf 44 Demokraten und 34 Republikaner-Senatskandidatenlisten, während es 156 Abonnements über 42 Staaten für Repräsentantenhaus-Kandidaten gab – 81 Demokraten und 75 Republikaner.

Daten analysieren

Die Forscher sammelten 318.108 E-Mails über die drei E-Mail-Dienste während des aktiven Daten-Sammel- Zeitraums, der nach dem 20. November abgeschnitten wurde, da die Menge der E-Mails nach diesem Datum rapide abnahm. Die gesammelten Daten umfassten MIME-Version, Content Type, Betreff, Von, An, Datum, Message-ID, Delivered-To, Received-SPF und Received-By.

Aufgrund der Herausforderungen, die mit der fairen Darstellung von Kommunikationen beider politischer Parteien verbunden sind, wurde die Propensity Score-Analyse (PSA) als statistische Methode für die Daten ausgewählt. Die PSA generiert Covariaten aus unbalancierten Daten, die Verteilungen in außergewöhnlichen Umständen ausgleichen, in denen Kontrollgruppen und traditionelle statistische Aufteilungen nicht leicht anwendbar sind.

Die Autoren kommen zu dem Schluss, dass die SFAs für die untersuchten E-Mail-Dienste politische Voreingenommenheit aufweisen und dass die anfängliche relative Konsistenz über die Dienste hinweg in spezifischeres Verhalten über die Zeit divergiert.

Gmail markiert einen höheren Prozentsatz (67,6 %) von rechtsorientierten politischen E-Mails als Spam, im Vergleich zu nur 8,2 % von linksorientierten E-Mails, aber reagiert dynamischer auf Benutzerinteraktionen, die E-Mails als nicht-Spam markieren, als seine Mitbewerber. Outlook markiert 95,8 % von linksorientierten politischen E-Mails als Spam, im Vergleich zu 75,4 % für rechtsorientierte E-Mails, und Yahoo markiert 14,2 % mehr linksorientierte E-Mails als Spam als rechtsorientierte E-Mails.

Kumulative Verteilung des Prozentsatzes der Demokraten (blau) und Republikaner (rot) E-Mails, die in jedem der 22 E-Mail-Konten jedes Dienstes als Spam markiert wurden.

Kumulative Verteilung des Prozentsatzes der Demokraten (blau) und Republikaner (rot) E-Mails, die in E-Mail-Konten jedes Dienstes als Spam markiert wurden.

Darüber hinaus deuten die Ergebnisse darauf hin, dass Gmail im Laufe des Studienzeitraums generisch auf eine zunehmende Menge an E-Mails über alle politischen Affiliationen reagiert, indem es diese zunehmend als Spam markiert, unabhängig von der Herkunft. Yahoo meldet konsistent linksorientierte E-Mails als Spam, während die Kampagnen fortschreiten, und verringert gleichzeitig die Anzahl der rechtsorientierten E-Mails, die als Spam markiert werden. Outlook scheint am wenigsten von der zunehmenden Menge an E-Mails von beiden politischen Parteien betroffen zu sein und behält eine allgemeine rechtsorientierte Voreingenommenheit bei.

Prozentsatz der E-Mails, die über beide politischen Parteien und alle drei E-Mail-Anbieter hinweg als Spam markiert wurden, über den 153-Tage-Zeitraum der Studie.

Prozentsatz der E-Mails, die über beide politischen Parteien und alle drei E-Mail-Anbieter hinweg als Spam markiert wurden, über den 153-Tage-Zeitraum der Studie.

Reaktion auf Benutzerinteraktion

Wenn wir eine Spam-E-Mail als ‘nicht Spam’ markieren, ist die Absicht, das E-Mail-System zu trainieren, um ähnliche E-Mails in Zukunft nicht zu markieren, obwohl der zugrunde liegende Regeltyp (E-Mail-basiert, inhaltsbasiert usw.) nicht immer vollständig klar ist.

Die Ergebnisse der Studie zeigten, dass von den drei untersuchten E-Mail-Anbietern nur Gmail deutlich auf eine ‘nicht Spam’-Eingabe des Benutzers reagierte. Im Gegensatz dazu hatte diese benutzergetriebene Spam-zu-Posteingang- (S→I)-Interaktion einen sehr begrenzten langfristigen Effekt in Outlook und Yahoo.

Die Forscher bemerken:

‘[Aufgrund] der S→I-Interaktion verringerte sich die politische Voreingenommenheit in Gmail erheblich. Überraschenderweise nahm sie jedoch in Outlook und Yahoo zu, da keiner der beiden Dienste merklich auf die Wunsch des Benutzers reagierte, E-Mails nicht als Spam zu markieren, die die beiden Dienste als Spam markierten.’

Schlussfolgerung

Die Autoren kommen zu dem Schluss, dass Gmail im Vergleich zu Outlook und Yahoo ‘erheblich’ auf Benutzerinteraktion reagiert, trotz seiner eigenen linksorientierten Voreingenommenheit.

Die Autoren stellen fest:

‘Während die politische Voreingenommenheit in Gmail unverändert blieb, nachdem die Lese-Interaktion stattgefunden hatte, verringerte sie sich erheblich aufgrund der I→S- und S→I-Interaktionen.’

Und fahren fort:

‘Während die politischen Voreingenommenheiten auf verschiedene Interaktionen reagierten, behielt Gmail seine linksorientierte Tendenz bei, während Outlook und Yahoo ihre rechtsorientierte Tendenz in allen Szenarien beibehielten.’

Die Forscher erkennen an, dass es eine allgemeine Erwartung des Endbenutzers gibt, dass Spam-Filter ihre Verhaltensweise anpassen können und werden, basierend auf Benutzereingriffen (wie dem Verschieben einer E-Mail aus dem Spam-Ordner in den Posteingang oder dem Markieren einer E-Mail als ‘nicht Spam’), aber dass dieser Mechanismus nicht zuverlässig ist und sicherlich nicht konsistent über die drei untersuchten E-Mail-Anbieter ist.

Das Papier bemerkt:

‘[Wir] fanden keine konsistenten Aktionen, die man den Benutzern empfehlen könnte, um ihnen zu helfen, die Voreingenommenheit in der Art und Weise zu reduzieren, wie die SFA politische E-Mails behandelt, die an sie gesendet werden.’

 

Erstveröffentlicht am 4. April 2022.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.