Connect with us

Recherche : Les algorithmes anti-spam ont montré des préjugés politiques lors des élections américaines de 2020

Intelligence artificielle

Recherche : Les algorithmes anti-spam ont montré des préjugés politiques lors des élections américaines de 2020

mm

Selon une nouvelle étude, les algorithmes de filtrage de spam (SFAs) de trois des plus grands fournisseurs de messagerie électronique au monde ont présenté des préjugés politiques lors des élections américaines de 2020, avec Gmail de Google qui penchait vers la gauche, et Microsoft Outlook et Yahoo Mail qui favorisaient les courriels des candidats de droite.

Le document indique :

‘Nos observations ont révélé que tous les SFAs ont présenté des préjugés politiques dans les mois précédant les élections américaines de 2020. Gmail penchait vers la gauche (les démocrates) alors que Outlook et Yahoo penchaient vers la droite (les républicains). Gmail a marqué 59,3 % de courriels de candidats de droite comme spam par rapport aux candidats de gauche, alors que Outlook et Yahoo ont marqué 20,4 % et 14,2 % de courriels de candidats de gauche comme spam par rapport aux candidats de droite, respectivement.’

L’analyse des auteurs, qu’ils affirment, démontre des « préjugés agrégés » dans l’activité des SFA.

Le document reconnaît également la possibilité de « spam marqué » par des acteurs cherchant à faire taire les voix de l’opposition, qui pourraient solliciter ou obtenir l’accès à des communications officielles de « parties hostiles » et d’affiliations avec l’intention de signaler la communication comme spam, influençant ainsi les algorithmes qui déterminent la probabilité de provenance de spam d’un expéditeur particulier.

Cependant, les chercheurs observent que cela n’explique pas les variations marquées dans la façon dont les différents fournisseurs de messagerie électronique semblent avoir configuré des actions en fonction des réactions des utilisateurs finals :

‘Il est également possible que les SFA des services de messagerie électronique aient appris à partir des choix de certains électeurs qui ont marqué certains courriels de campagne comme spam et ont commencé à marquer ces courriels de campagne comme spam pour d’autres électeurs. Même si nous n’avons aucune raison de croire qu’il y a eu des tentatives délibérées de la part de ces services de messagerie électronique pour créer ces préjugés pour influencer les électeurs, le fait demeure que leurs SFA ont appris à marquer plus de courriels d’une affiliation politique comme spam par rapport à l’autre. ‘

‘Comme ces services de messagerie électronique sont activement utilisés par une partie importante de la population électorale et comme de nombreux électeurs aujourd’hui s’appuient sur les informations qu’ils voient (ou ne voient pas) en ligne, de tels préjugés peuvent avoir un impact non négligeable sur les résultats d’une élection.’

Le document est intitulé Un aperçu des préjugés politiques dans les algorithmes de filtrage de spam de messagerie électronique pendant les élections américaines de 2020, et provient de quatre chercheurs du département d’informatique de l’Université d’État de Caroline du Nord.

Autour des maisons

L’étude des chercheurs couvre une période de cinq mois, de juillet 2020 à la fin novembre de la même année, au cours de laquelle ils ont créé 102 nouvelles adresses électroniques sur les trois plateformes de messagerie électronique, et se sont abonnés à deux listes de notification de courriels de candidats présidentiels, 78 listes de candidats au Sénat et 156 listes de candidats à la Chambre des représentants.

Pour tenir compte des facteurs démographiques, les comptes de messagerie électronique ont été créés avec des facteurs démographiques variés pour chaque utilisateur (fictif), et divisés en deux voies : la première a étudié les tendances générales de préjugés dans les algorithmes de filtrage de spam à travers tous les services de messagerie électronique combinés pour les candidats présidentiels, à la Chambre des représentants et au Sénat ; et la deuxième a examiné les façons dont les interactions de messagerie électronique (telles que le marquage ou le démarquage comme spam par l’utilisateur final) semblaient avoir un impact sur le comportement des filtres de spam algorithmiques.

Plusieurs observations clés sont ressorties au cours de l’étude. Les auteurs rapportent que Gmail « penchait vers la gauche », tandis que Outlook et Yahoo penchaient vers la droite. Yahoo a conservé 55,2 % de tous les courriels politiques dans le dossier de boîte de réception de l’utilisateur, tandis que Outlook a filtré 71,8 % des courriels de candidats politiques de toutes les tendances.

‘Gmail, cependant, a conservé la majorité des courriels de candidats de gauche dans le dossier de boîte de réception (< 10,12 % marqués comme spam) tandis que [il a envoyé] la majorité des courriels de candidats de droite dans le dossier de spam (jusqu'à 77,2 % marqués comme spam). '

‘Nous avons également observé que le pourcentage de courriels marqués comme spam par Gmail provenant de candidats de droite a augmenté régulièrement à mesure que la date de l’élection approchait, tandis que le pourcentage de courriels marqués comme spam provenant de candidats de gauche est resté à peu près le même.’

Sélection des candidats

Alors que les candidats à la présidence auxquels les chercheurs se sont abonnés pour l’étude étaient limités à Joe Biden et Donald Trump, les chercheurs ont pris soin de faire des choix représentatifs lorsqu’ils ont considéré s’abonner à des communications électroniques de candidats au Sénat et à la Chambre des représentants, pour plusieurs raisons.

Tout d’abord, les États ont des nombres variables de sièges à la Chambre des représentants en fonction du décompte de la population de l’État. Deuxièmement, le nombre de candidats au Sénat et à la Chambre des représentants aux deux principaux partis politiques varie d’État en État. En outre, certains candidats n’étaient représentés que par des sites Web officiels .gov, qui sont interdits par la loi de l’envoi de courriels de campagne ; et enfin, certaines listes de candidats étaient protégées par des CAPTCHAs, qui ne pouvaient pas être automatisées par le cadre de collecte de données personnalisé des chercheurs.

Distribution de l'affiliation politique des abonnements à des courriels de candidats au Sénat et à la Chambre des représentants. Source : https://arxiv.org/pdf/2203.16743.pdf

Distribution de l’affiliation politique des abonnements à des courriels de candidats au Sénat et à la Chambre des représentants. Source : https://arxiv.org/pdf/2203.16743.pdf

Pour égaliser le déséquilibre résultant entre les candidats démocrates et républicains, les chercheurs se sont abonnés à des informations de campagne électronique du plus grand nombre de candidats dans tout État où les candidats de gauche et de droite étaient en nombre égal, à l’exception d’États tels que l’Alaska, qui n’avait qu’un seul candidat républicain au Sénat.

Au total, les auteurs ont dû tenir compte de 11 États de cette manière, et ont finalement représenté les 50 États. 78 des abonnements à travers 36 États ont représenté 44 listes de candidats démocrates et 34 listes de candidats républicains au Sénat, tandis qu’il y avait 156 abonnements à travers 42 États pour les candidats à la Chambre des représentants – 81 démocrates et 75 républicains.

Analyse des données

Les chercheurs ont collecté 318 108 courriels à travers les trois services de messagerie électronique pendant la période active de collecte de données de l’étude, qui a été tronquée après le 20 novembre en raison de la chute rapide du volume de courriels après cette date. Le contenu des données collectées pour chaque courriel comprenait MIME-Version, Content Type, Subject, From, To, Date, Message-ID, Delivered-To, Received-SPF, et Received-By.

En raison des défis liés à la représentation équitable des communications des deux partis politiques, l’analyse de score de propension (PSA) a été choisie comme méthode statistique pour les données. La PSA génère des covariables à partir de données déséquilibrées qui égalisent les distributions dans des circonstances exceptionnelles où les groupes de contrôle et les divisions statistiques traditionnelles ne sont pas facilement applicables.

Les auteurs concluent que les SFA des services de messagerie électronique étudiés présentent des préjugés politiques, et que la cohérence relative initiale à travers les services se divise en un comportement plus spécifique au fil du temps.

Gmail marque un pourcentage plus élevé (67,6 %) de courriels politiques de droite comme spam, par rapport à un simple 8,2 % de courriels affiliés à la gauche, mais répond plus dynamiquement aux interactions de l’utilisateur qui démarquent les courriels comme spam que ses homologues. Outlook, quant à lui, marque 95,8 % de courriels politiques de gauche comme spam, par rapport à 75,4 % pour les courriels de droite, et Yahoo marque 14,2 % de courriels de gauche comme spam de plus que les courriels de droite.

Distribution cumulative du pourcentage de courriels de démocrates (bleu) et de républicains (rouge) qui ont été marqués comme spam dans chacun des 22 comptes de messagerie électronique de chaque service.

Distribution cumulative du pourcentage de courriels de démocrates (bleu) et de républicains (rouge) qui ont été marqués comme spam dans les comptes de messagerie électronique de chaque service.

En outre, les résultats suggèrent qu’au cours de la période de l’étude, Gmail répond de manière générique à une augmentation du volume de courriels à travers toutes les affiliations politiques en les marquant de plus en plus comme spam, indépendamment de leur provenance. Yahoo a signalé de manière cohérente les courriels de gauche comme spam à mesure que les campagnes progressaient, tout en diminuant le nombre de courriels de droite marqués comme spam. Outlook semblait le moins affecté par l’augmentation du volume de courriels de l’un ou l’autre parti politique, en maintenant un préjugé général de droite.

Pourcentage de courriels marqués comme spam à travers les deux partis politiques et les trois fournisseurs de messagerie électronique au cours des 153 jours de la période de l'étude.

Pourcentage de courriels marqués comme spam à travers les deux partis politiques et les trois fournisseurs de messagerie électronique au cours des 153 jours de la période de l’étude.

Réponse à l’interaction de l’utilisateur

Lorsque nous marquons un courriel spam comme « Non spam », l’intention est de former le système de messagerie électronique à ne pas signaler des courriels similaires à l’avenir, même si le type sous-jacent de règle (basé sur le courriel, le contenu, etc.) n’est pas toujours entièrement clair.

Les résultats de l’étude ont montré que, parmi les trois fournisseurs de messagerie électronique examinés, seul Gmail a répondu de manière notable à une interaction « Non spam » de l’utilisateur. En revanche, cette interaction de l’utilisateur (spam vers la boîte de réception) a eu un effet à long terme très limité dans Outlook et Yahoo.

Les chercheurs observent :

‘[En raison] de l’interaction S→I, les préjugés politiques dans Gmail ont diminué de manière significative. Cependant, de manière inattendue, ils ont augmenté dans Outlook et Yahoo, car aucun des deux services n’a réagi de manière notable à la volonté de l’utilisateur de ne pas marquer les courriels comme spam que les deux services marquaient comme spam.’

Conclusion

Les auteurs concluent que Gmail répond « de manière significative » à l’interaction de l’utilisateur par rapport à Outlook et Yahoo, malgré sa propre prédisposition de gauche.

Les auteurs déclarent :

‘Alors que les préjugés politiques dans Gmail sont restés inchangés après l’interaction de lecture, ils ont diminué de manière significative en raison des interactions I→S et S→I.’

Et poursuivent :

‘Alors que les préjugés politiques ont changé en réponse à diverses interactions, Gmail a maintenu sa tendance de gauche, tandis que Outlook et Yahoo ont maintenu leur tendance de droite dans tous les scénarios.’

Les chercheurs reconnaissent une attente générale de la part de l’utilisateur final que les filtres de spam puissent et vont adapter leur comportement en fonction de l’intervention de l’utilisateur (telle que déplacer un courriel d’un dossier de spam vers la boîte de réception, ou marquer un courriel comme « Non spam »), mais que ce mécanisme n’est pas fiable, et certainement n’est pas cohérent à travers les trois fournisseurs de messagerie électronique étudiés.

Le document note :

‘[Nous] n’avons pas trouvé d’actions cohérentes que l’on pourrait recommander aux utilisateurs pour les aider à réduire les préjugés dans la façon dont le SFA traite les courriels politiques qui leur sont envoyés.’

 

Publié pour la première fois le 4 avril 2022.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.