人工智能

研究：反垃圾邮件算法在 2020 年美国选举中显示出政治偏见

发布时间 2022 年 4 月 4 日

更新 2022 年 12 月 9 日

马丁安德森

一项新研究显示，全球三大主要电子邮件提供商的垃圾邮件过滤算法 (SFA) 在美国 2020 年大选期间表现出政治偏见，其中谷歌的 Gmail 偏向左翼，而微软 Outlook 和雅虎邮箱则偏向右翼候选人的电子邮件。

该文件指出：

我们的[观察]显示，在2020年美国大选前的几个月里，所有SFA都表现出政治偏见。Gmail倾向于左翼（民主党），而Outlook和雅虎则倾向于右翼（共和党）。Gmail将来自右翼候选人的邮件标记为垃圾邮件的比例比左翼候选人高出59.3%，而Outlook和雅虎分别将来自左翼候选人的邮件标记为垃圾邮件的比例比右翼候选人高出20.4%和14.2%。

他们声称，作者的分析表明了 SFA 活动中存在“总体偏差”。

这篇论文还承认了“人工”垃圾邮件标记的可能性，即试图压制反对派声音的行为者可能会征求或获取来自“敌对”政党和附属机构的官方通信，意图将通信报告为垃圾邮件，从而影响确定垃圾邮件来自特定发件人的可能性的算法。

然而，研究人员观察到，这并不能解释不同电子邮件提供商似乎根据最终用户的反馈配置操作的方式存在显着差异：

“可以说，电子邮件服务的 SFA 也有可能从一些选民将某些竞选电子邮件标记为垃圾邮件的选择中吸取教训，并开始将这些/类似的竞选电子邮件标记为其他选民的垃圾邮件。虽然我们没有理由相信这些电子邮件服务是故意制造这些偏见来影响选民，但事实仍然是，与其他政治派别相比，他们的 SFA 已经学会将更多来自一个政治派别的电子邮件标记为垃圾邮件。

“由于这些著名的电子邮件服务被相当一部分选民积极使用，而且如今许多选民依赖他们在网上看到（或看不到）的信息，这种偏见可能会对选举结果产生不可忽视的影响。”

此纸标题为 2020 年美国大选期间垃圾邮件过滤算法的政治偏见一探究竟，来自北卡罗来纳州立大学计算机科学系的四位研究人员。

绕着房子转

研究人员的研究涵盖了从 2020 年 102 月到同年 78 月底的五个月时间，他们在三个电子邮件平台上创建了 156 个新的电子邮件地址，并订阅了两位总统候选人、XNUMX 位参议院候选人和 XNUMX 位众议院候选人的电子邮件通知列表。

为了忽略人口统计因素，电子邮件帐户是根据每个（虚构的）最终用户的不同人口统计因素创建的，并分为两部分：第一部分研究总统、众议院和参议院所有组合电子邮件服务中垃圾邮件过滤算法的一般偏见趋势候选人; 第二个研究检查了各种电子邮件交互（例如最终用户将其标记为垃圾邮件或取消标记为垃圾邮件）对算法垃圾邮件过滤器行为的影响。

研究过程中，几个关键的观察结果成为焦点。作者指出，Gmail“偏左”，而 Outlook 和雅虎则偏右。雅虎保留了用户收件箱中 55.2% 的政治邮件，而 Outlook 则过滤了 71.8% 的来自各种政治候选人的邮件。

“然而，Gmail 将大部分左翼候选人电子邮件保留在收件箱中（< 10.12% 被标记为垃圾邮件），而将大多数右翼候选人电子邮件[发送]到垃圾邮件文件夹（高达 77.2% 被标记为垃圾邮件）。

“我们进一步观察到，随着选举日期的临近，Gmail 将右翼候选人的电子邮件标记为垃圾邮件的比例稳步增长，而将左翼候选人的电子邮件标记为垃圾邮件的比例保持不变。”

挑选候选人

虽然订阅该研究的总统候选人仅限于乔·拜登和唐纳德·特朗普，但出于多种原因，研究人员在考虑订阅参议院和众议院候选人的电子邮件通讯时，小心翼翼地做出了有代表性的选择。

首先，各州众议院席位数量根据其人口数量而有所不同。其次，两大政党参众两院候选人的人数在各州也有所不同。此外，某些候选人的竞选活动仅通过官方 .gov 网站进行，而这些网站依法禁止发送竞选邮件；最后，部分候选人的订阅列表受验证码保护，研究人员自定义的数据收集框架无法自动执行这些验证码。

参议院和众议院候选人的电子邮件订阅的政治派别分布。 资料来源：https://arxiv.org/pdf/2203.16743.pdf

为了平衡由此产生的民主党和共和党候选人之间的不平衡，研究人员订阅了左翼和右翼候选人数量相等的任何州中最大数量的候选人的竞选电子邮件信息，但阿拉斯加州等州除外，该州只有一个共和党参议院候选人。

总的来说，作者必须公平地考虑 11 个这样的州，最终得出所有 50 个州都有代表的结果。 78 个州的 36 份订阅涉及 44 名民主党和 34 名共和党参议院候选人名单，而 156 个州的 42 份订阅涉及众议院候选人名单，其中包括 81 名民主党和 75 名共和党。

分析数据

研究人员在研究的主动数据收集期内收集了三家电子邮件服务商的 318,108 封电子邮件。由于 20 月 XNUMX 日之后邮件量急剧下降，该研究的数据收集期在 XNUMX 月 XNUMX 日之后被缩短。每封电子邮件收集的数据内容包括 MIME 版本, 内容类型, 咨询内容, 从, 至, 日期, 消息ID, 送到了（送去了, 接收到的SPF和 接收者.

由于公平代表两个政党沟通所涉及的挑战，倾向得分分析（变压吸附）被选为数据的统计方法。 PSA 产生 协变量 来自不平衡的数据，这些数据在控制组和传统统计分割不易应用的特殊情况下均衡分布。

作者得出的结论是，所研究的电子邮件服务的 SFA 表现出政治偏见，并且随着时间的推移，服务之间的早期相对一致性会分化为更具体的行为。

Gmail 将右翼政治电子邮件标记为垃圾邮件的比例较高 (67.6%)，而左翼政治电子邮件的这一比例仅为 8.2%，但与同类相比，Gmail 对取消邮件标记为垃圾邮件的用户交互的响应更加动态。相反，Outlook 将 95.8% 的左翼政治电子邮件标记为垃圾邮件，而右翼电子邮件的这一比例为 75.4%，而雅虎将左翼电子邮件标记为垃圾邮件的比例比右翼电子邮件多 14.2%。

每个服务的 22 个电子邮件帐户中被标记为垃圾邮件的民主党（蓝色）和共和党（红色）电子邮件百分比的累积分布。

每个服务的电子邮件帐户中被标记为垃圾邮件的民主党（蓝色）和共和党（红色）电子邮件百分比的累积分布。

此外，结果表明，在研究期间，Gmail 对所有政治派别不断增加的电子邮件的反应相当普遍，即越来越多地将它们标记为垃圾邮件，无论其来源如何。随着活动的进展，雅虎始终将左翼电子邮件报告为垃圾邮件，同时减少了标记为垃圾邮件的右翼邮件数量。前景似乎受到任一政党邮件数量增加的影响最小，总体上保持右翼偏见。

在 153 天的研究期间，两个政党和所有三个电子邮件提供商被标记为垃圾邮件的电子邮件的百分比。

对用户交互的响应

当我们将垃圾邮件标记为“非垃圾邮件”时，目的是训练电子邮件系统将来不再标记类似的邮件，尽管底层规则类型（基于电子邮件、基于内容等）并不总是完全清楚。

研究结果发现，在受调查的三家电子邮件提供商中，只有 Gmail 对用户的“非垃圾邮件”输入做出了显著的响应。相比之下，这款由用户驱动的垃圾邮件到收件箱 (S→I）交互对 Outlook 和 Yahoo 的长期影响非常有限。

研究人员观察到：

“由于 S→I 的互动，Gmail 中的政治偏见显著减少。然而，出乎意料的是，Outlook 和 Yahoo 中的政治偏见却有所增加，因为用户不想将邮件标记为垃圾邮件，而这两项服务都将其标记为垃圾邮件，因此它们都没有做出明显的反应。”

结语

作者得出的结论是，尽管 Gmail 本身具有左倾倾向，但与 Outlook 和 Yahoo 相比，Gmail 对用户交互的响应“显著”。

作者指出：

“虽然在阅读互动之后，Gmail 中的政治偏见保持不变，但由于 I→S 和 S→I 互动，政治偏见显著减少。”

并继续：

“虽然政治偏见会随着各种互动而发生变化，但 Gmail 在所有情况下都保持其左倾，而 Outlook 和 Yahoo 则保持其右倾。”

研究人员承认，最终用户普遍期望垃圾邮件过滤器能够并且将根据用户干预调整其行为（例如将电子邮件从垃圾邮件文件夹移至收件箱，或将邮件标记为“非垃圾邮件”），但这种机制并不可靠，并且在所研究的三个电子邮件提供商之间肯定不一致。

该论文指出：

“我们没有发现任何可以推荐给用户的一致行动，以帮助他们减少 SFA 处理发送给他们的政治电子邮件的方式中的偏见。”

首次发布于 4 年 2022 月 XNUMX 日。

联合人工智能

研究：反垃圾邮件算法在 2020 年美国选举中显示出政治偏见

绕着房子转

挑选候选人

分析数据

对用户交互的响应

结语

你可能会喜欢