人工智能
研究:反垃圾邮件算法在2020年美国大选期间表现出政治偏见

根据一项新研究,世界上三家最大的电子邮件服务提供商的垃圾邮件过滤算法(SFAs)在2020年美国大选期间表现出政治偏见,Google的Gmail偏向左翼,而Microsoft Outlook和Yahoo Mail偏向右翼候选人。
该论文指出:
‘我们的观察结果表明,所有SFAs在2020年美国大选前几个月表现出政治偏见。Gmail偏向左翼(民主党),而Outlook和Yahoo偏向右翼(共和党)。Gmail将右翼候选人的电子邮件标记为垃圾邮件的比例比左翼候选人高出59.3%,而Outlook和Yahoo将左翼候选人的电子邮件标记为垃圾邮件的比例分别比右翼候选人高出20.4%和14.2%。’
作者的分析表明,他们的研究结果证明了SFAs活动中的“聚合偏见”。
该论文还承认了“耕种”垃圾邮件标记的可能性,即某些人可能会收集或获得“敌对”方的官方通信,以便将其标记为垃圾邮件,从而影响算法对特定发件人的垃圾邮件来源的可能性。
然而,研究人员观察到,这并不能解释不同电子邮件提供商配置基于用户反馈的行为的明显差异:
‘可以认为,电子邮件服务的SFAs可能从一些用户标记某些竞选电子邮件为垃圾邮件的选择中学习,并开始将类似的竞选电子邮件标记为其他用户的垃圾邮件。虽然我们没有理由相信这些电子邮件服务故意制造这些偏见来影响选民,但事实仍然是他们的SFAs已经学会将一个政治派别的电子邮件标记为垃圾邮件的比例高于另一个派别。’
‘由于这些著名的电子邮件服务被大量投票人使用,并且许多选民今天依赖他们在线看到(或没有看到)的信息,这种偏见可能会对选举结果产生不可忽视的影响。’
该论文的标题为2020年美国大选期间电子邮件垃圾邮件过滤算法中的政治偏见</em),由北卡罗来纳州立大学计算机科学系的四位研究人员撰写。
绕道而行
研究人员的研究涵盖了2020年7月至11月的五个月期间,他们创建了102个新的电子邮件地址,分布在三个电子邮件平台上,并订阅了两个总统、78个参议员和156个众议员候选人的电子邮件通知列表。
为了消除人口统计因素的影响,研究人员为每个(虚构的)用户创建了具有不同人口统计因素的电子邮件帐户,并将其分为两组:第一组研究了所有电子邮件服务中总统、众议员和参议员候选人的垃圾邮件过滤算法的总体偏见趋势;第二组研究了各种电子邮件交互(例如用户标记或取消标记为垃圾邮件)对算法垃圾邮件过滤器行为的影响。
研究中出现了几个关键观察结果。作者报告说,Gmail“偏向左翼”,而Outlook和Yahoo则偏向右翼。Yahoo保留了所有政治电子邮件中55.2%的收件箱中的电子邮件,而Outlook过滤了所有政治候选人的71.8%的电子邮件。
‘Gmail保留了大多数左翼候选人的电子邮件在收件箱中(<10.12%标记为垃圾邮件),而将大多数右翼候选人的电子邮件发送到垃圾邮件文件夹中(高达77.2%标记为垃圾邮件)。'
‘我们进一步观察到,Gmail将右翼候选人的电子邮件标记为垃圾邮件的百分比随着选举日期的临近而稳步增加,而左翼候选人的电子邮件标记为垃圾邮件的百分比基本保持不变。’
选择候选人
虽然研究中订阅的总统候选人仅限于乔·拜登和唐纳德·特朗普,但研究人员在选择订阅参议员和众议员候选人的电子邮件通信时采取了周密的态度。
首先,各州在众议院中的席位数根据人口数量而有所不同。其次,两个主要政党在各州的参议员和众议员候选人数量各不相同。此外,一些候选人仅通过官方.gov网站代表,他们被法律禁止发送竞选电子邮件;最后,一些候选人的订阅列表受到验证码的保护,研究人员的自定义数据收集框架无法自动化。
为了平衡民主党和共和党候选人之间的差异,研究人员在每个州订阅了最多数量的候选人的竞选电子邮件信息,除了阿拉斯加州只有一个共和党参议员候选人。
总共,作者必须公平地考虑11个这样的州,最终代表了所有50个州。36个州的78个订阅中,包括44位民主党和34位共和党参议员候选人;42个州的156个众议员候选人订阅中,包括81位民主党和75位共和党候选人。
分析数据
研究人员在研究的数据收集期内收集了318,108封电子邮件,时间截止于11月20日之后,电子邮件数量迅速下降。每封电子邮件的收集数据包括MIME-Version、Content Type、Subject、From、To、Date、Message-ID、Delivered-To、Received-SPF和Received-By。
由于在特殊情况下代表两个政党的通信存在挑战,研究人员选择了倾向评分分析(PSA)作为数据的统计方法。PSA从不平衡的数据中生成协变量,以使分布在控制组和传统统计分裂不容易应用的特殊情况下保持平衡。
作者得出结论,研究的电子邮件服务的SFAs表现出政治偏见,并且服务之间的早期相对一致性随着时间的推移转变为更具体的行为。
Gmail将67.6%的右翼政治电子邮件标记为垃圾邮件,而左翼电子邮件的比例仅为8.2%。Gmail对用户交互的响应比其同行更为动态,尤其是在用户将电子邮件从垃圾邮件文件夹移到收件箱或标记为“非垃圾邮件”时。Outlook将95.8%的左翼电子邮件标记为垃圾邮件,而右翼电子邮件的比例为75.4%;Yahoo将左翼电子邮件标记为垃圾邮件的比例比右翼电子邮件高出14.2%。

参议员和众议员候选人的电子邮件订阅的政治归属分布。 来源:https://arxiv.org/pdf/2203.16743.pdf
此外,结果表明,在研究期间,Gmail对所有政治归属的电子邮件数量增加的响应是通过将其标记为垃圾邮件来实现的,而不考虑电子邮件的来源。Yahoo在整个竞选过程中始终将左翼电子邮件报告为垃圾邮件,同时减少了右翼电子邮件被标记为垃圾邮件的数量。Outlook似乎对来自任何政党的电子邮件数量增加的影响最小,保持了总体的右翼偏见。

在研究的153天期间,三个电子邮件提供商中两个政党的电子邮件被标记为垃圾邮件的百分比。
对用户交互的响应
当我们将垃圾邮件标记为“非垃圾邮件”时,意图是训练电子邮件系统以免将类似的邮件标记为垃圾邮件,尽管底层规则的类型(基于电子邮件、基于内容等)并不总是完全清楚。
研究结果发现,在三个电子邮件提供商中,只有Gmail对用户的“非垃圾邮件”输入做出了显著的响应。相比之下,这种用户驱动的垃圾邮件到收件箱(S→I)交互在Outlook和Yahoo中几乎没有长期影响。
研究人员观察到:
‘由于S→I交互,Gmail中的政治偏见显著降低。然而,出乎意料的是,它在Outlook和Yahoo中增加了,因为这两种服务对用户不将电子邮件标记为垃圾邮件的愿望几乎没有反应。’
结论
作者得出结论,Gmail对用户交互的响应比Outlook和Yahoo更为显著,尽管它有自己的左翼偏见。
作者指出:
‘虽然Gmail的政治偏见在阅读交互后保持不变,但由于I→S和S→I交互,它显著降低。’
并继续说:
‘虽然政治偏见对各种交互做出了反应,Gmail在所有场景中保持了其左翼偏见,而Outlook和Yahoo保持了其右翼偏见。’
研究人员承认,用户普遍期望垃圾邮件过滤器能够根据用户干预(例如,将电子邮件从垃圾邮件文件夹移到收件箱,或将邮件标记为“非垃圾邮件”)调整其行为,但这种机制并不可靠,且在研究的三个电子邮件提供商中并不一致。
论文指出:
‘我们没有发现任何一致的行动可以推荐给用户,以帮助他们减少SFA处理发送给他们的政治电子邮件的偏见。’
首次发布于2022年4月4日。












