人工知能
研究:2020年米国大統領選挙期間のスパムフィルタリングアルゴリズムに政治的偏見が見られた

新しい研究によると、世界的大手メールプロバイダーの3社のスパムフィルタリングアルゴリズム(SFAs)は、2020年の米国大統領選挙期間中に政治的偏見を示した。GoogleのGmailは左寄り、Microsoft OutlookとYahoo Mailは右寄りの偏見を示した。
この論文では、次のように述べられている。
‘私たちの観察から、すべてのSFAが2020年米国大統領選挙前の数ヶ月間に政治的偏見を示したことがわかった。Gmailは左寄り(民主党)であったのに対し、OutlookとYahooは右寄り(共和党)であった。Gmailは右寄りの候補者からのメールを、左寄りの候補者からのメールよりも59.3%多くスパムとしてマークした。一方、OutlookとYahooは、左寄りの候補者からのメールを、右寄りの候補者からのメールよりも20.4%と14.2%多くスパムとしてマークした。
著者たちの分析によると、SFAの活動に「集約的な偏見」が見られることが示された。
この論文では、さらに、「スパムのマーキングの農業化」の可能性も認められている。これは、反対派の声を封じ込めることを目指す者が、敵対的な党派や組織からの公式な通信にアクセスし、スパムとして報告することで、特定の送信者からのスパムの可能性を判断するアルゴリズムに影響を与える可能性がある。
しかし、研究者たちは、次のように述べている。
‘議論の余地はあるが、メールサービス提供者のSFAが、一部の有権者が特定のキャンペーンメールをスパムとしてマークしたことに学習し、他の有権者に対しても同様のキャンペーンメールをスパムとしてマークし始めた可能性もある。私たちには、これらのメールサービス提供者が意図的に有権者に影響を与えるために偏見を生み出したと信じる理由はない。しかし、事実は、SFAが一方の政治的所属のメールを他方よりも多くスパムとしてマークするようになったというものである。
‘これらの著名なメールサービスは、多くの有権者によって活用されており、多くの有権者はオンラインで見る(または見ない)情報に頼っているため、这样的偏見は選挙の結果に無視できない影響を与える可能性がある。
論文は、こちらで「2020年米国大統領選挙におけるメールスパムフィルタリングアルゴリズムの政治的偏見の顕現」と題され、ノースカロライナ州立大学のコンピューターサイエンス学部の4人の研究者によって執筆された。
研究の概要
研究者たちの研究は、2020年7月から11月までの5ヶ月間を対象としており、この期間中に、3つのメールプラットフォームで102の新しいメールアドレスを作成し、2人の大統領候補、78人の上院議員候補、156人の下院議員候補のメール通知リストに登録した。
人為的な要因を考慮して、メールアカウントは各ユーザーの異なる人為的な要因で作成され、2つのストランドに分けられた。最初のストランドは、大統領、上院、下院の候補者全てのメールサービスを通じたスパムフィルタリングアルゴリズムの一般的な偏向を調査し、2番目のストランドは、メールのやり取り(例:ユーザーによるスパムのマークまたはマーク解除)がアルゴリズムの動作に与える影響を調査した。
研究者たちは、いくつかの重要な観察結果を得た。著者たちは、Gmailは「左寄り」であったのに対し、OutlookとYahooは「右寄り」であったと報告している。
‘Gmailは、右寄りの候補者のメールを77.2%までスパムとしてマークしたのに対し、左寄りの候補者のメールは10.12%以下としてインボックスに保持した。’
‘さらに、Gmailが右寄りの候補者のメールをスパムとしてマークする割合は、選挙日が近づくにつれて増加したのに対し、左寄りの候補者のメールをスパムとしてマークする割合はほぼ同じままだった。
候補者の選択
大統領候補者については、ジョー・バイデンとドナルド・トランプの2人に限定されたが、研究者たちは、上院と下院の候補者については、代表的な選択を行うことに注意した。
州によっては、下院の議席数が異なる。さらに、上院と下院の候補者の数は州によって異なり、ある候補者は公式の.govサイトしか持っておらず、キャンペーンメールの送信が禁止されていた。また、ある候補者のサインアップリストはCAPTCHAによって保護され、研究者たちのカスタムデータ収集フレームワークによって自動化できなかった。
これらの制限を考慮して、研究者たちは、候補者の数が左寄りと右寄りで均等な州で、可能な限り多くの候補者のキャンペーンメール情報に登録した。アラスカ州のような、右寄りの上院候補者が1人しかいない州もあった。
合計で、研究者たちは11の州でこの不均衡を考慮し、最終的に全50州を代表することになった。36州の78のサインアップは、上院候補者に対して44人の民主党候補と34人の共和党候補、42州の156のサインアップは、下院候補者に対して81人の民主党候補と75人の共和党候補となった。
データの分析
研究者たちは、研究期間中の318,108件のメールを3つのメールサービスから収集した。収集されたデータには、MIME-Version、Content Type、Subject、From、To、Date、Message-ID、Delivered-To、Received-SPF、Received-Byが含まれた。
偏見を考慮して、Propensity Score Analysis(PSA)を統計方法として選択した。PSAは、従来の統計的手法が適用できない特殊な状況で、不均衡なデータから共変量を生成する。
著者たちは、次のように結論付けた。
Gmailは右寄りの政治的メールを67.6%までスパムとしてマークしたのに対し、左寄りのメールは8.2%までマークした。Outlookは95.8%の左寄りの政治的メールをスパムとしてマークしたのに対し、右寄りのメールは75.4%までマークした。Yahooは14.2%多くの左寄りのメールをスパムとしてマークした。

上院と下院の候補者の政治的所属のメールサインアップの分布 Source: https://arxiv.org/pdf/2203.16743.pdf
さらに、結果は、研究期間中、Gmailは全ての政治的所属のメールの増加に対して、スパムとしてマークする割合を増やしたことを示唆している。Yahooは、キャンペーンが進むにつれて、左寄りのメールをスパムとしてマークする割合を増やした一方で、右寄りのメールをスパムとしてマークする割合を減らした。Outlookは、どちらの政治的所属のメールの増加にも影響されなかったが、右寄りの偏見を維持した。

各メールサービスのアカウントにおける民主党と共和党のメールのスパムとしてマークされた割合の累積分布

3つのメールサービスにおける両党のメールのスパムとしてマークされた割合の推移
ユーザーのやり取りへの対応
スパムメールを「スパムではない」とマークすることで、メールシステムは同様のメールを将来スパムとしてマークしないように学習することを意図している。ただし、基になるルールの種類(メールベース、コンテンツベースなど)は常に明確ではない。
研究結果は、3つのメールサービスの中で、Gmailのみがユーザーの「スパムではない」という入力に顕著に反応したことを示した。
‘S→Iのやり取りにより、Gmailの政治的偏見は大幅に減少した。しかし、OutlookとYahooの両方で、偏見が増加したのは、どちらのサービスもユーザーの「スパムではない」という入力にほとんど反応しなかったからである。
結論
著者たちは、GmailはOutlookとYahooよりもユーザーのやり取りに「著しく」反応することを結論付けた。
著者たちは、次のように述べている。
‘Gmailの政治的偏見は、読み込みのやり取りの後には変化しなかったが、I→SとS→Iのやり取りにより、大幅に減少した。’
そして続けて、
‘政治的偏見は、さまざまなやり取りに応じて変化したが、Gmailは左寄りの偏見を維持し、OutlookとYahooは右寄りの偏見を維持した。’
研究者たちは、ユーザーがスパムフィルターがユーザーの介入(例:スパムフォルダーからメールをインボックスに移動する、またはメールを「スパムではない」とマークする)に基づいて動作を変更することを期待するが、これは信頼できる方法ではないことを認めた。
論文では、次のように述べられている。
‘私たちには、ユーザーがSFAの政治的メールへの偏見を減らすためにとるべき一貫した行動はない。’
初めて公開されたのは2022年4月4日です。












