Trí tuệ nhân tạo
Nghiên cứu: Thuật toán chống spam thể hiện thiên vị chính trị trong cuộc bầu cử Hoa Kỳ năm 2020

Theo một nghiên cứu mới, các thuật toán lọc spam (SFAs) từ ba nhà cung cấp email lớn nhất trên thế giới đã thể hiện thiên vị chính trị trong cuộc bầu cử Hoa Kỳ năm 2020, với Gmail của Google nghiêng về phía trái, và Microsoft Outlook và Yahoo Mail ủng hộ các ứng cử viên cánh hữu.
Bài báo cho biết:
‘Quan sát của chúng tôi cho thấy tất cả các SFAs đều thể hiện thiên vị chính trị trong những tháng dẫn lên đến cuộc bầu cử Hoa Kỳ năm 2020. Gmail nghiêng về phía trái (Đảng Dân chủ) trong khi Outlook và Yahoo nghiêng về phía phải (Đảng Cộng hòa). Gmail đã đánh dấu 59,3% nhiều email hơn từ các ứng cử viên cánh hữu là spam so với các ứng cử viên cánh tả, trong khi Outlook và Yahoo đã đánh dấu 20,4% và 14,2% nhiều email hơn từ các ứng cử viên cánh tả là spam so với các ứng cử viên cánh hữu, tương ứng.’
Phân tích của các tác giả cho thấy ‘thiên vị tổng hợp’ trong hoạt động của SFA.
Bài báo cũng thừa nhận khả năng ‘đánh dấu spam có chủ đích’, nơi các diễn viên tìm cách làm im lặng các tiếng nói đối lập có thể yêu cầu hoặc có được quyền truy cập vào các phương tiện truyền thông chính thức từ ‘các bên thù địch’ và các liên kết với ý định báo cáo phương tiện truyền thông là spam, từ đó ảnh hưởng đến các thuật toán xác định khả năng spam từ một người gửi cụ thể.
Tuy nhiên, các nhà nghiên cứu quan sát, điều này không giải thích sự khác biệt đáng kể trong cách các nhà cung cấp email khác nhau dường như đã cấu hình hành động dựa trên phản hồi từ người dùng:
‘Có thể cũng có khả năng rằng các SFA của dịch vụ email đã học hỏi từ lựa chọn của một số cử tri đánh dấu certain email chiến dịch là spam và bắt đầu đánh dấu những email chiến dịch tương tự là spam cho các cử tri khác. Mặc dù chúng tôi không có lý do để tin rằng có những nỗ lực cố ý từ các dịch vụ email này để tạo ra những thiên vị để ảnh hưởng đến cử tri, nhưng事 thực vẫn còn đó là các SFA của họ đã học cách đánh dấu nhiều email hơn từ một liên kết chính trị là spam so với liên kết khác. ‘
‘Khi các dịch vụ email nổi bật này được sử dụng tích cực bởi một phần đáng kể của dân số cử tri và khi nhiều cử tri ngày nay phụ thuộc vào thông tin họ thấy (hoặc không thấy) trực tuyến, những thiên vị như vậy có thể có tác động không thể bỏ qua đến kết quả của một cuộc bầu cử.’
Bài báo bài báo có tiêu đề Một cái nhìn vào thiên vị chính trị trong thuật toán lọc spam email trong cuộc bầu cử Hoa Kỳ 2020, và đến từ bốn nhà nghiên cứu tại Bộ phận Khoa học Máy tính của Đại học North Carolina.
Về các vấn đề
Nghiên cứu của các nhà nghiên cứu bao gồm một khoảng thời gian năm tháng từ tháng 7 năm 2020 đến hết tháng 11 cùng năm, trong đó họ đã tạo 102 địa chỉ email mới trên ba nền tảng email, và đăng ký vào hai danh sách thông báo email của ứng cử viên tổng thống, 78 danh sách ứng cử viên thượng nghị sĩ và 156 danh sách ứng cử viên hạ nghị sĩ.
Để loại bỏ các yếu tố dân số, các tài khoản email được tạo với các yếu tố dân số khác nhau cho mỗi người dùng (giả), và chia thành hai nhánh: nhánh đầu tiên nghiên cứu xu hướng thiên vị tổng thể trong các thuật toán lọc spam trên tất cả các dịch vụ email kết hợp cho các ứng cử viên tổng thống, thượng nghị sĩ và hạ nghị sĩ; và nhánh thứ hai kiểm tra cách các tương tác email khác nhau (như đánh dấu hoặc bỏ đánh dấu là spam bởi người dùng) dường như ảnh hưởng đến hành vi của bộ lọc spam thuật toán.
Một số quan sát quan trọng đã được đưa ra trong suốt quá trình nghiên cứu. Các tác giả báo cáo rằng Gmail ‘nghiêng về phía trái’, trong khi Outlook và Yahoo nghiêng về phía phải. Yahoo đã giữ lại 55,2% tất cả các email chính trị trong hộp thư đến của người dùng, trong khi Outlook đã lọc 71,8% email từ các ứng cử viên chính trị của tất cả các loại.
‘Gmail, tuy nhiên, đã giữ lại đa số email từ các ứng cử viên cánh tả trong hộp thư đến (< 10,12% được đánh dấu là spam) trong khi [gửi] đa số email từ các ứng cử viên cánh hữu đến thư mục spam (lên đến 77,2% được đánh dấu là spam). ‘
‘Chúng tôi quan sát thêm rằng tỷ lệ email được Gmail đánh dấu là spam từ các ứng cử viên cánh hữu tăng dần khi ngày bầu cử đến gần trong khi tỷ lệ email được đánh dấu là spam từ các ứng cử viên cánh tả vẫn giữ nguyên.’
Chọn ứng cử viên
Trong khi các ứng cử viên tổng thống được đăng ký cho nghiên cứu chỉ giới hạn ở Joe Biden và Donald Trump, các nhà nghiên cứu đã cẩn thận khi chọn đăng ký vào email thông tin chiến dịch từ các ứng cử viên thượng nghị sĩ và hạ nghị sĩ, vì một số lý do.
Trước hết, các bang có số lượng ghế khác nhau trong Hạ viện, dựa trên dân số của bang. Thứ hai, số lượng ứng cử viên thượng nghị sĩ và hạ nghị sĩ trên hai đảng chính trị khác nhau trên các bang. Hơn nữa, một số ứng cử viên chỉ được đại diện bởi các trang web chính thức .gov, những trang web này bị cấm gửi email chiến dịch; và cuối cùng, một số danh sách đăng ký của ứng cử viên được bảo vệ bởi CAPTCHAs, những thứ không thể được tự động hóa bởi khuôn khổ thu thập dữ liệu tùy chỉnh của các nhà nghiên cứu.
Để cân bằng sự mất cân bằng giữa các ứng cử viên Đảng Dân chủ và Đảng Cộng hòa, các nhà nghiên cứu đã đăng ký vào thông tin email chiến dịch từ số lượng ứng cử viên tối đa trong bất kỳ bang nào mà các ứng cử viên cánh tả và cánh hữu bằng nhau, ngoại trừ các bang như Alaska, chỉ có một ứng cử viên thượng nghị sĩ Đảng Cộng hòa.
Tổng cộng, các tác giả đã phải cân nhắc công bằng cho 11 bang như vậy, và cuối cùng đã có tất cả 50 bang được đại diện. 78 đăng ký trên 36 bang bao gồm 44 danh sách ứng cử viên thượng nghị sĩ Đảng Dân chủ và 34 danh sách ứng cử viên thượng nghị sĩ Đảng Cộng hòa, trong khi có 156 đăng ký trên 42 bang cho các ứng cử viên hạ nghị sĩ – 81 Đảng Dân chủ, và 75 Đảng Cộng hòa.
Phân tích dữ liệu
Các nhà nghiên cứu đã thu thập 318.108 email trên ba dịch vụ email trong giai đoạn thu thập dữ liệu hoạt động của nghiên cứu, được cắt ngắn sau ngày 20 tháng 11 do sự sụt giảm nhanh chóng về khối lượng email sau ngày đó. Nội dung dữ liệu thu thập cho mỗi email bao gồm MIME-Version, Content Type, Subject, From, To, Date, Message-ID, Delivered-To, Received-SPF, và Received-By.
Do những thách thức trong việc đại diện công bằng cho cả hai đảng chính trị, Phân tích điểm倾向 (PSA) đã được chọn làm phương pháp thống kê cho dữ liệu. PSA tạo ra covariates từ dữ liệu không cân bằng mà cân bằng phân phối trong những trường hợp đặc biệt khi các nhóm kiểm soát và phân chia thống kê truyền thống không dễ áp dụng.
Các tác giả kết luận rằng SFAs cho các dịch vụ email được nghiên cứu thể hiện thiên vị chính trị, và rằng sự nhất quán tương đối ban đầu trên các dịch vụ này phân kỳ thành hành vi cụ thể hơn theo thời gian.
Gmail đánh dấu tỷ lệ phần trăm cao hơn (67,6%) email chính trị cánh hữu là spam, so với 8,2% email liên kết cánh tả, nhưng phản ứng linh hoạt hơn với các tương tác của người dùng mà không đánh dấu email là spam so với các dịch vụ khác. Outlook, thay vào đó, đánh dấu 95,8% email chính trị cánh tả là spam, so với 75,4% cho email cánh hữu, và Yahoo đánh dấu 14,2% nhiều email cánh tả hơn là spam so với email cánh hữu.

Phân phối liên kết chính trị của đăng ký email từ các ứng cử viên thượng nghị sĩ và hạ nghị sĩ. Nguồn: https://arxiv.org/pdf/2203.16743.pdf
Hơn nữa, kết quả cho thấy rằng trong suốt quá trình nghiên cứu, Gmail phản ứng khá tổng quát với sự tăng lên của khối lượng email trên tất cả các liên kết chính trị bằng cách tăng đánh dấu chúng là spam, bất kể nguồn gốc. Yahoo nhất quán báo cáo email cánh tả là spam khi các chiến dịch tiến triển, đồng thời giảm số lượng email cánh hữu được đánh dấu là spam. Outlook dường như ít bị ảnh hưởng bởi sự tăng lên của khối lượng email từ cả hai đảng chính trị, duy trì thiên vị cánh hữu tổng thể.

Phân phối tích lũy của tỷ lệ phần trăm email Đảng Dân chủ (xanh) và Đảng Cộng hòa (đỏ) được đánh dấu là spam trong tài khoản email của mỗi dịch vụ.
Phản hồi với tương tác người dùng
Khi chúng ta đánh dấu một email spam là ‘Không phải spam’, ý định là để đào tạo hệ thống email không đánh dấu các email tương tự trong tương lai, mặc dù loại quy tắc cơ bản (dựa trên email, dựa trên nội dung, v.v.) không luôn rõ ràng.
Kết quả nghiên cứu cho thấy rằng trong số ba nhà cung cấp email được kiểm tra, chỉ Gmail phản hồi đáng kể với đầu vào ‘không phải spam’ từ người dùng. Ngược lại, tương tác spam-sang-hộp thư đến (S→I) này có rất ít tác động lâu dài trong Outlook và Yahoo.
Các nhà nghiên cứu quan sát:
‘[Do] sự tương tác S→I, thiên vị chính trị trong Gmail giảm đáng kể. Tuy nhiên, không mong đợi, nó tăng lên trong cả Outlook và Yahoo vì không có dịch vụ nào trong số hai dịch vụ này phản ứng đáng kể với mong muốn của người dùng để không đánh dấu các email là spam mà hai dịch vụ này đang đánh dấu là spam.’
Kết luận
Các tác giả kết luận rằng Gmail phản hồi ‘đáng kể’ với tương tác người dùng so với Outlook và Yahoo, mặc dù thiên vị cánh tả của nó.
Các tác giả cho biết:
‘Mặc dù thiên vị chính trị trong Gmail vẫn không thay đổi sau khi đọc tương tác, nó giảm đáng kể do các tương tác I→S và S→I.’
Và tiếp tục:
‘Mặc dù thiên vị chính trị thay đổi theo phản hồi của các tương tác khác nhau, Gmail vẫn giữ thiên vị cánh tả trong khi Outlook và Yahoo vẫn giữ thiên vị cánh hữu trong tất cả các kịch bản.’
Các nhà nghiên cứu thừa nhận một kỳ vọng chung của người dùng cuối rằng các bộ lọc spam có thể và sẽ thích nghi với hành vi của chúng dựa trên can thiệp của người dùng (như di chuyển một email từ thư mục spam đến hộp thư đến, hoặc đánh dấu một email là ‘không phải spam’), nhưng cơ chế này không đáng tin cậy, và chắc chắn không nhất quán trên ba nhà cung cấp email được nghiên cứu.
Bài báo lưu ý:
‘[Chúng tôi] không tìm thấy bất kỳ hành động nhất quán nào mà người dùng có thể thực hiện để giúp họ giảm thiên vị trong cách SFA xử lý email chính trị được gửi đến họ.’
Được xuất bản lần đầu vào ngày 4 tháng 4 năm 2022.












