Kecerdasan buatan
Penelitian: Algoritma Anti-Spam Menunjukkan Bias Politik Selama Pemilu USA 2020

Menurut sebuah studi baru, algoritma penyaringan spam (SFAs) dari tiga penyedia email terbesar di dunia menunjukkan bias politik selama pemilu Amerika Serikat 2020, dengan Gmail dari Google cenderung ke kiri, dan Microsoft Outlook dan Yahoo Mail mendukung email dari kandidat sayap kanan.
Makalah tersebut menyatakan:
‘Pengamatan kami menunjukkan bahwa semua SFAs menunjukkan bias politik dalam beberapa bulan menjelang pemilu AS 2020. Gmail cenderung ke kiri (Demokrat) sedangkan Outlook dan Yahoo cenderung ke kanan (Republik). Gmail menandai 59,3% lebih banyak email dari kandidat kanan sebagai spam dibandingkan dengan kandidat kiri, sedangkan Outlook dan Yahoo menandai 20,4% dan 14,2% lebih banyak email dari kandidat kiri sebagai spam dibandingkan dengan kandidat kanan, masing-masing.’
Analisis penulis, mereka klaim, menunjukkan ‘bias agregat’ dalam aktivitas SFA.
Makalah tersebut juga mengakui kemungkinan ‘penandai spam yang dibudidayakan’, di mana aktor yang mencari untuk membungkam suara oposisi dapat meminta atau mendapatkan akses ke komunikasi resmi dari ‘pihak musuh’ dan afiliasi dengan tujuan melaporkan komunikasi sebagai spam, sehingga mempengaruhi algoritma yang menentukan kemungkinan asal spam dari pengirim tertentu.
Namun, peneliti mengamati, ini tidak menjelaskan variasi yang jelas dalam cara penyedia email yang berbeda tampaknya telah mengkonfigurasi tindakan berdasarkan umpan balik dari pengguna akhir:
‘Arguably, ada juga kemungkinan bahwa SFAs dari layanan email telah belajar dari pilihan beberapa pemilih menandai email kampanye tertentu sebagai spam dan mulai menandai email kampanye tersebut sebagai spam untuk pemilih lain. Sementara kami tidak memiliki alasan untuk percaya bahwa ada upaya sengaja dari layanan email ini untuk menciptakan bias ini untuk mempengaruhi pemilih, fakta tetap bahwa SFAs mereka telah belajar untuk menandai lebih banyak email dari afiliasi politik tertentu sebagai spam dibandingkan dengan yang lain.
‘Karena layanan email yang terkenal ini secara aktif digunakan oleh sebagian besar pemilih dan karena banyak pemilih saat ini bergantung pada informasi yang mereka lihat (atau tidak lihat) online, bias seperti ini mungkin memiliki dampak yang tidak dapat diabaikan pada hasil pemilu.’
Makalah ini berjudul A Peek into the Political Biases in Email Spam Filtering Algorithms During US Election 2020, dan berasal dari empat peneliti di Departemen Ilmu Komputer Universitas North Carolina State.
Round the Houses
Penelitian para peneliti mencakup periode lima bulan dari Juli 2020 hingga akhir November tahun yang sama, di mana mereka membuat 102 alamat email baru di tiga platform email, dan berlangganan dua daftar notifikasi email presiden, 78 daftar kandidat senat dan 156 daftar kandidat rumah.
Untuk menghilangkan faktor demografi, akun email dibuat dengan faktor demografi yang berbeda untuk setiap pengguna (fiktif), dan dibagi menjadi dua strand: yang pertama mempelajari tren bias umum dalam algoritma penyaringan spam di semua layanan email yang digabungkan untuk kandidat presiden, senat dan rumah; dan yang kedua mempelajari cara interaksi email yang berbeda (seperti menandai atau tidak menandai sebagai spam oleh pengguna akhir) tampaknya mempengaruhi perilaku filter spam algoritmik.
Beberapa pengamatan kunci muncul selama penelitian. Penulis melaporkan bahwa Gmail ‘cenderung ke kiri’, sedangkan Outlook dan Yahoo cenderung ke kanan. Yahoo mempertahankan 55,2% dari semua email politik di kotak masuk pengguna, sedangkan Outlook menyaring 71,8% email dari kandidat politik semua warna.
‘Gmail, bagaimanapun, mempertahankan sebagian besar email kandidat sayap kiri di kotak masuk (< 10,12% ditandai sebagai spam) sementara [mengirim] sebagian besar email kandidat sayap kanan ke folder spam (hingga 77,2% ditandai sebagai spam).
‘Kami lebih lanjut mengamati bahwa persentase email yang ditandai oleh Gmail sebagai spam dari kandidat sayap kanan tumbuh secara stabil saat tanggal pemilu mendekat sementara persentase email yang ditandai sebagai spam dari kandidat sayap kiri tetap sama.’
Picking Candidates
Sementara kandidat presiden yang berlangganan untuk penelitian ini terbatas pada Joe Biden dan Donald Trump, para peneliti berhati-hati untuk membuat pilihan yang representatif saat mempertimbangkan untuk berlangganan email dari kandidat senat dan rumah, karena beberapa alasan.
Pertama, negara bagian memiliki jumlah kursi di Rumah yang berbeda-beda, berdasarkan jumlah penduduk negara bagian. Kedua, jumlah kandidat senat dan rumah di kedua partai politik utama bervariasi di seluruh negara bagian. Selanjutnya, beberapa kandidat hanya diwakili oleh situs web resmi .gov, yang dilarang oleh undang-undang untuk mengirim email kampanye; dan akhirnya, beberapa daftar langganan kandidat dilindungi oleh CAPTCHAs, yang tidak dapat diotomatisasi oleh kerangka pengumpulan data khusus para peneliti.

Distribusi afiliasi politik dari langganan email kandidat senat dan rumah. Sumber: https://arxiv.org/pdf/2203.16743.pdf
Untuk mengimbangkan ketidakseimbangan yang dihasilkan antara kandidat Demokrat dan Republik, para peneliti berlangganan ke informasi email kampanye dari jumlah kandidat maksimum di setiap negara bagian di mana kandidat kiri dan kanan sama dalam jumlah, kecuali di negara bagian seperti Alaska, yang hanya memiliki satu kandidat senat Republik.
Secara total, penulis harus mempertimbangkan secara adil 11 negara bagian seperti itu, dan akhirnya berakhir dengan semua 50 negara bagian yang diwakili. 78 langganan di 36 negara bagian berjumlah 44 daftar kandidat senat Demokrat dan 34 daftar kandidat senat Republik, sedangkan ada 156 langganan di 42 negara bagian untuk kandidat rumah – 81 Demokrat, dan 75 Republik.
Analyzing the Data
Para peneliti mengumpulkan 318.108 email di seluruh tiga layanan email dalam periode pengumpulan data aktif penelitian yang dipotong setelah 20 November karena penurunan volume email yang cepat setelah tanggal itu. Konten data yang dikumpulkan untuk setiap email termasuk MIME-Version, Content Type, Subject, From, To, Date, Message-ID, Delivered-To, Received-SPF, dan Received-By.
Karena tantangan yang terlibat dalam mewakili komunikasi partai politik dengan adil, Analisis Skor Kecenderungan (PSA) dipilih sebagai metode statistik untuk data. PSA menghasilkan covariates dari data yang tidak seimbang yang menyamakan distribusi dalam keadaan luar biasa di mana kelompok kontrol dan pemisahan statistik tradisional tidak mudah diterapkan.
Penulis menyimpulkan bahwa SFA untuk layanan email yang dipelajari menunjukkan bias politik, dan bahwa konsistensi relatif awal di seluruh layanan berbeda menjadi perilaku yang lebih spesifik dari waktu ke waktu.
Gmail menandai persentase yang lebih tinggi (67,6%) dari email politik sayap kanan sebagai spam, dibandingkan dengan 8,2% dari email yang berafiliasi dengan sayap kiri, tetapi merespons lebih dinamis terhadap interaksi pengguna yang menandai email sebagai spam daripada rekan-rekannya. Outlook, sebaliknya, menandai 95,8% email sayap kiri sebagai spam, dibandingkan dengan 75,4% untuk email sayap kanan, dan Yahoo menandai 14,2% lebih banyak email sayap kiri sebagai spam daripada email sayap kanan.

Distribusi kumulatif dari persentase email Demokrat (biru) dan Republik (merah) yang ditandai sebagai spam di akun email dari setiap layanan.
Selanjutnya, hasil penelitian menunjukkan bahwa selama periode penelitian, Gmail merespons secara generik terhadap volume email yang meningkat di semua afiliasi politik dengan menandai mereka sebagai spam, terlepas dari asalnya. Yahoo konsisten melaporkan email sayap kiri sebagai spam saat kampanye berlangsung, pada saat yang sama mengurangi jumlah email sayap kanan yang ditandai sebagai spam. Outlook tampaknya paling sedikit dipengaruhi oleh volume email yang meningkat dari kedua partai politik, mempertahankan bias sayap kanan umum.

Persentase email yang ditandai sebagai spam di seluruh partai politik dan ketiga layanan email selama 153 hari periode penelitian.
Response to User Interaction
Ketika kita menandai email spam sebagai ‘Bukan spam’, niatnya adalah untuk melatih sistem email agar tidak menandai email serupa di masa depan, meskipun jenis aturan yang mendasarinya (berbasis email, berbasis konten, dll.) tidak selalu jelas.
Hasil penelitian menunjukkan bahwa dari tiga penyedia email yang dipelajari, hanya Gmail yang merespons secara signifikan terhadap input ‘tidak spam’ dari pengguna. Sebaliknya, interaksi spam-ke-kotak masuk (S→I) ini memiliki efek jangka panjang yang sangat terbatas di Outlook dan Yahoo.
Para peneliti mengamati:
‘[Karena] interaksi S→I, bias politik di Gmail berkurang secara signifikan. Namun, tidak terduga, itu meningkat di Outlook dan Yahoo karena tidak satu dari dua layanan tersebut bereaksi secara signifikan terhadap keinginan pengguna untuk tidak menandai email sebagai spam yang ditandai sebagai spam oleh dua layanan tersebut.’
Conclusion
Penulis menyimpulkan bahwa Gmail merespons ‘secara signifikan’ terhadap interaksi pengguna dibandingkan dengan Outlook dan Yahoo, meskipun kecenderungan kiri yang dimilikinya.
Penulis menyatakan:
‘Sementara bias politik di Gmail tetap tidak berubah setelah interaksi membaca, itu berkurang secara signifikan karena interaksi I→S dan S→I.’
Dan melanjutkan:
‘Sementara bias politik berubah sebagai respons terhadap interaksi yang berbeda, Gmail mempertahankan kecenderungan kirinya sementara Outlook dan Yahoo mempertahankan kecenderungan kanan mereka dalam semua skenario.’
Para peneliti mengakui harapan umum dari pengguna akhir bahwa filter spam dapat dan akan beradaptasi dengan perilaku mereka berdasarkan intervensi pengguna (seperti memindahkan email dari folder spam ke kotak masuk, atau menandai email sebagai ‘tidak spam’), tetapi bahwa mekanisme ini tidak dapat diandalkan, dan tentu saja tidak konsisten di seluruh tiga layanan email yang dipelajari.
Makalah tersebut mencatat:
‘[Kami] tidak menemukan tindakan konsisten yang dapat disarankan kepada pengguna untuk membantu mereka mengurangi bias dalam cara SFA menangani email politik yang dikirim kepada mereka.’
Dipublikasikan pertama kali 4 April 2022.












