ปัญญาประดิษฐ์
การวิจัย: อัลกอริทึมต่อต้านสแปมแสดงความลำเอียงทางการเมืองในช่วงการเลือกตั้ง USA ปี 2020

ตามการศึกษาใหม่ อัลกอริทึมการกรองสแปม (SFAs) จากผู้ให้บริการอีเมลสามรายที่ใหญ่ที่สุดในโลกแสดงความลำเอียงทางการเมืองในช่วงการเลือกตั้งประธานาธิบดีสหรัฐฯ ปี 2020 โดย Gmail ของ Google มีความเอนเอียงไปทางซ้าย ในขณะที่ Microsoft Outlook และ Yahoo Mail มีความเอนเอียงไปทางขวา
กระดาษระบุ:
‘การตรวจสอบของเราแสดงให้เห็นว่าอัลกอริทึมการกรองสแปมทั้งหมดแสดงความลำเอียงทางการเมืองในช่วงหลายเดือนก่อนการเลือกตั้งประธานาธิบดีสหรัฐฯ ปี 2020 Gmail มีความเอนเอียงไปทางซ้าย (พรรคเดโมแครต) ในขณะที่ Outlook และ Yahoo มีความเอนเอียงไปทางขวา (พรรครีพับลิกัน) Gmail มีการทำเครื่องหมายอีเมลจากผู้สมัครทางขวา 59.3% มากกว่าอีเมลจากผู้สมัครทางซ้าย ในขณะที่ Outlook และ Yahoo มีการทำเครื่องหมายอีเมลจากผู้สมัครทางซ้าย 20.4% และ 14.2% มากกว่าอีเมลจากผู้สมัครทางขวา ตามลำดับ’
การวิเคราะห์ของผู้เขียนระบุว่าการวิเคราะห์ของพวกเขาชี้ให้เห็นถึง ‘ความลำเอียงทั้งหมด’ ในกิจกรรมของ SFA
กระดาษยังยอมรับถึงความเป็นไปได้ของ ‘การทำเครื่องหมายสแปมที่ถูกปลูกฝัง’ โดยที่ผู้กระทำที่พยายามจะปิดปากเสียงค้านอาจขอหรือได้รับอีเมลอย่างเป็นทางการจาก ‘ฝ่ายศัตรู’ และการเชื่อมโยงเพื่อจุดประสงค์ในการรายงานอีเมลเป็นสแปม และมีอิทธิพลต่ออัลกอริทึมที่กำหนดความน่าจะเป็นของสแปมจากผู้ส่ง
อย่างไรก็ตาม ผู้วิจัยสังเกตเห็นว่าสิ่งนี้ไม่สามารถอธิบายถึงความแตกต่างที่ชัดเจนในทางที่ผู้ให้บริการอีเมลต่างๆ ดูเหมือนจะกำหนดการกระทำตามคำติชมจากผู้ใช้สิ้น
‘มีความเป็นไปได้ที่อัลกอริทึมการกรองสแปมของบริการอีเมลได้เรียนรู้จากการตัดสินใจของผู้ลงคะแนนเสียงบางคนในการทำเครื่องหมายอีเมลการรณรงค์เป็นสแปม และเริ่มทำเครื่องหมายอีเมลการรณรงค์เหล่านั้นเป็นสแปมสำหรับผู้ลงคะแนนเสียงคนอื่น ในขณะที่เราไม่มีเหตุผลที่จะเชื่อว่ามีการพยายามที่จะสร้างความลำเอียงเหล่านี้เพื่อ影响ผู้ลงคะแนนเสียง แต่ความจริงก็คืออัลกอริทึมการกรองสแปมของพวกเขามีการเรียนรู้ที่จะทำเครื่องหมายอีเมลจากพรรคการเมืองหนึ่งมากกว่าอีกพรรคหนึ่ง’
‘เนื่องจากบริการอีเมลที่โดดเด่นเหล่านี้ถูกใช้อย่างแข็งขันโดยประชากรผู้ลงคะแนนเสียงจำนวนมาก และเนื่องจากผู้ลงคะแนนเสียงหลายคนในปัจจุบันพึ่งพาข้อมูลที่พวกเขาเห็น (หรือไม่เห็น) ออนไลน์ ความลำเอียงเหล่านี้อาจมีผลกระทบที่ไม่สามารถเพิกเฉยได้ต่อผลลัพธ์ของการเลือกตั้ง’
กระดาษ กระดาษ มีชื่อเรื่อง การ窥ดูความลำเอียงทางการเมืองในอัลกอริทึมการกรองสแปมอีเมลในช่วงการเลือกตั้ง USA ปี 2020 และมาจากนักวิจัยสี่คนจากภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัย North Carolina State
รอบบ้าน
การศึกษาของผู้วิจัยครอบคลุมช่วงเวลา 5 เดือนตั้งแต่เดือนกรกฎาคม 2020 ถึงสิ้นเดือนพฤศจิกายนในปีเดียวกัน โดยที่พวกเขาสร้างอีเมลใหม่ 102 ช่องทางบนแพลตฟอร์มอีเมลสามราย และสมัครรับอีเมลแจ้งเตือนจากผู้สมัครชิงตำแหน่งประธานาธิบดี 2 คน ผู้สมัครชิงตำแหน่งวุฒิสภา 78 คน และผู้สมัครชิงตำแหน่งสภาผู้แทนราษฎร 156 คน
เพื่อลดปัจจัยประชากรศาสตร์ บัญชีอีเมลถูกสร้างขึ้นด้วยปัจจัยประชากรศาสตร์ที่แตกต่างกันสำหรับผู้ใช้ปลายทางที่หลอกลวง และแบ่งออกเป็นสองส่วน: ส่วนแรกศึกษาการเปลี่ยนแปลงความลำเอียงทั่วไปในอัลกอริทึมการกรองสแปมทั่วทั้งบริการอีเมลที่รวมกันสำหรับผู้สมัครชิงตำแหน่งประธานาธิบดี วุฒิสภา และสภาผู้แทนราษฎร; และส่วนที่สองตรวจสอบวิธีการที่การโต้ตอบอีเมลต่างๆ (เช่น การทำเครื่องหมายหรือการไม่ทำเครื่องหมายเป็นสแปมโดยผู้ใช้ปลายทาง) ดูเหมือนจะส่งผลต่อพฤติกรรมของอัลกอริทึมการกรองสแปม
มีการสังเกตหลายประการในช่วงการศึกษา ผู้เขียนรายงานว่า Gmail ‘เอนเอียงไปทางซ้าย’ ในขณะที่ Outlook และ Yahoo เอนเอียงไปทางขวา Yahoo เก็บอีเมลทางการเมือง 55.2% ทั้งหมดในกล่องจดหมายของผู้ใช้ ในขณะที่ Outlook ตัดอีเมลจากผู้สมัครทางการเมืองทั้งหมด 71.8%
‘Gmail เก็บอีเมลจากผู้สมัครทางซ้ายส่วนใหญ่ในกล่องจดหมาย (< 10.12% ทำเครื่องหมายเป็นสแปม) ในขณะที่ส่งอีเมลจากผู้สมัครทางขวาส่วนใหญ่ไปที่โฟลเดอร์สแปม (มากถึง 77.2% ทำเครื่องหมายเป็นสแปม)’
‘เราตรวจสอบเพิ่มเติมว่าเปอร์เซ็นต์ของอีเมลที่ Gmail ทำเครื่องหมายเป็นสแปมจากผู้สมัครทางขวาเพิ่มขึ้นอย่างต่อเนื่องเมื่อใกล้ถึงวันเลือกตั้ง ในขณะที่เปอร์เซ็นต์ของอีเมลที่ทำเครื่องหมายเป็นสแปมจากผู้สมัครทางซ้ายยังคงเท่าเดิม’
การเลือกผู้สมัคร
ในขณะที่ผู้สมัครชิงตำแหน่งประธานาธิบดีที่สมัครเข้าร่วมการศึกษามีเพียง Joe Biden และ Donald Trump ผู้วิจัยได้เลือกผู้สมัครชิงตำแหน่งวุฒิสภาและสภาผู้แทนราษฎรอย่างรอบคอบ
ขั้นแรก รัฐต่างๆ มีจำนวนสมาชิกสภาที่แตกต่างกันตามจำนวนประชากรของรัฐ ขั้นที่สอง จำนวนผู้สมัครชิงตำแหน่งวุฒิสภาและสภาผู้แทนราษฎรที่แตกต่างกันระหว่างพรรคการเมืองสองพรรคขึ้นอยู่กับรัฐ ต่อไป บางผู้สมัครมีเพียงเว็บไซต์ .gov อย่างเป็นทางการซึ่งถูกห้ามตามกฎหมายในการส่งอีเมลการรณรงค์; และสุดท้าย รายการอีเมลการสมัครของผู้สมัครบางคนได้รับการคุ้มครองโดย CAPTCHAs ซึ่งไม่สามารถทำให้กลไกการรวบรวมข้อมูลแบบกำหนดเองของผู้วิจัยอัตโนมัติได้
เพื่อสร้างสมดุลระหว่างผู้สมัครจากพรรคเดโมแครตและพรรครีพับลิกัน ผู้วิจัยสมัครรับอีเมลการรณรงค์จากผู้สมัครสูงสุดในรัฐที่ผู้สมัครจากทั้งสองฝ่ายมีจำนวนเท่าเทียมกัน ยกเว้นรัฐอย่าง Alaska ซึ่งมีผู้สมัครวุฒิสภาเพียงคนเดียวจากพรรครีพับลิกัน
โดยรวมแล้ว ผู้เขียนต้องคำนึงถึง 11 รัฐดังกล่าว และสุดท้ายมีผู้สมัครจากทั้ง 50 รัฐ 78 การสมัครข้าม 36 รัฐคิดเป็น 44 ผู้สมัครชิงตำแหน่งวุฒิสภาจากพรรคเดโมแครตและ 34 ผู้สมัครจากพรรครีพับลิกัน ในขณะที่มีการสมัคร 156 รายจากผู้สมัครชิงตำแหน่งสภาผู้แทนราษฎร – 81 จากพรรคเดโมแครต และ 75 จากพรรครีพับลิกัน
การวิเคราะห์ข้อมูล
ผู้วิจัยรวบรวมอีเมล 318,108 ชิ้นข้ามบริการอีเมลสามรายในช่วงการรวบรวมข้อมูลที่ใช้งานได้ ซึ่งถูกตัดหลังจากวันที่ 20 พฤศจิกายนเนื่องจากปริมาณอีเมลลดลงอย่างรวดเร็วหลังจากนั้น ข้อมูลเนื้อหาที่รวบรวมสำหรับอีเมลแต่ละฉบับรวมถึง MIME-Version, Content Type, Subject, From, To, Date, Message-ID, Delivered-To, Received-SPF และ Received-By
เนื่องจากความท้าทายในการแสดงถึงการสื่อสารของพรรคการเมืองทั้งสองอย่างยุติธรรม การวิเคราะห์คะแนนความน่าจะเป็น (PSA) ถูกเลือกเป็นวิธีการทางสถิติสำหรับข้อมูล PSA สร้าง covariates จากข้อมูลที่ไม่สมดุลซึ่งทำให้การกระจายตัวเท่ากันในสถานการณ์พิเศษที่กลุ่มควบคุมและแบ่งส่วนการวิเคราะห์แบบดั้งเดิมไม่สามารถใช้ได้
ผู้เขียนสรุปว่าอัลกอริทึมการกรองสแปมสำหรับบริการอีเมลที่ศึกษาแสดงความลำเอียงทางการเมือง และว่าความสม่ำเสมอในระยะแรกที่เห็นได้ข้ามบริการต่างๆ จะเปลี่ยนไปสู่พฤติกรรมเฉพาะเจาะจงมากขึ้นเมื่อเวลาผ่านไป
Gmail ทำเครื่องหมายอีเมลทางการเมืองทางขวา 67.6% เป็นสแปม เมื่อเทียบกับอีเมลที่สังกัดกับฝ่ายซ้ายเพียง 8.2% แต่ตอบสนองต่อการโต้ตอบของผู้ใช้ที่ไม่ทำเครื่องหมายอีเมลเป็นสแปมมากกว่าบริการอื่นๆ Outlook ทำเครื่องหมายอีเมลที่มีทัศนคติทางซ้าย 95.8% เป็นสแปม เมื่อเทียบกับอีเมลทางขวา 75.4% และ Yahoo ทำเครื่องหมายอีเมลทางซ้าย 14.2% มากกว่าอีเมลทางขวา

การกระจายตัวของการเชื่อมโยงทางการเมืองของการสมัครสมาชิกอีเมลจากผู้สมัครวุฒิสภาและสภาผู้แทนราษฎร Source: https://arxiv.org/pdf/2203.16743.pdf
นอกจากนี้ ผลการวิจัยชี้ให้เห็นว่าในช่วงเวลาของการศึกษา Gmail ตอบสนองต่อปริมาณอีเมลที่เพิ่มขึ้นโดยทั่วไปโดยการทำเครื่องหมายอีเมลเหล่านั้นเป็นสแปม โดยไม่คำนึงถึงแหล่งที่มา Yahoo รายงานอีเมลที่มีทัศนคติทางซ้ายเป็นสแปมอย่างต่อเนื่องเมื่อการรณรงค์ดำเนินไป ในขณะเดียวกันก็ลดจำนวนอีเมลทางขวาที่ทำเครื่องหมายเป็นสแปม Outlook ดูเหมือนจะไม่ได้รับผลกระทบจากปริมาณอีเมลที่เพิ่มขึ้นจากทั้งสองฝ่าย และรักษาความเอนเอียงทางขวาโดยทั่วไป

การกระจายตัวสะสมของเปอร์เซ็นต์ของอีเมลจากพรรคเดโมแครต (สีน้ำเงิน) และพรรครีพับลิกัน (สีแดง) ที่ทำเครื่องหมายเป็นสแปมในบัญชีอีเมลของแต่ละบริการ
การตอบสนองต่อการโต้ตอบของผู้ใช้
เมื่อเราทำเครื่องหมายอีเมลสแปมเป็น ‘ไม่ใช่สแปม’ ความตั้งใจคือการฝึกอบรมระบบอีเมลให้ไม่ติดธงอีเมลที่คล้ายกันในอนาคต แม้ว่าประเภทของกฎ (อีเมล์แบบอีเมล, เนื้อหาบนพื้นฐานของอีเมล, ฯลฯ) จะไม่ชัดเจนเสมอไป
ผลการวิจัยพบว่าในบรรดาผู้ให้บริการอีเมลสามรายที่ตรวจสอบ Gmail ตอบสนองอย่างมีนัยสำคัญต่อการป้อน ‘ไม่ใช่สแปม’ จากผู้ใช้ ในทางตรงกันข้าม การโต้ตอบนี้มีผลกระทบระยะยาวที่จำกัดมากใน Outlook และ Yahoo
ผู้วิจัยสังเกตเห็นว่า:
‘เนื่องจากการโต้ตอบ S→I ความลำเอียงทางการเมืองใน Gmail ลดลงอย่างมีนัยสำคัญ อย่างไรก็ตาม ในทางที่ไม่คาดคิด มันเพิ่มขึ้นใน Outlook และ Yahoo เนื่องจากทั้งสองบริการไม่ตอบสนองอย่างมีนัยสำคัญต่อความต้องการของผู้ใช้ที่จะไม่ทำเครื่องหมายอีเมลเหล่านั้นเป็นสแปมที่ทั้งสองบริการทำเครื่องหมายเป็นสแปม’
สรุป
ผู้เขียนสรุปว่า Gmail ตอบสนองต่อการโต้ตอบของผู้ใช้อย่างมีนัยสำคัญเมื่อเทียบกับ Outlook และ Yahoo แม้ว่าจะมีความเอนเอียงไปทางซ้าย
ผู้เขียนระบุ:
‘ในขณะที่ความลำเอียงทางการเมืองใน Gmail ยังคงไม่เปลี่ยนแปลงหลังจากการโต้ตอบการอ่าน มันลดลงอย่างมีนัยสำคัญเนื่องจากการโต้ตอบ I→S และ S→I’
และต่อไป:
‘ในขณะที่ความลำเอียงทางการเมืองเปลี่ยนแปลงตามการโต้ตอบต่างๆ Gmail รักษาความเอนเอียงไปทางซ้าย ในขณะที่ Outlook และ Yahoo รักษาความเอนเอียงไปทางขวาในทุกสถานการณ์’
ผู้วิจัยยอมรับถึงความคาดหวังทั่วไปของผู้ใช้ที่ฟิลเตอร์สแปมสามารถและจะปรับพฤติกรรมตามการแทรกแซงของผู้ใช้ (เช่น การย้ายอีเมลจากโฟลเดอร์สแปมไปที่กล่องจดหมาย หรือการทำเครื่องหมายอีเมลเป็น ‘ไม่ใช่สแปม’) แต่กลไกนี้ไม่น่าเชื่อถือ และไม่สอดคล้องกันข้ามผู้ให้บริการอีเมลที่ศึกษา
กระดาษระบุ:
‘[เรา] ไม่พบการกระทำที่สม่ำเสมอใดๆ ที่สามารถแนะนำให้ผู้ใช้เพื่อช่วยลดความลำเอียงในการรักษาอีเมลทางการเมืองที่ส่งถึงพวกเขา’
เผยแพร่ครั้งแรกเมื่อวันที่ 4 เมษายน 2022












