Connect with us

การวิจัย: อัลกอริทึมต่อต้านสแปมแสดงความลำเอียงทางการเมืองในช่วงการเลือกตั้ง USA ปี 2020

ปัญญาประดิษฐ์

การวิจัย: อัลกอริทึมต่อต้านสแปมแสดงความลำเอียงทางการเมืองในช่วงการเลือกตั้ง USA ปี 2020

mm

ตามการศึกษาใหม่ อัลกอริทึมการกรองสแปม (SFAs) จากผู้ให้บริการอีเมลสามรายที่ใหญ่ที่สุดในโลกแสดงความลำเอียงทางการเมืองในช่วงการเลือกตั้งประธานาธิบดีสหรัฐฯ ปี 2020 โดย Gmail ของ Google มีความเอนเอียงไปทางซ้าย ในขณะที่ Microsoft Outlook และ Yahoo Mail มีความเอนเอียงไปทางขวา

กระดาษระบุ:

‘การตรวจสอบของเราแสดงให้เห็นว่าอัลกอริทึมการกรองสแปมทั้งหมดแสดงความลำเอียงทางการเมืองในช่วงหลายเดือนก่อนการเลือกตั้งประธานาธิบดีสหรัฐฯ ปี 2020 Gmail มีความเอนเอียงไปทางซ้าย (พรรคเดโมแครต) ในขณะที่ Outlook และ Yahoo มีความเอนเอียงไปทางขวา (พรรครีพับลิกัน) Gmail มีการทำเครื่องหมายอีเมลจากผู้สมัครทางขวา 59.3% มากกว่าอีเมลจากผู้สมัครทางซ้าย ในขณะที่ Outlook และ Yahoo มีการทำเครื่องหมายอีเมลจากผู้สมัครทางซ้าย 20.4% และ 14.2% มากกว่าอีเมลจากผู้สมัครทางขวา ตามลำดับ’

การวิเคราะห์ของผู้เขียนระบุว่าการวิเคราะห์ของพวกเขาชี้ให้เห็นถึง ‘ความลำเอียงทั้งหมด’ ในกิจกรรมของ SFA

กระดาษยังยอมรับถึงความเป็นไปได้ของ ‘การทำเครื่องหมายสแปมที่ถูกปลูกฝัง’ โดยที่ผู้กระทำที่พยายามจะปิดปากเสียงค้านอาจขอหรือได้รับอีเมลอย่างเป็นทางการจาก ‘ฝ่ายศัตรู’ และการเชื่อมโยงเพื่อจุดประสงค์ในการรายงานอีเมลเป็นสแปม และมีอิทธิพลต่ออัลกอริทึมที่กำหนดความน่าจะเป็นของสแปมจากผู้ส่ง

อย่างไรก็ตาม ผู้วิจัยสังเกตเห็นว่าสิ่งนี้ไม่สามารถอธิบายถึงความแตกต่างที่ชัดเจนในทางที่ผู้ให้บริการอีเมลต่างๆ ดูเหมือนจะกำหนดการกระทำตามคำติชมจากผู้ใช้สิ้น

‘มีความเป็นไปได้ที่อัลกอริทึมการกรองสแปมของบริการอีเมลได้เรียนรู้จากการตัดสินใจของผู้ลงคะแนนเสียงบางคนในการทำเครื่องหมายอีเมลการรณรงค์เป็นสแปม และเริ่มทำเครื่องหมายอีเมลการรณรงค์เหล่านั้นเป็นสแปมสำหรับผู้ลงคะแนนเสียงคนอื่น ในขณะที่เราไม่มีเหตุผลที่จะเชื่อว่ามีการพยายามที่จะสร้างความลำเอียงเหล่านี้เพื่อ影响ผู้ลงคะแนนเสียง แต่ความจริงก็คืออัลกอริทึมการกรองสแปมของพวกเขามีการเรียนรู้ที่จะทำเครื่องหมายอีเมลจากพรรคการเมืองหนึ่งมากกว่าอีกพรรคหนึ่ง’

‘เนื่องจากบริการอีเมลที่โดดเด่นเหล่านี้ถูกใช้อย่างแข็งขันโดยประชากรผู้ลงคะแนนเสียงจำนวนมาก และเนื่องจากผู้ลงคะแนนเสียงหลายคนในปัจจุบันพึ่งพาข้อมูลที่พวกเขาเห็น (หรือไม่เห็น) ออนไลน์ ความลำเอียงเหล่านี้อาจมีผลกระทบที่ไม่สามารถเพิกเฉยได้ต่อผลลัพธ์ของการเลือกตั้ง’

กระดาษ กระดาษ มีชื่อเรื่อง การ窥ดูความลำเอียงทางการเมืองในอัลกอริทึมการกรองสแปมอีเมลในช่วงการเลือกตั้ง USA ปี 2020 และมาจากนักวิจัยสี่คนจากภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัย North Carolina State

รอบบ้าน

การศึกษาของผู้วิจัยครอบคลุมช่วงเวลา 5 เดือนตั้งแต่เดือนกรกฎาคม 2020 ถึงสิ้นเดือนพฤศจิกายนในปีเดียวกัน โดยที่พวกเขาสร้างอีเมลใหม่ 102 ช่องทางบนแพลตฟอร์มอีเมลสามราย และสมัครรับอีเมลแจ้งเตือนจากผู้สมัครชิงตำแหน่งประธานาธิบดี 2 คน ผู้สมัครชิงตำแหน่งวุฒิสภา 78 คน และผู้สมัครชิงตำแหน่งสภาผู้แทนราษฎร 156 คน

เพื่อลดปัจจัยประชากรศาสตร์ บัญชีอีเมลถูกสร้างขึ้นด้วยปัจจัยประชากรศาสตร์ที่แตกต่างกันสำหรับผู้ใช้ปลายทางที่หลอกลวง และแบ่งออกเป็นสองส่วน: ส่วนแรกศึกษาการเปลี่ยนแปลงความลำเอียงทั่วไปในอัลกอริทึมการกรองสแปมทั่วทั้งบริการอีเมลที่รวมกันสำหรับผู้สมัครชิงตำแหน่งประธานาธิบดี วุฒิสภา และสภาผู้แทนราษฎร; และส่วนที่สองตรวจสอบวิธีการที่การโต้ตอบอีเมลต่างๆ (เช่น การทำเครื่องหมายหรือการไม่ทำเครื่องหมายเป็นสแปมโดยผู้ใช้ปลายทาง) ดูเหมือนจะส่งผลต่อพฤติกรรมของอัลกอริทึมการกรองสแปม

มีการสังเกตหลายประการในช่วงการศึกษา ผู้เขียนรายงานว่า Gmail ‘เอนเอียงไปทางซ้าย’ ในขณะที่ Outlook และ Yahoo เอนเอียงไปทางขวา Yahoo เก็บอีเมลทางการเมือง 55.2% ทั้งหมดในกล่องจดหมายของผู้ใช้ ในขณะที่ Outlook ตัดอีเมลจากผู้สมัครทางการเมืองทั้งหมด 71.8%

‘Gmail เก็บอีเมลจากผู้สมัครทางซ้ายส่วนใหญ่ในกล่องจดหมาย (< 10.12% ทำเครื่องหมายเป็นสแปม) ในขณะที่ส่งอีเมลจากผู้สมัครทางขวาส่วนใหญ่ไปที่โฟลเดอร์สแปม (มากถึง 77.2% ทำเครื่องหมายเป็นสแปม)’

‘เราตรวจสอบเพิ่มเติมว่าเปอร์เซ็นต์ของอีเมลที่ Gmail ทำเครื่องหมายเป็นสแปมจากผู้สมัครทางขวาเพิ่มขึ้นอย่างต่อเนื่องเมื่อใกล้ถึงวันเลือกตั้ง ในขณะที่เปอร์เซ็นต์ของอีเมลที่ทำเครื่องหมายเป็นสแปมจากผู้สมัครทางซ้ายยังคงเท่าเดิม’

การเลือกผู้สมัคร

ในขณะที่ผู้สมัครชิงตำแหน่งประธานาธิบดีที่สมัครเข้าร่วมการศึกษามีเพียง Joe Biden และ Donald Trump ผู้วิจัยได้เลือกผู้สมัครชิงตำแหน่งวุฒิสภาและสภาผู้แทนราษฎรอย่างรอบคอบ

ขั้นแรก รัฐต่างๆ มีจำนวนสมาชิกสภาที่แตกต่างกันตามจำนวนประชากรของรัฐ ขั้นที่สอง จำนวนผู้สมัครชิงตำแหน่งวุฒิสภาและสภาผู้แทนราษฎรที่แตกต่างกันระหว่างพรรคการเมืองสองพรรคขึ้นอยู่กับรัฐ ต่อไป บางผู้สมัครมีเพียงเว็บไซต์ .gov อย่างเป็นทางการซึ่งถูกห้ามตามกฎหมายในการส่งอีเมลการรณรงค์; และสุดท้าย รายการอีเมลการสมัครของผู้สมัครบางคนได้รับการคุ้มครองโดย CAPTCHAs ซึ่งไม่สามารถทำให้กลไกการรวบรวมข้อมูลแบบกำหนดเองของผู้วิจัยอัตโนมัติได้

เพื่อสร้างสมดุลระหว่างผู้สมัครจากพรรคเดโมแครตและพรรครีพับลิกัน ผู้วิจัยสมัครรับอีเมลการรณรงค์จากผู้สมัครสูงสุดในรัฐที่ผู้สมัครจากทั้งสองฝ่ายมีจำนวนเท่าเทียมกัน ยกเว้นรัฐอย่าง Alaska ซึ่งมีผู้สมัครวุฒิสภาเพียงคนเดียวจากพรรครีพับลิกัน

โดยรวมแล้ว ผู้เขียนต้องคำนึงถึง 11 รัฐดังกล่าว และสุดท้ายมีผู้สมัครจากทั้ง 50 รัฐ 78 การสมัครข้าม 36 รัฐคิดเป็น 44 ผู้สมัครชิงตำแหน่งวุฒิสภาจากพรรคเดโมแครตและ 34 ผู้สมัครจากพรรครีพับลิกัน ในขณะที่มีการสมัคร 156 รายจากผู้สมัครชิงตำแหน่งสภาผู้แทนราษฎร – 81 จากพรรคเดโมแครต และ 75 จากพรรครีพับลิกัน

การวิเคราะห์ข้อมูล

ผู้วิจัยรวบรวมอีเมล 318,108 ชิ้นข้ามบริการอีเมลสามรายในช่วงการรวบรวมข้อมูลที่ใช้งานได้ ซึ่งถูกตัดหลังจากวันที่ 20 พฤศจิกายนเนื่องจากปริมาณอีเมลลดลงอย่างรวดเร็วหลังจากนั้น ข้อมูลเนื้อหาที่รวบรวมสำหรับอีเมลแต่ละฉบับรวมถึง MIME-Version, Content Type, Subject, From, To, Date, Message-ID, Delivered-To, Received-SPF และ Received-By

เนื่องจากความท้าทายในการแสดงถึงการสื่อสารของพรรคการเมืองทั้งสองอย่างยุติธรรม การวิเคราะห์คะแนนความน่าจะเป็น (PSA) ถูกเลือกเป็นวิธีการทางสถิติสำหรับข้อมูล PSA สร้าง covariates จากข้อมูลที่ไม่สมดุลซึ่งทำให้การกระจายตัวเท่ากันในสถานการณ์พิเศษที่กลุ่มควบคุมและแบ่งส่วนการวิเคราะห์แบบดั้งเดิมไม่สามารถใช้ได้

ผู้เขียนสรุปว่าอัลกอริทึมการกรองสแปมสำหรับบริการอีเมลที่ศึกษาแสดงความลำเอียงทางการเมือง และว่าความสม่ำเสมอในระยะแรกที่เห็นได้ข้ามบริการต่างๆ จะเปลี่ยนไปสู่พฤติกรรมเฉพาะเจาะจงมากขึ้นเมื่อเวลาผ่านไป

Gmail ทำเครื่องหมายอีเมลทางการเมืองทางขวา 67.6% เป็นสแปม เมื่อเทียบกับอีเมลที่สังกัดกับฝ่ายซ้ายเพียง 8.2% แต่ตอบสนองต่อการโต้ตอบของผู้ใช้ที่ไม่ทำเครื่องหมายอีเมลเป็นสแปมมากกว่าบริการอื่นๆ Outlook ทำเครื่องหมายอีเมลที่มีทัศนคติทางซ้าย 95.8% เป็นสแปม เมื่อเทียบกับอีเมลทางขวา 75.4% และ Yahoo ทำเครื่องหมายอีเมลทางซ้าย 14.2% มากกว่าอีเมลทางขวา

การกระจายตัวของการเชื่อมโยงทางการเมืองของการสมัครสมาชิกอีเมลจากผู้สมัครวุฒิสภาและสภาผู้แทนราษฎร

การกระจายตัวของการเชื่อมโยงทางการเมืองของการสมัครสมาชิกอีเมลจากผู้สมัครวุฒิสภาและสภาผู้แทนราษฎร Source: https://arxiv.org/pdf/2203.16743.pdf

นอกจากนี้ ผลการวิจัยชี้ให้เห็นว่าในช่วงเวลาของการศึกษา Gmail ตอบสนองต่อปริมาณอีเมลที่เพิ่มขึ้นโดยทั่วไปโดยการทำเครื่องหมายอีเมลเหล่านั้นเป็นสแปม โดยไม่คำนึงถึงแหล่งที่มา Yahoo รายงานอีเมลที่มีทัศนคติทางซ้ายเป็นสแปมอย่างต่อเนื่องเมื่อการรณรงค์ดำเนินไป ในขณะเดียวกันก็ลดจำนวนอีเมลทางขวาที่ทำเครื่องหมายเป็นสแปม Outlook ดูเหมือนจะไม่ได้รับผลกระทบจากปริมาณอีเมลที่เพิ่มขึ้นจากทั้งสองฝ่าย และรักษาความเอนเอียงทางขวาโดยทั่วไป

การกระจายตัวสะสมของเปอร์เซ็นต์ของอีเมลจากพรรคเดโมแครต (สีน้ำเงิน) และพรรครีพับลิกัน (สีแดง) ที่ทำเครื่องหมายเป็นสแปมในบัญชีอีเมล 22 บัญชีของแต่ละบริการ

การกระจายตัวสะสมของเปอร์เซ็นต์ของอีเมลจากพรรคเดโมแครต (สีน้ำเงิน) และพรรครีพับลิกัน (สีแดง) ที่ทำเครื่องหมายเป็นสแปมในบัญชีอีเมลของแต่ละบริการ

การตอบสนองต่อการโต้ตอบของผู้ใช้

เมื่อเราทำเครื่องหมายอีเมลสแปมเป็น ‘ไม่ใช่สแปม’ ความตั้งใจคือการฝึกอบรมระบบอีเมลให้ไม่ติดธงอีเมลที่คล้ายกันในอนาคต แม้ว่าประเภทของกฎ (อีเมล์แบบอีเมล, เนื้อหาบนพื้นฐานของอีเมล, ฯลฯ) จะไม่ชัดเจนเสมอไป

ผลการวิจัยพบว่าในบรรดาผู้ให้บริการอีเมลสามรายที่ตรวจสอบ Gmail ตอบสนองอย่างมีนัยสำคัญต่อการป้อน ‘ไม่ใช่สแปม’ จากผู้ใช้ ในทางตรงกันข้าม การโต้ตอบนี้มีผลกระทบระยะยาวที่จำกัดมากใน Outlook และ Yahoo

ผู้วิจัยสังเกตเห็นว่า:

‘เนื่องจากการโต้ตอบ S→I ความลำเอียงทางการเมืองใน Gmail ลดลงอย่างมีนัยสำคัญ อย่างไรก็ตาม ในทางที่ไม่คาดคิด มันเพิ่มขึ้นใน Outlook และ Yahoo เนื่องจากทั้งสองบริการไม่ตอบสนองอย่างมีนัยสำคัญต่อความต้องการของผู้ใช้ที่จะไม่ทำเครื่องหมายอีเมลเหล่านั้นเป็นสแปมที่ทั้งสองบริการทำเครื่องหมายเป็นสแปม’

สรุป

ผู้เขียนสรุปว่า Gmail ตอบสนองต่อการโต้ตอบของผู้ใช้อย่างมีนัยสำคัญเมื่อเทียบกับ Outlook และ Yahoo แม้ว่าจะมีความเอนเอียงไปทางซ้าย

ผู้เขียนระบุ:

‘ในขณะที่ความลำเอียงทางการเมืองใน Gmail ยังคงไม่เปลี่ยนแปลงหลังจากการโต้ตอบการอ่าน มันลดลงอย่างมีนัยสำคัญเนื่องจากการโต้ตอบ I→S และ S→I’

และต่อไป:

‘ในขณะที่ความลำเอียงทางการเมืองเปลี่ยนแปลงตามการโต้ตอบต่างๆ Gmail รักษาความเอนเอียงไปทางซ้าย ในขณะที่ Outlook และ Yahoo รักษาความเอนเอียงไปทางขวาในทุกสถานการณ์’

ผู้วิจัยยอมรับถึงความคาดหวังทั่วไปของผู้ใช้ที่ฟิลเตอร์สแปมสามารถและจะปรับพฤติกรรมตามการแทรกแซงของผู้ใช้ (เช่น การย้ายอีเมลจากโฟลเดอร์สแปมไปที่กล่องจดหมาย หรือการทำเครื่องหมายอีเมลเป็น ‘ไม่ใช่สแปม’) แต่กลไกนี้ไม่น่าเชื่อถือ และไม่สอดคล้องกันข้ามผู้ให้บริการอีเมลที่ศึกษา

กระดาษระบุ:

‘[เรา] ไม่พบการกระทำที่สม่ำเสมอใดๆ ที่สามารถแนะนำให้ผู้ใช้เพื่อช่วยลดความลำเอียงในการรักษาอีเมลทางการเมืองที่ส่งถึงพวกเขา’

 

เผยแพร่ครั้งแรกเมื่อวันที่ 4 เมษายน 2022

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai