कृत्रिम बुद्धिमत्ता

शोध: 2020 यूएसए चुनाव के दौरान एंटी-स्पैम एल्गोरिदम में राजनीतिक पूर्वाग्रह दिखा

Published April 4, 2022

Updated April 28, 2026

Martin Anderson

एक नए अध्ययन के अनुसार, दुनिया के तीन सबसे बड़े ईमेल प्रदाताओं के स्पैम फिल्टरिंग एल्गोरिदम (एसएफए) ने संयुक्त राज्य अमेरिका के 2020 के चुनावों के दौरान राजनीतिक पूर्वाग्रह प्रदर्शित किया, जिसमें गूगल के जीमेल ने बाएं झुकाव दिखाया, और माइक्रोसॉफ्ट आउटलुक और याहू मेल ने दाएं-पंथी उम्मीदवारों के ईमेल को पसंद किया।

इस पत्र में कहा गया है:

‘हमारे [निरीक्षण] ने दिखाया कि सभी एसएफए ने 2020 यूएस चुनाव से पहले के महीनों में राजनीतिक पूर्वाग्रह प्रदर्शित किया। जीमेल बाएं (डेमोक्रेट) की ओर झुका हुआ था, जबकि आउटलुक और याहू दाएं (रिपब्लिकन) की ओर झुके हुए थे। जीमेल ने दाएं उम्मीदवारों के 59.3% अधिक ईमेल को स्पैम के रूप में चिह्नित किया बाएं उम्मीदवारों की तुलना में, जबकि आउटलुक और याहू ने क्रमशः 20.4% और 14.2% अधिक ईमेल को स्पैम के रूप में चिह्नित किया।’

लेखकों का विश्लेषण, वे दावा करते हैं, ‘एग्रीगेट पूर्वाग्रह’ को एसएफए गतिविधि में प्रदर्शित करता है।

इस पत्र में यह भी स्वीकार किया गया है कि ‘फार्म्ड’ स्पैम मार्किंग की संभावना है, जहां विरोधी आवाजों को शांत करने के लिए अभिनेता आधिकारिक संचार तक पहुंच प्राप्त कर सकते हैं और उन्हें स्पैम के रूप में रिपोर्ट कर सकते हैं, जिससे एक विशिष्ट भेजने वाले से स्पैम प्रोवेनेंस की संभावना को प्रभावित करने वाले एल्गोरिदम को प्रभावित किया जा सकता है।

हालांकि, शोधकर्ताओं का观察 है, यह अलग-अलग ईमेल प्रदाताओं द्वारा की गई कार्रवाइयों में भिन्नता को नहीं समझाता है जो अंतिम उपयोगकर्ताओं से प्रतिक्रिया पर आधारित होती हैं:

‘तर्कसंगत रूप से, यह भी संभावना है कि ईमेल सेवाओं के एसएफए ने कुछ मतदाताओं द्वारा कुछ अभियान ईमेल को स्पैम के रूप में चिह्नित करने के विकल्प से सीखा और अन्य मतदाताओं के लिए उन/समान अभियान ईमेल को स्पैम के रूप में चिह्नित करना शुरू कर दिया। जबकि हमें विश्वास नहीं है कि इन ईमेल सेवाओं से मतदाताओं को प्रभावित करने के लिए जानबूझकर पूर्वाग्रह पैदा करने का प्रयास किया गया था, यह तथ्य बना हुआ है कि उनके एसएफए ने एक राजनीतिक संबद्धता के ईमेल को दूसरे की तुलना में स्पैम के रूप में चिह्नित करना सीखा है। ‘

‘चूंकि ये प्रमुख ईमेल सेवाएं एक बड़े मतदाता आबादी द्वारा सक्रिय रूप से उपयोग की जाती हैं और चूंकि आज के कई मतदाता ऑनलाइन देखी जाने वाली जानकारी (या नहीं देखी जाने वाली) पर निर्भर करते हैं, ऐसे पूर्वाग्रहों का चुनाव परिणामों पर एक अनदेखा प्रभाव हो सकता है।’

पत्र पत्र शीर्षक है यूएस इलेक्शन 2020 के दौरान ईमेल स्पैम फिल्टरिंग एल्गोरिदम में राजनीतिक पूर्वाग्रह पर एक नज़र, और उत्तरी कैरोलिना स्टेट यूनिवर्सिटी के कंप्यूटर विज्ञान विभाग के चार शोधकर्ताओं से आया है।

राउंड द हाउसेस

शोधकर्ताओं के अध्ययन में जुलाई 2020 से नवंबर के अंत तक पांच महीनों की अवधि शामिल है, जिसमें उन्होंने तीन ईमेल प्लेटफार्मों पर 102 नए ईमेल पते बनाए और दो राष्ट्रपति, 78 सीनेट और 156 हाउस उम्मीदवारों की ईमेल सूचना सूचियों में शामिल हुए।

जनसांख्यिकीय कारकों को छोड़ने के लिए, ईमेल खाते प्रत्येक (काल्पनिक) अंतिम उपयोगकर्ता के लिए विभिन्न जनसांख्यिकीय कारकों के साथ बनाए गए थे और दो धाराओं में विभाजित थे: पहला सभी ईमेल सेवाओं में स्पैम फिल्टरिंग एल्गोरिदम में सामान्य पूर्वाग्रह रुझानों का अध्ययन करता था; और दूसरा यह देखता था कि विभिन्न ईमेल इंटरैक्शन (जैसे कि अंतिम उपयोगकर्ता द्वारा स्पैम के रूप में चिह्नित या अस्पैम के रूप में चिह्नित करना) एल्गोरिदमिक स्पैम फिल्टर के व्यवहार को कैसे प्रभावित करते हैं।

अध्ययन के दौरान कई प्रमुख अवलोकन सामने आए। लेखकों का कहना है कि जीमेल ‘बाएं’ की ओर झुका हुआ था, जबकि आउटलुक और याहू दाएं की ओर झुके हुए थे। याहू ने सभी राजनीतिक ईमेलों में से 55.2% को उपयोगकर्ता के इनबॉक्स में रखा, जबकि आउटलुक ने सभी राजनीतिक उम्मीदवारों के 71.8% ईमेल को फिल्टर किया।

‘जीमेल, हालांकि, बाएं-पंथी उम्मीदवारों के ईमेल को इनबॉक्स में रखा (< 10.12% स्पैम के रूप में चिह्नित) जबकि दाएं-पंथी उम्मीदवारों के ईमेल को स्पैम फोल्डर में भेज दिया (77.2% स्पैम के रूप में चिह्नित)। ‘

‘हमने आगे देखा कि जीमेल द्वारा दाएं-पंथी उम्मीदवारों के ईमेल को स्पैम के रूप में चिह्नित करने का प्रतिशत चुनाव की तारीख के करीब आने के साथ-साथ बढ़ता गया, जबकि बाएं-पंथी उम्मीदवारों के ईमेल को स्पैम के रूप में चिह्नित करने का प्रतिशत लगभग समान रहा।’

उम्मीदवारों का चयन

जबकि अध्ययन के लिए राष्ट्रपति उम्मीदवार जो बिडेन और डोनाल्ड ट्रम्प तक सीमित थे, शोधकर्ताओं ने सीनेट और हाउस उम्मीदवारों से ईमेल संचार में शामिल होने के लिए प्रतिनिधि विकल्प बनाने का ध्यान रखा।

पहले, राज्यों में हाउस में सीटों की संख्या राज्य की जनसंख्या गणना पर आधारित होती है। दूसरा, दो मुख्य राजनीतिक दलों में सीनेट और हाउस उम्मीदवारों की संख्या राज्यों में भिन्न होती है। इसके अलावा, कुछ उम्मीदवारों का प्रतिनिधित्व केवल आधिकारिक .gov वेबसाइटों द्वारा किया जाता था, जो चुनावी ईमेल भेजने से विधायी रूप से प्रतिबंधित हैं; और कुछ उम्मीदवारों की सदस्यता सूची कैप्चा द्वारा संरक्षित थी, जिसे शोधकर्ताओं के कस्टम डेटा संग्रह ढांचे द्वारा स्वचालित नहीं किया जा सकता था।

सीनेट और हाउस उम्मीदवारों की ईमेल सदस्यता की राजनीतिक संबद्धता का वितरण。 स्रोत: https://arxiv.org/pdf/2203.16743.pdf

बाएं और दाएं उम्मीदवारों के बीच परिणामी असंतुलन को समान करने के लिए, शोधकर्ताओं ने किसी भी राज्य में अधिकतम संख्या में उम्मीदवारों से अभियान ईमेल जानकारी में शामिल हुए, जहां बाएं और दाएं उम्मीदवार संख्या में समान थे, अलास्का जैसे राज्यों को छोड़कर, जिसमें केवल एक रिपब्लिकन सीनेट उम्मीदवार था।

कुल मिलाकर, लेखकों को 11 ऐसे राज्यों के लिए उचित रूप से खाता देना पड़ा, और अंततः सभी 50 राज्यों का प्रतिनिधित्व किया। 36 राज्यों में 78 सदस्यताएं थीं, जिनमें 44 डेमोक्रेटिक और 34 रिपब्लिकन सीनेट उम्मीदवार शामिल थे, जबकि 42 राज्यों में हाउस उम्मीदवारों के लिए 156 सदस्यताएं थीं – 81 डेमोक्रेट और 75 रिपब्लिकन।

डेटा विश्लेषण

शोधकर्ताओं ने अध्ययन की सक्रिय डेटा संग्रह अवधि में तीन ईमेल सेवाओं पर 318,108 ईमेल एकत्र किए, जो 20 नवंबर के बाद ईमेल की मात्रा में तेजी से गिरावट के कारण सीमित था।

प्रत्येक ईमेल के लिए एकत्र की गई डेटा सामग्री में माइम-वर्जन, सामग्री प्रकार, विषय, से, को, तारीख, संदेश-आईडी, वितरित-टू, प्राप्त-एसपीएफ, और प्राप्त-द्वारा शामिल थे।

असंतुलित डेटा को न्यायसंगत रूप से प्रस्तुत करने में शामिल चुनौतियों के कारण, प्रोपेंसिटी स्कोर विश्लेषण (पीएसए) को आंकड़ों के लिए सांख्यिकीय विधि के रूप में चुना गया था। पीएसए असाधारण परिस्थितियों में असंतुलित डेटा से कोवेरिएट्स जेनरेट करता है जहां नियंत्रण समूह और पारंपरिक सांख्यिकीय विभाजन आसानी से लागू नहीं किए जा सकते हैं।

लेखकों का निष्कर्ष है कि अध्ययन किए गए ईमेल सेवाओं के लिए एसएफए राजनीतिक पूर्वाग्रह प्रदर्शित करते हैं, और कि सेवाओं में प्रारंभिक सापेक्ष स्थिरता समय के साथ विशिष्ट व्यवहार में विकसित होती है।

जीमेल दाएं-पंथी राजनीतिक ईमेल का 67.6% स्पैम के रूप में चिह्नित करता है, बाएं संबद्ध ईमेल की तुलना में 8.2% की तुलना में, लेकिन अपने साथियों की तुलना में उपयोगकर्ता इंटरैक्शन पर अधिक गतिशील रूप से प्रतिक्रिया करता है। आउटलुक 95.8% बाएं-पंथी राजनीतिक ईमेल को स्पैम के रूप में चिह्नित करता है, दाएं-पंथी ईमेल की तुलना में 75.4% की तुलना में, और याहू बाएं-पंथी ईमेल को दाएं-पंथी ईमेल की तुलना में 14.2% अधिक स्पैम के रूप में चिह्नित करता है।

प्रत्येक ईमेल सेवा के 22 ईमेल खातों में डेमोक्रेट (नीला) और रिपब्लिकन (लाल) ईमेल की संचयी वितरण जो स्पैम के रूप में चिह्नित किए गए थे।

प्रत्येक ईमेल सेवा के ईमेल खातों में स्पैम के रूप में चिह्नित डेमोक्रेट (नीला) और रिपब्लिकन (लाल) ईमेल की संचयी वितरण।

इसके अलावा, परिणाम सुझाव देते हैं कि अध्ययन की अवधि के दौरान, जीमेल सभी राजनीतिक संबद्धताओं में ईमेल की बढ़ती मात्रा का सामना करते हुए स्पैम के रूप में चिह्नित करने के लिए एक सामान्य प्रतिक्रिया देता है, चाहे वह किसी भी स्रोत से हो। याहू ने लगातार बाएं-पंथी ईमेल को स्पैम के रूप में रिपोर्ट किया क्योंकि अभियान आगे बढ़े, साथ ही साथ दाएं-पंथी मेल को स्पैम के रूप में चिह्नित करने की संख्या में कमी आई। आउटलुक दोनों राजनीतिक दलों से मेल की बढ़ती मात्रा से कम प्रभावित लगता है, एक सामान्य दाएं-पंथी पूर्वाग्रह बनाए रखता है।

अध्ययन की अवधि के 153 दिनों में दोनों राजनीतिक दलों और तीनों ईमेल प्रदाताओं में स्पैम के रूप में चिह्नित ईमेल का प्रतिशत।

उपयोगकर्ता इंटरैक्शन की प्रतिक्रिया

जब हम एक स्पैम ईमेल को ‘नॉट स्पैम’ के रूप में चिह्नित करते हैं, तो इरादा ईमेल प्रणाली को प्रशिक्षित करना है ताकि वह भविष्य में समान मेल को फ्लैग न करे, हालांकि अंतर्निहित प्रकार का नियम (ईमेल-आधारित, सामग्री-आधारित, आदि) हमेशा पूरी तरह से स्पष्ट नहीं होता है।

अध्ययन के परिणामों से पता चलता है कि तीनों ईमेल प्रदाताओं में से, केवल जीमेल ही उपयोगकर्ता की ‘नॉट स्पैम’ इनपुट पर उल्लेखनीय रूप से प्रतिक्रिया करता है। इसके विपरीत, यह उपयोगकर्ता-निर्देशित स्पैम-टू-इनबॉक्स (एस→आई) इंटरैक्शन आउटलुक और याहू में बहुत कम लंबी अवधि का प्रभाव डालता है।

शोधकर्ताओं का निरीक्षण है:

‘[एस→आई इंटरैक्शन के कारण], जीमेल में राजनीतिक पूर्वाग्रह काफी कम हो गया। हालांकि, अप्रत्याशित रूप से, यह आउटलुक और याहू में बढ़ गया क्योंकि न तो सेवा ने स्पैम के रूप में चिह्नित ईमेल को स्पैम के रूप में चिह्नित करने के लिए उपयोगकर्ता की इच्छा पर ध्यान दिया।’

निष्कर्ष

लेखकों का निष्कर्ष है कि जीमेल उपयोगकर्ता इंटरैक्शन पर आउटलुक और याहू की तुलना में ‘महत्वपूर्ण’ प्रतिक्रिया देता है, इसके अपने बाएं-पंथी पूर्वाग्रह के बावजूद।

लेखकों का कहना है:

‘जीमेल में राजनीतिक पूर्वाग्रह आई→एस और एस→आई इंटरैक्शन के कारण काफी कम हो गया, जबकि आउटलुक और याहू ने सभी परिदृश्यों में अपने दाएं-पंथी पूर्वाग्रह को बनाए रखा।’

और जारी रखते हैं:

‘जबकि विभिन्न इंटरैक्शन के प्रतिक्रिया में राजनीतिक पूर्वाग्रह बदल गए, जीमेल ने अपने बाएं-पंथी पूर्वाग्रह को बनाए रखा, जबकि आउटलुक और याहू ने सभी परिदृश्यों में अपने दाएं-पंथी पूर्वाग्रह को बनाए रखा।’

शोधकर्ताओं को स्वीकार करते हैं कि अंतिम उपयोगकर्ता को यह उम्मीद है कि स्पैम फिल्टर उपयोगकर्ता हस्तक्षेप (जैसे कि स्पैम फोल्डर से ईमेल को इनबॉक्स में ले जाना या मेल को ‘नॉट स्पैम’ के रूप में चिह्नित करना) पर आधारित अपने व्यवहार को अनुकूलित करेंगे और करेंगे, लेकिन यह तंत्र विश्वसनीय नहीं है, और निश्चित रूप से तीनों ईमेल प्रदाताओं में संगत नहीं है।

पत्र में कहा गया है:

‘[हम] उपयोगकर्ताओं को स्पैम के रूप में चिह्नित राजनीतिक ईमेल के प्रति एसएफए के व्यवहार में पूर्वाग्रह को कम करने में मदद करने के लिए कोई भी सुसंगत कार्रवाई की सिफारिश करने के लिए कोई कारण नहीं पाया।’

पहली बार 4 अप्रैल 2022 को प्रकाशित।