рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдПрдХ рдПрдЖрдИ-рдбреНрд░IVEN рдкреВрд░реНрд╡рд╛рдЧреНрд░рд╣ рдЪреЗрдХрд░ рд╕рдорд╛рдЪрд╛рд░ рд▓реЗрдЦ рдХреЗ рд▓рд┐рдП, рдкрд╛рдЗрдерди рдореЗрдВ рдЙрдкрд▓рдмреНрдз

कनाडा, भारत, चीन और ऑस्ट्रेलिया के शोधकर्ताओं ने मिलकर एक मुफ्त पाइथन पैकेज तैयार किया है जो समाचार प्रतिलिपि में ‘अन्यायपूर्ण भाषा’ को पहचानने और बदलने के लिए प्रभावी ढंग से उपयोग किया जा सकता है।
सिस्टम, जिसे Dbias कहा जाता है, विभिन्न मशीन लर्निंग तकनीकों और डेटाबेस का उपयोग करके एक तीन-चरण वाले चक्रीय कार्य प्रवाह विकसित करता है जो पूर्वाग्रहित पाठ को परिष्कृत कर सकता है जब तक कि यह एक गैर-पूर्वाग्रहित, या कम से कम अधिक तटस्थ संस्करण वापस नहीं कर देता।

लोडेड भाषा एक समाचार स्निपेट में ‘पूर्वाग्रहित’ के रूप में पहचाना जाता है जो Dbias द्वारा कम विस्फोटक संस्करण में परिवर्तित हो जाता है। स्रोत: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf
सिस्टम एक पुन: प्रयोज्य और स्व-निहित पाइपलाइन का प्रतिनिधित्व करता है जो पाइप के माध्यम से स्थापित किया जा सकता है हगिंग फेस से, और मौजूदा परियोजनाओं में एक अनुपूरक चरण, ऐड-ऑन, या प्लगइन के रूप में एकीकृत किया जा सकता है।
अप्रैल में, गूगल डॉक्स में समान कार्यक्षमता आलोचना के अधीन आई, जिसमें से सबसे कम इसकी संपादन योग्यता की कमी थी। Dbias, दूसरी ओर, किसी भी समाचार निगम पर अधिक चयनात्मक रूप से प्रशिक्षित किया जा सकता है जो अंतिम उपयोगकर्ता चाहता है, विशिष्ट न्यायपूर्ण दिशानिर्देशों को विकसित करने की क्षमता को बनाए रखना।
महत्वपूर्ण अंतर यह है कि Dbias पाइपलाइन का उद्देश्य स्वचालित रूप से ‘लोडेड भाषा’ (शब्द जो तथ्यात्मक संचार में एक महत्वपूर्ण परत जोड़ते हैं) को तटस्थ या सादा भाषा में परिवर्तित करना है, न कि उपयोगकर्ता को निरंतर आधार पर स्कूल करने के लिए। मूल रूप से, अंतिम उपयोगकर्ता नैतिक फिल्टर परिभाषित करेगा और प्रणाली को उसी के अनुसार प्रशिक्षित करेगा; गूगल डॉक्स दृष्टिकोण में, प्रणाली – तर्कसंगत रूप से – एकतरफा तरीके से उपयोगकर्ता को प्रशिक्षित कर रही है।

Dbias कार्यप्रवाह के लिए अवधारणात्मक वास्तुकला
शोधकर्ताओं के अनुसार, Dbias वास्तव में पहला कॉन्फ़िगर करने योग्य पूर्वाग्रह पहचान पैकेज है, प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के इस उप-क्षेत्र में अब तक के ऑफ-द-शेल्फ असेंबली परियोजनाओं के विपरीत।
नई कागज़ का शीर्षक समाचार लेखों में न्यायसंगतता सुनिश्चित करने के लिए एक दृष्टिकोण है, और टोरंटो विश्वविद्यालय, टोरंटो मेट्रोपॉलिटन विश्वविद्यालय, बैंगलोर में पर्यावरण संसाधन प्रबंधन, चीन में डीपब्लू एकेडमी ऑफ साइंसेज और सिडनी विश्वविद्यालय के योगदानकर्ताओं से है।
विधि
Dbias में पहला मॉड्यूल पूर्वाग्रह पहचान है, जो DistilBERT पैकेज का लाभ उठाता है – गूगल के काफी मशीन-गहन BERT का एक अत्यधिक अनुकूलित संस्करण। परियोजना के लिए, DistilBERT को मीडिया पूर्वाग्रह एनोटेशन (MBIC) डेटासेट पर ठीक किया गया था।

एमबीआईसी विभिन्न मीडिया स्रोतों से समाचार लेखों के संग्रह के रूप में है, जिसमें हफिंगटन पोस्ट, यूएसए टुडे और एमएसएनबीसी शामिल हैं। शोधकर्ताओं ने डेटासेट के विस्तारित संस्करण का उपयोग किया।
हालांकि मूल डेटा को भीड़ से सोर्स किए गए कार्यकर्ताओं (एक विधि जो 2021 के अंत में आलोचना के अधीन आई थी) द्वारा एनोटेट किया गया था, नए कागज़ के शोधकर्ता डेटासेट में पूर्वाग्रह के अतिरिक्त अनलेबल्ड उदाहरणों की पहचान करने में सक्षम थे और उन्हें मैनुअल रूप से जोड़ा। पहचाने गए पूर्वाग्रह के मामले जाति, शिक्षा, जातीयता, भाषा, धर्म और लिंग से संबंधित थे।
अगला मॉड्यूल, पूर्वाग्रह मान्यता, नामित इकाई पहचान (NER) का उपयोग करता है ताकि वह पूर्वाग्रहित शब्दों को इनपुट पाठ से अलग कर सके। कागज़ में कहा गया है:
‘उदाहरण के लिए, समाचार “टॉरनेडो और जलवायु परिवर्तन के बारे में प्सेवDO-वैज्ञानिक हाइप” को पूर्ववर्ती पूर्वाग्रह पहचान मॉड्यूल द्वारा पूर्वाग्रहित के रूप में वर्गीकृत किया गया है, और पूर्वाग्रह मान्यता मॉड्यूल अब “प्सेवDO-वैज्ञानिक हाइप” शब्द को एक पूर्वाग्रहित शब्द के रूप में पहचान सकता है।’
NER विशेष रूप से इस कार्य के लिए डिज़ाइन नहीं किया गया है, लेकिन पहले पूर्वाग्रह पहचान के लिए उपयोग किया गया है, विशेष रूप से 2021 परियोजना के लिए यूके में डरहम विश्वविद्यालय से।
इस चरण के लिए, शोधकर्ताओं ने RoBERTa का उपयोग किया जो SpaCy इंग्लिश ट्रांसफॉर्मर NER पाइपलाइन के साथ जोड़ा गया था।

अगले चरण, पूर्वाग्रह मास्किंग, में पहचाने गए पूर्वाग्रह शब्दों का एक नए मास्क शामिल है, जो कई पहचाने गए पूर्वाग्रह शब्दों के मामलों में क्रमिक रूप से कार्य करता है।

लोडेड भाषा को तीसरे चरण में Dbias द्वारा व्यावहारिक भाषा में बदल दिया जाता है। ध्यान दें कि ‘माउथिंग’ और ‘उसिंग’ एक ही क्रिया के बराबर हैं, हालांकि पूर्व को अपमानजनक माना जाता है।
जैसा आवश्यक हो, इस चरण से प्रतिक्रिया पाइपलाइन की शुरुआत में आगे के मूल्यांकन के लिए वापस भेजी जाएगी जब तक कि उपयुक्त वैकल्पिक वाक्यांश या शब्दों का एक नंबर उत्पन्न नहीं हो जाता। इस चरण में मास्क्ड लैंग्वेज मॉडलिंग (MLM) का उपयोग किया जाता है जो 2021 सहयोग द्वारा स्थापित रेखाओं के साथ है।
सामान्य तौर पर, एमएलएम कार्य 15% शब्दों को यादृच्छिक रूप से मास्क करेगा, लेकिन Dbias कार्यप्रवाह इसके बजाय प्रक्रिया को पहचाने गए पूर्वाग्रहित शब्दों को इनपुट के रूप में लेने के लिए कहता है।
स्थापत्य को गूगल कोलाब प्रो पर एक एनवीडिया पी100 पर 24GB के वीआरएएम के साथ बैच आकार 16 पर लागू किया गया था, केवल दो लेबल (पूर्वाग्रहित और गैर-पूर्वाग्रहित) का उपयोग किया गया था।
परीक्षण
शोधकर्ताओं ने Dbias का परीक्षण पांच तुलनात्मक दृष्टिकोणों के खिलाफ किया: एलजी-टीएफआईडीएफ लॉजिस्टिक रिग्रेशन और टीएफआईडीएफवेक्टराइज़र (टीएफआईडीएफ) शब्द एम्बेडिंग के साथ; एलजी-एलएमओ; एमएलपी-एलएमओ (एक फीड-फॉरवर्ड आर्टिफिशियल न्यूरल नेटवर्क जिसमें एलएमओ एम्बेडिंग है); बीईआरटी; और रोबर्टा।
परीक्षणों के लिए उपयोग किए गए मेट्रिक्स में सटीकता (एसीसी), सटीकता (प्रेस), रिकॉल (रिक) और एक एफ1 स्कोर शामिल थे। चूंकि शोधकर्ताओं को किसी भी मौजूदा प्रणाली की जानकारी नहीं थी जो एक ही पाइपलाइन में तीनों कार्यों को पूरा कर सकती है, प्रतिस्पर्धी फ्रेमवर्क के लिए छूट दी गई, Dbias के प्राथमिक कार्यों – पूर्वाग्रह पहचान और मान्यता का मूल्यांकन करके।

Dbias परीक्षणों के परिणाम
Dbias ने प्रतिस्पर्धी फ्रेमवर्क से बेहतर परिणाम हासिल किए, जिनमें भारी प्रसंस्करण फुटप्रिंट वाले भी शामिल हैं।
कागज़ में कहा गया है:
‘परिणाम यह भी दिखाता है कि गहरे तंत्रिका नेटवर्क एम्बेडिंग, सामान्य रूप से, पारंपरिक एम्बेडिंग विधियों (जैसे टीएफआईडीएफ) की तुलना में पूर्वाग्रह वर्गीकरण कार्य में बेहतर प्रदर्शन कर सकते हैं। यह गहरे तंत्रिका नेटवर्क एम्बेडिंग (यानी एलएमओ) के बेहतर प्रदर्शन से दिखाया गया है टीएफआईडीएफ वेक्टरीकरण की तुलना में जब एलजी के साथ उपयोग किया जाता है। ‘
‘यह शायद इसलिए है क्योंकि गहरे तंत्रिका एम्बेडिंग विभिन्न संदर्भों में पाठ में शब्दों के संदर्भ को बेहतर ढंग से पकड़ सकते हैं। गहरे तंत्रिका एम्बेडिंग और गहरे तंत्रिका विधियों (एमएलपी, बीईआरटी, रोबर्टा) ने पारंपरिक एमएल विधि (एलजी) की तुलना में बेहतर प्रदर्शन किया।’
शोधकर्ताओं ने यह भी उल्लेख किया कि ट्रांसफॉर्मर-आधारित विधियां पूर्वाग्रह पहचान में प्रतिस्पर्धी विधियों को पार करती हैं।
एक अतिरिक्त परीक्षण में Dbias और विभिन्न स्पेसी कोर वेब संस्करणों के बीच तुलना शामिल थी, जिनमें कोर-स्म (छोटा), कोर-एमडी (मध्यम), और कोर-एलजी (बड़ा) शामिल थे। Dbias इन परीक्षणों में भी आगे रहा:

शोधकर्ताओं ने निष्कर्ष निकाला कि पूर्वाग्रह मान्यता कार्यों में आमतौर पर बड़े और अधिक महंगे मॉडल में बेहतर सटीकता होती है, जो – वे अनुमान लगाते हैं – बढ़े हुए पैरामीटर और डेटा बिंदुओं की संख्या के कारण होती है। वे यह भी देखते हैं कि इस क्षेत्र में भविष्य के काम की प्रभावशीलता उच्च गुणवत्ता वाले डेटासेट को एनोटेट करने के लिए अधिक प्रयासों पर निर्भर करेगी।
वन और पेड़
आशा है कि इस तरह की बारीकी से पूर्वाग्रह पहचान परियोजना अंततः उन पूर्वाग्रह-खोज फ्रेमवर्क में शामिल की जाएगी जो एक कम दृष्टिकोण लेने में सक्षम होंगे और यह मानेंगे कि किसी विशेष कहानी को कवर करने का चयन स्वयं एक पूर्वाग्रहित कार्य है जो केवल रिपोर्ट की गई दृश्य सांख्यिकी से अधिक से प्रेरित हो सकता है।
पहली बार 14 जुलाई 2022 को प्रकाशित।












