Connect with us

рдПрдХ рдПрдЖрдИ-рдбреНрд░IVEN рдкреВрд░реНрд╡рд╛рдЧреНрд░рд╣ рдЪреЗрдХрд░ рд╕рдорд╛рдЪрд╛рд░ рд▓реЗрдЦ рдХреЗ рд▓рд┐рдП, рдкрд╛рдЗрдерди рдореЗрдВ рдЙрдкрд▓рдмреНрдз

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдПрдХ рдПрдЖрдИ-рдбреНрд░IVEN рдкреВрд░реНрд╡рд╛рдЧреНрд░рд╣ рдЪреЗрдХрд░ рд╕рдорд╛рдЪрд╛рд░ рд▓реЗрдЦ рдХреЗ рд▓рд┐рдП, рдкрд╛рдЗрдерди рдореЗрдВ рдЙрдкрд▓рдмреНрдз

mm

कनाडा, भारत, चीन और ऑस्ट्रेलिया के शोधकर्ताओं ने मिलकर एक मुफ्त पाइथन पैकेज तैयार किया है जो समाचार प्रतिलिपि में ‘अन्यायपूर्ण भाषा’ को पहचानने और बदलने के लिए प्रभावी ढंग से उपयोग किया जा सकता है।

सिस्टम, जिसे Dbias कहा जाता है, विभिन्न मशीन लर्निंग तकनीकों और डेटाबेस का उपयोग करके एक तीन-चरण वाले चक्रीय कार्य प्रवाह विकसित करता है जो पूर्वाग्रहित पाठ को परिष्कृत कर सकता है जब तक कि यह एक गैर-पूर्वाग्रहित, या कम से कम अधिक तटस्थ संस्करण वापस नहीं कर देता।

рд▓реЛрдбреЗрдб рднрд╛рд╖рд╛ рдПрдХ рд╕рдорд╛рдЪрд╛рд░ рд╕реНрдирд┐рдкреЗрдЯ рдореЗрдВ 'рдкреВрд░реНрд╡рд╛рдЧреНрд░рд╣рд┐рдд' рдХреЗ рд░реВрдк рдореЗрдВ рдкрд╣рдЪрд╛рдирд╛ рдЬрд╛рддрд╛ рд╣реИ рдЬреЛ Dbias рджреНрд╡рд╛рд░рд╛ рдХрдо рд╡рд┐рд╕реНрдлреЛрдЯрдХ рд╕рдВрд╕реНрдХрд░рдг рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрд┐рдд рд╣реЛ рдЬрд╛рддрд╛ рд╣реИред рд╕реНрд░реЛрдд: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf

लोडेड भाषा एक समाचार स्निपेट में ‘पूर्वाग्रहित’ के रूप में पहचाना जाता है जो Dbias द्वारा कम विस्फोटक संस्करण में परिवर्तित हो जाता है। स्रोत: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf

सिस्टम एक पुन: प्रयोज्य और स्व-निहित पाइपलाइन का प्रतिनिधित्व करता है जो पाइप के माध्यम से स्थापित किया जा सकता है हगिंग फेस से, और मौजूदा परियोजनाओं में एक अनुपूरक चरण, ऐड-ऑन, या प्लगइन के रूप में एकीकृत किया जा सकता है।

अप्रैल में, गूगल डॉक्स में समान कार्यक्षमता आलोचना के अधीन आई, जिसमें से सबसे कम इसकी संपादन योग्यता की कमी थी। Dbias, दूसरी ओर, किसी भी समाचार निगम पर अधिक चयनात्मक रूप से प्रशिक्षित किया जा सकता है जो अंतिम उपयोगकर्ता चाहता है, विशिष्ट न्यायपूर्ण दिशानिर्देशों को विकसित करने की क्षमता को बनाए रखना।

महत्वपूर्ण अंतर यह है कि Dbias पाइपलाइन का उद्देश्य स्वचालित रूप से ‘लोडेड भाषा’ (शब्द जो तथ्यात्मक संचार में एक महत्वपूर्ण परत जोड़ते हैं) को तटस्थ या सादा भाषा में परिवर्तित करना है, न कि उपयोगकर्ता को निरंतर आधार पर स्कूल करने के लिए। मूल रूप से, अंतिम उपयोगकर्ता नैतिक फिल्टर परिभाषित करेगा और प्रणाली को उसी के अनुसार प्रशिक्षित करेगा; गूगल डॉक्स दृष्टिकोण में, प्रणाली – तर्कसंगत रूप से – एकतरफा तरीके से उपयोगकर्ता को प्रशिक्षित कर रही है।

Dbias рдХрд╛рд░реНрдпрдкреНрд░рд╡рд╛рд╣ рдХреЗ рд▓рд┐рдП рдЕрд╡рдзрд╛рд░рдгрд╛рддреНрдордХ рд╡рд╛рд╕реНрддреБрдХрд▓рд╛

Dbias कार्यप्रवाह के लिए अवधारणात्मक वास्तुकला

शोधकर्ताओं के अनुसार, Dbias वास्तव में पहला कॉन्फ़िगर करने योग्य पूर्वाग्रह पहचान पैकेज है, प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के इस उप-क्षेत्र में अब तक के ऑफ-द-शेल्फ असेंबली परियोजनाओं के विपरीत।

नई कागज़ का शीर्षक समाचार लेखों में न्यायसंगतता सुनिश्चित करने के लिए एक दृष्टिकोण है, और टोरंटो विश्वविद्यालय, टोरंटो मेट्रोपॉलिटन विश्वविद्यालय, बैंगलोर में पर्यावरण संसाधन प्रबंधन, चीन में डीपब्लू एकेडमी ऑफ साइंसेज और सिडनी विश्वविद्यालय के योगदानकर्ताओं से है।

विधि

Dbias में पहला मॉड्यूल पूर्वाग्रह पहचान है, जो DistilBERT पैकेज का लाभ उठाता है – गूगल के काफी मशीन-गहन BERT का एक अत्यधिक अनुकूलित संस्करण। परियोजना के लिए, DistilBERT को मीडिया पूर्वाग्रह एनोटेशन (MBIC) डेटासेट पर ठीक किया गया था।

एमबीआईसी विभिन्न मीडिया स्रोतों से समाचार लेखों के संग्रह के रूप में है, जिसमें हफिंगटन पोस्ट, यूएसए टुडे और एमएसएनबीसी शामिल हैं। शोधकर्ताओं ने डेटासेट के विस्तारित संस्करण का उपयोग किया।

हालांकि मूल डेटा को भीड़ से सोर्स किए गए कार्यकर्ताओं (एक विधि जो 2021 के अंत में आलोचना के अधीन आई थी) द्वारा एनोटेट किया गया था, नए कागज़ के शोधकर्ता डेटासेट में पूर्वाग्रह के अतिरिक्त अनलेबल्ड उदाहरणों की पहचान करने में सक्षम थे और उन्हें मैनुअल रूप से जोड़ा। पहचाने गए पूर्वाग्रह के मामले जाति, शिक्षा, जातीयता, भाषा, धर्म और लिंग से संबंधित थे।

अगला मॉड्यूल, पूर्वाग्रह मान्यता, नामित इकाई पहचान (NER) का उपयोग करता है ताकि वह पूर्वाग्रहित शब्दों को इनपुट पाठ से अलग कर सके। कागज़ में कहा गया है:

‘उदाहरण के लिए, समाचार “टॉरनेडो और जलवायु परिवर्तन के बारे में प्सेवDO-वैज्ञानिक हाइप” को पूर्ववर्ती पूर्वाग्रह पहचान मॉड्यूल द्वारा पूर्वाग्रहित के रूप में वर्गीकृत किया गया है, और पूर्वाग्रह मान्यता मॉड्यूल अब “प्सेवDO-वैज्ञानिक हाइप” शब्द को एक पूर्वाग्रहित शब्द के रूप में पहचान सकता है।’

NER विशेष रूप से इस कार्य के लिए डिज़ाइन नहीं किया गया है, लेकिन पहले पूर्वाग्रह पहचान के लिए उपयोग किया गया है, विशेष रूप से 2021 परियोजना के लिए यूके में डरहम विश्वविद्यालय से।

इस चरण के लिए, शोधकर्ताओं ने RoBERTa का उपयोग किया जो SpaCy इंग्लिश ट्रांसफॉर्मर NER पाइपलाइन के साथ जोड़ा गया था।

अगले चरण, पूर्वाग्रह मास्किंग, में पहचाने गए पूर्वाग्रह शब्दों का एक नए मास्क शामिल है, जो कई पहचाने गए पूर्वाग्रह शब्दों के मामलों में क्रमिक रूप से कार्य करता है।

рд▓реЛрдбреЗрдб рднрд╛рд╖рд╛ рдХреЛ рддреАрд╕рд░реЗ рдЪрд░рдг рдореЗрдВ Dbias рджреНрд╡рд╛рд░рд╛ рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рднрд╛рд╖рд╛ рдореЗрдВ рдмрджрд▓ рджрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдзреНрдпрд╛рди рджреЗрдВ рдХрд┐ 'рдорд╛рдЙрдерд┐рдВрдЧ' рдФрд░ 'рдЙрд╕рд┐рдВрдЧ' рдПрдХ рд╣реА рдХреНрд░рд┐рдпрд╛ рдХреЗ рдмрд░рд╛рдмрд░ рд╣реИрдВ, рд╣рд╛рд▓рд╛рдВрдХрд┐ рдкреВрд░реНрд╡ рдХреЛ рдЕрдкрдорд╛рдирдЬрдирдХ рдорд╛рдирд╛ рдЬрд╛рддрд╛ рд╣реИред

लोडेड भाषा को तीसरे चरण में Dbias द्वारा व्यावहारिक भाषा में बदल दिया जाता है। ध्यान दें कि ‘माउथिंग’ और ‘उसिंग’ एक ही क्रिया के बराबर हैं, हालांकि पूर्व को अपमानजनक माना जाता है।

जैसा आवश्यक हो, इस चरण से प्रतिक्रिया पाइपलाइन की शुरुआत में आगे के मूल्यांकन के लिए वापस भेजी जाएगी जब तक कि उपयुक्त वैकल्पिक वाक्यांश या शब्दों का एक नंबर उत्पन्न नहीं हो जाता। इस चरण में मास्क्ड लैंग्वेज मॉडलिंग (MLM) का उपयोग किया जाता है जो 2021 सहयोग द्वारा स्थापित रेखाओं के साथ है।

सामान्य तौर पर, एमएलएम कार्य 15% शब्दों को यादृच्छिक रूप से मास्क करेगा, लेकिन Dbias कार्यप्रवाह इसके बजाय प्रक्रिया को पहचाने गए पूर्वाग्रहित शब्दों को इनपुट के रूप में लेने के लिए कहता है।

स्थापत्य को गूगल कोलाब प्रो पर एक एनवीडिया पी100 पर 24GB के वीआरएएम के साथ बैच आकार 16 पर लागू किया गया था, केवल दो लेबल (पूर्वाग्रहित और गैर-पूर्वाग्रहित) का उपयोग किया गया था।

परीक्षण

शोधकर्ताओं ने Dbias का परीक्षण पांच तुलनात्मक दृष्टिकोणों के खिलाफ किया: एलजी-टीएफआईडीएफ लॉजिस्टिक रिग्रेशन और टीएफआईडीएफवेक्टराइज़र (टीएफआईडीएफ) शब्द एम्बेडिंग के साथ; एलजी-एलएमओ; एमएलपी-एलएमओ (एक फीड-फॉरवर्ड आर्टिफिशियल न्यूरल नेटवर्क जिसमें एलएमओ एम्बेडिंग है); बीईआरटी; और रोबर्टा।

परीक्षणों के लिए उपयोग किए गए मेट्रिक्स में सटीकता (एसीसी), सटीकता (प्रेस), रिकॉल (रिक) और एक एफ1 स्कोर शामिल थे। चूंकि शोधकर्ताओं को किसी भी मौजूदा प्रणाली की जानकारी नहीं थी जो एक ही पाइपलाइन में तीनों कार्यों को पूरा कर सकती है, प्रतिस्पर्धी फ्रेमवर्क के लिए छूट दी गई, Dbias के प्राथमिक कार्यों – पूर्वाग्रह पहचान और मान्यता का मूल्यांकन करके।

Dbias рдкрд░реАрдХреНрд╖рдгреЛрдВ рдХреЗ рдкрд░рд┐рдгрд╛рдо

Dbias परीक्षणों के परिणाम

Dbias ने प्रतिस्पर्धी फ्रेमवर्क से बेहतर परिणाम हासिल किए, जिनमें भारी प्रसंस्करण फुटप्रिंट वाले भी शामिल हैं।

कागज़ में कहा गया है:

‘परिणाम यह भी दिखाता है कि गहरे तंत्रिका नेटवर्क एम्बेडिंग, सामान्य रूप से, पारंपरिक एम्बेडिंग विधियों (जैसे टीएफआईडीएफ) की तुलना में पूर्वाग्रह वर्गीकरण कार्य में बेहतर प्रदर्शन कर सकते हैं। यह गहरे तंत्रिका नेटवर्क एम्बेडिंग (यानी एलएमओ) के बेहतर प्रदर्शन से दिखाया गया है टीएफआईडीएफ वेक्टरीकरण की तुलना में जब एलजी के साथ उपयोग किया जाता है। ‘

‘यह शायद इसलिए है क्योंकि गहरे तंत्रिका एम्बेडिंग विभिन्न संदर्भों में पाठ में शब्दों के संदर्भ को बेहतर ढंग से पकड़ सकते हैं। गहरे तंत्रिका एम्बेडिंग और गहरे तंत्रिका विधियों (एमएलपी, बीईआरटी, रोबर्टा) ने पारंपरिक एमएल विधि (एलजी) की तुलना में बेहतर प्रदर्शन किया।’

शोधकर्ताओं ने यह भी उल्लेख किया कि ट्रांसफॉर्मर-आधारित विधियां पूर्वाग्रह पहचान में प्रतिस्पर्धी विधियों को पार करती हैं।

एक अतिरिक्त परीक्षण में Dbias और विभिन्न स्पेसी कोर वेब संस्करणों के बीच तुलना शामिल थी, जिनमें कोर-स्म (छोटा), कोर-एमडी (मध्यम), और कोर-एलजी (बड़ा) शामिल थे। Dbias इन परीक्षणों में भी आगे रहा:

शोधकर्ताओं ने निष्कर्ष निकाला कि पूर्वाग्रह मान्यता कार्यों में आमतौर पर बड़े और अधिक महंगे मॉडल में बेहतर सटीकता होती है, जो – वे अनुमान लगाते हैं – बढ़े हुए पैरामीटर और डेटा बिंदुओं की संख्या के कारण होती है। वे यह भी देखते हैं कि इस क्षेत्र में भविष्य के काम की प्रभावशीलता उच्च गुणवत्ता वाले डेटासेट को एनोटेट करने के लिए अधिक प्रयासों पर निर्भर करेगी।

वन और पेड़

आशा है कि इस तरह की बारीकी से पूर्वाग्रह पहचान परियोजना अंततः उन पूर्वाग्रह-खोज फ्रेमवर्क में शामिल की जाएगी जो एक कम दृष्टिकोण लेने में सक्षम होंगे और यह मानेंगे कि किसी विशेष कहानी को कवर करने का चयन स्वयं एक पूर्वाग्रहित कार्य है जो केवल रिपोर्ट की गई दृश्य सांख्यिकी से अधिक से प्रेरित हो सकता है।

 

पहली बार 14 जुलाई 2022 को प्रकाशित।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai