Connect with us

‘рдЕрджреГрд╢реНрдп’, рдЕрдХреНрд╕рд░ рджреБрдЦреА рдХрд╛рд░реНрдпрдмрд▓ рдЬреЛ рдПрдЖрдИ рдХреЗ рднрд╡рд┐рд╖реНрдп рдХрд╛ рдлреИрд╕рд▓рд╛ рдХрд░ рд░рд╣рд╛ рд╣реИ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

‘рдЕрджреГрд╢реНрдп’, рдЕрдХреНрд╕рд░ рджреБрдЦреА рдХрд╛рд░реНрдпрдмрд▓ рдЬреЛ рдПрдЖрдИ рдХреЗ рднрд╡рд┐рд╖реНрдп рдХрд╛ рдлреИрд╕рд▓рд╛ рдХрд░ рд░рд╣рд╛ рд╣реИ

mm

दो नए रिपोर्ट, जिनमें गूगल रिसर्च द्वारा एक पेपर शामिल है, चिंता व्यक्त करते हैं कि मशीन लर्निंग सिस्टम के लिए ग्राउंड ट्रुथ बनाने के लिए सस्ते और अक्सर शक्तिहीन वैश्विक गिग श्रमिकों के पूल पर निर्भर रहने की वर्तमान प्रवृत्ति एआई के लिए महत्वपूर्ण डाउनस्ट्रीम परिणाम हो सकते हैं।

विभिन्न निष्कर्षों के बीच, गूगल अध्ययन में पाया गया कि भीड़ कार्यकर्ताओं के अपने पूर्वाग्रह संभवतः उन एआई प्रणालियों में निहित हो जाएंगे जिनके ग्राउंड ट्रुथ उनकी प्रतिक्रियाओं पर आधारित होंगे; कि संयुक्त राज्य अमेरिका (और अन्य स्थानों) में क्राउडवर्किंग प्लेटफ़ॉर्म पर व्यापक अन्यायपूर्ण कार्य अभ्यास गुणवत्ता को कम कर सकते हैं; और कि ‘सहमति’ प्रणाली (प्रभावी रूप से कुछ ग्राउंड ट्रुथ के लिए ‘मिनी-चुनाव’ जो डाउनस्ट्रीम एआई प्रणालियों को प्रभावित करेगा) जो वर्तमान में विवादों का समाधान करती है, वास्तव में सर्वश्रेष्ठ और/या सबसे सूचित प्रतिक्रियाओं को फेंक सकती है।

यह बुरी खबर है; और भी बुरी खबर यह है कि लगभग सभी उपचार महंगे, समय लेने वाले या दोनों हैं।

असुरक्षा, यादृच्छिक अस्वीकृति, और रंजिश

पहला पेपर, पांच गूगल शोधकर्ताओं से, किसका ग्राउंड ट्रुथ? डेटासेट एनोटेशन के तहत व्यक्तिगत और सामूहिक पहचान के लिए खाता कहा जाता है; दूसरा, न्यूयॉर्क के सिरैक्यूज़ विश्वविद्यालय के दो शोधकर्ताओं से, डेटा लेबलर्स के बीच असहमति की उत्पत्ति और मूल्य: घृणा भाषण एनोटेशन में व्यक्तिगत मतभेदों का एक मामला अध्ययन कहा जाता है।

गूगल पेपर नोट करता है कि भीड़-कार्यकर्ता – जिनके मूल्यांकन अक्सर मशीन लर्निंग प्रणालियों के निर्धारण के आधार का गठन करते हैं जो अंततः हमारे जीवन को प्रभावित कर सकते हैं – अक्सर कई प्रतिबंधों के तहत काम कर रहे हैं जो उनकी प्रतिक्रियाओं को प्रभावित कर सकते हैं।

उदाहरण के लिए, अमेज़न मैकेनिकल टर्क की वर्तमान नीतियां अनुरोधकर्ताओं (जो असाइनमेंट देते हैं) को एक अनन्यातक के काम को खातिरदारी के बिना अस्वीकार करने की अनुमति देती हैं:

‘[एक] बड़ा बहुमत भीड़ कार्यकर्ताओं (94%) को अस्वीकार या जिसके लिए उन्हें भुगतान नहीं किया गया है। फिर भी, अनुरोधकर्ता अस्वीकार या स्वीकृति की परवाह किए बिना प्राप्त डेटा पर पूर्ण अधिकार रखते हैं; रॉबर्ट्स (2016) इस प्रणाली का वर्णन “वेतन चोरी” के रूप में करता है।

‘इसके अलावा, काम को अस्वीकार करना और वेतन को रोकना दर्दनाक है क्योंकि अस्वीकृतियां अक्सर अस्पष्ट निर्देशों और अर्थपूर्ण प्रतिक्रिया चैनलों की कमी के कारण होती हैं; कई भीड़ कार्यकर्ता बताते हैं कि खराब संचार उनके काम को नकारात्मक रूप से प्रभावित करता है।’

लेखकों का सुझाव है कि डेटासेट विकसित करने के लिए आउटसोर्स सेवाओं का उपयोग करने वाले शोधकर्ताओं को विचार करना चाहिए कि एक क्राउडवर्किंग प्लेटफ़ॉर्म अपने श्रमिकों के साथ कैसा व्यवहार करता है। वे आगे बताते हैं कि संयुक्त राज्य अमेरिका में, भीड़ कार्यकर्ताओं को ‘स्वतंत्र ठेकेदारों’ के रूप में वर्गीकृत किया जाता है, जिससे काम नियंत्रित नहीं होता है, और न्यूनतम वेतन कानून द्वारा निर्धारित न्यूनतम वेतन के तहत नहीं आता है।

संदर्भ महत्वपूर्ण है

पेपर भी अधोसर वैश्विक श्रम के उपयोग की आलोचना करता है अन्नोटेशन कार्यों के लिए, अन्नोटेटर की पृष्ठभूमि के बिना।
जहां बजट की अनुमति है, यह शोधकर्ताओं के लिए सामान्य है जो एएमटी और समान क्राउडवर्क प्लेटफ़ॉर्म का उपयोग करते हैं, एक ही कार्य को चार अनन्यातकों को देने के लिए, और ‘बहुमत के नियम’ पर परिणामों का पालन करने के लिए।
संदर्भ अनुभव, पेपर का तर्क है, कि उल्लेखनीय रूप से कम माना जाता है। उदाहरण के लिए, यदि एक कार्य प्रश्न सेक्सिज्म से संबंधित है जो तीन सहमत पुरुषों (18-57 आयु वर्ग) और एक असहमत महिला (29 आयु वर्ग) के बीच यादृच्छिक रूप से वितरित किया जाता है, तो पुरुषों का फैसला जीतता है, जब तक कि शोधकर्ता अपने अनन्यातकों की योग्यता पर ध्यान नहीं देते हैं।
इसी तरह, यदि शिकागो में गैंग व्यवहार पर एक प्रश्न एक ग्रामीण अमेरिकी महिला (36 आयु वर्ग), एक शिकागो निवासी पुरुष (42 आयु वर्ग), और दो अनन्यातकों के बीच वितरित किया जाता है जो क्रमशः बैंगलोर और डेनमार्क से हैं, तो मुद्दे से सबसे अधिक प्रभावित व्यक्ति (शिकागो पुरुष) के पास परिणाम में केवल एक चौथाई हिस्सा होता है, मानक आउटसोर्सिंग कॉन्फ़िगरेशन में।
शोधकर्ता कहते हैं:

‘[द] “एक सत्य” की धारणा भीड़ सourcing प्रतिक्रियाओं में एक मिथक है; अनन्यातकों के बीच असहमति, जो अक्सर नकारात्मक के रूप में देखी जाती है, वास्तव में एक मूल्यवान संकेत प्रदान कर सकती है। दूसरा, चूंकि कई भीड़ सourced अनन्यातक पूल सामाजिक-लिंग रूप से तिरछे हैं, डेटासेट में कौन सी आबादी का प्रतिनिधित्व किया जाता है और कौन सी आबादी का सामना क्राउडवर्क की चुनौतियों का सामना करती है, इसके लिए परिणाम हैं।

‘अनन्यातक जनसांख्यिकी में तिरछेपन के लिए खाता डेटासेट को संदर्भित करने और जिम्मेदार डाउनस्ट्रीम उपयोग सुनिश्चित करने के लिए महत्वपूर्ण है। संक्षेप में, श्रमिकों की सामाजिक-सांस्कृतिक पृष्ठभूमि — दोनों डेटा गुणवत्ता और सामाजिक प्रभाव के दृष्टिकोण से — के लिए खाता है।’

गर्म विषयों पर ‘तटस्थ’ राय नहीं

यहां तक कि जब चार अनन्यातकों की राय व्यस्त या किसी अन्य मीट्रिक द्वारा तिरछी नहीं है, गूगल पेपर चिंता व्यक्त करता है कि शोधकर्ता अनन्यातकों के जीवन अनुभव या दार्शनिक विचार के लिए खाते नहीं हैं:

‘जबकि कुछ कार्य वस्तुनिष्ठ प्रश्न प्रस्तुत करते हैं जिनका एक सही उत्तर है (क्या एक छवि में एक मानव चेहरा है?), अक्सर डेटासेट अपेक्षाकृत विषयगत कार्यों पर निर्णय लेने का प्रयास करते हैं जिनका कोई सार्वभौमिक रूप से सही उत्तर नहीं है (क्या यह पाठ अपमानजनक है?)। यह महत्वपूर्ण है कि अनन्यातकों के विषयगत निर्णयों पर निर्भर करने के बारे में जानबूझकर होना चाहिए।’

सिरैक्यूज़ पेपर, घृणा भाषण लेबलिंग में समस्याओं को संबोधित करने के लिए अपने विशिष्ट दायरे के संबंध में, यह ध्यान देता है कि अधिक श्रेणीबद्ध प्रश्न जैसे क्या इस फोटोग्राफ में एक बिल्ली है? एक भीड़ कार्यकर्ता से पूछने से बहुत अलग है कि क्या एक वाक्य ‘विषाक्त’ है:

‘सामाजिक वास्तविकता की जटिलता को ध्यान में रखते हुए, लोगों की विषाक्तता की धारणा में काफी भिन्नता है। उनके विषाक्त सामग्री के लेबल उनकी自己的 धारणा पर आधारित हैं।’

यह पाते हुए कि व्यक्तित्व और आयु घृणा भाषण के आयामी लेबलिंग पर एक ‘महत्वपूर्ण प्रभाव’ है, सिरैक्यूज़ शोधकर्ता निष्कर्ष निकालते हैं:

‘इन निष्कर्षों से सुझाव मिलता है कि घृणा भाषण के लिए विभिन्न पृष्ठभूमि और व्यक्तित्व वाले लेबलर्स के बीच संगति प्राप्त करने के प्रयास कभी भी पूरी तरह से सफल नहीं हो सकते हैं।’

न्यायाधीश भी पूर्वाग्रह से ग्रस्त हो सकता है

यह विषयवस्तु इस प्रकार ऊपर की ओर भी दोहराई जा सकती है, सिरैक्यूज़ पेपर के अनुसार, जो तर्क देता है कि मैनुअल हस्तक्षेप (या स्वचालित नीति, भी मानव द्वारा निर्धारित) जो ‘विजेता’ का निर्धारण करता है सहमति वोटों को भी जांच के अधीन होना चाहिए।

मॉडरेटर को मंच मॉडरेशन की तरह, लेखक कहते हैं:

‘[एक] समुदाय के मॉडरेटर समुदाय के सदस्यों और दर्शकों को वितरित सामग्री और समुदाय के अनुभव को प्रभावित करते हुए पोस्ट और उपयोगकर्ताओं के भाग्य का फैसला कर सकते हैं और साथ ही उन्हें बढ़ावा दे सकते हैं या छिपा सकते हैं, और सम्मानित, अपमानित या प्रतिबंधित कर सकते हैं। मॉडरेटरों के निर्णय समुदाय के सदस्यों और दर्शकों को वितरित सामग्री और विस्तार से समुदाय के अनुभव को प्रभावित करते हैं और चर्चा के अनुभव को भी प्रभावित करते हैं।

‘यह मान लेना कि एक मानव मॉडरेटर एक समुदाय का सदस्य है जो अन्य समुदाय के सदस्यों के साथ जनसांख्यिकीय समानता रखता है, यह संभव लगता है कि वे सामग्री का मूल्यांकन करने के लिए जिस मानसिक योजना का उपयोग करते हैं वह अन्य समुदाय के सदस्यों के साथ मेल खाता है।’

यह कुछ संकेत देता है कि सिरैक्यूज़ शोधकर्ता घृणा भाषण एनोटेशन के भविष्य के बारे में इतने निराशाजनक निष्कर्ष पर क्यों पहुंचे हैं; यहाँ ध्वनि है कि असहमति वाले भीड़ कार्य की राय पर नीतियों और निर्णयों को यादृच्छिक रूप से लागू नहीं किया जा सकता है (या लागू नहीं किया जा सकता है, भले ही वे मौजूद हों)।
निर्णय लेने वाले लोग (भीड़ कार्यकर्ता) पूर्वाग्रह से ग्रस्त हैं, और यदि वे नहीं पूर्वाग्रह से ग्रस्त होते हैं, तो वे ऐसे कार्यों के लिए उपयोगी होंगे; जो लोग भीड़ कार्य परिणामों में विवादों पर निर्णय लेते हैं वे भी मूल्य निर्णय लेते हैं जब वे विवादों के लिए नीतियां निर्धारित करते हैं।

एक ही घृणा भाषण का पता लगाने वाले ढांचे में सैकड़ों नीतियां हो सकती हैं, और जब तक कि प्रत्येक नीति को सर्वोच्च न्यायालय में नहीं ले जाया जाता है, तो ‘प्राधिकृत’ सहमति कहां से उत्पन्न हो सकती है?

गूगल शोधकर्ता सुझाव देते हैं कि ‘[अनन्यातकों के बीच असहमति] कार्य के बारे में मूल्यवान बारीकियों को शामिल कर सकते हैं।’ पेपर डेटासेट में मेटाडेटा का प्रस्ताव करता है जो विवादों को प्रतिबिंबित करता है और संदर्भित करता है।

हालांकि, यह देखना मुश्किल है कि ऐसी संदर्भ-विशिष्ट डेटा परत कैसे कभी भी समान-जैसे मेट्रिक्स का नेतृत्व कर सकती है, स्थापित मानक परीक्षणों की मांगों को अनुकूलित कर सकती है, या किसी भी निश्चित परिणामों का समर्थन कर सकती है — असंभव परिदृश्य को अपनाने के अलावा एक ही समूह के शोधकर्ताओं को बाद के काम में।

अनन्यातक पूल क्यूरेटिंग

यह सभी मानता है कि एक शोध परियोजना में एक सहमति वोट का नेतृत्व करने वाली कई एनोटेशन के लिए बजट है।
अधिकांश मामलों में, शोधकर्ता आउटसोर्स्ड एनोटेशन पूल को सस्ते में ‘क्यूरेट’ करने का प्रयास करते हैं जो कि विशिष्ट विशेषताओं को निर्दिष्ट करके जो कार्यकर्ताओं को होना चाहिए, जैसे कि भौगोलिक स्थान, लिंग, या अन्य सांस्कृतिक कारक, विविधता के लिए विशिष्टता का व्यापार करते हैं।

गूगल पेपर का तर्क है कि इन चुनौतियों से आगे बढ़ने का तरीका अनन्यातकों के साथ विस्तारित संचार ढांचे की स्थापना करके हो सकता है, जैसे कि उबेर ऐप ड्राइवर और राइडर के बीच न्यूनतम संचार को सुविधाजनक बनाता है।

ऐसे अनन्यातकों का इतना सावधानीपूर्वक विचार, प्राकृतिक रूप से, हाइपरस्केल एनोटेशन आउटसोर्सिंग के लिए एक बाधा होगी, जिससे या तो परिणामों के लिए एक बेहतर तर्क वाले डेटासेट के साथ सीमित और निम्न-वॉल्यूम डेटासेट हो सकते हैं, या शामिल अनन्यातकों का एक ‘रश्ड’ मूल्यांकन, उनसे सीमित जानकारी प्राप्त करना, और उन्हें बहुत कम जानकारी के आधार पर ‘कार्य के लिए फिट’ के रूप में वर्गीकृत करना।
यह तब है जब अनन्यातक ईमानदार होते हैं।

आउटसोर्स्ड डेटासेट लेबलिंग में ‘लोगों को खुश करने वाले’

एक उपलब्ध कार्यबल के साथ जो कम वेतन प्राप्त करता है, तीव्र प्रतिस्पर्धा के अधीन है, और करियर की संभावनाओं की कमी से निराश है, अनन्यातक तेजी से ‘सही’ उत्तर देने और अगले मिनी-असाइनमेंट पर जाने के लिए प्रेरित होते हैं।

यदि ‘सही उत्तर’ बिल्ली / नहीं बिल्ली से ज्यादा जटिल है, तो सिरैक्यूज़ पेपर का तर्क है कि कार्यकर्ता प्रश्न और संदर्भ की सामग्री के आधार पर एक ‘स्वीकार्य’ उत्तर का अनुमान लगाने का प्रयास करेगा:

‘दोनों वैकल्पिक अवधारणाओं का प्रसार और सरल लेबलिंग विधियों का व्यापक उपयोग शायद ऑनलाइन घृणा भाषण पर शोध की प्रगति को बाधित कर रहा है। उदाहरण के लिए, रॉस और सहयोगियों ने पाया कि अनन्यातकों को ट्विटर के घृणित आचरण की परिभाषा दिखाने से उन्हें अपने मतभेदों को आंशिक रूप से परिभाषा के साथ संरेखित करने का कारण बनता है। इस पुनर्संरेखण के परिणामस्वरूप लेबलिंग की बहुत कम अंतर-रेटर विश्वसनीयता है।’

 

* मेरे द्वारा पेपर के इनलाइन संदर्भों को हाइपरलिंक में परिवर्तित करना।

13 दिसंबर 2021 को प्रकाशित – 18 दिसंबर 2021 को अद्यतन: टैग जोड़े गए

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai