ठूंठ 'अदृश्य', अक्सर नाखुश कार्यबल जो AI का भविष्य तय कर रहा है - Unite.AI
हमसे जुडे

Artificial Intelligence

'अदृश्य', अक्सर नाखुश कार्यबल जो एआई का भविष्य तय कर रहा है

mm
Updated on

Google रिसर्च के नेतृत्व वाले एक पेपर सहित दो नई रिपोर्टें चिंता व्यक्त करती हैं कि मशीन लर्निंग सिस्टम के लिए जमीनी सच्चाई बनाने के लिए यादृच्छिक वैश्विक गिग श्रमिकों के सस्ते और अक्सर अशक्त पूल पर भरोसा करने की मौजूदा प्रवृत्ति एआई के लिए बड़े नकारात्मक प्रभाव डाल सकती है।

निष्कर्षों की एक श्रृंखला के बीच, Google अध्ययन से पता चलता है कि भीड़ में काम करने वालों के अपने पूर्वाग्रह एआई सिस्टम में अंतर्निहित होने की संभावना है, जिनकी जमीनी सच्चाई उनकी प्रतिक्रियाओं पर आधारित होगी; क्राउडवर्किंग प्लेटफार्मों पर व्यापक अनुचित कार्य प्रथाओं (अमेरिका सहित) से प्रतिक्रियाओं की गुणवत्ता ख़राब होने की संभावना है; और यह कि 'आम सहमति' प्रणाली (प्रभावी रूप से जमीनी सच्चाई के कुछ टुकड़े के लिए एक 'मिनी-चुनाव' जो डाउनस्ट्रीम एआई सिस्टम को प्रभावित करेगी) जो वर्तमान में विवादों को हल कर सकती है फेंक देना सर्वोत्तम और/या सर्वाधिक जानकारीपूर्ण प्रतिक्रियाएँ।

यह बुरी खबर है; इससे भी बुरी खबर यह है कि लगभग सभी उपचार महंगे, समय लेने वाले या दोनों हैं।

असुरक्षा, यादृच्छिक अस्वीकृति, और विद्वेष

पहला पोस्ट काग़ज़, पांच Google शोधकर्ताओं में से, को बुलाया जाता है जमीनी सच्चाई किसकी? डेटासेट एनोटेशन में अंतर्निहित व्यक्तिगत और सामूहिक पहचान के लिए लेखांकन; दूसरा, न्यूयॉर्क में सिरैक्यूज़ विश्वविद्यालय के दो शोधकर्ताओं से कहा जाता है डेटा लेबलर्स के बीच असहमति की उत्पत्ति और मूल्य: घृणास्पद भाषण व्याख्या में व्यक्तिगत अंतर का एक केस अध्ययन.

Google पेपर नोट करता है कि भीड़-कार्यकर्ता - जिनका मूल्यांकन अक्सर मशीन लर्निंग सिस्टम का परिभाषित आधार बनता है जो अंततः हमारे जीवन को प्रभावित कर सकता है - अक्सर कई बाधाओं के तहत काम कर रहे हैं जो प्रयोगात्मक असाइनमेंट पर प्रतिक्रिया करने के तरीके को प्रभावित कर सकते हैं।

उदाहरण के लिए, अमेज़ॅन मैकेनिकल तुर्क की वर्तमान नीतियां अनुरोधकर्ताओं (जो असाइनमेंट देते हैं) को किसी एनोटेटर के काम को बिना जवाबदेही के अस्वीकार करने की अनुमति देती हैं*:

'[ए] भीड़-कार्यकर्ताओं का बड़ा बहुमत (94% तक ) ऐसा काम किया है जिसे अस्वीकार कर दिया गया था या जिसके लिए उन्हें भुगतान नहीं किया गया था। फिर भी, अनुरोधकर्ता प्राप्त डेटा पर पूर्ण अधिकार रखते हैं, भले ही वे इसे स्वीकार करें या अस्वीकार करें; रॉबर्ट्स (2016) इस प्रणाली का वर्णन इस प्रकार किया गया है कि यह "मजदूरी चोरी को सक्षम बनाता है"।

'इसके अलावा, काम को अस्वीकार करना और वेतन रोकना दर्दनाक है क्योंकि अस्वीकृति अक्सर अस्पष्ट निर्देशों और सार्थक फीडबैक चैनलों की कमी के कारण होती है; कई क्राउडवर्कर रिपोर्ट करते हैं कि खराब संचार उनके काम पर नकारात्मक प्रभाव डालता है।'

लेखकों का सुझाव है कि जो शोधकर्ता डेटासेट विकसित करने के लिए आउटसोर्स सेवाओं का उपयोग करते हैं, उन्हें इस बात पर विचार करना चाहिए कि एक क्राउडवर्किंग प्लेटफॉर्म अपने कर्मचारियों के साथ कैसा व्यवहार करता है। वे आगे ध्यान देते हैं कि संयुक्त राज्य अमेरिका में, भीड़-भाड़ वाले श्रमिकों को 'स्वतंत्र ठेकेदारों' के रूप में वर्गीकृत किया जाता है, इसलिए काम अनियमित होता है, और निष्पक्ष श्रम मानक अधिनियम द्वारा अनिवार्य न्यूनतम वेतन द्वारा कवर नहीं किया जाता है।

प्रसंग मामले

अखबार इसके प्रयोग की भी आलोचना करता है तदर्थ एनोटेशन कार्यों के लिए वैश्विक श्रम, एनोटेटर की पृष्ठभूमि पर विचार किए बिना।

जहां बजट अनुमति देता है, एएमटी और समान क्राउडवर्क प्लेटफार्मों का उपयोग करने वाले शोधकर्ताओं के लिए चार एनोटेटर्स को एक ही कार्य देना और परिणामों पर 'बहुमत नियम' का पालन करना आम बात है।

पेपर का तर्क है कि प्रासंगिक अनुभव को विशेष रूप से कम महत्व दिया गया है। उदाहरण के लिए, यदि कोई कार्य प्रश्न संबंधित है sexism 18-57 वर्ष की आयु के तीन सहमत पुरुषों और 29 वर्ष की एक असहमत महिला के बीच बेतरतीब ढंग से वितरित किया जाता है, पुरुषों का फैसला जीतता है, अपेक्षाकृत दुर्लभ मामलों को छोड़कर जहां शोधकर्ता अपने व्याख्याकारों की योग्यता पर ध्यान देते हैं।

इसी तरह, यदि कोई प्रश्न शिकागो में गिरोह का व्यवहार 36 साल की एक ग्रामीण अमेरिकी महिला, 42 साल के शिकागो निवासी एक पुरुष और क्रमशः बैंगलोर और डेनमार्क के दो व्याख्याकारों के बीच वितरित किया जाता है, इस मुद्दे से सबसे अधिक प्रभावित व्यक्ति (शिकागो पुरुष) के पास परिणाम में केवल एक चौथाई हिस्सा होता है। मानक आउटसोर्सिंग कॉन्फ़िगरेशन।

शोधकर्ता बताते हैं:

'[क्राउडसोर्सिंग प्रतिक्रियाओं में "एक सत्य" की धारणा एक मिथक है; व्याख्याकारों के बीच असहमति, जिसे अक्सर नकारात्मक माना जाता है, वास्तव में एक मूल्यवान संकेत प्रदान कर सकती है। दूसरे, चूंकि कई क्राउडसोर्स्ड एनोटेटर पूल सामाजिक-जनसांख्यिकीय रूप से विषम हैं, ऐसे निहितार्थ हैं कि डेटासेट में किन आबादी का प्रतिनिधित्व किया जाता है और साथ ही कौन सी आबादी को [क्राउडवर्क] की चुनौतियों का सामना करना पड़ता है।

'डेटासेट को प्रासंगिक बनाने और जिम्मेदार डाउनस्ट्रीम उपयोग सुनिश्चित करने के लिए एनोटेटर जनसांख्यिकी में विसंगतियों को ध्यान में रखना महत्वपूर्ण है। संक्षेप में, कार्यकर्ता की सामाजिक-सांस्कृतिक पृष्ठभूमि को स्वीकार करना और उसका हिसाब-किताब रखना मूल्यवान है - डेटा गुणवत्ता और सामाजिक प्रभाव दोनों के नजरिए से।'

गर्म विषयों पर कोई 'तटस्थ' राय नहीं

यहां तक ​​कि जहां चार एनोटेटर्स की राय जनसांख्यिकीय या किसी अन्य मीट्रिक द्वारा विषम नहीं है, Google पेपर चिंता व्यक्त करता है कि शोधकर्ता एनोटेटर्स के जीवन के अनुभवों या दार्शनिक स्वभाव को ध्यान में नहीं रख रहे हैं:

'हालांकि कुछ कार्यों में सही उत्तर के साथ वस्तुनिष्ठ प्रश्न पूछे जाते हैं (क्या छवि में कोई मानवीय चेहरा है?), अक्सर डेटासेट का उद्देश्य सार्वभौमिक रूप से सही उत्तर के बिना अपेक्षाकृत व्यक्तिपरक कार्यों पर निर्णय लेना होता है (क्या पाठ का यह भाग आपत्तिजनक है?). इस बारे में जानबूझकर होना महत्वपूर्ण है कि व्याख्याकारों के व्यक्तिपरक निर्णयों पर निर्भर रहना चाहिए या नहीं।'

घृणास्पद भाषण को लेबल करने में समस्याओं का समाधान करने के अपने विशिष्ट दायरे के संबंध में, सिरैक्यूज़ पेपर नोट करता है कि अधिक स्पष्ट प्रश्न जैसे कि क्या इस तस्वीर में एक बिल्ली है? किसी भीड़-कार्यकर्ता से यह पूछने से कि क्या कोई वाक्यांश 'विषाक्त' है, विशेष रूप से भिन्न हैं:

'सामाजिक वास्तविकता की गड़बड़ी को ध्यान में रखते हुए, विषाक्तता के बारे में लोगों की धारणाएं काफी भिन्न होती हैं। जहरीली सामग्री के उनके लेबल उनकी अपनी धारणाओं पर आधारित हैं।'

यह पाते हुए कि व्यक्तित्व और उम्र का नफरत भरे भाषण की आयामी लेबलिंग पर 'पर्याप्त प्रभाव' पड़ता है, सिरैक्यूज़ शोधकर्ताओं ने निष्कर्ष निकाला:

'इन निष्कर्षों से पता चलता है कि घृणास्पद भाषण के लिए अलग-अलग पृष्ठभूमि और व्यक्तित्व वाले लेबलर्स के बीच एनोटेशन स्थिरता प्राप्त करने के प्रयास कभी भी पूरी तरह से सफल नहीं हो सकते हैं।'

जज भी पक्षपाती हो सकता है

सिरैक्यूज़ पेपर के अनुसार, निष्पक्षता की यह कमी ऊपर की ओर भी बढ़ने की संभावना है, जिसमें तर्क दिया गया है कि मैन्युअल हस्तक्षेप (या स्वचालित नीति, जिसे एक मानव द्वारा भी तय किया जाता है) जो सर्वसम्मति वोटों के 'विजेता' को निर्धारित करता है, उसे भी जांच के अधीन किया जाना चाहिए। .

इस प्रक्रिया की तुलना फोरम मॉडरेशन से करते हुए, लेखक कहते हैं*:

'[ए] समुदाय के मॉडरेटर पोस्ट को बढ़ावा देने या छुपाने के साथ-साथ उपयोगकर्ताओं का सम्मान, अपमान या प्रतिबंध लगाकर अपने समुदाय में पोस्ट और उपयोगकर्ताओं दोनों के भाग्य का फैसला कर सकते हैं। मॉडरेटर के निर्णय वितरित सामग्री को प्रभावित करते हैं समुदाय के सदस्य और दर्शक  और विस्तार से चर्चा के समुदाय के अनुभव को भी प्रभावित करते हैं।

'यह मानते हुए कि एक मानव मॉडरेटर एक समुदाय का सदस्य है जिसकी अन्य समुदाय के सदस्यों के साथ जनसांख्यिकीय एकरूपता है, यह संभव लगता है कि सामग्री का मूल्यांकन करने के लिए वे जिस मानसिक स्कीमा का उपयोग करते हैं वह अन्य समुदाय के सदस्यों से मेल खाएगा।'

इससे कुछ सुराग मिलता है कि क्यों सिरैक्यूज़ शोधकर्ता घृणास्पद भाषण टिप्पणी के भविष्य के बारे में इतने निराशाजनक निष्कर्ष पर पहुंचे हैं; निहितार्थ यह है कि असहमतिपूर्ण जनमत पर नीतियों और निर्णय-आह्वानों को 'स्वीकार्य' सिद्धांतों के अनुसार यादृच्छिक रूप से लागू नहीं किया जा सकता है जो कहीं भी स्थापित नहीं हैं (या किसी लागू स्कीमा में कम नहीं किए जा सकते हैं, भले ही वे मौजूद हों)।

जो लोग निर्णय लेते हैं (भीड़ में काम करने वाले) पक्षपाती हैं, और यदि ऐसा होता तो वे ऐसे कार्यों के लिए बेकार होते नहीं पक्षपाती, चूँकि कार्य मूल्य निर्णय प्रदान करना है; जो लोग क्राउडवर्क परिणामों में विवादों पर निर्णय देते हैं, वे विवादों के लिए नीतियां निर्धारित करने में भी मूल्य निर्णय ले रहे हैं।

केवल एक नफरत भरे भाषण का पता लगाने के ढांचे में सैकड़ों नीतियां हो सकती हैं, और जब तक प्रत्येक को सर्वोच्च न्यायालय में वापस नहीं ले जाया जाता, तब तक 'आधिकारिक' सर्वसम्मति कहां से उत्पन्न हो सकती है?

Google शोधकर्ता ऐसा सुझाव देते हैं '[एनोटेटर्स के बीच असहमति कार्य के बारे में मूल्यवान बारीकियों को अंतर्निहित कर सकती है'. पेपर डेटासेट में मेटाडेटा के उपयोग का प्रस्ताव करता है जो विवादों को दर्शाता है और प्रासंगिक बनाता है।

हालाँकि, यह देखना मुश्किल है कि डेटा की ऐसी संदर्भ-विशिष्ट परत कैसे समान मेट्रिक्स को जन्म दे सकती है, स्थापित मानक परीक्षणों की मांगों के अनुकूल हो सकती है, या समर्थन कर सकती है कोई निश्चित परिणाम - बाद के कार्यों में शोधकर्ताओं के एक ही समूह को अपनाने के अवास्तविक परिदृश्य को छोड़कर।

एनोटेटर पूल का क्यूरेटिंग

यह सब मानता है कि एक शोध परियोजना में कई एनोटेशन के लिए बजट भी है जो सर्वसम्मति वोट की ओर ले जाएगा। कई मामलों में, शोधकर्ता उन विशेषताओं को निर्दिष्ट करके आउटसोर्स एनोटेशन पूल को अधिक सस्ते में 'क्यूरेट' करने का प्रयास करते हैं जो श्रमिकों के पास होनी चाहिए, जैसे कि भौगोलिक स्थिति, लिंग, या अन्य सांस्कृतिक कारक, विशिष्टता के लिए व्यापार बहुलता।

Google पेपर का तर्क है कि इन चुनौतियों से आगे बढ़ने का रास्ता एनोटेटर्स के साथ विस्तारित संचार ढांचे की स्थापना करना हो सकता है, जो उबर ऐप ड्राइवर और राइडर के बीच न्यूनतम संचार की सुविधा प्रदान करता है।

एनोटेटर्स पर इस तरह का सावधानीपूर्वक विचार, स्वाभाविक रूप से, हाइपरस्केल एनोटेशन आउटसोर्सिंग के लिए एक बाधा होगा, जिसके परिणामस्वरूप या तो अधिक सीमित और कम मात्रा वाले डेटासेट होंगे जिनके परिणामों के लिए बेहतर तर्क होगा, या इसमें शामिल एनोटेटर्स का 'जल्दी' मूल्यांकन होगा, जिससे सीमित विवरण प्राप्त होंगे। उनके बारे में, और बहुत कम जानकारी के आधार पर उन्हें 'कार्य के लिए उपयुक्त' के रूप में चिह्नित करना।

ऐसा तभी है जब व्याख्याकार ईमानदार हों।

आउटसोर्स किए गए डेटासेट लेबलिंग में 'लोगों को खुश करने वाले'

उपलब्ध कार्यबल के साथ underpaid, के अंतर्गत कड़ी प्रतिस्पर्धा उपलब्ध असाइनमेंट के लिए, और निराश होकर करियर की कम संभावनाएं, एनोटेटर्स को शीघ्रता से 'सही' उत्तर प्रदान करने और अगले मिनी-असाइनमेंट पर आगे बढ़ने के लिए प्रेरित किया जाता है।

यदि 'सही उत्तर' कुछ भी अधिक जटिल है बिल्ली है/बिल्ली नहीं है, सिरैक्यूज़ पेपर का तर्क है कि कार्यकर्ता प्रश्न की सामग्री और संदर्भ के आधार पर 'स्वीकार्य' उत्तर निकालने का प्रयास कर सकता है*:

'वैकल्पिक अवधारणाओं का प्रसार और सरलीकृत एनोटेशन विधियों का व्यापक उपयोग, दोनों यकीनन ऑनलाइन घृणास्पद भाषण पर शोध की प्रगति में बाधा डाल रहे हैं। उदाहरण के लिए, रॉस, एट अल। पाया टिप्पणीकारों को ट्विटर की घृणित आचरण की परिभाषा दिखाने के कारण उनकी अपनी राय आंशिक रूप से परिभाषा के अनुरूप हो गई। इस पुनर्संरेखण के परिणामस्वरूप एनोटेशन की इंटररेटर विश्वसनीयता बहुत कम हो गई।'

 

* पेपर के इनलाइन उद्धरणों को हाइपरलिंक में बदलने का मेरा प्रयास।

13 दिसंबर 2021 को प्रकाशित – अपडेट किया गया 18 दिसंबर 2021: टैग जोड़े गए