Connect with us

рдЕрдореЗрдЬрд╝реЕрди рдореИрдХреЗрдирд┐рдХрд▓ рдЯрд░реНрдХ рдХреА рдХрдорд┐рдпрд╛рдВ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреАрдврд╝реА рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рдХреЛ рдЦрддрд░рд╛ рдкрд╣реБрдВрдЪрд╛ рд╕рдХрддреА рд╣реИрдВ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдЕрдореЗрдЬрд╝реЕрди рдореИрдХреЗрдирд┐рдХрд▓ рдЯрд░реНрдХ рдХреА рдХрдорд┐рдпрд╛рдВ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреАрдврд╝реА рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рдХреЛ рдЦрддрд░рд╛ рдкрд╣реБрдВрдЪрд╛ рд╕рдХрддреА рд╣реИрдВ

mm

मैसाचुसेट्स अम्हर्स्ट विश्वविद्यालय के एक नए अध्ययन ने प्राकृतिक भाषा पीढ़ी (एनएलजी) प्रणालियों के आउटपुट का मूल्यांकन करने के लिए अंग्रेजी शिक्षकों को अमेज़ॅन मैकेनिकल टर्क पर भीड़भाड़ वाले कार्यकर्ताओं के खिलाफ खड़ा किया है, निष्कर्ष निकाला है कि आराम से मानक और एएमटी कार्यकर्ताओं के बीच पुरस्कृत कार्यों का ‘गेमिंग’ इस क्षेत्र के विकास को बाधित कर सकता है।

इस रिपोर्ट में कई निंदनीय निष्कर्ष निकाले गए हैं कि खुले अंत वाले एनएलजी मूल्यांकन कार्यों के ‘उद्योग-स्तर’ के सस्ते आउटसोर्सिंग के परिणामस्वरूप इस क्षेत्र में कमजोर परिणाम और अल्गोरिदम हो सकते हैं।

शोधकर्ताओं ने खुले अंत वाले पाठ पीढ़ी पर 45 पत्रों की एक सूची तैयार की जहां शोध ने एएमटी का उपयोग किया था, और पाया कि ‘बहुसंख्यक’ ने एएमटी के क्राउड सेवा के उपयोग के बारे में महत्वपूर्ण विवरणों की रिपोर्ट करने में विफल रहे, जिससे पत्रों के निष्कर्षों को पुन: उत्पन्न करना मुश्किल हो गया।

स्वेट-शॉप श्रम

रिपोर्ट अमेज़ॅन मैकेनिकल टर्क की स्वेट-शॉप प्रकृति और (संभवतः बजट-निर्धारित) अकादमिक परियोजनाओं की आलोचना करती है जो एएमटी को एक वैध और सुसंगत अनुसंधान संसाधन के रूप में उपयोग करके और इसका हवाला देकर अतिरिक्त प्रतिष्ठा प्रदान कर रही हैं। लेखकों का उल्लेख है:

‘जबकि एएमटी एक सुविधाजनक और सस्ता समाधान है, हम देखते हैं कि श्रमिकों के बीच उच्च विचरण, खराब कैलिब्रेशन, और संज्ञानात्मक रूप से मांग वाले कार्य शोधकर्ताओं को भ्रामक वैज्ञानिक निष्कर्ष निकालने के लिए dẫn सकते हैं (जैसे कि मानव-लिखित पाठ “गप्त-2” की तुलना में “बुरा” है)।’

रिपोर्ट खिलाड़ियों के बजाय खेल को दोष देती है, शोधकर्ताओं का观察:

‘[भीड़] श्रमिकों को अक्सर उनकी श्रम के लिए कम भुगतान किया जाता है, जो शोध की गुणवत्ता को नुकसान पहुंचाता है, और अधिक महत्वपूर्ण बात, इन भीड़ श्रमिकों को एक पर्याप्त जीवन यापन करने की क्षमता को नुकसान पहुंचाता है।’

<paper शीर्षक मैकेनिकल टर्क का उपयोग करके खुले अंत वाले पाठ पीढ़ी के मूल्यांकन के खतरे, आगे निष्कर्ष निकालता है कि ‘विशेषज्ञ रेटर’ जैसे भाषा शिक्षक और भाषाविद् को खुले अंत वाले कृत्रिम एनएलजी सामग्री का मूल्यांकन करने के लिए उपयोग किया जाना चाहिए, भले ही एएमटी सस्ता हो।

परीक्षण कार्य

एएमटी के प्रदर्शन की तुलना कम समय-बाध्य, विशेषज्ञ पाठकों के साथ करते हुए, शोधकर्ताओं ने तुलना परीक्षणों में उपयोग किए जाने वाले एएमटी सेवाओं पर $144 खर्च किया, जिसमें यादृच्छिक ‘टर्क्स’ को 200 पाठों में से एक का मूल्यांकन करने की आवश्यकता थी, जो मानव-निर्मित पाठ सामग्री और कृत्रिम रूप से उत्पन्न पाठ के बीच विभाजित था।
पेशेवर शिक्षकों को समान काम सौंपने में $187.50 का खर्च आया, और एएमटी श्रमिकों (की तुलना में) उनके श्रेष्ठ प्रदर्शन की पुष्टि करने के लिए अपवर्क फ्रीलांसरों को काम पर रखने में $262.50 का अतिरिक्त खर्च आया।
प्रत्येक कार्य में चार मूल्यांकन मानदंड शामिल थे: व्याकरण (‘कहानी के टुकड़े का पाठ कितना व्याकरणिक रूप से सही है?’); सुसंगतता (‘कहानी के टुकड़े में वाक्य कितनी अच्छी तरह से फिट होते हैं?’); पसंदीदा (‘आप कहानी के टुकड़े को कितना आनंददायक पाते हैं?’); और प्रासंगिकता (‘कहानी के टुकड़े कितने प्रासंगिक हैं?’).

पाठ उत्पन्न करना

परीक्षणों के लिए एनएलजी सामग्री प्राप्त करने के लिए, शोधकर्ताओं ने फेसबुक एआई रिसर्च के 2018 हायरार्किकल न्यूरल स्टोरी जेनरेशन डेटासेट का उपयोग किया, जिसमें 303,358 अंग्रेजी भाषा की कहानियां शामिल हैं जो r/writingprompts सबरेडिट पर उपयोगकर्ताओं द्वारा रचित हैं, जहां सदस्यों की कहानियां एकल-वाक्य ‘प्रोम्प्ट’ द्वारा ‘बीज’ होती हैं, जो वर्तमान प्रथाओं के समान है पाठ-से-छवि पीढ़ी में – और, ज़ाहिर है, खुले अंत वाले प्राकृतिक भाषा पीढ़ी प्रणालियों में।
200 प्रोम्प्ट्स को यादृच्छिक रूप से चुना गया और हगिंग-फेस ट्रांसफॉर्मर्स लाइब्रेरी का उपयोग करके मध्यम आकार के जीपीटी-2 मॉडल के माध्यम से पारित किया गया। इस प्रकार दो सेटों के परिणाम प्राप्त किए गए: रेडिट उपयोगकर्ताओं द्वारा लिखित मानव-लिखित विवरणात्मक निबंध, और जीपीटी-2-उत्पन्न पाठ।
एक ही एएमटी श्रमिकों द्वारा एक ही कहानी को कई बार मूल्यांकन करने से रोकने के लिए, प्रति उदाहरण तीन एएमटी श्रमिक निर्णय मांगे गए। एएमटी सेवाओं पर कुल व्यय को लगभग $1,500 यूएसडी तक बढ़ाने के लिए एएमटी श्रमिकों की अंग्रेजी भाषा क्षमताओं (लेख के अंत में देखें) और निम्न-प्रयास श्रमिकों से परिणामों (देखें ‘शॉर्ट टाइम’ नीचे) को छोड़कर प्रयोगों के साथ।
एक स्तर के मैदान बनाने के लिए, सभी परीक्षण सप्ताह के दिनों में 11:00 बजे – 11:30 बजे पीएसटी के बीच आयोजित किए गए।

परिणाम और निष्कर्ष

विस्तृत अध्ययन बहुत सारा कवर करता है, लेकिन मुख्य बिंदु हैं:

शॉर्ट टाइम

पेपर में पाया गया कि अमेज़ॅन द्वारा रिपोर्ट किए गए औसत कार्य समय 360 सेकंड वास्तविक दुनिया के कार्य समय में केवल 22 सेकंड तक कम हो गया, और केवल 13 सेकंड का मध्य कार्य समय – तेज़ अंग्रेजी शिक्षक द्वारा कार्य के लिए लिया गया समय का एक चौथाई।

рдЕрдзреНрдпрдпрди рдХреЗ рджрд┐рди 2 рд╕реЗ: рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╢реНрд░рдорд┐рдХреЛрдВ (рдирд╛рд░рдВрдЧреА рдореЗрдВ) рдиреЗ рдкреНрд░рддреНрдпреЗрдХ рдХрд╛рд░реНрдп рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рдиреЗ рдореЗрдВ рдХрдо рд╕рдордп рдмрд┐рддрд╛рдпрд╛ рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдмреЗрд╣рддрд░ рднреБрдЧрддрд╛рди рд╡рд╛рд▓реЗ рд╢рд┐рдХреНрд╖рдХреЛрдВ рдФрд░ (рдмрд╛рдж рдореЗрдВ) рдмреЗрд╣рддрд░ рднреБрдЧрддрд╛рди рд╡рд╛рд▓реЗ рдЕрдкрд╡рд░реНрдХ рдареЗрдХреЗрджрд╛рд░реЛрдВ рдХреА рддреБрд▓рдирд╛ рдореЗрдВред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2109.06835.pdf

अध्ययन के दिन 2 से: व्यक्तिगत श्रमिकों (नारंगी में) ने प्रत्येक कार्य का मूल्यांकन करने में कम समय बिताया की तुलना में बेहतर भुगतान वाले शिक्षकों और (बाद में) बेहतर भुगतान वाले अपवर्क ठेकेदारों की तुलना में। स्रोत: https://arxiv.org/pdf/2109.06835.pdf

चूंकि एएमटी व्यक्तिगत श्रमिक द्वारा लिए जाने वाले मानव बुद्धिमत्ता कार्यों (हिट्स) पर कोई सीमा नहीं लगाता है, एएमटी ‘बिग हिटर्स’ उभरे हैं, जो (लाभदायक) प्रतिष्ठा के साथ उच्च संख्या में कार्य पूरा करते हैं। प्रत्येक हिट की शुरुआत और समाप्ति के समय की तुलना करके समान श्रमिक द्वारा लगातार जमा किए गए हिट्स के बीच समय को मापने के लिए शोधकर्ताओं ने मुआवजा दिया। इस प्रकार एएमटी के रिपोर्ट किए गए वर्कटाइमइनसेकंड्स और वास्तविक समय के बीच की कमी सामने आई।
चूंकि इतने कम समय में ऐसा काम नहीं किया जा सकता है, शोधकर्ताओं को इसके लिए मुआवजा देना पड़ा:

‘जैसा कि एक अनुच्छेद-लंबी कहानी को ध्यान से पढ़ना और सभी चार गुणों का मूल्यांकन करना 13 सेकंड में असंभव है, हम श्रमिकों को फ़िल्टर आउट करने के प्रभाव को मापते हैं जो प्रति हिट बहुत कम समय बिताते हैं… विशेष रूप से, हम 40 सेकंड (जो एक कम पट्टी है) से नीचे मध्य समय वाले श्रमिकों से निर्णय हटा देते हैं, और पाते हैं कि हमारे रेटिंग्स में से लगभग 42% को फ़िल्टर आउट किया जाता है (सभी प्रयोगों में 20%-72% के बीच)।’

पेपर का तर्क है कि एएमटी में वास्तविक कार्य समय की गलत रिपोर्ट एक ‘प्रमुख मुद्दा’ है जिसे शोधकर्ताओं द्वारा सेवाओं का उपयोग करते समय अक्सर अनदेखा किया जाता है।

हैंड-होल्डिंग आवश्यक

निष्कर्ष यह भी सुझाव देते हैं कि एएमटी श्रमिक मानव द्वारा लिखित पाठ और मशीन द्वारा लिखित पाठ के बीच अंतर नहीं कर सकते हैं, जब तक कि वे दोनों पाठों को एक साथ न देखें, जो एक典型 मूल्यांकन परिदृश्य (जहां पाठक को एकल पाठ के नमूने पर आधारित निर्णय लेने में सक्षम होना चाहिए, ‘वास्तविक’ या कृत्रिम रूप से उत्पन्न) को समझौता करने के लिए।

कम गुणवत्ता वाले कृत्रिम पाठ की आकस्मिक स्वीकृति

एएमटी श्रमिकों ने लगातार कम गुणवत्ता वाले जीपीटी-आधारित कृत्रिम पाठ को मानव द्वारा लिखित उच्च गुणवत्ता वाले, सुसंगत पाठ के साथ-साथ रेट किया, जो कि अंग्रेजी शिक्षकों के विपरीत था, जो गुणवत्ता में अंतर को आसानी से पहचान सकते थे।

कोई तैयारी समय, शून्य संदर्भ

सटीकता के मूल्यांकन के लिए सही मानसिकता में प्रवेश करना एक ऐसा कार्य है जो स्वाभाविक रूप से नहीं आता है; अंग्रेजी शिक्षकों को मूल्यांकनकारी वातावरण में अपनी संवेदनशीलता को कैलिब्रेट करने के लिए 20 कार्यों की आवश्यकता थी, जबकि एएमटी श्रमिकों को आमतौर पर कोई ‘ओरिएंटेशन समय’ नहीं मिलता है, जिससे उनके इनपुट की गुणवत्ता कम हो जाती है।

सिस्टम को गेमिंग

रिपोर्ट का तर्क है कि व्यक्तिगत कार्यों पर एएमटी श्रमिकों द्वारा बिताया गया कुल समय उन श्रमिकों द्वारा बढ़ाया जाता है जो एक ही समय में कई कार्य स्वीकार करते हैं और अपने ब्राउज़रों के विभिन्न टैब में कार्यों को चलाते हैं, बजाय एक कार्य पर दर्ज की गई कार्य अवधि के लिए एकाग्रता के।

देश की उत्पत्ति महत्वपूर्ण है

एएमटी की डिफ़ॉल्ट सेटिंग श्रमिकों को देश की उत्पत्ति द्वारा फ़िल्टर नहीं करती है, और रिपोर्ट पिछले कार्य को नोट करती है जो यह दर्शाता है कि एएमटी श्रमिक भौगोलिक प्रतिबंधों को दरकिनार करने के लिए वीपीएन का उपयोग करते हैं, जो गैर-मूल अंग्रेजी बोलने वालों को मूल अंग्रेजी बोलने वालों के रूप में प्रस्तुत करने की अनुमति देता है (एक प्रणाली जो शायद थोड़ी निर्दोष है जो एक श्रमिक की मातृभाषा को उनके आईपी-आधारित भौगोलिक स्थान के साथ जोड़ती है)।

इस प्रकार शोधकर्ताओं ने गैर-अंग्रेजी बोलने वाले देशों से संभावित लेने वालों को सीमित करने वाले फिल्टर के साथ एएमटी पर मूल्यांकन परीक्षण दोहराए, पाया कि ‘गैर-अंग्रेजी बोलने वाले देशों के श्रमिकों ने सुसंगतता, प्रासंगिकता, और व्याकरण… अंग्रेजी बोलने वाले देशों के समान योग्य श्रमिकों की तुलना में काफी कम रेट किया’

रिपोर्ट निष्कर्ष निकालती है:

‘[विशेषज्ञ] रेटर जैसे भाषाविद् या भाषा शिक्षकों का उपयोग तब किया जाना चाहिए जब भी संभव हो, क्योंकि उन्हें पहले से ही लिखित पाठ का मूल्यांकन करने के लिए प्रशिक्षित किया गया है, और यह बहुत अधिक महंगा नहीं है…’

 

16 सितंबर 2021 को प्रकाशित18 दिसंबर 2021 को अद्यतन: टैग जोड़े गए

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai