कृत्रिम बुद्धिमत्ता

अमेज़ॅन मैकेनिकल टर्क की कमियां प्राकृतिक भाषा पीढ़ी प्रणालियों को खतरा पहुंचा सकती हैं

Published September 16, 2021

Updated April 28, 2026

Martin Anderson

मैसाचुसेट्स अम्हर्स्ट विश्वविद्यालय के एक नए अध्ययन ने प्राकृतिक भाषा पीढ़ी (एनएलजी) प्रणालियों के आउटपुट का मूल्यांकन करने के लिए अंग्रेजी शिक्षकों को अमेज़ॅन मैकेनिकल टर्क पर भीड़भाड़ वाले कार्यकर्ताओं के खिलाफ खड़ा किया है, निष्कर्ष निकाला है कि आराम से मानक और एएमटी कार्यकर्ताओं के बीच पुरस्कृत कार्यों का ‘गेमिंग’ इस क्षेत्र के विकास को बाधित कर सकता है।

इस रिपोर्ट में कई निंदनीय निष्कर्ष निकाले गए हैं कि खुले अंत वाले एनएलजी मूल्यांकन कार्यों के ‘उद्योग-स्तर’ के सस्ते आउटसोर्सिंग के परिणामस्वरूप इस क्षेत्र में कमजोर परिणाम और अल्गोरिदम हो सकते हैं।

शोधकर्ताओं ने खुले अंत वाले पाठ पीढ़ी पर 45 पत्रों की एक सूची तैयार की जहां शोध ने एएमटी का उपयोग किया था, और पाया कि ‘बहुसंख्यक’ ने एएमटी के क्राउड सेवा के उपयोग के बारे में महत्वपूर्ण विवरणों की रिपोर्ट करने में विफल रहे, जिससे पत्रों के निष्कर्षों को पुन: उत्पन्न करना मुश्किल हो गया।

स्वेट-शॉप श्रम

रिपोर्ट अमेज़ॅन मैकेनिकल टर्क की स्वेट-शॉप प्रकृति और (संभवतः बजट-निर्धारित) अकादमिक परियोजनाओं की आलोचना करती है जो एएमटी को एक वैध और सुसंगत अनुसंधान संसाधन के रूप में उपयोग करके और इसका हवाला देकर अतिरिक्त प्रतिष्ठा प्रदान कर रही हैं। लेखकों का उल्लेख है:

‘जबकि एएमटी एक सुविधाजनक और सस्ता समाधान है, हम देखते हैं कि श्रमिकों के बीच उच्च विचरण, खराब कैलिब्रेशन, और संज्ञानात्मक रूप से मांग वाले कार्य शोधकर्ताओं को भ्रामक वैज्ञानिक निष्कर्ष निकालने के लिए dẫn सकते हैं (जैसे कि मानव-लिखित पाठ “गप्त-2” की तुलना में “बुरा” है)।’

रिपोर्ट खिलाड़ियों के बजाय खेल को दोष देती है, शोधकर्ताओं का观察:

‘[भीड़] श्रमिकों को अक्सर उनकी श्रम के लिए कम भुगतान किया जाता है, जो शोध की गुणवत्ता को नुकसान पहुंचाता है, और अधिक महत्वपूर्ण बात, इन भीड़ श्रमिकों को एक पर्याप्त जीवन यापन करने की क्षमता को नुकसान पहुंचाता है।’

<paper शीर्षक मैकेनिकल टर्क का उपयोग करके खुले अंत वाले पाठ पीढ़ी के मूल्यांकन के खतरे, आगे निष्कर्ष निकालता है कि ‘विशेषज्ञ रेटर’ जैसे भाषा शिक्षक और भाषाविद् को खुले अंत वाले कृत्रिम एनएलजी सामग्री का मूल्यांकन करने के लिए उपयोग किया जाना चाहिए, भले ही एएमटी सस्ता हो।

परीक्षण कार्य

एएमटी के प्रदर्शन की तुलना कम समय-बाध्य, विशेषज्ञ पाठकों के साथ करते हुए, शोधकर्ताओं ने तुलना परीक्षणों में उपयोग किए जाने वाले एएमटी सेवाओं पर $144 खर्च किया, जिसमें यादृच्छिक ‘टर्क्स’ को 200 पाठों में से एक का मूल्यांकन करने की आवश्यकता थी, जो मानव-निर्मित पाठ सामग्री और कृत्रिम रूप से उत्पन्न पाठ के बीच विभाजित था।
पेशेवर शिक्षकों को समान काम सौंपने में $187.50 का खर्च आया, और एएमटी श्रमिकों (की तुलना में) उनके श्रेष्ठ प्रदर्शन की पुष्टि करने के लिए अपवर्क फ्रीलांसरों को काम पर रखने में $262.50 का अतिरिक्त खर्च आया।
प्रत्येक कार्य में चार मूल्यांकन मानदंड शामिल थे: व्याकरण (‘कहानी के टुकड़े का पाठ कितना व्याकरणिक रूप से सही है?’); सुसंगतता (‘कहानी के टुकड़े में वाक्य कितनी अच्छी तरह से फिट होते हैं?’); पसंदीदा (‘आप कहानी के टुकड़े को कितना आनंददायक पाते हैं?’); और प्रासंगिकता (‘कहानी के टुकड़े कितने प्रासंगिक हैं?’).

पाठ उत्पन्न करना

परीक्षणों के लिए एनएलजी सामग्री प्राप्त करने के लिए, शोधकर्ताओं ने फेसबुक एआई रिसर्च के 2018 हायरार्किकल न्यूरल स्टोरी जेनरेशन डेटासेट का उपयोग किया, जिसमें 303,358 अंग्रेजी भाषा की कहानियां शामिल हैं जो r/writingprompts सबरेडिट पर उपयोगकर्ताओं द्वारा रचित हैं, जहां सदस्यों की कहानियां एकल-वाक्य ‘प्रोम्प्ट’ द्वारा ‘बीज’ होती हैं, जो वर्तमान प्रथाओं के समान है पाठ-से-छवि पीढ़ी में – और, ज़ाहिर है, खुले अंत वाले प्राकृतिक भाषा पीढ़ी प्रणालियों में।
200 प्रोम्प्ट्स को यादृच्छिक रूप से चुना गया और हगिंग-फेस ट्रांसफॉर्मर्स लाइब्रेरी का उपयोग करके मध्यम आकार के जीपीटी-2 मॉडल के माध्यम से पारित किया गया। इस प्रकार दो सेटों के परिणाम प्राप्त किए गए: रेडिट उपयोगकर्ताओं द्वारा लिखित मानव-लिखित विवरणात्मक निबंध, और जीपीटी-2-उत्पन्न पाठ।
एक ही एएमटी श्रमिकों द्वारा एक ही कहानी को कई बार मूल्यांकन करने से रोकने के लिए, प्रति उदाहरण तीन एएमटी श्रमिक निर्णय मांगे गए। एएमटी सेवाओं पर कुल व्यय को लगभग $1,500 यूएसडी तक बढ़ाने के लिए एएमटी श्रमिकों की अंग्रेजी भाषा क्षमताओं (लेख के अंत में देखें) और निम्न-प्रयास श्रमिकों से परिणामों (देखें ‘शॉर्ट टाइम’ नीचे) को छोड़कर प्रयोगों के साथ।
एक स्तर के मैदान बनाने के लिए, सभी परीक्षण सप्ताह के दिनों में 11:00 बजे – 11:30 बजे पीएसटी के बीच आयोजित किए गए।

परिणाम और निष्कर्ष

विस्तृत अध्ययन बहुत सारा कवर करता है, लेकिन मुख्य बिंदु हैं:

शॉर्ट टाइम

पेपर में पाया गया कि अमेज़ॅन द्वारा रिपोर्ट किए गए औसत कार्य समय 360 सेकंड वास्तविक दुनिया के कार्य समय में केवल 22 सेकंड तक कम हो गया, और केवल 13 सेकंड का मध्य कार्य समय – तेज़ अंग्रेजी शिक्षक द्वारा कार्य के लिए लिया गया समय का एक चौथाई।

अध्ययन के दिन 2 से: व्यक्तिगत श्रमिकों (नारंगी में) ने प्रत्येक कार्य का मूल्यांकन करने में कम समय बिताया की तुलना में बेहतर भुगतान वाले शिक्षकों और (बाद में) बेहतर भुगतान वाले अपवर्क ठेकेदारों की तुलना में। स्रोत: https://arxiv.org/pdf/2109.06835.pdf

चूंकि एएमटी व्यक्तिगत श्रमिक द्वारा लिए जाने वाले मानव बुद्धिमत्ता कार्यों (हिट्स) पर कोई सीमा नहीं लगाता है, एएमटी ‘बिग हिटर्स’ उभरे हैं, जो (लाभदायक) प्रतिष्ठा के साथ उच्च संख्या में कार्य पूरा करते हैं। प्रत्येक हिट की शुरुआत और समाप्ति के समय की तुलना करके समान श्रमिक द्वारा लगातार जमा किए गए हिट्स के बीच समय को मापने के लिए शोधकर्ताओं ने मुआवजा दिया। इस प्रकार एएमटी के रिपोर्ट किए गए वर्कटाइमइनसेकंड्स और वास्तविक समय के बीच की कमी सामने आई।
चूंकि इतने कम समय में ऐसा काम नहीं किया जा सकता है, शोधकर्ताओं को इसके लिए मुआवजा देना पड़ा:

‘जैसा कि एक अनुच्छेद-लंबी कहानी को ध्यान से पढ़ना और सभी चार गुणों का मूल्यांकन करना 13 सेकंड में असंभव है, हम श्रमिकों को फ़िल्टर आउट करने के प्रभाव को मापते हैं जो प्रति हिट बहुत कम समय बिताते हैं… विशेष रूप से, हम 40 सेकंड (जो एक कम पट्टी है) से नीचे मध्य समय वाले श्रमिकों से निर्णय हटा देते हैं, और पाते हैं कि हमारे रेटिंग्स में से लगभग 42% को फ़िल्टर आउट किया जाता है (सभी प्रयोगों में 20%-72% के बीच)।’

पेपर का तर्क है कि एएमटी में वास्तविक कार्य समय की गलत रिपोर्ट एक ‘प्रमुख मुद्दा’ है जिसे शोधकर्ताओं द्वारा सेवाओं का उपयोग करते समय अक्सर अनदेखा किया जाता है।

हैंड-होल्डिंग आवश्यक

निष्कर्ष यह भी सुझाव देते हैं कि एएमटी श्रमिक मानव द्वारा लिखित पाठ और मशीन द्वारा लिखित पाठ के बीच अंतर नहीं कर सकते हैं, जब तक कि वे दोनों पाठों को एक साथ न देखें, जो एक典型 मूल्यांकन परिदृश्य (जहां पाठक को एकल पाठ के नमूने पर आधारित निर्णय लेने में सक्षम होना चाहिए, ‘वास्तविक’ या कृत्रिम रूप से उत्पन्न) को समझौता करने के लिए।

कम गुणवत्ता वाले कृत्रिम पाठ की आकस्मिक स्वीकृति

एएमटी श्रमिकों ने लगातार कम गुणवत्ता वाले जीपीटी-आधारित कृत्रिम पाठ को मानव द्वारा लिखित उच्च गुणवत्ता वाले, सुसंगत पाठ के साथ-साथ रेट किया, जो कि अंग्रेजी शिक्षकों के विपरीत था, जो गुणवत्ता में अंतर को आसानी से पहचान सकते थे।

कोई तैयारी समय, शून्य संदर्भ

सटीकता के मूल्यांकन के लिए सही मानसिकता में प्रवेश करना एक ऐसा कार्य है जो स्वाभाविक रूप से नहीं आता है; अंग्रेजी शिक्षकों को मूल्यांकनकारी वातावरण में अपनी संवेदनशीलता को कैलिब्रेट करने के लिए 20 कार्यों की आवश्यकता थी, जबकि एएमटी श्रमिकों को आमतौर पर कोई ‘ओरिएंटेशन समय’ नहीं मिलता है, जिससे उनके इनपुट की गुणवत्ता कम हो जाती है।

सिस्टम को गेमिंग

रिपोर्ट का तर्क है कि व्यक्तिगत कार्यों पर एएमटी श्रमिकों द्वारा बिताया गया कुल समय उन श्रमिकों द्वारा बढ़ाया जाता है जो एक ही समय में कई कार्य स्वीकार करते हैं और अपने ब्राउज़रों के विभिन्न टैब में कार्यों को चलाते हैं, बजाय एक कार्य पर दर्ज की गई कार्य अवधि के लिए एकाग्रता के।

देश की उत्पत्ति महत्वपूर्ण है

एएमटी की डिफ़ॉल्ट सेटिंग श्रमिकों को देश की उत्पत्ति द्वारा फ़िल्टर नहीं करती है, और रिपोर्ट पिछले कार्य को नोट करती है जो यह दर्शाता है कि एएमटी श्रमिक भौगोलिक प्रतिबंधों को दरकिनार करने के लिए वीपीएन का उपयोग करते हैं, जो गैर-मूल अंग्रेजी बोलने वालों को मूल अंग्रेजी बोलने वालों के रूप में प्रस्तुत करने की अनुमति देता है (एक प्रणाली जो शायद थोड़ी निर्दोष है जो एक श्रमिक की मातृभाषा को उनके आईपी-आधारित भौगोलिक स्थान के साथ जोड़ती है)।

इस प्रकार शोधकर्ताओं ने गैर-अंग्रेजी बोलने वाले देशों से संभावित लेने वालों को सीमित करने वाले फिल्टर के साथ एएमटी पर मूल्यांकन परीक्षण दोहराए, पाया कि ‘गैर-अंग्रेजी बोलने वाले देशों के श्रमिकों ने सुसंगतता, प्रासंगिकता, और व्याकरण… अंग्रेजी बोलने वाले देशों के समान योग्य श्रमिकों की तुलना में काफी कम रेट किया’।

रिपोर्ट निष्कर्ष निकालती है:

‘[विशेषज्ञ] रेटर जैसे भाषाविद् या भाषा शिक्षकों का उपयोग तब किया जाना चाहिए जब भी संभव हो, क्योंकि उन्हें पहले से ही लिखित पाठ का मूल्यांकन करने के लिए प्रशिक्षित किया गया है, और यह बहुत अधिक महंगा नहीं है…’

16 सितंबर 2021 को प्रकाशित – 18 दिसंबर 2021 को अद्यतन: टैग जोड़े गए