कृत्रिम बुद्धिमत्ता

कृत्रिम यांत्रिक तुर्क का निर्माण पूर्व-प्रशिक्षित भाषा मॉडल के साथ

Published December 30, 2021

Updated April 5, 2026

Martin Anderson

मशीन लर्निंग सिस्टम के विकास का एक बड़ा हिस्सा डेटा के लेबलिंग पर निर्भर करता है, जहां सैकड़ों, यहां तक कि हजारों प्रश्न (जैसे क्या यह एक बिल्ली की तस्वीर है? और क्या यह पाठ अपमानजनक है?) को निर्धारित करने की आवश्यकता होती है ताकि एआई सिस्टम को प्रशिक्षित करने के लिए अधिकारिक डेटासेट विकसित किया जा सके।

हालांकि हम सभी इस प्रक्रिया में कुछ बिंदु पर योगदान करते हैं, इनमें से अधिकांश लेबलिंग कार्य पैसे के लिए अमेज़न मैकेनिकल तुर्क जैसे फ्रेमवर्क में मानव श्रमिकों द्वारा किए जाते हैं, जहां एनोटेटर छोटे वर्गीकरण कार्यों को पीस-वर्क अर्थव्यवस्था में पूरा करते हैं।

मॉडल विकास सस्ता होगा यदि पूर्व-प्रशिक्षित भाषा मॉडल (पीएलएम) स्वयं एएमटी और समान प्लेटफार्मों पर वर्तमान में भीड़ से सोर्स किए जा रहे अधिक बुनियादी मानव बुद्धिमत्ता कार्यों (एचआईटी) का कुछ हिस्सा संभाल सकते हैं।

जर्मनी और हुआवे से हाल के शोध में यह प्रस्तावित किया गया है, पेपर एलएमटुर्क: फ्यू-शॉट लर्नर्स को क्राउडसोर्सिंग वर्कर्स के रूप में में।

भाषा मॉडल फ्यू-शॉट लर्निंग का प्रदर्शन

लेखकों का सुझाव है कि मानव तुर्क श्रमिकों को निर्देशित कार्यों की सरल परतें फ्यू-शॉट लर्निंग के समान हैं, जहां एक स्वचालित फ्रेमवर्क को कुछ उदाहरणों के आधार पर एक मिनी-कार्य का फैसला करना होता है।

वे इसलिए प्रस्तावित करते हैं कि एआई सिस्टम मौजूदा पीएलएम से प्रभावी ढंग से सीख सकते हैं जो मूल रूप से भीड़ श्रमिकों द्वारा प्रशिक्षित किए गए थे – कि मशीनों में लोगों से संचारित किए गए मूल ज्ञान को प्रभावी ढंग से पूरा किया जा चुका है, और जहां ऐसा ज्ञान अपेक्षाकृत अपरिवर्तनीय या कुछ तरीके से अनुभवजन्य है, स्वचालित भाषा मॉडल फ्रेमवर्क स्वयं इन कार्यों को कर सकते हैं।

‘हमारा मूल विचार यह है कि एक एनएलपी कार्य टी के लिए, हम फ्यू-शॉट लर्नर्स को गैर-विशेषज्ञ श्रमिकों के रूप में मानते हैं, जो मानव भाषा प्रौद्योगिकी के लिए संसाधनों को एनोटेट करने वाले भीड़ से सोर्स श्रमिकों की तरह हैं। हम इस तथ्य से प्रेरित हैं कि हम एक भीड़ से सोर्स श्रमिक को एक प्रकार के फ्यू-शॉट लर्नर के रूप में देख सकते हैं।’

निहितार्थों में यह संभावना शामिल है कि भविष्य के एआई सिस्टम पर निर्भर कई मूल सत्य पूरी तरह से मानवों से कुछ वर्षों पहले व्युत्पन्न किए गए होंगे, और बाद में पूर्व-मान्य और शोषणीय जानकारी के रूप में माना जाएगा जिसके लिए मानव हस्तक्षेप की आवश्यकता नहीं होगी।

मध्य-श्रेणी, अर्ध-प्रदर्शन भाषा मॉडल के लिए नौकरियां

मानवों-इन-द-लूप की लागत को कम करने के प्रेरणा के अलावा, शोधकर्ता सुझाव देते हैं कि ‘मध्य-श्रेणी’ पीएलएम का उपयोग वास्तव में यांत्रिक तुर्क के रूप में उपयोगी कार्य प्रदान करता है, जो बढ़ते गिगांटिक फ्यू-शॉट लर्नर्स द्वारा छाया हुआ है, जो जीपीटी-3 जैसे हैं, जो ऐसे कार्यों के लिए बहुत महंगे और अधिक विशिष्ट हैं।

‘हमारा लक्ष्य इस पत्र में प्रभावी ढंग से वर्तमान फ्यू-शॉट लर्नर्स का उपयोग करने के तरीके तैयार करना है। यह महत्वपूर्ण है क्योंकि एक बढ़ती संख्या में विशाल फ्यू-शॉट लर्नर्स प्रशिक्षित किए जा रहे हैं; उन्हें प्रभावी ढंग से उपयोग करना इस प्रकार एक महत्वपूर्ण प्रश्न है। विशेष रूप से, हम एक विकल्प चाहते हैं कि कठिनाई से तैनात बड़े मॉडल। ‘

‘साथ ही, हम पीएलएम की ताकत का पूरा फायदा उठाना चाहते हैं: उनकी बहुमुखी प्रतिभा व्यापक अनुप्रयोगों को सुनिश्चित करती है; उनके पास भाषा और दुनिया के बारे में ज्ञान का विशाल भंडार है (पूर्व-प्रशिक्षण में सीखा हुआ) जो फ्यू-शॉट लर्नर्स में डेटा की कुशलता में प्रकट होता है, डेटा एनोटेशन में श्रम और समय की खपत को कम करता है।’

अब तक, लेखकों का तर्क है कि एनएलपी में फ्यू-शॉट लर्नर्स को उच्च-स्तरीय प्राकृतिक भाषा प्रणालियों के मार्ग पर अस्थायी मध्यवर्ती चरणों के रूप में माना जाता है, जो बहुत अधिक संसाधन गहन हैं, और ऐसा काम अमूर्त रूप से और इन प्रणालियों के संभावित उपयोगिता के बिना किया गया है।

विधि

लेखक एलएमटुर्क (भाषा मॉडल को यांत्रिक तुर्क के रूप में) की पेशकश करते हैं, जिसमें एक स्वचालित हिट से इनपुट एक मध्य-स्तरीय एनएलपी मॉडल के लिए लेबल प्रदान करता है।

एलएमटुर्क के लिए एक बुनियादी अवधारणा मॉडल。 स्रोत: https://arxiv.org/pdf/2112.07522.pdf

यह पहली पुनरावृत्ति फ्यू-शॉट मानव-लेबल्ड ‘गोल्ड’ डेटा पर निर्भर करती है, जहां मांसवेयर तुर्क ने सीमित संख्या में कार्यों के लिए लेबल एनोटेट किए हैं, और लेबल को अच्छी तरह से स्कोर किया गया है, या तो सीधे मानव पर्यवेक्षण के माध्यम से या सहमति मतदान के माध्यम से। इस योजना का अर्थ यह है कि इस मानव-आधारित प्रारंभिक बिंदु से फोर्क या विकास को भविष्य में अतिरिक्त मानव इनपुट की आवश्यकता नहीं हो सकती है।

हालांकि लेखक बाद के हाइब्रिड मॉडल्स (जहां मानव इनपुट मौजूद होगा, लेकिन बहुत कम होगा) के साथ आगे प्रयोगों का सुझाव देते हैं, उन्होंने अपने शोध के उद्देश्यों के लिए एलएमटुर्क मॉडल्स को मानव-उत्पन्न हिट श्रमिकों से मिलने वाले परिणामों के खिलाफ नहीं डाला, यह देखते हुए कि सोने-लेबल वाला डेटा स्वयं ‘मानव इनपुट’ है।

पीएलएम को तुर्क ऑपरेशन करने के लिए 2021 में चीन के शोधकर्ताओं द्वारा प्रकाशित पी-ट्यूनिंग द्वारा इस कार्य के लिए अनुकूलित किया गया था, जिसने प्राकृतिक भाषा समझ (एनएलयू) कार्यों पर जीपीटी-3-शैली के मॉडल्स के प्रदर्शन में सुधार के लिए प्रशिक्षित निरंतर प्रॉम्प्ट एम्बेडिंग का प्रस्ताव किया था।

पी-ट्यूनिंग जीपीटी-शैली मॉडल की पूर्वानुमान शक्ति को गहरा करने और भाषा की概念ual समझ की उपस्थिति को बढ़ाने का प्रयास करता है, एम्बेडेड प्सेव्डो-प्रॉम्प्ट्स को शामिल करके। इस मामले में, प्रारंभिक प्रश्न है ‘ब्रिटेन की राजधानी एक [x]’। स्रोत: https://arxiv.org/pdf/2103.10385.pdf

डेटा और वास्तुकला

एलएमटुर्क का मूल्यांकन पांच डेटासेट पर किया गया था: स्टैनफोर्ड सेंटिमेंट ट्रीबैंक के दो; एगी के न्यूज़ कॉर्पस; टेक्स्टुअल एंटेलमेंट (आरटीई); और लिंग्विस्टिक एक्सेप्टेबिलिटी (कोला) का कॉर्पस।

इसके बड़े मॉडल के लिए, एलएमटुर्क ने सार्वजनिक रूप से उपलब्ध पीएलएम एल्बर्ट-एक्सएक्सलार्ज-वी2 (एएक्सएलवी2) का उपयोग ऑटोमेटेड तुर्क में रूपांतरण के लिए स्रोत मॉडल के रूप में किया है। मॉडल में 223 मिलियन पैरामीटर हैं (जीपीटी-3 में 175 बिलियन पैरामीटर की तुलना में)। एक्सएलवी2, लेखकों का观察 है कि उच्च स्तर के मॉडल जैसे 334एम बेर्ट-लार्ज को पूरा करने में सक्षम साबित हुआ है।

एक अधिक चुस्त, हल्के और एज-तैनाती योग्य मॉडल के लिए, परियोजना टीबीजी (टिनीबेर्ट-जनरल-4एल-312डी) का उपयोग करती है, जिसमें 14.5 मिलियन पैरामीटर हैं जो बेर्ट-बेस (जिसमें 110 मिलियन पैरामीटर हैं) के प्रदर्शन के समान हैं।

प्रॉम्प्ट-सक्षम प्रशिक्षण पाइटोर्च और हगिंगफेस पर एएक्सएलवी2 के लिए 100 बैच चरणों में 13 के बैच आकार पर 5ई-4 की लर्निंग दर के साथ, रैखिक क्षय का उपयोग करके हुआ। प्रत्येक प्रयोग को तीन अलग-अलग यादृच्छिक बीजों के साथ उत्पन्न किया गया था।

परिणाम

एलएमटुर्क परियोजना विभिन्न मॉडलों को एनएलपी के इतने सारे विशिष्ट उप-क्षेत्रों के खिलाफ चलाती है कि शोधकर्ताओं के प्रयोगों के परिणाम एलएमटुर्क को स्वयं एक व्यवहार्य दृष्टिकोण के रूप में पुनर्निर्मित ऐतिहासिक, मानव-मूल हिट-शैली फ्यू-शॉट लर्निंग परिदृश्यों के पुन: उपयोग के लिए संक्षिप्त करना मुश्किल है।

हालांकि, मूल्यांकन के उद्देश्यों के लिए, लेखक अपनी विधि की तुलना दो पूर्व कार्यों से करते हैं: फ्यू-शॉट टेक्स्ट क्लासिफिकेशन और नेचरल लैंग्वेज इन्फरेंस के लिए क्लोज़ प्रश्नों का शोषण जर्मन शोधकर्ता टिमो शिक और हिनरिच शुट्ज़ द्वारा; और प्रॉम्प्ट-आधारित ऑटो से परिणाम, प्री-प्रशिक्षित भाषा मॉडल को बेहतर फ्यू-शॉट लर्नर्स बनाना गाओ, चेन और फिश (क्रमशः प्रिंसटन और एमआईटी से) द्वारा।

एलएमटुर्क प्रयोगों के परिणाम, शोधकर्ताओं ने ‘तुलनात्मक’ प्रदर्शन की सूचना दी।

संक्षेप में, एलएमटुर्क एक अपेक्षाकृत आशाजनक अनुसंधान रेखा प्रदान करता है जो सोने-लेबल वाले मानव-मूल डेटा को विकसित होते मध्य-जटिलता वाले भाषा मॉडल में निहित और प्रतिष्ठापित करने के लिए देख रहे शोधकर्ताओं के लिए।

जैसा कि इस क्षेत्र में अपेक्षाकृत छोटी मात्रा में पिछले कार्य में, केंद्रीय अवधारणा मूल मानव डेटा की अपरिवर्तनीयता पर निर्भर करती है, और यह धारणा कि समय संबंधी कारक – जो एनएलपी विकास में महत्वपूर्ण बाधाएं प्रस्तुत कर सकते हैं – मशीन-मात्र वंश के विकसित होने के रूप में मानव हस्तक्षेप की आवश्यकता नहीं होगी।

मूल रूप से 30 दिसंबर 2022 को प्रकाशित

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai