рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
GPT-3 : рдлреНрдпреВ рд╢реЙрдЯ рд▓рд░реНрдирд┐рдВрдЧ рдлреЙрд░ рд▓реИрдВрдЧреНрд╡реЗрдЬ рдореЙрдбрд▓?

पिछले कुछ वर्षों में, एआई और एमएल उद्योग में एनएलपी सिस्टम के विकास और अनुप्रयोग में एक उल्कापिंड वृद्धि देखी गई है, क्योंकि शोधकर्ताओं ने एनएलपी प्रथाओं को डाउनस्ट्रीम ट्रांसफर कार्यों के लिए अत्यधिक लचीले और कार्य-एज्नोस्टिक तरीकों से लागू करने में सक्षम हैं।
शुरुआत में, यह एकल-परत प्रतिनिधित्व था जो शब्द वेक्टर का उपयोग करता था, और फिर कार्य-विशिष्ट वास्तुकला में खिलाया जाता था। अगला, यह आरएनएन वास्तुकला थी जिसने मल्टी-लेयर प्रतिनिधित्व और संदर्भ स्थिति का उपयोग करके बेहतर प्रतिनिधित्व बनाने के लिए किया था। और सबसे हाल ही में, हमारे पास पूर्व-प्रशिक्षित पुनरावृत्त मॉडल या हस्तांतरण भाषा मॉडल हैं जिन्होंने पूरी तरह से कार्य-विशिष्ट वास्तुकला की आवश्यकता को समाप्त कर दिया है bằng इन नेटवर्क को फ़ाइन-ट्यूनिंग करके।
हस्तांतरण भाषा मॉडल एनएलपी उद्योग में एक प्रमुख मोड़ साबित हुए हैं क्योंकि उन्होंने प्रश्नों के उत्तर देने, पाठ की समझ, पाठ के ब्लॉक, पाठ संबंध, और बहुत कुछ जैसे चुनौतीपूर्ण कार्यों पर महत्वपूर्ण प्रगति की है।
हालांकि, उनके फायदों के बावजूद, हस्तांतरण भाषा मॉडल में एक प्रमुख सीमा है क्योंकि उन्हें वांछित प्रदर्शन प्राप्त करने के लिए कार्य-विशिष्ट फ़ाइन-ट्यूनिंग या कार्य-विशिष्ट डेटासेट की आवश्यकता होती है। इसके अलावा, हस्तांतरण भाषा मॉडल को विकसित करने वालों को प्रत्येक कार्य के लिए सैकड़ों हजारों उदाहरणों के साथ डेटासेट को फ़ाइन-ट्यून करने की आवश्यकता होती है।
यह कहना अतिशयोक्ति नहीं होगी कि कार्य-विशिष्ट डेटासेट और कार्य-विशिष्ट फ़ाइन-ट्यूनिंग की आवश्यकता को हटाना बहुत वांछनीय और एनएलपी उद्योग के लिए कई कारणों से लाभकारी होगा।
मौजूदा पूर्व-प्रशिक्षित हस्तांतरण भाषा मॉडल या पुनरावृत्त मॉडल के साथ मुद्दे
- व्यावहारिकता और अनुप्रयोग को सीमित करना
सबसे पहले और सबसे महत्वपूर्ण, प्रत्येक कार्य के लिए लेबल वाले डेटा के साथ एक बड़े डेटासेट की आवश्यकता भाषा मॉडल की व्यावहारिकता और अनुप्रयोग को सीमित करती है। भाषा मॉडल का अनुप्रयोग एक छोटी कहानी बनाने से लेकर व्याकरणिक त्रुटियों को ठीक करने तक, और एक अवधारणा पर उदाहरण बनाने तक होता है। कभी-कभी, यह एक बड़े पर्यवेक्षित डेटासेट को इकट्ठा करना एक चुनौतीपूर्ण कार्य हो सकता है, खासकर जब प्रक्रिया को प्रत्येक व्यक्तिगत कार्य के लिए दोहराने की आवश्यकता होती है।
- प्रशिक्षण डेटा में स्प्यूरियस संबंधों का शोषण
प्रशिक्षण वितरण की सीमाएं और मॉडल की अभिव्यक्ति के साथ मिलकर प्रशिक्षण डेटा में स्प्यूरियस संबंधों का शोषण करने की क्षमता में मूलभूत वृद्धि हो सकती है। प्रशिक्षण डेटा का शोषण करने की क्षमता फ़ाइन-ट्यूनिंग और पूर्व-प्रशिक्षण परिदृश्य के दौरान समस्याएं पैदा कर सकती है क्योंकि हस्तांतरण भाषा मॉडल को पूर्व-प्रशिक्षण के दौरान एक बड़ी मात्रा में जानकारी को अवशोषित करने के लिए डिज़ाइन किया गया है।
इसके अलावा, पिछले मॉडलों पर काम ने संकेत दिया है कि बड़े मॉडल हमेशा बेहतर आउट-ऑफ-डिस्ट्रीब्यूशन प्रदर्शन नहीं करते हैं। इसके अलावा, यह भी संकेत दिया गया है कि ऐसे परिदृश्य के तहत प्राप्त सामान्यीकरण खराब प्रदर्शन में परिणत हो सकता है, मुख्य रूप से क्योंकि मॉडल प्रशिक्षण डेटा के लिए अत्यधिक विशिष्ट है और प्रशिक्षण डेटा के दायरे से परे स्थितियों पर अच्छा प्रदर्शन नहीं कर सकता है।
- मानव शिक्षा की तुलना
अंत में, हस्तांतरण भाषा मॉडल की तुलना में मानव को एक बड़े प्रशिक्षण डेटासेट की आवश्यकता नहीं होती है जब यह अधिकांश भाषा कार्यों को सीखने की बात आती है। अधिकांश मामलों में, एक व्यक्ति की प्राकृतिक भाषा में एक संक्षिप्त निर्देश या भाषा कार्य का एक छोटा प्रदर्शन पर्याप्त होता है ताकि मानव एक निश्चित स्तर की प्रतिस्पर्धा के साथ भाषा कार्य को समझ और प्रदर्शन कर सके।
मानव की अनुकूलन क्षमता के कई व्यावहारिक लाभ हैं क्योंकि यह उन्हें विभिन्न कौशल सेटों के बीच स्विच करने या उन्हें एक साथ मिलाने की अनुमति देता है ताकि वे एक वार्तालाप के दौरान बेहतर प्रदर्शन कर सकें, जो वर्तमान एनएलपी सिस्टम की क्षमताओं से परे है।
मेटा लर्निंग और जीपीटी-3 के साथ मुद्दों का समाधान
उपरोक्त चुनौतियों का एक संभावित समाधान मेटा लर्निंग का उपयोग है, जो एक आधुनिक एमएल अवधारणा है जो एक मॉडल को प्रशिक्षण के दौरान एक बड़े और व्यापक सेट कौशल और पैटर्न को पहचानने की क्षमता विकसित करने की अनुमति देती है, और फिर इन सीखी गई क्षमताओं का उपयोग अंतरферен्स के दौरान तेजी से अनुकूलन या कार्य को पहचानने के लिए करती है।
मेटा लर्निंग को भाषा मॉडल वास्तुकला में “इन-कॉन्टेक्स्ट लर्निंग” नामक एक तकनीक के माध्यम से लागू किया जा रहा है जो पूर्व-प्रशिक्षित भाषा मॉडल के टेक्स्ट इनपुट का उपयोग कार्य विनिर्देश के रूप में करता है। इस प्रक्रिया में, मॉडल एक प्राकृतिक भाषा निर्देश पर सशर्त है, और यहां तक कि कुछ प्रदर्शनों का उपयोग कर सकता है, और फिर मॉडल को कार्य को पूरा करने के लिए अगले चरणों की भविष्यवाणी करने की अपेक्षा की जाती है।
मेटा लर्निंग के साथ मुख्य समस्या यह है कि हालांकि इसमें सकारात्मक संभावना दिखाई दी है, यह अभी भी प्राकृतिक भाषा वास्तुकला में फ़ाइन-ट्यूनिंग दृष्टिकोण से कमजोर है, और इसके लिए भाषा कार्यों को पार करने के लिए एक व्यावहारिक तरीके के रूप में और सुधार की आवश्यकता है।
मेटा लर्निंग के अलावा, एक और तरीका जो लोकप्रियता हासिल कर रहा है वह है ट्रांसफॉर्मर भाषा मॉडल की क्षमता में वृद्धि करना। पिछले कुछ वर्षों में, ट्रांसफर मॉडल ने अपनी क्षमता में एक महत्वपूर्ण वृद्धि देखी है जिसमें आरएनएसएस18 मॉडल 100 मिलियन पैरामीटर, डीसीएलटी18 मॉडल 300 मिलियन पैरामीटर, आरडब्ल्यूसी19 मॉडल 1.5 बिलियन पैरामीटर, एसएसपी19 मॉडल 8 बिलियन पैरामीटर, आरएसआर19 मॉडल 11 बिलियन पैरामीटर, और टीयूआर20 मॉडल 17 बिलियन पैरामीटर के साथ हैं।
मॉडल की क्षमता में वृद्धि या पैरामीटर में वृद्धि ने ऐतिहासिक रूप से पाठ संश्लेषण में सुधार किया है, और यह संकेत दिया गया है कि लॉग हानि जो डाउनस्ट्रीम कार्यों से संबंधित है, भी स्केल के साथ एक चिकनी प्रवृत्ति का अनुसरण करता है।
यह हमें जीपीटी-3 मॉडल तक ले जाता है जिसमें 175 बिलियन पैरामीटर हैं, और जब यह लॉन्च किया गया था, तो यह उच्चतम क्षमता वाला ट्रांसफर भाषा मॉडल था। आइए अब जीपीटी-3 मॉडल के बारे में बात करें।
जीपीटी-3 मॉडल: एक परिचय
जीपीटी-3 एक ऑटोएग्रेसिव भाषा मॉडल है जिसमें 175 बिलियन पैरामीटर हैं और जिसे ओपनएआई द्वारा 2020 में जारी किया गया था। जीपीटी-3 को भी एक बड़े भाषा मॉडल के रूप में वर्गीकृत किया जाता है जो अपने पूर्ववर्ती जीपीटी-2 मॉडल की तरह एक डिकोडर-ओनली डीप लर्निंग ट्रांसफॉर्मर मॉडल है जो टेक्स्ट डेटा को उत्पन्न करने के लिए कॉन्वोल्यूशन-आधारित वास्तुकला का उपयोग करता है।
जीपीटी-3 मॉडल अपनी स्वयं की संदर्भ-शिक्षा क्षमताओं को मापता है, और जीपीटी-3 मॉडल को दो दर्जन से अधिक एनएलपी डेटासेट और कई नए कार्यों पर मूल्यांकित किया जाता है। प्रत्येक व्यक्तिगत कार्य के लिए, जीपीटी-3 मॉडल को तीन स्थितियों के तहत मूल्यांकित किया जाता है,
- फ्यू शॉट लर्निंग या इन-कॉन्टेक्स्ट लर्निंग: फ्यू शॉट लर्निंग में, जीपीटी-3 मॉडल मॉडल के संदर्भ विंडो में फिट होने वाले वितरण की अनुमति देता है।
- वन शॉट लर्निंग: वन शॉट लर्निंग में, मॉडल को केवल एक प्रदर्शन की अनुमति है।
- जीरो शॉट लर्निंग: जीरो शॉट लर्निंग में, कोई प्रदर्शन नहीं है, और केवल एक प्राकृतिक भाषा निर्देश है जो मॉडल को खिलाया जाता है।

व्यापक रूप से, जीपीटी-3 मॉडल ज़ीरो-शॉट और वन-शॉट सेटिंग्स में वांछित प्रदर्शन प्राप्त करता है, और फ्यू-शॉट सेटिंग में यह अधिकांश समय राज्य-ऑफ-द-आर्ट ट्रांसफर मॉडल को पार करता है। इसके अलावा, जीपीटी-3 मॉडल वन-शॉट और ज़ीरो-शॉट सेटिंग्स में प्राकृतिक भाषा कार्यों पर अच्छा प्रदर्शन करता है जो तेजी से तर्क या त्वरित ध्यान की आवश्यकता होती है, जैसे कि एक नए शब्द का उपयोग करना या शब्दों को अनस्क्रैम्बल करना या अंकगणितीय संचालन करना। दूसरी ओर, फ्यू-शॉट सेटिंग में संचालित होने पर, जीपीटी-3 मॉडल मानव लेखन के समान सिंथेटिक समाचार लेख उत्पन्न करता है जब इसे मानव मूल्यांककों के माध्यम से पारित किया जाता है।

जीपीटी-3 मॉडल: दृष्टिकोण
जीपीटी-3 मॉडल एक पारंपरिक पूर्व-प्रशिक्षण दृष्टिकोण का उपयोग करता है जिसमें मॉडल, डेटा, और प्रशिक्षण शामिल है, और यह आरडब्ल्यूसी-19 ट्रांसफर भाषा मॉडल द्वारा अनुसरण किए गए पूर्व-प्रशिक्षण प्रक्रिया के समान है। जीपीटी-3 मॉडल मॉडल के आकार, डेटासेट के आकार, डेटासेट की विविधता, और प्रशिक्षण अवधि की लंबाई को बढ़ाता है।
मॉडल एक इन-कॉन्टेक्स्ट लर्निंग दृष्टिकोण का भी उपयोग करता है जो एक बार फिर से आरडब्ल्यूसी-19 मॉडल के दृष्टिकोण के समान है, लेकिन डेटासेट के संदर्भ में पैटर्न सीखने के लिए विभिन्न सेटिंग्स का व्यवस्थित रूप से अन्वेषण करके चीजों को थोड़ा बदल देता है।
तो आइए इन सेटिंग्स का अन्वेषण करें और मूल्यांकन करें कि जीपीटी-3 मॉडल विभिन्न सेटिंग्स पर कैसा प्रदर्शन करता है।
फ़ाइन-ट्यूनिंग
मॉडल को फ़ाइन-ट्यून करना ट्रांसफर भाषा मॉडल में एक पारंपरिक दृष्टिकोण रहा है, और यह दृष्टिकोण मॉडल को एक पर्यवेक्षित डेटासेट पर प्रशिक्षित करने के लिए शामिल करता है जो वांछित कार्य के लिए विशिष्ट है, और सैकड़ों हजारों लेबल वाले उदाहरणों का उपयोग किया जाता है।
फ़ाइन-ट्यूनिंग दृष्टिकोण लाभदायक है क्योंकि यह विभिन्न बेंचमार्क पर मजबूत प्रदर्शन प्रदान करता है। दूसरी ओर, फ़ाइन-ट्यूनिंग दृष्टिकोण का मुख्य सीमा यह है कि यह प्रत्येक कार्य के लिए एक नए और बड़े डेटासेट की आवश्यकता होती है, प्रशिक्षण डेटासेट की स्प्यूरियस विशेषताओं का शोषण करने की क्षमता है, मानव प्रदर्शन के साथ अनुचित तुलना हो सकती है, और बाहरी-वितरण के लिए खराब सामान्यीकरण हो सकता है।
जीपीटी-3 मॉडल के वर्तमान दायरे में फ़ाइन-ट्यूनिंग दृष्टिकोण को लागू नहीं किया गया है क्योंकि इसके कार्य-एज्नोस्टिक प्रदर्शन के कारण, हालांकि जीपीटी-3 मॉडल पर फ़ाइन-ट्यूनिंग को भविष्य में लागू किया जा सकता है।
फ्यू शॉट
फ्यू शॉट एक शब्द है जो उस सेटिंग को संदर्भित करता है जहां जीपीटी-3 मॉडल को हस्तक्षेप के दौरान कार्य के प्रदर्शन के रूप में कुछ प्रदर्शन दिए जाते हैं, लेकिन मॉडल के वजन को अद्यतन नहीं किया जाता है। फ्यू-शॉट सेटिंग्स में, डेटासेट में आमतौर पर एक संदर्भ और एक वांछित पूर्णता (उदाहरण के लिए, एक फ्रेंच वाक्य और इसका अंग्रेजी अनुवाद) के साथ एक उदाहरण होता है। फ्यू-शॉट सेटिंग मॉडल को संदर्भ और पूर्णता के K उदाहरण प्रदान करता है, और फिर मॉडल को एक अंतिम संदर्भ प्रदान करता है और मॉडल से पूर्णता प्रदान करने की अपेक्षा की जाती है।
फ्यू-शॉट लर्निंग का उपयोग करने का मुख्य लाभ यह है कि यह कार्य-विशिष्ट डेटा की आवश्यकता को काफी कम कर देता है, और एक बड़े डेटासेट पर फ़ाइन-ट्यूनिंग के दौरान एक संकीर्ण वितरण सीखने की संभावना को भी कम करता है। दूसरी ओर, फ्यू-शॉट लर्निंग का उपयोग करने का मुख्य नुकसान यह है कि फ्यू-शॉट सेटिंग में प्राप्त परिणाम अन्य राज्य-ऑफ-द-आर्ट मॉडल की तुलना में फ़ाइन-ट्यून किए गए मॉडल की तुलना में महत्वपूर्ण रूप से कमजोर हैं।
वन शॉट
वन शॉट सेटिंग में, मॉडल को केवल एक प्रदर्शन प्रदान किया जाता है, और बाकी फ्यू-शॉट सेटिंग के समान है। वन शॉट सेटिंग का कारण यह है कि ट्रांसफर भाषा मॉडल में तीनों सेटिंग्स में से यह वह है जो कार्यों को मानवों को संवाद करने का सबसे अच्छा तरीका है। यह इसलिए है क्योंकि अधिकांश कार्यों में, कार्य को समझने के लिए एक प्रदर्शन देना सामान्य है, अन्यथा कार्य के संदर्भ को समझना मुश्किल हो सकता है।
जीरो शॉट
जीरो शॉट सेटिंग में, कोई प्रदर्शन नहीं है, और मॉडल को एक प्राकृतिक भाषा निर्देश प्रदान किया जाता है जो कार्य का वर्णन करता है। जीरो-शॉट विधि सबसे अधिक सुविधाजनक है, लचीली है, और स्प्यूरियस संबंधों से बचती है, लेकिन यह तीनों सेटिंग्स में से सबसे चुनौतीपूर्ण भी है। यह इसलिए है क्योंकि कुछ मामलों में, यहां तक कि मानवों के लिए भी कार्य के संदर्भ को समझना मुश्किल हो सकता है बिना पहले एक प्रदर्शन देखे।
फिर भी, कुछ कार्यों के लिए, जीरो-शॉट सेटिंग वह है जो मानवों द्वारा प्राकृतिक भाषा कार्यों को प्रदर्शन करने के सबसे करीब है।

उपरोक्त चित्र फ्यू-शॉट, वन-शॉट, और जीरो-शॉट सेटिंग की तुलना करता है जब एक प्राकृतिक भाषा कार्य को अंग्रेजी वाक्य को फ्रेंच में अनुवादित करने की कोशिश की जा रही है।
जीपीटी-3: मॉडल वास्तुकला
जीपीटी-3 मॉडल जीपीटी-2 मॉडल में उपयोग की जाने वाली समान वास्तुकला का उपयोग करता है, और इसमें पूर्व-मानकीकरण, संशोधित प्रारंभिककरण, और प्रतिवर्ती टोकनीकरण तकनीकें शामिल हैं जैसा कि जीपीटी-मॉडल में उपयोग किया गया था, स्थानीय रूप से बैंडेड स्पार्स ध्यान पैटर्न के लिए एक वैकल्पिक रणनीति का उपयोग करने के साथ, और ट्रांसफॉर्मर परतों में घने परतों को वैकल्पिक करने के साथ, जैसा कि स्पार्स ट्रांसफॉर्मर में किया गया था।
मॉडल के प्रदर्शन को मॉडल के आकार पर निर्भर करने के लिए अध्ययन करने के लिए, विकासकर्ताओं ने 8 अलग-अलग मॉडल के आकार प्रशिक्षित किए हैं जो तीन अलग-अलग क्रमों में 125 मिलियन से लेकर 175 बिलियन पैरामीटर तक हैं, जिनमें से अंतिम को जीपीटी-3 मॉडल कहा जाता है। पूर्व के एलएलएम मॉडल से संबंधित कार्य ने संकेत दिया है कि प्रशिक्षण डेटा की पर्याप्त मात्रा के साथ सत्यापन हानि का आकार के रूप में एक सम्मिश्र शक्ति कानून के रूप में एक लगभग चिकनी प्रवृत्ति का अनुसरण करना चाहिए। विभिन्न आकारों के मॉडलों को प्रशिक्षित करने से विकासकर्ताओं को दोनों डाउनस्ट्रीम भाषा कार्यों और सत्यापन हानि के लिए इस धारणा का परीक्षण करने की अनुमति मिलती है।

उपरोक्त चित्र जीपीटी-3 मॉडल वास्तुकला में उपयोग किए गए 8 अलग-अलग मॉडलों के आकार और वास्तुकला की तुलना करता है। यहाँ, n(params) प्रशिक्षित पैटर्न की कुल संख्या को परिभाषित करता है, n(layers) मॉडल में परतों की कुल संख्या को परिभाषित करता है, d(model) प्रत्येक परत में इकाइयों की संख्या को परिभाषित करता है, और d(head) प्रत्येक ध्यान सिर के आयामों को परिभाषित करता है। प्रत्येक मॉडल के लिए संदर्भ विंडो 2048 टोकन के साथ समान है।
इसके अलावा, नोड्स के बीच डेटा के हस्तांतरण को कम करने के लिए, मॉडल को गहराई और चौड़ाई के आयामों के साथ जीपीयू पर विभाजित किया जाता है। प्रत्येक मॉडल के लिए वास्तुकला पैरामीटर गणनात्मक दक्षता, लोड-संतुलन के आधार पर चुने गए हैं ताकि जीपीयू पर मॉडल की व्यवस्था में सटीकता को अधिकतम किया जा सके।
प्रशिक्षण डेटासेट
आम तौर पर, बड़े भाषा मॉडल एक ट्रिलियन से अधिक विभिन्न शब्दों के साथ सामान्य क्रॉल डेटासेट जैसे डेटासेट का उपयोग करते हैं। डेटासेट का आकार जीपीटी-3 मॉडल को बिना एक ही क्रम में कई बार अपडेट किए प्रशिक्षित करने के लिए पर्याप्त है। हालांकि, अध्ययन और प्रदर्शन विश्लेषण से पता चलता है कि सामान्य क्रॉल डेटासेट के हल्के फिल्टर्ड संस्करण या अनफिल्टर्ड संस्करण उच्च-गुणवत्ता वाले डेटासेट की तुलना में कम गुणवत्ता वाले हैं।
डेटासेट की औसत गुणवत्ता के मुद्दे से निपटने के लिए, विकासकर्ताओं ने डेटासेट की गुणवत्ता में सुधार करने के लिए तीन कदम उठाए हैं।
- विकासकर्ताओं ने सामान्य क्रॉल डेटासेट का एक संस्करण डाउनलोड और फिल्टर किया है जो उच्च-गुणवत्ता वाले संदर्भ निगमों के समान है।
- विकासकर्ताओं ने डेटासेट में दस्तावेज़ स्तर पर फजी डुप्लिकेशन किया है ताकि उनके रखे गए सत्यापन सेट की अखंडता को एक प्रभावी माप के रूप में ओवरफिटिंग को बनाए रखने के लिए, और पुनरावृत्ति से बचने के लिए।
- विकासकर्ताओं ने सामान्य क्रॉल डेटासेट में उच्च-गुणवत्ता वाले संदर्भ निगमों को जोड़कर प्रशिक्षण डेटा में विविधता को बढ़ाने के लिए और डेटासेट को और बढ़ाने के लिए।
निम्नलिखित चित्र जीपीटी-3 मॉडल के प्रशिक्षण के लिए उपयोग किए गए डेटासेट के अंतिम अनुपात या मिश्रण को दिखाता है। सामान्य क्रॉल डेटा 45 टीबी के मूल प्लेनटेक्स्ट में कम हो गया था जो फिल्टरिंग के बाद 570 जीबी के डेटा में कम हो गया, जो लगभग 400 बिलियन बाइट-जोड़े टोकन के बराबर है। यह ध्यान देने योग्य है कि प्रशिक्षण में देखे जाने वाले डेटासेट जो उच्च-गुणवत्ता वाले माने जाते हैं उन्हें उनके आकार के अनुपात में नमूना लिया जाता है, न कि उनके आकार के अनुपात में। इसके परिणामस्वरूप, डेटासेट जैसे कि बुक्स2 और सामान्य क्रॉल कम से कम एक बार प्रशिक्षण के दौरान नमूना लिया जाता है, जबकि अन्य डेटासेट को कई बार नमूना लिया जाता है। यह मॉडल को प्रशिक्षण डेटा की उच्च गुणवत्ता वाले डेटा पर प्रशिक्षित करने की अनुमति देता है, भले ही इसका मतलब थोड़ा ओवरफिटिंग हो।

एक बड़े पैमाने पर पूर्व-प्रशिक्षित भाषा मॉडल के साथ एक महत्वपूर्ण चिंता यह है कि यह एक बड़ी मात्रा में इंटरनेट डेटा पर प्रशिक्षित होता है और एक बड़ी मात्रा में सामग्री को सीखने और याद रखने में सक्षम होता है, जो डाउनस्ट्रीम कार्यों के विकास या परीक्षण सेट को पूर्व-प्रशिक्षण प्रक्रिया के दौरान देखे जाने से दूषित होने की संभावना है। इस संभावित दूषितता को कम करने के लिए, विकासकर्ताओं ने जीपीटी-3 के लिए अध्ययन किए गए बेंचमार्क के परीक्षण और विकास सेट के साथ ओवरलैप की खोज की और उन्हें हटाने का प्रयास किया।

उपरोक्त छवि जीपीटी-3 मॉडल के प्रशिक्षण के दौरान उपयोग किए जाने वाले कुल कंप्यूट को दर्शाती है। मॉडल न्यूरल भाषा मॉडल के लिए स्केलिंग कानूनों का उपयोग करके प्रशिक्षित किया जाता है ताकि बहुत बड़े मॉडल को कम टोकन पर प्रशिक्षित किया जा सके। इसके परिणामस्वरूप, जीपीटी-3 और रोबेर्टा-लार्ज मॉडल, जो जीपीटी-3 के आकार का 10 गुना छोटा है, दोनों ने पूर्व-प्रशिक्षण प्रक्रिया के दौरान लगभग 50 पेटाफ्लॉप/दिन कंप्यूट का उपयोग किया।
मूल्यांकन
फ्यू-शॉट लर्निंग के लिए, मॉडल प्रत्येक उदाहरण का मूल्यांकन करता है जो मूल्यांकन डेटासेट में मौजूद है और कार्य के प्रशिक्षण डेटासेट से यादृच्छिक रूप से K उदाहरणों को आकर्षित करके सशर्त होता है, और इसे 1 या 2 नए पंक्तियों द्वारा सीमित किया जाता है, जो कार्य पर निर्भर करता है। स्टोरीक्लोज़ और लैम्बाडा के लिए, मॉडल का मूल्यांकन विकास सेट से और परीक्षण सेट पर किया जाता है क्योंकि एक पर्यवेक्षित प्रशिक्षण सेट की अनुपलब्धता के कारण। विनोग्राड के लिए, केवल एक डेटासेट है, और इसलिए सशर्त नमूने सीधे उसमें से लिए जाते हैं।
K कोई भी मान हो सकता है जो मॉडल के संदर्भ विंडो में फिट हो सकता है जो n = 2048 टोकन के लिए सभी मॉडलों के लिए है, और यह आमतौर पर 10 से 100 उदाहरणों के बीच होता है। K के बड़े मान अक्सर बेहतर परिणामों की ओर ले जाते हैं, लेकिन हमेशा नहीं। यही कारण है कि जब मॉडल के पास एक परीक्षण सेट और एक अलग विकास सेट उपलब्ध होता है, तो मॉडल विकास सेट पर K के कुछ मानों का प्रयोग करता है, और परिणामों के आधार पर, यह परीक्षण सेट पर सबसे अच्छा मान चलाता है।
इसके अलावा, उन कार्यों पर जो कई विकल्पों से सही पूर्णता का चयन करने की आवश्यकता होती है, विकासकर्ता K उदाहरणों को प्रदान करते हैं जो संदर्भ और पूर्णता के साथ होते हैं, और इसके बाद संदर्भ के साथ एक उदाहरण प्रदान करते हैं, और कार्यों को प्रत्येक पूर्णता की एलएम संभावना के आधार पर तुलना की जाती है। द्विआधारी वर्गीकरण कार्यों के लिए, मॉडल अक्सर अधिक सेमैंटिक रूप से और अधिक अर्थपूर्ण नामों के साथ विकल्प प्रदान करता है, और फिर कार्य को एक मultiple चॉइस के रूप में मानता है, और कभी-कभी इसे आरएसआर मॉडल और आर्किटेक्चर द्वारा किए गए कार्य के समान फ्रेम करता है।
मुक्त-रूप में पूर्णता की आवश्यकता वाले कार्यों के लिए, मॉडल बीम खोज का उपयोग करता है जो आरएसआर फ्रेमवर्क में उपयोग किए जाने वाले पैरामीटर के समान है, 4 की लंबाई के साथ एक बीम और 0.6 का जुर्माना है। मॉडल को फिर से एफ1 समानता स्कोर, एक्सैक्ट मैच, या ब्लू का उपयोग करके स्कोर किया जाता है, जो डेटासेट के मानक पर निर्भर करता है।
परिणाम

उपरोक्त चित्र जीपीटी-3 मॉडल वास्तुकला में वर्णित 8 मॉडलों के लिए प्रशिक्षण वक्र प्रदर्शित करता है। केएमएच भाषा मॉडल के परिणामों के समान, जीपीटी-3 मॉडल का प्रदर्शन प्रभावी रूप से प्रशिक्षण कंप्यूट का उपयोग करने पर एक उचित कानून का अनुसरण करता है। कानून से एक छोटा सा अंतर है जब रुझान को दो और ऑर्डर ऑफ मैग्नीट्यूड द्वारा बढ़ाया जाता है। यह लोगों को यह सोचने पर मजबूर कर सकता है कि क्रॉस-एंट्रोपी हानि में सुधार प्रशिक्षण निगम की स्प्यूरियस विवरणों को मॉडलिंग करने का परिणाम है। हालांकि, क्रॉस-एंट्रोपी हानि में सुधार विभिन्न प्रकार के एनएलपी कार्यों में सुसंगत लाभ की ओर ले जाता है।
जीपीटी-3 मॉडल के मूल्यांकन से पहले, डेटासेट को 8 अलग-अलग श्रेणियों में समूहित किया जाता है जो समान कार्यों का प्रतिनिधित्व करते हैं। ये श्रेणियां हैं
- पारंपरिक भाषा मॉडलिंग कार्यों और भाषा मॉडलिंग जैसे कार्यों का मूल्यांकन, जैसे कि क्लोज़ कार्य, या वाक्य/अनुच्छेद पूर्णता कार्य।
- “बंद-पुस्तक” प्रश्नोत्तरी कार्यों पर मूल्यांकन।
- मॉडल की भाषाओं के बीच अनुवाद करने की क्षमता का मूल्यांकन (विशेष रूप से वन-शॉट और फ्यू-शॉट)
- विनोग्राड स्कीमा जैसे कार्यों पर मॉडल के प्रदर्शन का मूल्यांकन।
- सामान्य ज्ञान तर्क या प्रश्नोत्तरी डेटासेट पर मूल्यांकन।
- पाठ समझने वाले कार्यों पर मूल्यांकन।
- सुपरग्लू बेंचमार्क सूट पर मूल्यांकन।
- एनएलआई का अन्वेषण।
भाषा मॉडलिंग, पूर्णता और क्लोज़ कार्य
इस खंड में, जीपीटी-3 मॉडल का प्रदर्शन पारंपरिक भाषा मॉडलिंग कार्यों और उन कार्यों पर मूल्यांकित किया जाता है जिनमें एक शब्द की भविष्यवाणी करने या एक वाक्य या अनुच्छेद को पूरा करने की आवश्यकता होती है। आइए उन्हें संक्षेप में चर्चा करें।
भाषा मॉडलिंग
जीपीटी-3 मॉडल पीटीबी या पेन ट्री बैंक डेटासेट पर शून्य-शॉट परिप्रेक्ष्य में भ्रम की गणना करता है। मॉडल विकिपीडिया-संबंधित कार्यों को छोड़ देता है क्योंकि वे मॉडल के प्रशिक्षण डेटा में शामिल हैं, और एक बिलियन शब्द बेंचमार्क को छोड़ देता है क्योंकि यह प्रशिक्षण डेटा में एक बड़ी मात्रा में हस्तक्षेप करता है। हालांकि, पीटीबी डेटासेट इन मुद्दों को संबोधित करता है क्योंकि यह आधुनिक इंटरनेट से पहले का है। जीपीटी-3 मॉडल वास्तुकला में सबसे बड़ा मॉडल पीटीबी डेटासेट पर एक नए सOTA को 15 अंकों के एक उल्लेखनीय मार्जिन द्वारा प्राप्त करता है, और 20.50 की भ्रम प्राप्त करता है।
लैम्बाडा
लैम्बाडा डेटासेट का उपयोग लंबी दूरी की निर्भरता को मॉडलिंग करने की मॉडल की क्षमता का परीक्षण करने के लिए किया जाता है जो अनुच्छेद या पाठ में होती है। इसका अर्थ है कि मॉडल को एक अनुच्छेद पढ़ने के बाद वाक्य के अंतिम शब्द की भविष्यवाणी करने के लिए कहा जाता है। इसके अलावा, भाषा मॉडलों के निरंतर स्केलिंग से बेंचमार्क पर घटती वापसी होती है।

जीपीटी-3 मॉडल लैम्बाडा पर 76% सटीकता प्राप्त करता है, और पिछले सर्वोत्तम मॉडलों पर 8% से अधिक की वृद्धि करता है। इसके अलावा, लैम्बाडा मॉडल फ्यू-शॉट लर्निंग की लचीलापन को प्रदर्शित करता है क्योंकि यह क्लासिक रूप से डेटासेट के साथ समस्या को संबोधित करता है। लैम्बाडा में वाक्य की पूर्णता आमतौर पर वाक्य के अंतिम शब्द होती है, लेकिन चूंकि भाषा मॉडल यह नहीं जानता कि यह क्या है, यह न केवल सही अंत को सौंपता है, बल्कि अनुच्छेद में अन्य निरंतरता को भी सौंपता है।
इसके अलावा, जब लैम्बाडा में दिए गए उदाहरणों को एक निश्चित तरीके से संशोधित किया जाता है, तो मॉडल 86% से अधिक की सटीकता प्राप्त करता है, जो पिछले मॉडलों पर 18% से अधिक की वृद्धि है। इसके अलावा, परिणाम यह भी दर्शाते हैं कि मॉडल का प्रदर्शन फ्यू-शॉट सेटिंग में मॉडल के आकार में वृद्धि के साथ आनुपातिक रूप से बढ़ता है। हालांकि यह रणनीति जीपीटी-3 वास्तुकला में सबसे छोटे मॉडल को 20% कम कर देती है, यह जीपीटी-3 मॉडल की सटीकता को 175 बिलियन पैरामीटर के साथ 10% बढ़ाता है।
बंद-पुस्तक प्रश्नोत्तरी
बंद-पुस्तक प्रश्नोत्तरी एक प्रयास है जीपीटी-3 मॉडल की व्यापक तथ्यात्मक ज्ञान पर आधारित प्रश्नों के उत्तर देने की क्षमता को मापने के लिए। क्योंकि ऐसे प्रश्न अक्सर बहुत सारे संभावित प्रश्नों की एक बड़ी संख्या होती है, कार्य आमतौर पर एक जानकारी पुनर्प्राप्ति प्रणाली का उपयोग करके किया जाता है जो मॉडल को प्रश्न और पुनर्प्राप्त पाठ के साथ प्रश्न का उत्तर देने वाले मॉडल को प्रशिक्षित करने की अनुमति देता है।

उपरोक्त छवि जीपीटी-3 मॉडल के परिणामों की तुलना विभिन्न मॉडलों और विभिन्न डेटासेट पर चलने वाले परिणामों से करती है। ट्रिवियाक्यू डेटासेट पर, मॉडल शून्य-शॉट सेटिंग में 64.3% की सटीकता प्राप्त करता है, जबकि यह वन-शॉट और फ्यू-शॉट सेटिंग में क्रमशः 68% और 71.2% की सटीकता प्राप्त करता है।
यह स्पष्ट रूप से देखा जा सकता है कि जीपीटी-3 मॉडल शून्य-शॉट सेटिंग में फ़ाइन-ट्यून किए गए टी5-11बी मॉडल को 14% से अधिक पार करता है।

उपरोक्त आंकड़ा जीपीटी-3 मॉडल के प्रदर्शन को दर्शाता है जो मॉडल के आकार में वृद्धि के साथ चिकनी रूप से बढ़ता है। प्रदर्शन सुझाव देता है कि भाषा मॉडल डेटासेट से सीखते रहते हैं क्योंकि उनकी क्षमता बढ़ती है।
अंतिम विचार
यह कहना सुरक्षित होगा कि जीपीटी-3 एक क्रांतिकारी चरण था एलएलएम उद्योग में क्योंकि जीपीटी-3 ने यह दिखाने में मदद की कि एक भाषा मॉडल क्या कर सकता है। यह जीपीटी-3 द्वारा की गई प्रगति और पार की गई बाधाएं थीं जिन्होंने सबसे उन्नत और सटीक बड़े भाषा मॉडल के लिए मार्ग प्रशस्त किया, जीपीटी-4।












