ठूंठ ट्रांसफार्मर मॉडल के साथ एनएलपी का उदय | T5, BERT और GPT का व्यापक विश्लेषण - Unite.AI
हमसे जुडे

Artificial Intelligence

ट्रांसफार्मर मॉडल के साथ एनएलपी का उदय | T5, BERT और GPT का व्यापक विश्लेषण

mm

प्रकाशित

 on

एनएलपी पर मार्गदर्शन

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) ने हाल के वर्षों में कुछ सबसे प्रभावशाली सफलताओं का अनुभव किया है, मुख्य रूप से ट्रांसफार्मर वास्तुकला के कारण। इन सफलताओं ने न केवल मानव भाषा को समझने और उत्पन्न करने के लिए मशीनों की क्षमताओं को बढ़ाया है, बल्कि खोज इंजन से लेकर संवादी एआई तक कई अनुप्रयोगों के परिदृश्य को भी फिर से परिभाषित किया है।

ट्रांसफार्मर के महत्व को पूरी तरह से समझने के लिए, हमें सबसे पहले उन पूर्ववर्तियों और निर्माण खंडों पर नज़र डालनी चाहिए जिन्होंने इस क्रांतिकारी वास्तुकला की नींव रखी।

प्रारंभिक एनएलपी तकनीकें: ट्रांसफार्मर से पहले की नींव

वर्ड एंबेडिंग्स: वन-हॉट से वर्ड2Vec तक

पारंपरिक एनएलपी दृष्टिकोण में, शब्दों का प्रतिनिधित्व अक्सर शाब्दिक होता था और इसमें किसी भी प्रकार की अर्थ संबंधी या वाक्यात्मक समझ का अभाव होता था। वन-हॉट एन्कोडिंग इस सीमा का एक प्रमुख उदाहरण है।

वन-हॉट एन्कोडिंग एक ऐसी प्रक्रिया है जिसके द्वारा श्रेणीबद्ध चर को बाइनरी वेक्टर प्रतिनिधित्व में परिवर्तित किया जाता है जहां केवल एक बिट "हॉट" (1 पर सेट) होता है जबकि अन्य सभी "ठंडा" (0 पर सेट) होते हैं। एनएलपी के संदर्भ में, शब्दावली में प्रत्येक शब्द को एक-हॉट वैक्टर द्वारा दर्शाया जाता है जहां प्रत्येक वेक्टर शब्दावली का आकार होता है, और प्रत्येक शब्द को उस शब्द के अनुरूप सूचकांक पर सभी 0 और एक 1 के साथ एक वेक्टर द्वारा दर्शाया जाता है। शब्दावली सूची.

वन-हॉट एन्कोडिंग का उदाहरण

मान लीजिए कि हमारे पास केवल पाँच शब्दों वाली एक छोटी शब्दावली है: ["राजा", "रानी", "पुरुष", "महिला", "बच्चा"]। प्रत्येक शब्द के लिए एक-हॉट एन्कोडिंग वेक्टर इस तरह दिखेगा:

  • "राजा" -> [1, 0, 0, 0, 0]
  • "रानी" -> [0, 1, 0, 0, 0]
  • "आदमी" -> [0, 0, 1, 0, 0]
  • "महिला" -> [0, 0, 0, 1, 0]
  • "बच्चा" -> [0, 0, 0, 0, 1]

गणितीय प्रतिनिधित्व

यदि हम निरूपित करें हमारी शब्दावली के आकार के रूप में और शब्दावली में आई-वें शब्द के एक-हॉट वेक्टर प्रतिनिधित्व के रूप में, गणितीय प्रतिनिधित्व होने वाला:

जहां i-वीं स्थिति 1 है और अन्य सभी स्थितियां 0 हैं।

वन-हॉट एन्कोडिंग का प्रमुख नकारात्मक पक्ष यह है कि यह प्रत्येक शब्द को एक अलग इकाई के रूप में मानता है, जिसका दूसरे शब्दों से कोई संबंध नहीं है। इसके परिणामस्वरूप विरल और उच्च-आयामी वैक्टर होते हैं जो शब्दों के बारे में कोई अर्थ संबंधी या वाक्यात्मक जानकारी प्राप्त नहीं करते हैं।

शब्द एम्बेडिंग की शुरूआत, विशेष रूप से Word2Vec, एनएलपी में एक महत्वपूर्ण क्षण था। 2013 में टॉमस मिकोलोव के नेतृत्व में Google की एक टीम द्वारा विकसित, Word2Vec एक घने वेक्टर स्पेस में शब्दों का प्रतिनिधित्व करता है, जो पाठ के बड़े समूह के भीतर उनके संदर्भ के आधार पर वाक्यात्मक और अर्थ संबंधी शब्द संबंधों को कैप्चर करता है।

एक-हॉट एन्कोडिंग के विपरीत, Word2Vec घने वैक्टर उत्पन्न करता है, आमतौर पर सैकड़ों आयामों के साथ। समान संदर्भों में आने वाले शब्द, जैसे "राजा" और "रानी", में वेक्टर निरूपण होंगे जो वेक्टर स्थान में एक दूसरे के करीब होंगे।

उदाहरण के लिए, मान लें कि हमने Word2Vec मॉडल को प्रशिक्षित किया है और अब एक काल्पनिक 3-आयामी स्थान में शब्दों का प्रतिनिधित्व करते हैं। एंबेडिंग्स (जो आमतौर पर 3डी से अधिक होती हैं लेकिन सरलता के लिए यहां कम की गई हैं) कुछ इस तरह दिख सकती हैं:

  • "राजा" -> [0.2, 0.1, 0.9]
  • "रानी" -> [0.21, 0.13, 0.85]
  • "आदमी" -> [0.4, 0.3, 0.2]
  • "महिला" -> [0.41, 0.33, 0.27]
  • "बच्चा" -> [0.5, 0.5, 0.1]

हालाँकि ये संख्याएँ काल्पनिक हैं, ये दर्शाती हैं कि कैसे समान शब्दों में समान सदिश होते हैं।

गणितीय प्रतिनिधित्व

यदि हम किसी शब्द के Word2Vec एम्बेडिंग को इस रूप में प्रस्तुत करते हैं , और हमारे एम्बेडिंग स्थान है फिर आयाम इस प्रकार दर्शाया जा सकता है:

शब्दार्थ संबंध

Word2Vec सादृश्य जैसे जटिल रिश्तों को भी पकड़ सकता है। उदाहरण के लिए, Word2Vec एम्बेडिंग द्वारा कैप्चर किया गया प्रसिद्ध संबंध है:

वेक्टर(“राजा”) – वेक्टर(“आदमी”) + वेक्टर(“महिला”)≈वेक्टर(“रानी”)

यह संभव है क्योंकि Word2Vec प्रशिक्षण के दौरान शब्द वैक्टर को समायोजित करता है ताकि कॉर्पस में सामान्य संदर्भ साझा करने वाले शब्द वेक्टर स्थान में बारीकी से स्थित हों।

Word2Vec शब्दों का वितरित प्रतिनिधित्व तैयार करने के लिए दो मुख्य आर्किटेक्चर का उपयोग करता है: कंटीन्यूअस बैग-ऑफ-वर्ड्स (CBOW) और स्किप-ग्राम। सीबीओडब्ल्यू अपने आसपास के संदर्भ शब्दों से एक लक्ष्य शब्द की भविष्यवाणी करता है, जबकि स्किप-ग्राम इसके विपरीत करता है, एक लक्ष्य शब्द से संदर्भ शब्दों की भविष्यवाणी करता है। इससे मशीनों को शब्द के उपयोग और अर्थ को अधिक सूक्ष्म तरीके से समझना शुरू करने की अनुमति मिली।

अनुक्रम मॉडलिंग: आरएनएन और एलएसटीएम

जैसे-जैसे क्षेत्र आगे बढ़ा, ध्यान पाठ के अनुक्रमों को समझने की ओर स्थानांतरित हो गया, जो मशीनी अनुवाद, पाठ सारांश और भावना विश्लेषण जैसे कार्यों के लिए महत्वपूर्ण था। मेमोरी के एक रूप को बनाए रखते हुए अनुक्रमिक डेटा को संभालने की क्षमता के कारण आवर्ती तंत्रिका नेटवर्क (आरएनएन) इन अनुप्रयोगों के लिए आधारशिला बन गए।

हालाँकि, आरएनएन सीमाओं से रहित नहीं थे। वे लुप्त हो रही ग्रेडिएंट समस्या के कारण दीर्घकालिक निर्भरता से जूझ रहे थे, जहां जानकारी लंबे अनुक्रमों में खो जाती है, जिससे दूर की घटनाओं के बीच सहसंबंध सीखना चुनौतीपूर्ण हो जाता है।

लॉन्ग शॉर्ट-टर्म मेमोरी नेटवर्क (LSTM), द्वारा शुरू किया गया 1997 में सेप होक्रेइटर और जुर्गन श्मिधुबर, ने इस मुद्दे को अधिक परिष्कृत वास्तुकला के साथ संबोधित किया। LSTM में ऐसे द्वार होते हैं जो सूचना के प्रवाह को नियंत्रित करते हैं: इनपुट गेट, फ़ॉरगेट गेट और आउटपुट गेट। ये गेट निर्धारित करते हैं कि कौन सी जानकारी संग्रहीत, अद्यतन या छोड़ी गई है, जिससे नेटवर्क को दीर्घकालिक निर्भरता बनाए रखने और एनएलपी कार्यों की एक विस्तृत श्रृंखला पर प्रदर्शन में उल्लेखनीय सुधार करने की अनुमति मिलती है।

ट्रांसफार्मर आर्किटेक्चर

वासवानी एट अल के ऐतिहासिक पेपर "अटेंशन इज़ ऑल यू नीड" में ट्रांसफार्मर मॉडल की शुरुआत के साथ एनएलपी के परिदृश्य में एक नाटकीय परिवर्तन आया। 2017 में। ट्रांसफॉर्मर आर्किटेक्चर आरएनएन और एलएसटीएम के अनुक्रमिक प्रसंस्करण से हट जाता है और इसके बजाय इनपुट डेटा के विभिन्न हिस्सों के प्रभाव को मापने के लिए 'आत्म-ध्यान' नामक एक तंत्र का उपयोग करता है।

ट्रांसफार्मर का मूल विचार यह है कि यह संपूर्ण इनपुट डेटा को क्रमिक रूप से संसाधित करने के बजाय एक ही बार में संसाधित कर सकता है। यह अधिक समानता की अनुमति देता है और परिणामस्वरूप, प्रशिक्षण गति में उल्लेखनीय वृद्धि होती है। आत्म-ध्यान तंत्र मॉडल को पाठ को संसाधित करते समय उसके विभिन्न हिस्सों पर ध्यान केंद्रित करने में सक्षम बनाता है, जो संदर्भ और शब्दों के बीच संबंधों को समझने के लिए महत्वपूर्ण है, पाठ में उनकी स्थिति चाहे जो भी हो।

ट्रांसफार्मर में एनकोडर और डिकोडर:

मूल ट्रांसफार्मर मॉडल में, जैसा कि पेपर में वर्णित है "अटेंशन इज ऑल यू नीडवासवानी एट अल द्वारा, वास्तुकला को दो मुख्य भागों में विभाजित किया गया है: एनकोडर और डिकोडर। दोनों भाग परतों से बने हैं जिनकी सामान्य संरचना समान है लेकिन वे अलग-अलग उद्देश्यों को पूरा करते हैं।

एनकोडर:

  • भूमिका: एनकोडर की भूमिका इनपुट डेटा को संसाधित करना और एक प्रतिनिधित्व बनाना है जो तत्वों के बीच संबंधों को कैप्चर करता है (जैसे वाक्य में शब्द)। ट्रांसफार्मर का यह भाग कोई नई सामग्री उत्पन्न नहीं करता है; यह बस इनपुट को एक ऐसी स्थिति में बदल देता है जिसे डिकोडर उपयोग कर सकता है।
  • कार्यशीलता: प्रत्येक एनकोडर परत में आत्म-ध्यान तंत्र और फ़ीड-फ़ॉरवर्ड तंत्रिका नेटवर्क होते हैं। आत्म-ध्यान तंत्र एनकोडर में प्रत्येक स्थिति को एनकोडर की पिछली परत में सभी स्थितियों में शामिल होने की अनुमति देता है - इस प्रकार, यह प्रत्येक शब्द के आसपास के संदर्भ को सीख सकता है।
  • प्रासंगिक एंबेडिंग: एनकोडर का आउटपुट वैक्टर की एक श्रृंखला है जो उच्च-आयामी स्थान में इनपुट अनुक्रम का प्रतिनिधित्व करता है। इन वैक्टरों को अक्सर प्रासंगिक एम्बेडिंग के रूप में संदर्भित किया जाता है क्योंकि वे न केवल व्यक्तिगत शब्दों को बल्कि वाक्य के भीतर उनके संदर्भ को भी एन्कोड करते हैं।

डिकोडर:

  • भूमिका: डिकोडर की भूमिका एनकोडर से प्राप्त इनपुट और अब तक उत्पन्न किए गए इनपुट के आधार पर, एक समय में एक भाग में आउटपुट डेटा उत्पन्न करना है। इसे टेक्स्ट जेनरेशन जैसे कार्यों के लिए डिज़ाइन किया गया है, जहां जेनरेशन का क्रम महत्वपूर्ण है।
  • कार्यशीलता: डिकोडर परतों में आत्म-ध्यान तंत्र भी होते हैं, लेकिन स्थितियों को बाद की स्थितियों में शामिल होने से रोकने के लिए उन्हें छिपा दिया जाता है। यह सुनिश्चित करता है कि किसी विशेष स्थिति के लिए पूर्वानुमान केवल उससे पहले की स्थिति में ज्ञात आउटपुट पर निर्भर हो सकता है। इसके अतिरिक्त, डिकोडर परतों में एक दूसरा ध्यान तंत्र शामिल होता है जो एनकोडर के आउटपुट पर ध्यान देता है, इनपुट से संदर्भ को पीढ़ी प्रक्रिया में एकीकृत करता है।
  • अनुक्रमिक सृजन क्षमताएँ: यह डिकोडर की एक समय में एक तत्व का अनुक्रम उत्पन्न करने की क्षमता को संदर्भित करता है, जो कि उसने पहले से ही उत्पादित किया है। उदाहरण के लिए, पाठ उत्पन्न करते समय, डिकोडर एनकोडर द्वारा प्रदान किए गए संदर्भ और पहले से ही उत्पन्न शब्दों के अनुक्रम के आधार पर अगले शब्द की भविष्यवाणी करता है।

एनकोडर और डिकोडर के भीतर इनमें से प्रत्येक उप-परत जटिल एनएलपी कार्यों को संभालने की मॉडल की क्षमता के लिए महत्वपूर्ण है। बहु-सिर ध्यान तंत्र, विशेष रूप से, मॉडल को अनुक्रम के विभिन्न हिस्सों पर चयनात्मक रूप से ध्यान केंद्रित करने की अनुमति देता है, जो संदर्भ की समृद्ध समझ प्रदान करता है।

ट्रांसफार्मर का लाभ उठाने वाले लोकप्रिय मॉडल

ट्रांसफार्मर मॉडल की प्रारंभिक सफलता के बाद, इसकी वास्तुकला पर निर्मित नए मॉडलों का विस्फोट हुआ, जिनमें से प्रत्येक के अपने नवाचार और विभिन्न कार्यों के लिए अनुकूलन थे:

BERT (ट्रांसफॉर्मर से द्विदिश एनकोडर प्रतिनिधित्व): 2018 में Google द्वारा पेश किए गए BERT ने प्रासंगिक जानकारी को भाषा प्रतिनिधित्व में एकीकृत करने के तरीके में क्रांति ला दी। एक नकाबपोश भाषा मॉडल और अगले वाक्य की भविष्यवाणी के साथ पाठ के एक बड़े संग्रह पर पूर्व-प्रशिक्षण द्वारा, बीईआरटी समृद्ध द्विदिश संदर्भों को पकड़ता है और एनएलपी कार्यों की एक विस्तृत श्रृंखला पर अत्याधुनिक परिणाम प्राप्त किए हैं।

बर्ट

बर्ट

T5 (टेक्स्ट-टू-टेक्स्ट ट्रांसफर ट्रांसफार्मर): इनके द्वारा पेश किया गया 2020 में गूगल, T5 एकीकृत टेक्स्ट-आधारित प्रारूप का उपयोग करके सभी एनएलपी कार्यों को टेक्स्ट-टू-टेक्स्ट समस्या के रूप में पुनः फ़्रेम करता है। यह दृष्टिकोण अनुवाद, सारांश और प्रश्न उत्तर सहित विभिन्न कार्यों में मॉडल को लागू करने की प्रक्रिया को सरल बनाता है।

t5 वास्तुकला

T5 वास्तुकला

जीपीटी (जेनरेटिव प्री-प्रशिक्षित ट्रांसफार्मर): द्वारा विकसित OpenAIमॉडलों की GPT श्रृंखला GPT-1 से शुरू हुई और 4 तक GPT-2023 तक पहुंच गई। इन मॉडलों को बड़ी मात्रा में टेक्स्ट डेटा पर अप्रशिक्षित शिक्षण का उपयोग करके पूर्व-प्रशिक्षित किया जाता है और विभिन्न कार्यों के लिए ठीक किया जाता है। सुसंगत और प्रासंगिक रूप से प्रासंगिक पाठ उत्पन्न करने की उनकी क्षमता ने उन्हें अकादमिक और वाणिज्यिक एआई अनुप्रयोगों दोनों में अत्यधिक प्रभावशाली बना दिया है।

GPT

जीपीटी आर्किटेक्चर

यहां विभिन्न आयामों में T5, BERT और GPT मॉडल की अधिक गहराई से तुलना की गई है:

1. टोकनाइजेशन और शब्दावली

  • बर्ट: लगभग 30,000 टोकन की शब्दावली आकार के साथ वर्डपीस टोकनाइजेशन का उपयोग करता है।
  • GPT: बड़े शब्दावली आकार के साथ बाइट पेयर एन्कोडिंग (बीपीई) का उपयोग करता है (उदाहरण के लिए, जीपीटी-3 की शब्दावली का आकार 175,000 है)।
  • T5: सेंटेंसपीस टोकनाइजेशन का उपयोग करता है जो पाठ को कच्चा मानता है और पूर्व-खंडित शब्दों की आवश्यकता नहीं होती है।

2. पूर्व-प्रशिक्षण उद्देश्य

  • बर्ट: नकाबपोश भाषा मॉडलिंग (एमएलएम) और अगली वाक्य भविष्यवाणी (एनएसपी)।
  • GPT: कॉज़ल लैंग्वेज मॉडलिंग (सीएलएम), जहां प्रत्येक टोकन अनुक्रम में अगले टोकन की भविष्यवाणी करता है।
  • T5: एक निरूपण उद्देश्य का उपयोग करता है जहां पाठ के यादृच्छिक विस्तार को एक प्रहरी टोकन के साथ बदल दिया जाता है और मॉडल मूल पाठ का पुनर्निर्माण करना सीखता है।

3. इनपुट प्रतिनिधित्व

  • बर्ट: इनपुट का प्रतिनिधित्व करने के लिए टोकन, सेगमेंट और पोजिशनल एंबेडिंग को संयोजित किया जाता है।
  • GPT: टोकन और पोजिशनल एंबेडिंग संयुक्त हैं (कोई खंड एंबेडिंग नहीं है क्योंकि यह वाक्य-युग्म कार्यों के लिए डिज़ाइन नहीं किया गया है)।
  • T5: ध्यान संचालन के दौरान अतिरिक्त सापेक्ष स्थितिगत एनकोडिंग के साथ केवल टोकन एंबेडिंग।

4. ध्यान तंत्र

  • बर्ट: पूर्ण स्थितीय एन्कोडिंग का उपयोग करता है और प्रत्येक टोकन को बाएँ और दाएँ (द्विदिशात्मक ध्यान) के सभी टोकन पर ध्यान देने की अनुमति देता है।
  • GPT: पूर्ण स्थितीय एन्कोडिंग का भी उपयोग करता है लेकिन केवल पिछले टोकन (यूनिडायरेक्शनल ध्यान) पर ध्यान केंद्रित करता है।
  • T5: ट्रांसफार्मर का एक प्रकार लागू करता है जो स्थितीय एम्बेडिंग के बजाय सापेक्ष स्थिति पूर्वाग्रहों का उपयोग करता है।

5. मॉडल वास्तुकला

  • बर्ट: ट्रांसफार्मर ब्लॉकों की कई परतों के साथ एनकोडर-केवल वास्तुकला।
  • GPT: डिकोडर-केवल आर्किटेक्चर, कई परतों के साथ लेकिन जेनरेटिव कार्यों के लिए डिज़ाइन किया गया।
  • T5: एनकोडर-डिकोडर आर्किटेक्चर, जहां एनकोडर और डिकोडर दोनों ट्रांसफार्मर परतों से बने होते हैं।

6. फाइन-ट्यूनिंग दृष्टिकोण

  • बर्ट: आवश्यकतानुसार अतिरिक्त आउटपुट परतों के साथ डाउनस्ट्रीम कार्यों के लिए पूर्व-प्रशिक्षित मॉडल की अंतिम छिपी हुई स्थितियों को अनुकूलित करता है।
  • GPT: ट्रांसफार्मर के शीर्ष पर एक रैखिक परत जोड़ता है और समान कारण भाषा मॉडलिंग उद्देश्य का उपयोग करके डाउनस्ट्रीम कार्य पर फाइन-ट्यून्स जोड़ता है।
  • T5: सभी कार्यों को टेक्स्ट-टू-टेक्स्ट प्रारूप में परिवर्तित करता है, जहां इनपुट अनुक्रम से लक्ष्य अनुक्रम उत्पन्न करने के लिए मॉडल को ठीक किया जाता है।

7. प्रशिक्षण डेटा और स्केल

  • बर्ट: बुक्सकोर्पस और अंग्रेजी विकिपीडिया पर प्रशिक्षित।
  • GPT: GPT-2 और GPT-3 को इंटरनेट से निकाले गए विविध डेटासेट पर प्रशिक्षित किया गया है, GPT-3 को कॉमन क्रॉल नामक एक और भी बड़े कॉर्पस पर प्रशिक्षित किया गया है।
  • T5: "कोलोसल क्लीन क्रॉल्ड कॉर्पस" पर प्रशिक्षित किया गया, जो कॉमन क्रॉल का एक बड़ा और स्वच्छ संस्करण है।

8. संदर्भ और द्विदिशता का प्रबंधन

  • बर्ट: दोनों दिशाओं में संदर्भ को एक साथ समझने के लिए डिज़ाइन किया गया।
  • GPT: संदर्भ को आगे की दिशा (बाएं से दाएं) में समझने के लिए प्रशिक्षित।
  • T5: अनुक्रम-से-अनुक्रम कार्यों के लिए उपयुक्त एनकोडर में द्विदिशात्मक और डिकोडर में यूनिडायरेक्शनल संदर्भ मॉडल कर सकते हैं।

9. डाउनस्ट्रीम कार्यों के लिए अनुकूलनशीलता

  • बर्ट: प्रत्येक डाउनस्ट्रीम कार्य के लिए कार्य-विशिष्ट हेड लेयर और फ़ाइन-ट्यूनिंग की आवश्यकता होती है।
  • GPT: प्रकृति में उत्पादक है और इसकी संरचना में न्यूनतम परिवर्तन के साथ कार्य करने के लिए प्रेरित किया जा सकता है।
  • T5: प्रत्येक कार्य को "टेक्स्ट-टू-टेक्स्ट" समस्या के रूप में मानता है, जिससे यह स्वाभाविक रूप से लचीला और नए कार्यों के अनुकूल बन जाता है।

10. व्याख्यात्मकता और व्याख्यात्मकता

  • बर्ट: द्विदिश प्रकृति समृद्ध प्रासंगिक एम्बेडिंग प्रदान करती है लेकिन व्याख्या करना कठिन हो सकता है।
  • GPT: यूनिडायरेक्शनल संदर्भ का पालन करना अधिक सरल हो सकता है लेकिन इसमें द्विदिश संदर्भ की गहराई का अभाव है।
  • T5: एनकोडर-डिकोडर ढांचा प्रसंस्करण चरणों का स्पष्ट पृथक्करण प्रदान करता है लेकिन इसकी उत्पादक प्रकृति के कारण विश्लेषण करना जटिल हो सकता है।

एनएलपी पर ट्रांसफार्मर का प्रभाव

ट्रांसफॉर्मर ने मॉडलों को समानांतर में डेटा के अनुक्रमों को संसाधित करने में सक्षम बनाकर एनएलपी के क्षेत्र में क्रांति ला दी है, जिससे बड़े तंत्रिका नेटवर्क के प्रशिक्षण की गति और दक्षता में नाटकीय रूप से वृद्धि हुई है। उन्होंने आत्म-ध्यान तंत्र की शुरुआत की, जिससे मॉडलों को अनुक्रम के भीतर दूरी की परवाह किए बिना, इनपुट डेटा के प्रत्येक भाग के महत्व को तौलने की अनुमति मिली। इससे एनएलपी कार्यों की एक विस्तृत श्रृंखला में अभूतपूर्व सुधार हुआ, जिसमें अनुवाद, प्रश्न उत्तर और पाठ सारांश शामिल है, लेकिन यह इन्हीं तक सीमित नहीं है।

ट्रांसफार्मर-आधारित मॉडल क्या हासिल कर सकते हैं, इसकी सीमाओं को आगे बढ़ाने के लिए अनुसंधान जारी है। GPT-4 और इसके समकालीन न केवल बड़े पैमाने पर हैं, बल्कि वास्तुकला और प्रशिक्षण विधियों में प्रगति के कारण अधिक कुशल और सक्षम भी हैं। कुछ-शॉट लर्निंग जैसी तकनीकें, जहां मॉडल न्यूनतम उदाहरणों के साथ कार्य करते हैं, और अधिक प्रभावी ट्रांसफर लर्निंग के तरीके वर्तमान शोध में सबसे आगे हैं।

ट्रांसफार्मर पर आधारित भाषा मॉडल डेटा से सीखते हैं जिनमें पूर्वाग्रह हो सकते हैं। शोधकर्ता और चिकित्सक इन पूर्वाग्रहों को पहचानने, समझने और कम करने के लिए सक्रिय रूप से काम कर रहे हैं। तकनीकें क्यूरेटेड प्रशिक्षण डेटासेट से लेकर प्रशिक्षण के बाद के समायोजन तक निष्पक्षता और तटस्थता के उद्देश्य से होती हैं।

मैंने पिछले पांच साल मशीन लर्निंग और डीप लर्निंग की आकर्षक दुनिया में डूबने में बिताए हैं। मेरे जुनून और विशेषज्ञता ने मुझे एआई/एमएल पर विशेष ध्यान देने के साथ 50 से अधिक विविध सॉफ्टवेयर इंजीनियरिंग परियोजनाओं में योगदान करने के लिए प्रेरित किया है। मेरी निरंतर जिज्ञासा ने मुझे प्राकृतिक भाषा प्रसंस्करण की ओर भी आकर्षित किया है, एक ऐसा क्षेत्र जिसे मैं और अधिक जानने के लिए उत्सुक हूं।