AI 101

ट्रांसफॉर्मर न्यूरल नेटवर्क क्या हैं?

Published January 25, 2021

Updated April 28, 2026

Daniel Nelson

ट्रांसफॉर्मर न्यूरल नेटवर्क का वर्णन

ट्रांसफॉर्मर एक प्रकार का मशीन लर्निंग मॉडल है जो अनुक्रमिक डेटा को संसाधित और व्याख्या करने में विशेषज्ञता रखता है, जिससे वे प्राकृतिक भाषा प्रसंस्करण कार्यों के लिए उपयुक्त होते हैं। ट्रांसफॉर्मर मॉडल और उन्हें चलाने वाले तंत्र को बेहतर ढंग से समझने के लिए, आइए ट्रांसफॉर्मर मॉडल और उनकी कार्य प्रणाली पर एक नज़र डालें।

इस लेख में शामिल हैं:

अनुक्रम से अनुक्रम मॉडल
ट्रांसफॉर्मर न्यूरल नेटवर्क आर्किटेक्चर
ध्यान तंत्र
ट्रांसफॉर्मर और आरएनएन/एलएसटीएम के बीच अंतर

अनुक्रम से अनुक्रम मॉडल

अनुक्रम से अनुक्रम मॉडल एक प्रकार का एनएलपी मॉडल है जो एक प्रकार के अनुक्रम को दूसरे प्रकार के अनुक्रम में परिवर्तित करने के लिए उपयोग किया जाता है। अनुक्रम से अनुक्रम मॉडल के विभिन्न प्रकार हैं, जैसे कि रिकरेंट न्यूरल नेटवर्क मॉडल और लॉन्ग शॉर्ट-टर्म मेमोरी (एलएसटीएम) मॉडल।

पारंपरिक अनुक्रम से अनुक्रम मॉडल जैसे कि आरएनएन और एलएसटीएम इस लेख के केंद्र में नहीं हैं, लेकिन ट्रांसफॉर्मर मॉडल की कार्य प्रणाली और उन्हें पारंपरिक अनुक्रम से अनुक्रम मॉडल से बेहतर बनाने के लिए उनकी समझ आवश्यक है।

संक्षेप में, आरएनएन मॉडल और एलएसटीएम मॉडल एनकोडर और डिकोडर नेटवर्क से बने होते हैं जो विभिन्न समय चरणों में इनपुट डेटा का विश्लेषण करते हैं। एनकोडर मॉडल इनपुट डेटा में शब्दों का एक एनकोडेड प्रतिनिधित्व बनाने के लिए जिम्मेदार होता है। प्रत्येक समय चरण में, एनकोडर नेटवर्क इनपुट अनुक्रम और पिछले समय चरण से एक छिपा हुआ राज्य लेता है। छिपे हुए राज्य के मान को नेटवर्क के माध्यम से डेटा के आगे बढ़ने के साथ अद्यतन किया जाता है, जब तक कि अंतिम समय चरण में एक “संदर्भ वेक्टर” नहीं बन जाता। संदर्भ वेक्टर को तब डिकोडर नेटवर्क में पास किया जाता है, जिसका उपयोग लक्ष्य अनुक्रम को उत्पन्न करने के लिए किया जाता है bằng cách प्रत्येक समय चरण के लिए सबसे संभावित शब्द की भविष्यवाणी करना।

इन मॉडलों को “ध्यान तंत्र” का उपयोग करके बढ़ाया जा सकता है। ध्यान तंत्र परिभाषित करता है कि नेटवर्क को उचित आउटपुट उत्पन्न करने के लिए इनपुट वेक्टर के किन हिस्सों पर ध्यान केंद्रित करना चाहिए। दूसरे शब्दों में, ध्यान तंत्र ट्रांसफॉर्मर मॉडल को एक इनपुट शब्द को संसाधित करने की अनुमति देता है जबकि अन्य इनपुट शब्दों द्वारा निहित प्रासंगिक जानकारी पर भी ध्यान केंद्रित करता है। ध्यान तंत्र उन शब्दों को भी मास्क करता है जिनमें प्रासंगिक जानकारी नहीं होती है।

ट्रांसफॉर्मर न्यूरल नेटवर्क आर्किटेक्चर

हम बाद में ध्यान तंत्र पर विस्तार से चर्चा करेंगे, लेकिन अभी हम ट्रांसफॉर्मर न्यूरल नेटवर्क की आर्किटेक्चर को एक उच्च स्तर पर देखेंगे।

सामान्य तौर पर, एक ट्रांसफॉर्मर न्यूरल नेटवर्क कुछ इस तरह दिखता है:

जबकि यह सामान्य संरचना नेटवर्क के बीच बदल सकती है, मुख्य टुकड़े समान रहेंगे: स्थानिक एनकोडिंग, शब्द वेक्टर, ध्यान तंत्र, फीड-फॉरवर्ड न्यूरल नेटवर्क।

स्थानिक एनकोडिंग और शब्द वेक्टर

एक ट्रांसफॉर्मर न्यूरल नेटवर्क इनपुट अनुक्रम को दो अन्य अनुक्रमों में परिवर्तित करके काम करता है। ट्रांसफॉर्मर शब्द वेक्टर एम्बेडिंग और स्थानिक एनकोडिंग की एक अनुक्रम उत्पन्न करता है।

शब्द वेक्टर एम्बेडिंग केवल पाठ को एक संख्यात्मक प्रारूप में प्रस्तुत करता है जिसे न्यूरल नेटवर्क संसाधित कर सकता है। दूसरी ओर, स्थानिक एनकोडिंग वेक्टरीकृत प्रतिनिधित्व हैं जो इनपुट वाक्य में अन्य शब्दों के संबंध में वर्तमान शब्द की स्थिति के बारे में जानकारी निहित करते हैं।

अन्य पाठ-आधारित न्यूरल नेटवर्क मॉडल जैसे कि आरएनएन और एलएसटीएम इनपुट डेटा में शब्दों का प्रतिनिधित्व करने के लिए वेक्टर का उपयोग करते हैं। ये वेक्टर एम्बेडिंग शब्दों को निरंतर मानों पर मैप करते हैं, लेकिन यह सीमित है क्योंकि शब्द विभिन्न संदर्भों में उपयोग किए जा सकते हैं। एक ट्रांसफॉर्मर नेटवर्क इस समस्या का समाधान करता है bằng cách शब्द मूल्यों को अधिक लचीला बनाने के लिए साइनसॉइडल फंक्शन का उपयोग करके, जिससे शब्द वेक्टर वाक्य में शब्द की स्थिति के आधार पर विभिन्न मान ले सकते हैं।

यह न्यूरल नेटवर्क मॉडल को इनपुट शब्दों की सापेक्ष स्थिति के बारे में जानकारी को संरक्षित करने की अनुमति देता है, यहां तक कि वेक्टर ट्रांसफॉर्मर नेटवर्क की परतों के माध्यम से गुजरते हैं।

स्थानिक एनकोडिंग और शब्द वेक्टर एम्बेडिंग को जोड़कर एनकोडर और डिकोडर नेटवर्क दोनों में पास किया जाता है। जबकि ट्रांसफॉर्मर न्यूरल नेटवर्क आरएनएन और एलएसटीएम की तरह एनकोडर/डिकोडर स्कीमा का उपयोग करते हैं, उनमें एक प्रमुख अंतर यह है कि सभी इनपुट डेटा एक ही समय में नेटवर्क में फीड किया जाता है, जबकि आरएनएन/एलएसटीएम में डेटा क्रमिक रूप से पास किया जाता है।

एनकोडर नेटवर्क इनपुट को नेटवर्क द्वारा सीखने योग्य प्रतिनिधित्व में परिवर्तित करने के लिए जिम्मेदार होते हैं, जबकि डिकोडर नेटवर्क इसके विपरीत काम करते हैं और एनकोडिंग को आउटपुट वाक्य में उत्पन्न करने के लिए उपयोग की जाने वाली संभाव्यता वितरण में परिवर्तित करते हैं। दोनों एनकोडर और डिकोडर नेटवर्क में एक ध्यान तंत्र होता है।

चूंकि जीपीयू समांतर प्रसंस्करण में सक्षम हैं, इसलिए कई ध्यान तंत्र समांतर में उपयोग किए जाते हैं, जो सभी इनपुट शब्दों के लिए प्रासंगिक जानकारी की गणना करते हैं। एक ही समय में कई शब्दों पर “मल्टी-हेड” ध्यान केंद्रित करने की यह क्षमता न्यूरल नेटवर्क को वाक्य में एक शब्द के संदर्भ को सीखने में मदद करती है, और यह ट्रांसफॉर्मर नेटवर्क के पक्ष में एक प्रमुख लाभ है आरएनएन और एलएसटीएम के ऊपर।

ध्यान तंत्र

ध्यान तंत्र ट्रांसफॉर्मर नेटवर्क का सबसे महत्वपूर्ण हिस्सा है। ध्यान तंत्र वह है जो ट्रांसफॉर्मर मॉडल को एक सामान्य आरएनएन या एलएसटीएम मॉडल की ध्यान सीमा से परे जाने की अनुमति देता है। पारंपरिक अनुक्रम से अनुक्रम मॉडल मध्यवर्ती राज्यों को त्याग देते हैं और केवल अंतिम राज्य/संदर्भ वेक्टर का उपयोग डिकोडर नेटवर्क को आरंभ करने के लिए करते हैं ताकि इनपुट अनुक्रम के बारे में भविष्यवाणियां की जा सकें।

अंतिम संदर्भ वेक्टर को त्यागने से छोटे इनपुट अनुक्रमों के लिए ठीक काम करता है। हालांकि, जैसे ही इनपुट अनुक्रम की लंबाई बढ़ती है, मॉडल का प्रदर्शन इस विधि का उपयोग करके खराब हो जाता है। यह इसलिए है क्योंकि एक लंबे इनपुट अनुक्रम को एक単क वेक्टर के रूप में सारांशित करना बहुत मुश्किल हो जाता है। समाधान मध्यवर्ती एनकोडर राज्यों का उपयोग करके डिकोडर के लिए संदर्भ वेक्टर का निर्माण करने के लिए मॉडल का “ध्यान” बढ़ाना है।

ध्यान तंत्र परिभाषित करता है कि अन्य इनपुट टोकन कितने महत्वपूर्ण हैं जब किसी दिए गए टोकन के लिए एनकोडिंग बनाई जाती है। उदाहरण के लिए, “यह” एक सामान्य सर्वनाम है, जो अक्सर जानवरों के लिंग के बिना उपयोग किया जाता है। एक ध्यान तंत्र ट्रांसफॉर्मर मॉडल को यह निर्धारित करने की अनुमति देगा कि वर्तमान संदर्भ में “यह” एक गिलहरी से संबंधित है, क्योंकि यह इनपुट वाक्य में सभी प्रासंगिक शब्दों की जांच कर सकता है।

एक ध्यान तंत्र का उपयोग तीन अलग-अलग तरीकों से किया जा सकता है: एनकोडर-टू-डिकोडर, एनकोडर-ओनली, डिकोडर-ओनली।

एनकोडर-डिकोडर ध्यान डिकोडर को आउटपुट उत्पन्न करते समय इनपुट अनुक्रम पर विचार करने की अनुमति देता है, जबकि एनकोडर-ओनली और डिकोडर-ओनली ध्यान तंत्र नेटवर्क को क्रमशः पिछले और वर्तमान अनुक्रमों के सभी हिस्सों पर विचार करने की अनुमति देते हैं।

ध्यान तंत्र का निर्माण पांच चरणों में विभाजित किया जा सकता है:

सभी एनकोडर राज्यों के लिए स्कोर की गणना करना।
ध्यान भार की गणना करना
संदर्भ वेक्टर की गणना करना
पिछले समय चरण के आउटपुट के साथ संदर्भ वेक्टर को अद्यतन करना
डिकोडर के साथ आउटपुट का उत्पादन करना

पहला चरण डिकोडर को सभी एनकोडर राज्यों के लिए स्कोर की गणना करना है। यह डिकोडर नेटवर्क को प्रशिक्षित करके किया जाता है, जो एक मूल फीड-फॉरवर्ड न्यूरल नेटवर्क है। जब डिकोडर को इनपुट अनुक्रम के पहले शब्द पर प्रशिक्षित किया जाता है, तो कोई आंतरिक/छिपा हुआ राज्य अभी तक बनाया नहीं गया है, इसलिए एनकोडर की अंतिम स्थिति का उपयोग आमतौर पर डिकोडर की पिछली स्थिति के रूप में किया जाता है।

ध्यान भार की गणना करने के लिए, एक सॉफ्टमैक्स फंक्शन का उपयोग ध्यान भारों के लिए एक संभाव्यता वितरण उत्पन्न करने के लिए किया जाता है।

एक बार ध्यान भार की गणना हो जाने के बाद, संदर्भ वेक्टर की गणना करने की आवश्यकता है। यह प्रत्येक समय चरण के लिए ध्यान भार और छिपे हुए राज्य को गुणा करके किया जाता है।

संदर्भ वेक्टर की गणना करने के बाद, इसका उपयोग पिछले समय चरण में उत्पन्न शब्द के साथ मिलकर आउटपुट अनुक्रम में अगले शब्द को उत्पन्न करने के लिए किया जाता है। चूंकि डिकोडर के पास पहले समय चरण में कोई पिछला आउटपुट नहीं होता है, इसलिए अक्सर एक विशेष “प्रारंभ” टोकन का उपयोग किया जाता है।

ट्रांसफॉर्मर और आरएनएन/एलएसटीएम के बीच अंतर

आरएनएन और एलएसटीएम के बीच कुछ अंतरों पर जल्दी से चर्चा करें。

आरएनएन इनपुट को क्रमिक रूप से संसाधित करते हैं, जबकि एक छिपा हुआ राज्य वेक्टर बनाए रखा जाता है और नेटवर्क के माध्यम से जाने वाले इनपुट शब्दों द्वारा परिवर्तित किया जाता है। आरएनएन के छिपे हुए राज्य में आमतौर पर पहले के इनपुट के बारे में बहुत कम प्रासंगिक जानकारी होती है। नए इनपुट अक्सर वर्तमान राज्य को ओवरराइट कर देते हैं, जिससे जानकारी की हानि होती है और समय के साथ प्रदर्शन खराब हो जाता है।

दूसरी ओर, ट्रांसफॉर्मर मॉडल पूरे इनपुट अनुक्रम को एक ही समय में संसाधित करते हैं। ध्यान तंत्र यह सुनिश्चित करता है कि प्रत्येक आउटपुट शब्द को प्रत्येक इनपुट और छिपे हुए राज्य से सूचित किया जाए, जिससे नेटवर्क लंबे पाठ के लिए अधिक विश्वसनीय हो जाता है।

एलएसटीएम आरएनएन का एक संशोधित संस्करण है जो लंबे इनपुट अनुक्रमों को संभालने के लिए समायोजित किया गया है। एलएसटीएम आर्किटेक्चर “गेट्स” नामक एक संरचना का उपयोग करता है, जिसमें “इनपुट गेट”, “आउटपुट गेट” और “भूल गेट” शामिल हैं। गेटेड डिज़ाइन आरएनएन मॉडल में सामान्य जानकारी हानि से निपटता है। डेटा अभी भी क्रमिक रूप से संसाधित किया जाता है, और पुनरावृत्ति डिज़ाइन एलएसटीएम मॉडल को समांतर प्रसंस्करण का उपयोग करके प्रशिक्षित करना मुश्किल बना देता है, जिससे प्रशिक्षण समय कुल मिलाकर लंबा हो जाता है।

एलएसटीएम इंजीनियर अक्सर नेटवर्क में ध्यान तंत्र जोड़ते थे, जो मॉडल के प्रदर्शन में सुधार के लिए जाना जाता था। हालांकि, बाद में यह पता चला कि ध्यान तंत्र अकेले सटीकता में सुधार करता है। यह खोज जीपीयू के लिए धन्यवाद समांतर प्रसंस्करण का उपयोग करते हुए ध्यान तंत्र और ध्यान तंत्र का उपयोग करने वाले ट्रांसफॉर्मर नेटवर्क के निर्माण की ओर ले जाती है।