рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
xLSTM : рд╡рд┐рд╕реНрддреГрдд рдорд╛рд░реНрдЧрджрд░реНрд╢рд┐рдХрд╛ рдПрдХреНрд╕рдЯреЗрдВрдбреЗрдб рд▓реЙрдиреНрдЧ рд╢реЙрд░реНрдЯ-рдЯрд░реНрдо рдореЗрдореЛрд░реА рдХреЗ рд▓рд┐рдП
मूल को समझना: एलएसटीएम की सीमाएं
xLSTM की दुनिया में गोता लगाने से पहले, यह आवश्यक है कि हम पारंपरिक एलएसटीएम आर्किटेक्चर की सीमाओं को समझें जिनका सामना उन्हें करना पड़ा है। इन सीमाओं ने xLSTM और अन्य वैकल्पिक दृष्टिकोणों के विकास के पीछे प्रेरक शक्ति रही है।
- संग्रहीत निर्णयों को संशोधित करने में असमर्थता: एलएसटीएम की एक प्राथमिक सीमा है संग्रहीत मानों को संशोधित करने में इसकी कठिनाई जब एक अधिक समान वेक्टर का सामना किया जाता है। यह गतिविधियों में उप-अधिकतम प्रदर्शन का कारण बन सकता है जिनमें संग्रहीत जानकारी को गतिशील रूप से अद्यतन करने की आवश्यकता होती है।
- सीमित संग्रहण क्षमताएं: एलएसटीएम स्केलर सेल राज्यों में जानकारी को संकुचित करता है, जो दुर्लभ टोकन या लंबी दूरी की निर्भरताओं के साथ जटिल डेटा पैटर्न को प्रभावी ढंग से संग्रहीत और पुनर्प्राप्त करने में इसकी क्षमता को सीमित कर सकता है।
- समानांतरीकरण की कमी: एलएसटीएम में मेमोरी मिश्रण तंत्र, जो समय के बीच छिपी हुई-छिपी हुई कनेक्शन को शामिल करता है, क्रमिक प्रसंस्करण को लागू करता है, जो गणना को समानांतर करने और स्केलेबिलिटी को सीमित करने में बाधा उत्पन्न करता है।
इन सीमाओं ने ट्रांसफॉर्मर और अन्य आर्किटेक्चर के उदय को एलएसटीएम को अधिक जटिल भाषा कार्यों के लिए पार करने के लिए प्रेरित किया है, विशेष रूप से बड़े मॉडलों तक स्केल करने में।
xLSTM आर्किटेक्चर
xLSTM के केंद्र में दो मुख्य संशोधन हैं: एक्सपोनेंशियल गेटिंग और नई मेमोरी संरचनाएं। ये सुधार पारंपरिक एलएसटीएम फ्रेमवर्क में दो नए वेरिएंट की शुरुआत करते हैं, जिन्हें स्केलर एलएसटीएम (sLSTM) और मैट्रिक्स एलएसटीएम (mLSTM) के रूप में जाना जाता है।
- sLSTM: एक्सपोनेंशियल गेटिंग और मेमोरी मिश्रण के साथ स्केलर एलएसटीएम
- एक्सपोनेंशियल गेटिंग: sLSTM में इनपुट और फॉरगेट गेट्स के लिए एक्सपोनेंशियल एक्टिवेशन फंक्शन शामिल हैं, जो जानकारी के प्रवाह पर अधिक लचीला नियंत्रण प्रदान करते हैं।
- सामान्यीकरण और स्थिरीकरण: संख्यात्मक अस्थिरताओं को रोकने के लिए, sLSTM एक सामान्यकर्ता राज्य पेश करता है जो इनपुट गेट्स और भविष्य के फॉरगेट गेट्स के गुणन को ट्रैक करता है।
- मेमोरी मिश्रण: sLSTM में कई मेमोरी सेल का समर्थन है और मेमोरी मिश्रण की अनुमति देता है जो जटिल पैटर्न को निकालने और राज्य ट्रैकिंग क्षमताओं को सक्षम बनाता है।
- mLSTM: मैट्रिक्स एलएसटीएम के साथ बढ़ी हुई संग्रहण क्षमताएं
- मैट्रिक्स मेमोरी: mLSTM एक मैट्रिक्स मेमोरी का उपयोग करता है, जो इसकी संग्रहण क्षमता को बढ़ाता है और जानकारी को अधिक कुशलता से पुनर्प्राप्त करने में सक्षम बनाता है।
- कोवेरियन्स अपडेट नियम: mLSTM बिडायरेक्शनल एसोसिएटिव मेमोरीज (BAMs) से प्रेरित कोवेरियन्स अपडेट नियम का उपयोग करता है, जो कुशलता से कुंजी-मूल्य जोड़े को संग्रहीत और पुनर्प्राप्त करने में सक्षम बनाता है।
- समानांतरीकरण: मेमोरी मिश्रण को त्यागकर, mLSTM पूर्ण समानांतरीकरण प्राप्त करता है, जो आधुनिक हार्डवेयर एक्सेलरेटर्स पर कुशल गणना की अनुमति देता है और स्केलेबिलिटी को सक्षम बनाता है।
इन दो वेरिएंट, sLSTM और mLSTM, को शेष ब्लॉक वास्तुकला में एकीकृत किया जा सकता है, जो xLSTM ब्लॉक बनाते हैं। xLSTM ब्लॉकों को शेष रूप से ढेर करने से शोधकर्ता विशिष्ट कार्यों और अनुप्रयोग डोमेन के लिए शक्तिशाली xLSTM वास्तुकला का निर्माण कर सकते हैं।
गणित
पारंपरिक एलएसटीएम:
मूल एलएसटीएम आर्किटेक्चर ने रिकरेंट न्यूरल नेटवर्क में वानishing ग्रेडिएंट समस्या को दूर करने के लिए स्थिर त्रुटि कारусेल और गेटिंग तंत्र पेश किया।

एलएसटीएम में दोहराने वाला मॉड्यूल – स्रोत
एलएसटीएम मेमोरी सेल अपडेट निम्नलिखित समीकरणों द्वारा शासित होते हैं:
सेल स्टेट अपडेट: सीटी = एफटी ⊙ सीटी-1 + आईटी ⊙ जेडटी
हिडन स्टेट अपडेट: एचटी = ओटी ⊙ टैन्ह(सीटी)
जहां:
- 𝑐𝑡 समय 𝑡 पर सेल स्टेट वेक्टर है
- 𝑓𝑡 भूलने का गेट वेक्टर है
- 𝑖𝑡 इनपुट गेट वेक्टर है
- 𝑜𝑡 आउटपुट गेट वेक्टर है
- 𝑧𝑡 इनपुट गेट द्वारा संशोधित इनपुट है
- ⊙ तत्व-वार गुणा का प्रतिनिधित्व करता है
गेट्स फीट, आईटी, और ओटी सेल स्टेट सीटी से क्या जानकारी संग्रहीत, भूली जाती है, और आउटपुट किया जाता है, इसे नियंत्रित करते हैं, वानishing ग्रेडिएंट समस्या को कम करते हैं।
एक्सपोनेंशियल गेटिंग के साथ xLSTM:
xLSTM आर्किटेक्चर एक्सपोनेंशियल गेटिंग पेश करता है जो जानकारी के प्रवाह पर अधिक लचीला नियंत्रण प्रदान करता है। स्केलर xLSTM (sLSTM) वेरिएंट के लिए:
सेल स्टेट अपडेट: सीटी = एफटी ⊙ सीटी-1 + आईटी ⊙ जेडटी
नॉर्मलाइज़र स्टेट अपडेट: एनटी = एफटी ⊙ एनटी-1 + आईटी
हिडन स्टेट अपडेट: एचटी = ओटी ⊙ (सीटी / एनटी)
इनपुट और फॉरगेट गेट्स: आईटी = एक्सप(डब्ल्यू_आई एक्सटी + आर_आई एचटी-1 + बी_आई) एफटी = सिग्मा(डब्ल्यू_एफ एक्सटी + आर_एफ एचटी-1 + बी_एफ) या एफटी = एक्सप(डब्ल्यू_एफ एक्सटी + आर_एफ एचटी-1 + बी_एफ)
इनपुट (आईटी) और फॉरगेट (एफटी) गेट्स के लिए एक्सपोनेंशियल एक्टिवेशन फंक्शन, साथ ही नॉर्मलाइज़र स्टेट एनटी, मेमोरी अपडेट और संग्रहीत जानकारी को संशोधित करने पर अधिक प्रभावी नियंत्रण प्रदान करते हैं।
xLSTM की मुख्य विशेषताएं और लाभ
- संग्रहीत निर्णयों को संशोधित करने की क्षमता: एक्सपोनेंशियल गेटिंग के लिए धन्यवाद, xLSTM संग्रहीत मानों को प्रभावी ढंग से संशोधित कर सकता है जब अधिक प्रासंगिक जानकारी का सामना किया जाता है, पारंपरिक एलएसटीएम की एक महत्वपूर्ण सीमा को दूर करता है।
- बढ़ी हुई संग्रहण क्षमताएं: mLSTM में मैट्रिक्स मेमोरी प्रदान करती है जो इसकी संग्रहण क्षमता को बढ़ाती है, xLSTM को दुर्लभ टोकन, लंबी दूरी की निर्भरताओं और जटिल डेटा पैटर्न को अधिक प्रभावी ढंग से संभालने में सक्षम बनाती है।
- समानांतरीकरण: mLSTM वेरिएंट पूर्ण रूप से समानांतर है, जो आधुनिक हार्डवेयर एक्सेलरेटर्स पर कुशल गणना की अनुमति देता है और स्केलेबिलिटी को सक्षम बनाता है।
- मेमोरी मिश्रण और राज्य ट्रैकिंग: sLSTM वेरिएंट पारंपरिक एलएसटीएम की मेमोरी मिश्रण क्षमताओं को बनाए रखता है, राज्य ट्रैकिंग को सक्षम बनाता है और ट्रांसफॉर्मर और स्टेट स्पेस मॉडल की तुलना में xLSTM को अधिक अभिव्यक्तिपूर्ण बनाता है।
- स्केलेबिलिटी: आधुनिक बड़े भाषा मॉडल (LLM) से नवीनतम तकनीकों का लाभ उठाकर, xLSTM को अरबों पैरामीटर तक स्केल किया जा सकता है, भाषा मॉडलिंग और अनुक्रम प्रसंस्करण कार्यों में नए अवसरों को अनलॉक करता है।
प्रयोगात्मक मूल्यांकन: xLSTM की क्षमताओं का प्रदर्शन
शोध पत्र xLSTM का एक व्यापक प्रयोगात्मक मूल्यांकन प्रस्तुत करता है, विभिन्न कार्यों और बेंचमार्क पर इसके प्रदर्शन को उजागर करता है। यहां कुछ प्रमुख निष्कर्ष हैं:
- सिंथेटिक कार्य और लंबी दूरी का मैदान:
- xLSTM राज्य ट्रैकिंग की आवश्यकता वाले औपचारिक भाषा कार्यों को हल करने में उत्कृष्टता प्रदर्शित करता है, ट्रांसफॉर्मर, स्टेट स्पेस मॉडल, और अन्य आरएनएन आर्किटेक्चर को पार करता है।
- मल्टी-क्वेरी एसोसिएटिव रिकॉल कार्य में, xLSTM बढ़ी हुई मेमोरी क्षमता प्रदर्शित करता है, गैर-ट्रांसफॉर्मर मॉडल को पार करता है और ट्रांसफॉर्मर के प्रदर्शन को प्रतिद्वंद्वी बनाता है।
- लंबी दूरी के मैदान बेंचमार्क पर, xLSTM लगातार मजबूत प्रदर्शन प्रदर्शित करता है, लंबे संदर्भ समस्याओं को संभालने में इसकी कुशलता का प्रदर्शन करता है।
- भाषा मॉडलिंग और डाउनस्ट्रीम कार्य:
- स्लिमपाजामा डेटासेट से 15बी टोकन पर प्रशिक्षित, xLSTM मौजूदा विधियों को पार करता है, जिनमें ट्रांसफॉर्मर, स्टेट स्पेस मॉडल, और अन्य आरएनएन वेरिएंट शामिल हैं, सत्यापन परिप्रेक्ष्य में。
- जैसे ही मॉडल को बड़े आकार में स्केल किया जाता है, xLSTM अपने प्रदर्शन लाभ को बनाए रखता है, अनुकूल स्केलिंग व्यवहार प्रदर्शित करता है।
- सामान्य ज्ञान तर्क और प्रश्न उत्तर देने जैसे डाउनस्ट्रीम कार्यों में, xLSTM विभिन्न मॉडल आकारों में सर्वश्रेष्ठ विधि के रूप में उभरता है, राज्य-कला दृष्टिकोणों को पार करता है।
- पालोमा भाषा कार्यों पर प्रदर्शन:
- पालोमा भाषा बेंचमार्क के 571 पाठ डोमेन में मूल्यांकन किया गया, xLSTM[1:0] (sLSTM वेरिएंट) माम्बा की तुलना में 99.5% डोमेन में, लामा की तुलना में 85.1%, और RWKV-4 की तुलना में 99.8% में कम भ्रम प्रदर्शित करता है।
- स्केलिंग कानून और लंबाई एक्सट्रापोलेशन:
- स्लिमपाजामा से 300बी टोकन पर प्रशिक्षित, xLSTM अनुकूल स्केलिंग कानून प्रदर्शित करता है, मॉडल आकार बढ़ने के साथ और भी बेहतर प्रदर्शन सुधार की संभावना का संकेत देता है।
- अनुक्रम लंबाई एक्सट्रापोलेशन प्रयोगों में, xLSTM मॉडल प्रशिक्षण के दौरान देखे गए संदर्भों से काफी लंबे संदर्भ के लिए भी निम्न भ्रम बनाए रखते हैं, अन्य विधियों को पार करते हैं।
इन प्रयोगात्मक परिणाम xLSTM की उल्लेखनीय क्षमताओं को उजागर करते हैं, इसे भाषा मॉडलिंग कार्यों, अनुक्रम प्रसंस्करण, और एक विस्तृत श्रृंखला के अनुप्रयोगों के लिए एक आशाजनक प्रतियोगी के रूप में स्थापित करते हैं।
वास्तविक दुनिया के अनुप्रयोग और भविष्य के दिशानिर्देश
xLSTM के संभावित अनुप्रयोग व्यापक हैं और प्राकृतिक भाषा प्रसंस्करण, पाठ जनरेशन, अनुक्रम मॉडलिंग, समय श्रृंखला विश्लेषण और उससे परे तक फैले हुए हैं। यहां कुछ रोमांचक क्षेत्र हैं जहां xLSTM महत्वपूर्ण प्रभाव डाल सकता है:
- भाषा मॉडलिंग और पाठ जनरेशन: अपनी बढ़ी हुई संग्रहण क्षमताओं और संग्रहीत जानकारी को संशोधित करने की क्षमता के साथ, xLSTM भाषा मॉडलिंग और पाठ जनरेशन कार्यों में क्रांति ला सकता है, अधिक सुसंगत, संदर्भ-जागरूक और तरल पाठ जनरेशन को सक्षम बना सकता है।
- मशीन अनुवाद: xLSTM की राज्य ट्रैकिंग क्षमताएं मशीन अनुवाद कार्यों में मूल्यवान साबित हो सकती हैं, जहां संदर्भ जानकारी और लंबी दूरी की निर्भरताओं को बनाए रखना सटीक अनुवाद के लिए महत्वपूर्ण है।
- भाषण मान्यता और जनरेशन: xLSTM की समानांतरीकरण और स्केलेबिलिटी इसे भाषण मान्यता और जनरेशन अनुप्रयोगों के लिए उपयुक्त बनाती है, जहां लंबे अनुक्रमों का कुशल प्रसंस्करण आवश्यक है।
- समय श्रृंखला विश्लेषण और पूर्वानुमान: xLSTM की लंबी दूरी की निर्भरताओं और जटिल पैटर्न को संग्रहीत और पुनर्प्राप्त करने की क्षमता वित्त, मौसम पूर्वानुमान, और औद्योगिक अनुप्रयोगों सहित विभिन्न डोमेन में समय श्रृंखला विश्लेषण और पूर्वानुमान कार्यों में महत्वपूर्ण सुधार का कारण बन सकती है।
- सुदृढ़ शिक्षण और नियंत्रण प्रणाली: xLSTM की स्मृति क्षमताओं और राज्य ट्रैकिंग क्षमताओं में सुदृढ़ शिक्षण और नियंत्रण प्रणालियों में अधिक बुद्धिमान निर्णय लेने और जटिल वातावरण में नियंत्रण की संभावना है।
















