कृत्रिम बुद्धिमत्ता

MambaOut: क्या हमें विजन के लिए वास्तव में Mamba की आवश्यकता है?

Published May 24, 2024

Updated April 27, 2026

Kunal Kejriwal

आधुनिक मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस फ्रेमवर्क में, ट्रांसफॉर्मर विभिन्न डोमेन में व्यापक रूप से उपयोग किए जाने वाले घटकों में से एक हैं, जिनमें जीपीटी श्रृंखला, बीईआरटी प्राकृतिक भाषा प्रसंस्करण में, और कंप्यूटर विजन कार्यों में विजन ट्रांसफॉर्मर शामिल हैं। हालांकि मॉडल आर्किटेक्चर में ट्रांसफॉर्मर को शामिल करने से मॉडल के प्रदर्शन में महत्वपूर्ण बढ़ावा मिलता है, ट्रांसफॉर्मर में ध्यान मॉड्यूल अनुक्रम लंबाई के साथ द्विगुणित रूप से बढ़ता है, जिससे उच्च गणनात्मक चुनौतियाँ उत्पन्न होती हैं। वर्षों से, विभिन्न मॉडलों ने गणनात्मक चुनौतियों से निपटने के लिए विभिन्न रणनीतियों का अन्वेषण किया है, जिनमें कर्नेलीकरण, इतिहास मेमोरी संपीड़न, टोकन मिश्रण सीमा सीमितता, और निम्न-रैंक दृष्टिकोण शामिल हैं। हाल ही में, रिकरेंट न्यूरल नेटवर्क जैसे माम्बा और आरडब्ल्यूकेवी जैसे तरीकों ने बड़े भाषा मॉडल में अपने आशाजनक परिणामों के कारण महत्वपूर्ण ध्यान आकर्षित किया है।

माम्बा, एक मॉडल परिवार का एक आर्किटेक्चर है जिसमें एक रिकरेंट न्यूरल नेटवर्क जैसे टोकन मिक्सर एक स्टेट स्पेस मॉडल के साथ है, जो हाल ही में ध्यान तंत्र की द्विगुणित जटिलता को संबोधित करने के लिए पेश किया गया था और बाद में दृष्टि कार्यों में लागू किया गया था। शोधकर्ताओं ने पहले से ही माम्बा और एसएसएम या स्टेट स्पेस मॉडल को दृश्य मान्यता कार्यों में शामिल करने के तरीकों का अन्वेषण किया है, और विजन माम्बा जो विजन ट्रांसफॉर्मर के समान दृश्य मॉडल विकसित करने के लिए माम्बा को एकीकृत करता है, इसका एक उत्कृष्ट उदाहरण है। दूसरी ओर, लोकलमाम्बा स्थानीय प्रेरक पूर्वाग्रहों को दृश्य माम्बा मॉडल को बढ़ाने के लिए शामिल करता है, और वीएमाम्बा फ्रेमवर्क आधार माम्बा मॉडल का उपयोग रेसनेट और अलेक्सनेट जैसे हायरार्किकल मॉडल बनाने के लिए करता है। लेकिन, क्या वास्तव में दृश्य मान्यता संदर्भ कार्यों के लिए माम्बा फ्रेमवर्क आवश्यक है? यह प्रश्न इसलिए उठता है क्योंकि दृश्य कार्यों के लिए माम्बा परिवार के मॉडलों का प्रदर्शन अब तक पारंपरिक ध्यान-आधारित और कन्वोल्यूशनल मॉडलों की तुलना में निराशाजनक रहा है।

माम्बाउट यह जांचने का प्रयास करता है कि क्या माम्बा वास्तव में स्वायत्त और लंबी-क्रम वाली विशेषताओं वाले कार्यों के लिए उपयुक्त है। माम्बाउट फ्रेमवर्क का अनुमान है कि माम्बा दृश्य कार्यों के लिए आवश्यक नहीं है क्योंकि छवि वर्गीकरण न तो लंबी-क्रम और न ही स्वायत्त विशेषताओं के साथ संरेखित होता है। हालांकि, सेगमेंटेशन और डिटेक्शन कार्य भी स्वायत्त नहीं हैं, वे लंबी-क्रम विशेषताओं को प्रदर्शित करते हैं, जिससे माम्बाउट फ्रेमवर्क को इन कार्यों के लिए माम्बा की संभावना का अनुमान लगता है। माम्बाउट फ्रेमवर्क का निर्माण माम्बा ब्लॉक्स को एक दूसरे के ऊपर ढेर करने और इसके कोर टोकन मिक्सर, स्टेट स्पेस मॉडल को हटाने से किया जाता है। प्रायोगिक परिणाम माम्बाउट फ्रेमवर्क द्वारा प्रस्तुत अनुमान का समर्थन करते हैं क्योंकि यह इमेजनेट इमेज वर्गीकरण फ्रेमवर्क पर सभी दृश्य माम्बा मॉडलों को पार करने में सक्षम है, जो दर्शाता है कि माम्बा दृश्य कार्यों के लिए आवश्यक नहीं है। दूसरी ओर, डिटेक्शन और सेगमेंटेशन कार्यों के लिए, माम्बाउट फ्रेमवर्क राज्य के कला माम्बा मॉडल द्वारा प्रदान किए गए प्रदर्शन को दोहराने में असमर्थ है, जो लंबी-क्रम दृश्य कार्यों के लिए माम्बा परिवार के मॉडलों की संभावना को प्रदर्शित करता है।

इस लेख का उद्देश्य माम्बाउट फ्रेमवर्क को गहराई से कवर करना है, और हम तंत्र, विधि, फ्रेमवर्क की वास्तुकला के साथ-साथ राज्य के कला फ्रेमवर्क के साथ इसकी तुलना करते हैं। तो आइए शुरू करें।

माम्बाउट: क्या माम्बा वास्तव में दृश्य के लिए आवश्यक है?

मशीन लर्निंग अनुप्रयोगों और क्षमताओं की प्रगति के साथ, ट्रांसफॉर्मर विभिन्न कार्यों के लिए मुख्यधारा की रीढ़ की हड्डी के रूप में उभरे हैं, जिसमें विजन ट्रांसफॉर्मर, जीपीटी मॉडल श्रृंखला, बीईआरटी, और कुछ और शामिल हैं। हालांकि, ट्रांसफॉर्मर के टोकन मिक्सर में अनुक्रम लंबाई के संबंध में द्विगुणित जटिलता होती है, और लंबी अनुक्रमों के लिए महत्वपूर्ण गणनात्मक चुनौतियाँ प्रस्तुत करती है। इस मुद्दे को संबोधित करने के लिए, विभिन्न टोकन मिक्सर को टोकन लंबाई के साथ रैखिक जटिलता वाले लिंफॉर्मर, लॉन्गफॉर्मर, परफॉर्मर, डायनामिक कॉन्वोल्यूशन, और बिग बर्ड जैसे तरीकों के साथ पेश किया गया है। हालांकि, हाल के समय में, रिकरेंट न्यूरल नेटवर्क जैसे मॉडल पैरेललizable प्रशिक्षण की उनकी क्षमता और लंबी अनुक्रमों पर कुशल प्रदर्शन के कारण प्रमुखता प्राप्त कर रहे हैं। आरएनएन जैसे मॉडलों द्वारा प्रदान किए गए उत्कृष्ट प्रदर्शन के मार्गदर्शन में, शोधकर्ता माम्बा परिवार के मॉडलों को दृश्य मान्यता कार्यों में पेश करने और उपयोग करने का प्रयास कर रहे हैं क्योंकि माम्बा मॉडलों का टोकन मिक्सर रिकरेंट न्यूरल नेटवर्क की भावना में संरचित स्टेट स्पेस मॉडल है। हालांकि, प्रयोगात्मक परिणाम दर्शाते हैं कि दृश्य कार्यों में राज्य स्पेस मॉडल आधारित फ्रेमवर्क पारंपरिक ध्यान-आधारित और राज्य के कला कन्वोल्यूशनल मॉडलों की तुलना में निराशाजनक प्रदर्शन करते हैं।

माम्बाउट माम्बा परिवार के मॉडलों की प्रकृति की जांच करने का प्रयास है, और यह निष्कर्ष निकालता है कि माम्बा स्वायत्त या लंबी-क्रम वाली विशेषताओं वाले कार्यों के लिए उपयुक्त है क्योंकि स्टेट स्पेस मॉडल में एक अंतर्निहित आरएनएन तंत्र है। हालांकि, अधिकांश दृश्य कार्यों में इनमें से कोई भी विशेषता नहीं होती है, और कुछ प्रयोगों के आधार पर, माम्बाउट दो अनुमान प्रस्तुत करता है। पहला, स्टेट स्पेस मॉडल छवि वर्गीकरण के लिए आवश्यक नहीं है क्योंकि छवि वर्गीकरण कार्य न तो स्वायत्त और न ही लंबी-क्रम वाली विशेषताओं के साथ संरेखित होता है। दूसरा, स्टेट स्पेस मॉडल संभावित रूप से उदाहरण सेगमेंटेशन और सेमेंटिक सेगमेंटेशन के साथ-साथ वस्तु डिटेक्शन के लिए लाभदायक हो सकते हैं क्योंकि वे लंबी-क्रम विशेषताओं को प्रदर्शित करते हैं, हालांकि वे स्वायत्त नहीं हैं। प्रयोगात्मक परिणाम माम्बाउट फ्रेमवर्क द्वारा प्रस्तुत अनुमान का समर्थन करते हैं क्योंकि यह दृश्य माम्बा मॉडलों को पार करने में सक्षम है, जो दर्शाता है कि माम्बा दृश्य कार्यों के लिए आवश्यक नहीं है। दूसरी ओर, डिटेक्शन और सेगमेंटेशन कार्यों के लिए, माम्बाउट फ्रेमवर्क राज्य के कला माम्बा मॉडल द्वारा प्रदान किए गए प्रदर्शन को दोहराने में असमर्थ है, जो लंबी-क्रम दृश्य कार्यों के लिए माम्बा परिवार के मॉडलों की संभावना को प्रदर्शित करता है।

माम्बा के लिए उपयुक्त कार्य क्या हैं?

माम्बा फ्रेमवर्क का टोकन मिक्सर एक चयनात्मक स्टेट स्पेस मॉडल है जो चार इनपुट-निर्भर पैरामीटर परिभाषित करता है। फ्रेमवर्क का रिकरेंट गुण आरएनएन जैसे स्टेट स्पेस मॉडलों को कारण ध्यान से अलग करता है। छिपी हुई स्थिति को एक निश्चित-आकार की स्मृति के रूप में देखा जा सकता है जो ऐतिहासिक जानकारी संग्रहीत करती है। निश्चित आकार का अर्थ है कि स्मृति हानिपूर्ण है, लेकिन यह भी सुनिश्चित करता है कि स्मृति को वर्तमान इनपुट के साथ एकीकृत करने की गणनात्मक जटिलता स्थिर रहती है। इसके विपरीत, कारण ध्यान層 सभी पिछले टोकन से कुंजी और मूल्य संग्रहीत करते हैं, और प्रत्येक नए इनपुट के साथ विस्तार करते हैं, और यह स्मृति हानिरहित है, सैद्धांतिक रूप से। हालांकि, स्मृति का आकार टोकन की संख्या बढ़ने के साथ बढ़ता है, जिससे स्मृति को वर्तमान इनपुट के साथ एकीकृत करने की जटिलता बढ़ जाती है। कारण ध्यान और आरएनएन जैसे मॉडलों के बीच स्मृति तंत्र के बीच का अंतर निम्नलिखित चित्र में दिखाया गया है।

चूंकि स्टेट स्पेस मॉडल की स्मृति अंतर्निहित रूप से हानिपूर्ण है, यह कारण ध्यान की हानिरहित स्मृति से कम हो जाती है, और परिणामस्वरूप, माम्बा मॉडल छोटी अनुक्रमों को संभालने में कारण ध्यान तंत्र की तुलना में कमजोर होते हैं, जो आसानी से छोटी अनुक्रमों को संभाल सकते हैं। हालांकि, लंबी अनुक्रमों वाले दृश्यों में, कारण ध्यान दृष्टिकोण द्विगुणित जटिलता के कारण असफल हो जाता है। इस दृश्य में, माम्बा फ्रेमवर्क अपनी कुशलता प्रदर्शित करता है और लंबी अनुक्रमों को सMOOTHLY संभाल सकता है, जो दर्शाता है कि माम्बा परिवार के मॉडल लंबी-क्रम अनुक्रमों को संभालने के लिए उपयुक्त हैं।

यह भी ध्यान देने योग्य है कि एक ओर जहां स्टेट स्पेस मॉडल का रिकरेंट स्वभाव माम्बा मॉडलों को लंबी अनुक्रमों को कुशलता से संभालने में सक्षम बनाता है, यह एक सीमा भी पेश करता है क्योंकि यह केवल वर्तमान और पिछले टाइमस्टेप्स से जानकारी तक पहुंच सकता है, और इस प्रकार के टोकन मिश्रण को कारण मोड कहा जाता है, और निम्नलिखित चित्र में दिखाया गया है। इसके कारण स्वभाव के कारण, यह विधि स्वायत्त पीढ़ी कार्यों के लिए उपयुक्त है।

पूरी तरह से दिखाई देने वाला मोड समझने वाले कार्यों के लिए उपयुक्त है जहां मॉडल सभी इनपुट एक बार में एक्सेस कर सकता है। इसके अलावा, ध्यान पूरी तरह से दिखाई देने वाले मोड में डिफ़ॉल्ट रूप से है, और इसे कारण मोड में आसानी से बदला जा सकता है ध्यान मानचित्रों पर कारण मास्क लागू करके, और आरएनएन जैसे मॉडल अपने रिकरेंट गुणों के कारण अंतर्निहित रूप से कारण मोड में काम करते हैं। सारांश में, माम्बा फ्रेमवर्क लंबी-क्रम या स्वायत्त टोकन मिश्रण मोड वाले कार्यों के लिए उपयुक्त है।

दृश्य मान्यता कार्य, कारण टोकन मिश्रण कोड, और बहुत बड़े अनुक्रम

जैसा कि पहले चर्चा की गई, पूरी तरह से दिखाई देने वाला टोकन मिश्रण मोड मिश्रण की एक असीमित श्रृंखला की अनुमति देता है, जबकि कारण मोड वर्तमान टोकन को केवल पिछले टोकन से जानकारी तक पहुंच की अनुमति देता है। इसके अलावा, दृश्य मान्यता एक समझने वाला कार्य है जहां मॉडल पूरी छवि को एक बार में देख सकता है, और यह टोकन मिश्रण पर प्रतिबंध की आवश्यकता को समाप्त करता है, और टोकन मिश्रण पर अतिरिक्त प्रतिबंध लगाने से मॉडल के प्रदर्शन में गिरावट आ सकती है।一般 रूप से, पूरी तरह से दिखाई देने वाला मोड समझने वाले कार्यों के लिए उपयुक्त है, जबकि कारण मोड स्वायत्त कार्यों के लिए बेहतर है। इसके अलावा, यह दावा इस तथ्य से और समर्थित है कि बीईआरटी और वीआईटी मॉडल जीपीटी मॉडल की तुलना में समझने वाले कार्यों के लिए अधिक उपयोग किए जाते हैं।

प्रयोगात्मक सत्यापन और परिणाम

अगला कदम माम्बाउट फ्रेमवर्क द्वारा प्रस्तुत अनुमानों को प्रयोगात्मक रूप से सत्यापित करना है। जैसा कि निम्नलिखित छवि में दिखाया गया है, माम्बा ब्लॉक गेटेड कॉन्वोल्यूशनल न्यूरल नेटवर्क ब्लॉक पर आधारित है, और माम्बा और गेटेड सीएनएन ब्लॉक्स का मेटा-आर्किटेक्चर मेटाफॉर्मर फ्रेमवर्क के टोकन मिक्सर और एक एमएलपी के सरलीकृत एकीकरण के रूप में माना जा सकता है।

माम्बा ब्लॉक गेटेड कॉन्वोल्यूशनल न्यूरल नेटवर्क को एक अतिरिक्त स्टेट स्पेस मॉडल के साथ विस्तारित करता है, और एसएसएम की उपस्थिति ही गेटेड सीएनएन और माम्बा ब्लॉक को अलग करती है। इसके अलावा, व्यावहारिक गति में सुधार के लिए, माम्बाउट फ्रेमवर्क केवल आंशिक चैनलों पर गहराईवार संवोल्यूशन करता है, और जैसा कि निम्नलिखित एल्गोरिदम में दिखाया गया है, गेटेड सीएनएन ब्लॉक का कार्यान्वयन सरल, प्रभावी और सुरुचिपूर्ण है।

छवि वर्गीकरण कार्य

इमेजनेट छवि वर्गीकरण कार्यों के लिए एक बेंचमार्क के रूप में कार्य करता है क्योंकि इसमें 1000 से अधिक सामान्य वर्ग, 1.3 मिलियन से अधिक प्रशिक्षण छवियां, और 50,000 से अधिक सत्यापन छवियां शामिल हैं। प्रयोग के लिए उपयोग किए जाने वाले डेटा ऑगमेंटेशन में यादृच्छिक आकार वाले फसल, मिक्सअप, रंग ज़िट्टर, यादृच्छिक मिटाने, काटमिक्स, और रैंड ऑगमेंट शामिल हैं। निम्नलिखित तालिका माम्बा परिवार के मॉडलों, माम्बाउट मॉडल, और अन्य ध्यान-आधारित और कन्वोल्यूशनल मॉडलों के प्रदर्शन को इमेजनेट डेटासेट पर सारांशित करती है। जैसा कि देखा जा सकता है, माम्बाउट फ्रेमवर्क बिना एसएसएम के सभी दृश्य माम्बा मॉडलों को निरंतर रूप से पार करता है, सभी मॉडल आकारों में।

उदाहरण के लिए, माम्बाउट-स्मॉल मॉडल 84% से अधिक का शीर्ष-1 सटीकता स्कोर लौटाता है, जो इसके निकटतम माम्बा प्रतिद्वंद्वी से 0.4% अधिक है। यह परिणाम पहले अनुमान का समर्थन करता है जो दावा करता है कि छवि वर्गीकरण कार्यों के लिए स्टेट स्पेस मॉडल को पेश करना आवश्यक नहीं है।

वस्तु डिटेक्शन और उदाहरण सेगमेंटेशन कार्य

सीओसीओ वस्तु डिटेक्शन और उदाहरण सेगमेंटेशन कार्यों के लिए एक बेंचमार्क के रूप में कार्य करता है। हालांकि माम्बाउट फ्रेमवर्क कुछ दृश्य माम्बा मॉडलों के प्रदर्शन को पार करने में सक्षम है, यह अभी भी राज्य के कला दृश्य माम्बा मॉडलों जैसे लोकलवीएमाम्बा और वीएमाम्बा से पीछे रहता है। माम्बाउट और राज्य के कला दृश्य मॉडलों के बीच प्रदर्शन में अंतर लंबी-क्रम दृश्य कार्यों में माम्बा परिवार के मॉडलों के लाभों पर जोर देता है। हालांकि, यह ध्यान देने योग्य है कि राज्य के कला कन्वोल्यूशनल-ध्यान-हाइब्रिड मॉडल और दृश्य माम्बा मॉडल के बीच एक महत्वपूर्ण प्रदर्शन अंतर अभी भी मौजूद है।

अंतिम विचार

माम्बा परिवार के मॉडल स्वायत्त और लंबी-क्रम वाली विशेषताओं वाले कार्यों के लिए उपयुक्त लगते हैं। माम्बाउट फ्रेमवर्क का अनुमान है कि माम्बा दृश्य कार्यों के लिए आवश्यक नहीं है क्योंकि छवि वर्गीकरण न तो लंबी-क्रम और न ही स्वायत्त विशेषताओं के साथ संरेखित होता है। हालांकि, सेगमेंटेशन और डिटेक्शन कार्य भी स्वायत्त नहीं हैं, वे लंबी-क्रम विशेषताओं को प्रदर्शित करते हैं, जिससे माम्बाउट फ्रेमवर्क को इन कार्यों के लिए माम्बा की संभावना का अनुमान लगता है। माम्बाउट फ्रेमवर्क का निर्माण माम्बा ब्लॉक्स को एक दूसरे के ऊपर ढेर करने और इसके कोर टोकन मिक्सर, स्टेट स्पेस मॉडल को हटाने से किया जाता है। प्रयोगात्मक परिणाम माम्बाउट फ्रेमवर्क द्वारा प्रस्तुत अनुमान का समर्थन करते हैं क्योंकि यह दृश्य माम्बा मॉडलों को पार करने में सक्षम है, जो दर्शाता है कि माम्बा दृश्य कार्यों के लिए आवश्यक नहीं है। दूसरी ओर, डिटेक्शन और सेगमेंटेशन कार्यों के लिए, माम्बाउट फ्रेमवर्क राज्य के कला माम्बा मॉडल द्वारा प्रदान किए गए प्रदर्शन को दोहराने में असमर्थ है, जो लंबी-क्रम दृश्य कार्यों के लिए माम्बा परिवार के मॉडलों की संभावना को प्रदर्शित करता है।

Kunal Kejriwal

एक इंजीनियर पेशे से, एक लेखक दिल से। कुनाल एक तकनीकी लेखक हैं जिन्हें एआई और एमएल के प्रति गहरा प्यार और समझ है, जो अपने आकर्षक और जानकारीपूर्ण दस्तावेज़ के माध्यम से इन क्षेत्रों में जटिल अवधारणाओं को सरल बनाने के लिए समर्पित हैं।