рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдЬреАрдкреАрдпреВ рджреАрд╡рд╛рд░ рдЯреВрдЯ рд░рд╣реА рд╣реИ: рдкреЛрд╕реНрдЯ-рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рдореЗрдВ рдЕрдирджреЗрдЦреА рдХреНрд░рд╛рдВрддрд┐

पिछले पांच वर्षों में, कृत्रिम बुद्धिमत्ता उद्योग प्रभावी रूप से एक शब्द के साथ पर्यायवाची रहा है: ट्रांसफॉर्मर। 2017 में “Attention Is All You Need” शोध पत्र के प्रकाशन के बाद से, यह आर्किटेक्चर क्षेत्र को निगल लिया है। जीपीटी से क्लाउड तक, लगभग हर सुर्खियों में आने वाले मॉडल उसी अंतर्निहित तंत्र पर निर्भर करते हैं जो स्व-ध्यान है। हमने माना है कि बेहतर एआई का मार्ग केवल पैमाने का मामला है। अभ्यास में, इसका अर्थ है बड़े ट्रांसफॉर्मर को अधिक डेटा के साथ बड़े जीपीयू क्लस्टर पर प्रशिक्षित करना।
जबकि इस विश्वास ने कई सफलताओं को चलाया है, यह अब अपनी सीमाओं तक पहुंच रहा है। हम एक “जीपीयू दीवार” से टकरा रहे हैं, जो केवल कच्चे कंप्यूटिंग शक्ति की बाधा नहीं है, बल्कि मेमोरी बैंडविड्थ और आर्थिक स्थिरता की भी है। जबकि दुनिया लाखों पैरामीटर मॉडल की दौड़ पर ध्यान केंद्रित कर रही है, शोध प्रयोगशालाओं में एक कट्टर परिवर्तन हो रहा है। “पोस्ट-ट्रांसफॉर्मर आर्किटेक्चर” की एक नई लहर उभर रही है जो वर्तमान परिदृश्य की सीमाओं को तोड़ने का वादा करती है। यह परिवर्तन एआई को अधिक कुशल, सुलभ और अनंत संदर्भों पर तर्क करने में सक्षम बनाने का वादा करता है।
सिलिकॉन छत: ट्रांसफॉर्मर क्यों दीवार से टकरा रहे हैं
इस परिवर्तन की आवश्यकता को समझने के लिए, हमें पहले वर्तमान शासन की बोतलें को समझने की आवश्यकता है। ट्रांसफॉर्मर अविश्वसनीय रूप से शक्तिशाली हैं, लेकिन वे विशिष्ट तरीकों से अविश्वसनीय रूप से अक्षम भी हैं। उनकी क्षमता का केंद्र “ध्यान तंत्र” में निहित है, जो मॉडल को एक क्रम में हर टोकन को देखने और इसके संबंध की गणना करने की अनुमति देता है। यह उन्हें संदर्भ को अविश्वसनीय रूप से अच्छी तरह से समझने की अनुमति देता है।
हालांकि, यह क्षमता एक घातीय स्केलिंग की घातक खामी के साथ आती है। यदि आप दस्तावेज़ की लंबाई को दोगुना करते हैं, तो गणना का काम नहीं दोगुना होता है, बल्कि यह चौगुना हो जाता है। जैसे ही हम “अनंत संदर्भ” मॉडल की ओर बढ़ते हैं जो पूरे पुस्तकालयों या कोडबेस को पढ़ सकते हैं, गणना मांगें बहुत अधिक हो जाती हैं।
लेकिन अधिक तात्कालिक समस्या मेमोरी है, विशेष रूप से “केवी कैश” (की-वैल्यू कैश)। टेक्स्ट को सुचारु रूप से उत्पन्न करने के लिए, एक ट्रांसफॉर्मर को जीपीयू की उच्च गति वाली मेमोरी (वीआरएएम) में सब कुछ का एक चलने वाला इतिहास रखना होगा जो उसने अभी कहा है। जैसे ही बातचीत लंबी होती है, यह कैश फूल जाता है, केवल तीन अनुच्छेद पहले क्या हुआ था यह याद रखने के लिए बड़ी मात्रा में मेमोरी की खपत करता है।
यह “जीपीयू दीवार” बनाता है। हम केवल चिप्स से नहीं बल्कि उन्हें खिलाने के लिए मेमोरी बैंडविड्थ से भी बाहर निकल रहे हैं। हमने ऐसे इंजन बनाए हैं जो बड़े और बड़े होते जा रहे हैं, लेकिन वे ईंधन देने में असंभव हो रहे हैं। लंबे समय से, उद्योग का समाधान केवल अधिक एनवीडिया एच100 खरीदना था। लेकिन यह जंगली ताकत अब घटती वापसी के बिंदु पर आ रही है। हमें एक ऐसे इंजन की आवश्यकता नहीं है जो ईंधन की खपत करता है, बल्कि एक नए आर्किटेक्चर की आवश्यकता है।
अदृश्य क्रांति
जबकि मुख्यधारा के शोध ने एलएलएम पर ध्यान केंद्रित किया है, शोधकर्ताओं के एक समूह ने एक पुराने विचार पर पुनः विचार किया है: रिकरेंट न्यूरल नेटवर्क (आरएनएन)। ट्रांसफॉर्मर से पहले, आरएनएन भाषा के लिए मानक थे। उन्होंने पाठ को क्रमिक रूप से संसाधित किया, शब्द दर शब्द, जैसे ही वे आगे बढ़ते थे, एक छिपी हुई आंतरिक “स्थिति” को अपडेट किया जाता था। वे अविश्वसनीय रूप से कुशल थे क्योंकि उन्हें पूरे इतिहास पर वापस देखने की आवश्यकता नहीं थी, वे केवल इसका “सार” अपनी मेमोरी में ले जाते थे।
आरएनएन विफल हो गए क्योंकि वे लंबी निर्भरताओं को संभाल नहीं सकते थे; वे वाक्य के अंत तक पहुंचने से पहले शुरुआत को “भूल” जाते थे। वे प्रशिक्षण में भी धीमे थे क्योंकि आप उन्हें समानांतर नहीं कर सकते थे। इसका अर्थ है कि आपको शब्द ए को शब्द बी से पहले संसाधित करना था। ट्रांसफॉर्मर ने इसे हल किया bằng सब कुछ एक साथ (समानांतर) संसाधित करना और सब कुछ मेमोरी में रखना (ध्यान)।
अब, हम दोनों दुनियाओं के सर्वश्रेष्ठ संयोजन वाले आर्किटेक्चर के उदय को देख रहे हैं। ये व्यापक रूप से स्टेट स्पेस मॉडल (एसएसएम) के रूप में जाने जाते हैं। वे ट्रांसफॉर्मर (समानांतर) की प्रशिक्षण गति प्रदान करते हैं लेकिन आरएनएन (रेखीय स्केलिंग) की अनुमान कुशलता प्रदान करते हैं।
इस नई लहर में प्रमुख आर्किटेक्चर में से एक माम्बा है। 2023 के अंत में जारी और 2024 में परिष्कृत, माम्बा जानकारी को संभालने के तरीके में एक मूलभूत परिवर्तन है। एक ट्रांसफॉर्मर के विपरीत, जो अपनी मेमोरी बफर में देखे गए प्रत्येक शब्द की एक मूल प्रति रखता है, माम्बा एक “चयनात्मक राज्य स्थान” का उपयोग करता है।
हम ट्रांसफॉर्मर और माम्बा के बीच अंतर को एक विद्वान की कल्पना करके समझ सकते हैं जो एक विशाल डेस्क पर खुले हर पुस्तक को स्कैन करता रहता है, संबंधों की तलाश में आगे-पीछे देखता है। माम्बा, इसके विपरीत, एक विद्वान है जो पुस्तक को एक बार पढ़ता है और मुख्य अंतर्दृष्टि को एक अत्यधिक कुशल नोटबुक में संकुचित करता है। जब माम्बा अगले शब्द का उत्पादन करता है, तो यह मूल पाठ पर वापस नहीं देखता है; यह अपनी संकुचित स्थिति को देखता है।
यह अंतर एआई तैनाती की अर्थव्यवस्था को बदलता है। माम्बा और समान आर्किटेक्चर जैसे आरडब्ल्यूकेवी (रिसेप्टेंस वेटेड की) के साथ, क्रम की लंबाई के रूप में टेक्स्ट का उत्पादन करने की लागत विस्फोट नहीं करती है। आप सैद्धांतिक रूप से इन मॉडलों को एक लाख शब्दों के संदर्भ को खिला सकते हैं, और अगले टोकन को उत्पन्न करने की गणना लागत उतनी ही रहती है जितनी कि यदि आपने उन्हें दस शब्द दिए हों।
पुनरावृत्ति की वापसी
माम्बा के पीछे तकनीकी सफलता “चयनात्मकता” है। आरएनएन को आधुनिक बनाने के पिछले प्रयास विफल हो गए क्योंकि वे बहुत जड़ थे। उन्होंने समान रूप से जानकारी को संकुचित किया, चाहे वह महत्वपूर्ण हो या शोर। माम्बा एक तंत्र पेश करता है जो मॉडल को डेटा को स्ट्रीम करते समय क्या याद रखना है और क्या भूलना है, इसे गतिविधि देने की अनुमति देता है।
यदि मॉडल को महत्वपूर्ण जानकारी मिलती है, जैसे कि एक कोड ब्लॉक में एक वेरिएबल परिभाषा, तो यह “गेट” खोलता है और इसे मजबूती से अपनी स्थिति में लिखता है। यदि यह फिलर शब्दों या अप्रासंगिक शोर का सामना करता है, तो यह गेट बंद कर देता है, जो केवल उस जानकारी के लिए अपनी सीमित मेमोरी क्षमता को संरक्षित करता है जो महत्वपूर्ण है।
यह चयनात्मकता प्रभावी रूप से पुराने आरएनएन को चुनौती देने वाली “भूलने” की समस्या का समाधान करती है। कई परीक्षणों में, माम्बा-आधारित मॉडल समान आकार के ट्रांसफॉर्मर के प्रदर्शन को मेल khाते हैं, लेकिन अनुमान के दौरान पांच गुना तेजी से चलते हैं। अधिक महत्वपूर्ण बात यह है कि उनके मेमोरी फुटप्रिंट बहुत छोटे हैं। यह उच्च-प्रदर्शन वाले एलएलएम को उन उपकरणों पर चलाने के लिए दरवाजा खोलता है जिन्हें पहले असमर्थ माना जाता था, जैसे लैपटॉप, एज-कंप्यूटिंग नेटवर्क, या यहां तक कि स्मार्टफोन, बिना क्लाउड में ऑफलोड किए।
हाइब्रिड का उदय
क्रांति हो सकती है ट्रांसफॉर्मर का पूर्ण प्रतिस्थापन नहीं, बल्कि हाइब्रिड रूपों में इसका विकास है। हम पहले से ही जाम्बा (एआई 21 लैब्स से) जैसे मॉडल के उदय को देख रहे हैं, जो ट्रांसफॉर्मर परतों को माम्बा परतों के साथ जोड़ता है।
यह हाइब्रिड दृष्टिकोण ट्रांसफॉर्मर की सीमाओं को संबोधित करने का एक व्यावहारिक तरीका प्रदान करता है। ट्रांसफॉर्मर विशिष्ट कार्यों के लिए, विशेष रूप से संदर्भ से सटीक विवरण की प्रतिलिपि बनाने के लिए, असाधारण रूप से मजबूत रहते हैं। माम्बा परतों (जो बुल्क डेटा प्रोसेसिंग और लंबी अवधि की मेमोरी से निपटती हैं) के साथ ट्रांसफॉर्मर ध्यान परतों (जो तेज, तात्कालिक तर्क से निपटती हैं) को मिलाकर, हम एक मॉडल प्राप्त करते हैं जो दोनों दुनियाओं को एक साथ लाता है।
एक हाइब्रिड मॉडल एक विशाल संदर्भ विंडो बनाता है जो वास्तव में उपयोगी है। वर्तमान में, कई “लंबे संदर्भ” ट्रांसफॉर्मर 100,000 टोकन से निपटने का दावा करते हैं, लेकिन उनका प्रदर्शन तेजी से खराब हो जाता है क्योंकि संदर्भ भर जाता है। यह घटना “मध्य में खो जाना” के रूप में जानी जाती है। हाइब्रिड आर्किटेक्चर लंबी दूरी पर अपनी सुसंगतता को बहुत बेहतर बनाए रखता है क्योंकि एसएसएम परतें विशेष रूप से समय के साथ स्थिति को संकुचित और ले जाने के लिए डिज़ाइन की जाती हैं।
यह विकास उद्योग को “प्रशिक्षण कंप्यूट” (मैं मॉडल बनाने के लिए कितना बड़ा क्लस्टर बनाने की आवश्यकता है?) से “अनुमान अर्थशास्त्र” (मैं एक अरब उपयोगकर्ताओं को इस मॉडल की सेवा कितनी सस्ते में दे सकता हूं?) पर केंद्रित करता है। यदि एक हाइब्रिड मॉडल एक ट्रांसफॉर्मर की तुलना में 10% की लागत पर एक उपयोगकर्ता की सेवा कर सकता है, तो एआई अनुप्रयोगों के लिए व्यवसाय मामला रातोंरात बदलता है।
एआई तैनाती का भविष्य
इस पोस्ट-ट्रांसफॉर्मर क्रांति के निहितार्थ केवल डेटा सेंटर तक ही सीमित नहीं हैं। जीपीयू दीवार ने ऐतिहासिक रूप से एक गेटकीपर के रूप में कार्य किया है, यह सुनिश्चित करते हुए कि केवल सबसे बड़े टेक दिग्गज जो अरबों डॉलर के हार्डवेयर में निवेश कर सकते हैं, राज्य-के-द-आर्ट मॉडल बना और चला सकते हैं। माम्बा और आरडब्ल्यूकेवी जैसे कुशल आर्किटेक्चर इस शक्ति को लोकतंत्रित करते हैं। यदि आप एक ग्राहक-ग्रेड कार्ड पर जीपीटी-4 स्तर का मॉडल चला सकते हैं क्योंकि आपको अब केवी कैश के लिए टेराबाइट्स वीआरएएम की आवश्यकता नहीं है, तो एआई का केंद्रीकृत नियंत्रण ढीला होने लगता है। हम स्थानीय, निजी एआई एजेंटों के पुनरुत्थान को देख सकते हैं जो पूरी तरह से आपके कंप्यूटर पर रहते हैं, आपके निजी डेटा को संसाधित करते हैं और कभी भी क्लाउड में पैकेट नहीं भेजते हैं।
इसके अलावा, यह दक्षता “एजेंटिक एआई” प्रणालियों को चलाने के लिए आवश्यक है जो जटिल कार्यों को पूरा करने के लिए पृष्ठभूमि में घंटों या दिनों तक चलती हैं। वर्तमान ट्रांसफॉर्मर बहुत महंगे और धीमे हैं और लंबे समय तक निरंतर लूप में चलने के लिए। एक कुशल, रेखीय-समय आर्किटेक्चर निरंतर लूप में सोच और प्रसंस्करण कर सकता है और बिना उपयोगकर्ता को दिवालिया करने या हार्डवेयर को ओवरहीट करने के।
निचोड़
ट्रांसफॉर्मर ने एआई हेडलाइंस पर हावी है, लेकिन पर्दे के पीछे एक शांत क्रांति चल रही है। जीपीयू दीवार शोधकर्ताओं को यह सोचने पर मजबूर कर रही है कि मॉडल मेमोरी और गणना को कैसे संभालते हैं। माम्बा और हाइब्रिड मॉडल जैसे पोस्ट-ट्रांसफॉर्मर आर्किटेक्चर साबित कर रहे हैं कि दक्षता, न केवल पैमाने, अगले युग को परिभाषित करेगी। इन नवाचारों से बड़े संदर्भ विंडो व्यावहारिक, अनुमान सस्ता, और डेटा सेंटर से परे उन्नत एआई सुलभ हो जाता है। एआई का भविष्य बड़े मॉडल में नहीं है, बल्कि उन मॉडलों में है जो स्मार्ट, कुशल और तर्कसंगत रूप से स्केल करते हैं।












