рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдЬреАрдкреАрдпреВ рджреАрд╡рд╛рд░ рдЯреВрдЯ рд░рд╣реА рд╣реИ: рдкреЛрд╕реНрдЯ-рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рдореЗрдВ рдЕрдирджреЗрдЦреА рдХреНрд░рд╛рдВрддрд┐

mm

पिछले पांच वर्षों में, कृत्रिम बुद्धिमत्ता उद्योग प्रभावी रूप से एक शब्द के साथ पर्यायवाची रहा है: ट्रांसफॉर्मर। 2017 में “Attention Is All You Need” शोध पत्र के प्रकाशन के बाद से, यह आर्किटेक्चर क्षेत्र को निगल लिया है। जीपीटी से क्लाउड तक, लगभग हर सुर्खियों में आने वाले मॉडल उसी अंतर्निहित तंत्र पर निर्भर करते हैं जो स्व-ध्यान है। हमने माना है कि बेहतर एआई का मार्ग केवल पैमाने का मामला है। अभ्यास में, इसका अर्थ है बड़े ट्रांसफॉर्मर को अधिक डेटा के साथ बड़े जीपीयू क्लस्टर पर प्रशिक्षित करना।

जबकि इस विश्वास ने कई सफलताओं को चलाया है, यह अब अपनी सीमाओं तक पहुंच रहा है। हम एक “जीपीयू दीवार” से टकरा रहे हैं, जो केवल कच्चे कंप्यूटिंग शक्ति की बाधा नहीं है, बल्कि मेमोरी बैंडविड्थ और आर्थिक स्थिरता की भी है। जबकि दुनिया लाखों पैरामीटर मॉडल की दौड़ पर ध्यान केंद्रित कर रही है, शोध प्रयोगशालाओं में एक कट्टर परिवर्तन हो रहा है। “पोस्ट-ट्रांसफॉर्मर आर्किटेक्चर” की एक नई लहर उभर रही है जो वर्तमान परिदृश्य की सीमाओं को तोड़ने का वादा करती है। यह परिवर्तन एआई को अधिक कुशल, सुलभ और अनंत संदर्भों पर तर्क करने में सक्षम बनाने का वादा करता है।

सिलिकॉन छत: ट्रांसफॉर्मर क्यों दीवार से टकरा रहे हैं

इस परिवर्तन की आवश्यकता को समझने के लिए, हमें पहले वर्तमान शासन की बोतलें को समझने की आवश्यकता है। ट्रांसफॉर्मर अविश्वसनीय रूप से शक्तिशाली हैं, लेकिन वे विशिष्ट तरीकों से अविश्वसनीय रूप से अक्षम भी हैं। उनकी क्षमता का केंद्र “ध्यान तंत्र” में निहित है, जो मॉडल को एक क्रम में हर टोकन को देखने और इसके संबंध की गणना करने की अनुमति देता है। यह उन्हें संदर्भ को अविश्वसनीय रूप से अच्छी तरह से समझने की अनुमति देता है।

हालांकि, यह क्षमता एक घातीय स्केलिंग की घातक खामी के साथ आती है। यदि आप दस्तावेज़ की लंबाई को दोगुना करते हैं, तो गणना का काम नहीं दोगुना होता है, बल्कि यह चौगुना हो जाता है। जैसे ही हम “अनंत संदर्भ” मॉडल की ओर बढ़ते हैं जो पूरे पुस्तकालयों या कोडबेस को पढ़ सकते हैं, गणना मांगें बहुत अधिक हो जाती हैं।

लेकिन अधिक तात्कालिक समस्या मेमोरी है, विशेष रूप से “केवी कैश” (की-वैल्यू कैश)। टेक्स्ट को सुचारु रूप से उत्पन्न करने के लिए, एक ट्रांसफॉर्मर को जीपीयू की उच्च गति वाली मेमोरी (वीआरएएम) में सब कुछ का एक चलने वाला इतिहास रखना होगा जो उसने अभी कहा है। जैसे ही बातचीत लंबी होती है, यह कैश फूल जाता है, केवल तीन अनुच्छेद पहले क्या हुआ था यह याद रखने के लिए बड़ी मात्रा में मेमोरी की खपत करता है।

यह “जीपीयू दीवार” बनाता है। हम केवल चिप्स से नहीं बल्कि उन्हें खिलाने के लिए मेमोरी बैंडविड्थ से भी बाहर निकल रहे हैं। हमने ऐसे इंजन बनाए हैं जो बड़े और बड़े होते जा रहे हैं, लेकिन वे ईंधन देने में असंभव हो रहे हैं। लंबे समय से, उद्योग का समाधान केवल अधिक एनवीडिया एच100 खरीदना था। लेकिन यह जंगली ताकत अब घटती वापसी के बिंदु पर आ रही है। हमें एक ऐसे इंजन की आवश्यकता नहीं है जो ईंधन की खपत करता है, बल्कि एक नए आर्किटेक्चर की आवश्यकता है।

अदृश्य क्रांति

जबकि मुख्यधारा के शोध ने एलएलएम पर ध्यान केंद्रित किया है, शोधकर्ताओं के एक समूह ने एक पुराने विचार पर पुनः विचार किया है: रिकरेंट न्यूरल नेटवर्क (आरएनएन)। ट्रांसफॉर्मर से पहले, आरएनएन भाषा के लिए मानक थे। उन्होंने पाठ को क्रमिक रूप से संसाधित किया, शब्द दर शब्द, जैसे ही वे आगे बढ़ते थे, एक छिपी हुई आंतरिक “स्थिति” को अपडेट किया जाता था। वे अविश्वसनीय रूप से कुशल थे क्योंकि उन्हें पूरे इतिहास पर वापस देखने की आवश्यकता नहीं थी, वे केवल इसका “सार” अपनी मेमोरी में ले जाते थे।

आरएनएन विफल हो गए क्योंकि वे लंबी निर्भरताओं को संभाल नहीं सकते थे; वे वाक्य के अंत तक पहुंचने से पहले शुरुआत को “भूल” जाते थे। वे प्रशिक्षण में भी धीमे थे क्योंकि आप उन्हें समानांतर नहीं कर सकते थे। इसका अर्थ है कि आपको शब्द ए को शब्द बी से पहले संसाधित करना था। ट्रांसफॉर्मर ने इसे हल किया bằng सब कुछ एक साथ (समानांतर) संसाधित करना और सब कुछ मेमोरी में रखना (ध्यान)।

अब, हम दोनों दुनियाओं के सर्वश्रेष्ठ संयोजन वाले आर्किटेक्चर के उदय को देख रहे हैं। ये व्यापक रूप से स्टेट स्पेस मॉडल (एसएसएम) के रूप में जाने जाते हैं। वे ट्रांसफॉर्मर (समानांतर) की प्रशिक्षण गति प्रदान करते हैं लेकिन आरएनएन (रेखीय स्केलिंग) की अनुमान कुशलता प्रदान करते हैं।

इस नई लहर में प्रमुख आर्किटेक्चर में से एक माम्बा है। 2023 के अंत में जारी और 2024 में परिष्कृत, माम्बा जानकारी को संभालने के तरीके में एक मूलभूत परिवर्तन है। एक ट्रांसफॉर्मर के विपरीत, जो अपनी मेमोरी बफर में देखे गए प्रत्येक शब्द की एक मूल प्रति रखता है, माम्बा एक “चयनात्मक राज्य स्थान” का उपयोग करता है।

हम ट्रांसफॉर्मर और माम्बा के बीच अंतर को एक विद्वान की कल्पना करके समझ सकते हैं जो एक विशाल डेस्क पर खुले हर पुस्तक को स्कैन करता रहता है, संबंधों की तलाश में आगे-पीछे देखता है। माम्बा, इसके विपरीत, एक विद्वान है जो पुस्तक को एक बार पढ़ता है और मुख्य अंतर्दृष्टि को एक अत्यधिक कुशल नोटबुक में संकुचित करता है। जब माम्बा अगले शब्द का उत्पादन करता है, तो यह मूल पाठ पर वापस नहीं देखता है; यह अपनी संकुचित स्थिति को देखता है।

यह अंतर एआई तैनाती की अर्थव्यवस्था को बदलता है। माम्बा और समान आर्किटेक्चर जैसे आरडब्ल्यूकेवी (रिसेप्टेंस वेटेड की) के साथ, क्रम की लंबाई के रूप में टेक्स्ट का उत्पादन करने की लागत विस्फोट नहीं करती है। आप सैद्धांतिक रूप से इन मॉडलों को एक लाख शब्दों के संदर्भ को खिला सकते हैं, और अगले टोकन को उत्पन्न करने की गणना लागत उतनी ही रहती है जितनी कि यदि आपने उन्हें दस शब्द दिए हों।

पुनरावृत्ति की वापसी

माम्बा के पीछे तकनीकी सफलता “चयनात्मकता” है। आरएनएन को आधुनिक बनाने के पिछले प्रयास विफल हो गए क्योंकि वे बहुत जड़ थे। उन्होंने समान रूप से जानकारी को संकुचित किया, चाहे वह महत्वपूर्ण हो या शोर। माम्बा एक तंत्र पेश करता है जो मॉडल को डेटा को स्ट्रीम करते समय क्या याद रखना है और क्या भूलना है, इसे गतिविधि देने की अनुमति देता है।

यदि मॉडल को महत्वपूर्ण जानकारी मिलती है, जैसे कि एक कोड ब्लॉक में एक वेरिएबल परिभाषा, तो यह “गेट” खोलता है और इसे मजबूती से अपनी स्थिति में लिखता है। यदि यह फिलर शब्दों या अप्रासंगिक शोर का सामना करता है, तो यह गेट बंद कर देता है, जो केवल उस जानकारी के लिए अपनी सीमित मेमोरी क्षमता को संरक्षित करता है जो महत्वपूर्ण है।

यह चयनात्मकता प्रभावी रूप से पुराने आरएनएन को चुनौती देने वाली “भूलने” की समस्या का समाधान करती है। कई परीक्षणों में, माम्बा-आधारित मॉडल समान आकार के ट्रांसफॉर्मर के प्रदर्शन को मेल khाते हैं, लेकिन अनुमान के दौरान पांच गुना तेजी से चलते हैं। अधिक महत्वपूर्ण बात यह है कि उनके मेमोरी फुटप्रिंट बहुत छोटे हैं। यह उच्च-प्रदर्शन वाले एलएलएम को उन उपकरणों पर चलाने के लिए दरवाजा खोलता है जिन्हें पहले असमर्थ माना जाता था, जैसे लैपटॉप, एज-कंप्यूटिंग नेटवर्क, या यहां तक कि स्मार्टफोन, बिना क्लाउड में ऑफलोड किए।

हाइब्रिड का उदय

क्रांति हो सकती है ट्रांसफॉर्मर का पूर्ण प्रतिस्थापन नहीं, बल्कि हाइब्रिड रूपों में इसका विकास है। हम पहले से ही जाम्बा (एआई 21 लैब्स से) जैसे मॉडल के उदय को देख रहे हैं, जो ट्रांसफॉर्मर परतों को माम्बा परतों के साथ जोड़ता है।

यह हाइब्रिड दृष्टिकोण ट्रांसफॉर्मर की सीमाओं को संबोधित करने का एक व्यावहारिक तरीका प्रदान करता है। ट्रांसफॉर्मर विशिष्ट कार्यों के लिए, विशेष रूप से संदर्भ से सटीक विवरण की प्रतिलिपि बनाने के लिए, असाधारण रूप से मजबूत रहते हैं। माम्बा परतों (जो बुल्क डेटा प्रोसेसिंग और लंबी अवधि की मेमोरी से निपटती हैं) के साथ ट्रांसफॉर्मर ध्यान परतों (जो तेज, तात्कालिक तर्क से निपटती हैं) को मिलाकर, हम एक मॉडल प्राप्त करते हैं जो दोनों दुनियाओं को एक साथ लाता है।

एक हाइब्रिड मॉडल एक विशाल संदर्भ विंडो बनाता है जो वास्तव में उपयोगी है। वर्तमान में, कई “लंबे संदर्भ” ट्रांसफॉर्मर 100,000 टोकन से निपटने का दावा करते हैं, लेकिन उनका प्रदर्शन तेजी से खराब हो जाता है क्योंकि संदर्भ भर जाता है। यह घटना “मध्य में खो जाना” के रूप में जानी जाती है। हाइब्रिड आर्किटेक्चर लंबी दूरी पर अपनी सुसंगतता को बहुत बेहतर बनाए रखता है क्योंकि एसएसएम परतें विशेष रूप से समय के साथ स्थिति को संकुचित और ले जाने के लिए डिज़ाइन की जाती हैं।

यह विकास उद्योग को “प्रशिक्षण कंप्यूट” (मैं मॉडल बनाने के लिए कितना बड़ा क्लस्टर बनाने की आवश्यकता है?) से “अनुमान अर्थशास्त्र” (मैं एक अरब उपयोगकर्ताओं को इस मॉडल की सेवा कितनी सस्ते में दे सकता हूं?) पर केंद्रित करता है। यदि एक हाइब्रिड मॉडल एक ट्रांसफॉर्मर की तुलना में 10% की लागत पर एक उपयोगकर्ता की सेवा कर सकता है, तो एआई अनुप्रयोगों के लिए व्यवसाय मामला रातोंरात बदलता है।

एआई तैनाती का भविष्य

इस पोस्ट-ट्रांसफॉर्मर क्रांति के निहितार्थ केवल डेटा सेंटर तक ही सीमित नहीं हैं। जीपीयू दीवार ने ऐतिहासिक रूप से एक गेटकीपर के रूप में कार्य किया है, यह सुनिश्चित करते हुए कि केवल सबसे बड़े टेक दिग्गज जो अरबों डॉलर के हार्डवेयर में निवेश कर सकते हैं, राज्य-के-द-आर्ट मॉडल बना और चला सकते हैं। माम्बा और आरडब्ल्यूकेवी जैसे कुशल आर्किटेक्चर इस शक्ति को लोकतंत्रित करते हैं। यदि आप एक ग्राहक-ग्रेड कार्ड पर जीपीटी-4 स्तर का मॉडल चला सकते हैं क्योंकि आपको अब केवी कैश के लिए टेराबाइट्स वीआरएएम की आवश्यकता नहीं है, तो एआई का केंद्रीकृत नियंत्रण ढीला होने लगता है। हम स्थानीय, निजी एआई एजेंटों के पुनरुत्थान को देख सकते हैं जो पूरी तरह से आपके कंप्यूटर पर रहते हैं, आपके निजी डेटा को संसाधित करते हैं और कभी भी क्लाउड में पैकेट नहीं भेजते हैं।

इसके अलावा, यह दक्षता “एजेंटिक एआई” प्रणालियों को चलाने के लिए आवश्यक है जो जटिल कार्यों को पूरा करने के लिए पृष्ठभूमि में घंटों या दिनों तक चलती हैं। वर्तमान ट्रांसफॉर्मर बहुत महंगे और धीमे हैं और लंबे समय तक निरंतर लूप में चलने के लिए। एक कुशल, रेखीय-समय आर्किटेक्चर निरंतर लूप में सोच और प्रसंस्करण कर सकता है और बिना उपयोगकर्ता को दिवालिया करने या हार्डवेयर को ओवरहीट करने के।

निचोड़

ट्रांसफॉर्मर ने एआई हेडलाइंस पर हावी है, लेकिन पर्दे के पीछे एक शांत क्रांति चल रही है। जीपीयू दीवार शोधकर्ताओं को यह सोचने पर मजबूर कर रही है कि मॉडल मेमोरी और गणना को कैसे संभालते हैं। माम्बा और हाइब्रिड मॉडल जैसे पोस्ट-ट्रांसफॉर्मर आर्किटेक्चर साबित कर रहे हैं कि दक्षता, न केवल पैमाने, अगले युग को परिभाषित करेगी। इन नवाचारों से बड़े संदर्भ विंडो व्यावहारिक, अनुमान सस्ता, और डेटा सेंटर से परे उन्नत एआई सुलभ हो जाता है। एआई का भविष्य बड़े मॉडल में नहीं है, बल्कि उन मॉडलों में है जो स्मार्ट, कुशल और तर्कसंगत रूप से स्केल करते हैं।

рдбреЙ. рддрд╣рд╕реАрди рдЬрд╝рд┐рдпрд╛ рдХреЛрдореНрд╕реИрдЯреНрд╕ рдпреВрдирд┐рд╡рд░реНрд╕рд┐рдЯреА рдЗрд╕реНрд▓рд╛рдорд╛рдмрд╛рдж рдореЗрдВ рдПрдХ рдЯреЗрдиреНрдпреЛрд░реНрдб рдПрд╕реЛрд╕рд┐рдПрдЯ рдкреНрд░реЛрдлреЗрд╕рд░ рд╣реИрдВ, рдЬреЛ рдСрд╕реНрдЯреНрд░рд┐рдпрд╛ рдХреА рд╡рд┐рдпрдирд╛ рдЯреЗрдХреНрдиреЛрд▓реЙрдЬреА рдпреВрдирд┐рд╡рд░реНрд╕рд┐рдЯреА рд╕реЗ рдПрдЖрдИ рдореЗрдВ рдкреАрдПрдЪрдбреА рд░рдЦрддреЗ рд╣реИрдВред рдЖрд░реНрдЯрд┐рдлрд┐рд╢рд┐рдпрд▓ рдЗрдВрдЯреЗрд▓рд┐рдЬреЗрдВрд╕, рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ, рдбреЗрдЯрд╛ рд╕рд╛рдЗрдВрд╕ рдФрд░ рдХрдВрдкреНрдпреВрдЯрд░ рд╡рд┐рдЬрди рдореЗрдВ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛, рдЙрдиреНрд╣реЛрдВрдиреЗ рдкреНрд░рддрд┐рд╖реНрдард┐рдд рд╡реИрдЬреНрдЮрд╛рдирд┐рдХ рдкрддреНрд░рд┐рдХрд╛рдУрдВ рдореЗрдВ рдкреНрд░рдХрд╛рд╢рди рдХреЗ рд╕рд╛рде рдорд╣рддреНрд╡рдкреВрд░реНрдг рдпреЛрдЧрджрд╛рди рджрд┐рдпрд╛ рд╣реИред рдбреЙ. рддрд╣рд╕реАрди рдиреЗ рдкреНрд░рд┐рдВрд╕рд┐рдкрд▓ рдЗрдиреНрд╡реЗрд╕реНрдЯрд┐рдЧреЗрдЯрд░ рдХреЗ рд░реВрдк рдореЗрдВ рд╡рд┐рднрд┐рдиреНрди рдФрджреНрдпреЛрдЧрд┐рдХ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдХрд╛ рдиреЗрддреГрддреНрд╡ рдХрд┐рдпрд╛ рд╣реИ рдФрд░ рдПрдХ рдПрдЖрдИ рд╕рд▓рд╛рд╣рдХрд╛рд░ рдХреЗ рд░реВрдк рдореЗрдВ рдХрд╛рд░реНрдп рдХрд┐рдпрд╛ рд╣реИред