рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдЬреАрдкреАрдпреВ рджреАрд╡рд╛рд░ рдЯреВрдЯ рд░рд╣реА рд╣реИ: рдкреЛрд╕реНрдЯ-рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рдореЗрдВ рдЕрдирджреЗрдЦреА рдХреНрд░рд╛рдВрддрд┐

पिछले पांच वर्षों से, कृत्रिम बुद्धिमत्ता उद्योग प्रभावी रूप से एक शब्द के साथ पर्यायवाची रहा है: ट्रांसफॉर्मर। 2017 में “Attention Is All You Need” पेपर के प्रकाशन के बाद से, यह आर्किटेक्चर क्षेत्र को निगल लिया है। जीपीटी से लेकर क्लॉड तक, लगभग हर हेडलाइन-ग्रैबिंग मॉडल उसी अंतर्निहित तंत्र पर निर्भर करता है जो स्व-ध्यान है। हमने माना है कि बेहतर एआई का मार्ग केवल पैमाने की बात है। व्यवहार में, इसका अर्थ है अधिक डेटा के साथ बड़े ट्रांसफॉर्मर को बड़े जीपीयू क्लस्टर पर प्रशिक्षित करना।
जबकि इस विश्वास ने कई सफलताओं को चलाया है, यह अब अपनी सीमाओं तक पहुंच रहा है। हम एक “जीपीयू दीवार” से टकरा रहे हैं, जो केवल कच्ची गणना शक्ति की बाधा नहीं है, बल्कि मेमोरी बैंडविथ और आर्थिक स्थिरता की भी है। जबकि दुनिया ट्रिलियन-पैरामीटर मॉडल की दौड़ पर ध्यान केंद्रित कर रही है, शोध प्रयोगशालाओं में एक कट्टर परिवर्तन हो रहा है। “पोस्ट-ट्रांसफॉर्मर आर्किटेक्चर” की एक नई लहर उभर रही है जो वर्तमान परिदृश्य की सीमाओं को तोड़ने का वादा करती है। यह परिवर्तन एआई को अधिक कुशल, सुलभ और असीमित संदर्भों पर तर्क करने में सक्षम बनाने का वादा करता है।
सिलिकॉन सीलिंग: ट्रांसफॉर्मर दीवार क्यों मार रहे हैं
इस परिवर्तन की आवश्यकता को समझने के लिए, हमें पहले वर्तमान शासन की बोतलें को समझने की आवश्यकता है। ट्रांसफॉर्मर अविश्वसनीय रूप से शक्तिशाली हैं, लेकिन वे विशिष्ट तरीकों से भी अविश्वसनीय रूप से अक्षम हैं। उनकी क्षमता का केंद्र “ध्यान तंत्र” में निहित है, जो मॉडल को एक क्रम में हर टोकन को देखने और इसके संबंध की गणना करने की अनुमति देता है। यह उन्हें संदर्भ को आश्चर्यजनक रूप से समझने की क्षमता प्रदान करता है।
हालांकि, यह क्षमता एक घातीय स्केलिंग की घातक खामी के साथ आती है। यदि आप दस्तावेज़ की लंबाई को दोगुना करते हैं, तो गणना कार्य में वृद्धि नहीं होती है, यह चौगुनी हो जाती है। जब हम “असीमित संदर्भ” मॉडल की ओर बढ़ रहे हैं जो पूरे पुस्तकालयों या कोडबेस को पढ़ सकते हैं, तो गणना मांगें बहुत अधिक हो जाती हैं।
लेकिन अधिक तात्कालिक समस्या मेमोरी है, विशेष रूप से “केवी कैश” (की-वैल्यू कैश)। प्रवाह से पाठ उत्पन्न करने के लिए, एक ट्रांसफॉर्मर को जीपीयू की उच्च-गति मेमोरी (वीआरएएम) में वह सब कुछ रखना होगा जो उसने अभी कहा है। जैसे ही बातचीत लंबी होती है, यह कैश फूल जाता है, जिससे बड़ी मात्रा में मेमोरी की खपत होती है, बस तीन अनुच्छेद पहले क्या हुआ था, यह याद रखने के लिए।
यह “जीपीयू दीवार” बनाता है। हम केवल चिप्स से नहीं भाग रहे हैं; हम मेमोरी बैंडविथ से भाग रहे हैं जो उन्हें ईंधन देने के लिए। हमने ऐसे इंजन बनाए हैं जो बड़े और बड़े होते जा रहे हैं, लेकिन वे ईंधन देने में असंभव हो रहे हैं। लंबे समय से, उद्योग का समाधान बस अधिक एनवीडिया एच100 खरीदना था। लेकिन यह जंगली बल अब घटती वापसी के बिंदु पर आ रहा है। हमें एक ऐसे इंजन की आवश्यकता नहीं है जो ईंधन की खपत करता है, बल्कि एक नई आर्किटेक्चर की आवश्यकता है।
अदृश्य क्रांति
जबकि मुख्यधारा के शोध ने एलएलएम पर ध्यान केंद्रित किया है, शोधकर्ताओं के एक समूह ने एक पुराने विचार पर पुनः विचार किया है: रिकरेंट न्यूरल नेटवर्क (आरएनएन)। ट्रांसफॉर्मर से पहले, आरएनएन भाषा के लिए मानक थे। उन्होंने शब्द दर शब्द पाठ को संसाधित किया, एक छिपी हुई आंतरिक “स्थिति” को अद्यतन करते हुए जैसे वे चले गए। वे अविश्वसनीय रूप से कुशल थे क्योंकि उन्हें पूरे इतिहास पर वापस देखने की आवश्यकता नहीं थी, उन्होंने बस इसका “सार” अपनी मेमोरी में रखा।
आरएनएन असफल हो गए क्योंकि वे लंबी निर्भरताओं को संभाल नहीं सकते थे; वे वाक्य के अंत तक पहुंचने से पहले वाक्य की शुरुआत को “भूल” जाते थे। वे प्रशिक्षण के लिए भी धीमे थे क्योंकि आप उन्हें समानांतर नहीं कर सकते थे। इसका अर्थ है कि आपको शब्द ए को संसाधित करने से पहले शब्द बी को संसाधित करना होगा। ट्रांसफॉर्मर ने इसे हल किया bằng एक बार में सब कुछ संसाधित करना (समानांतरकरण) और सब कुछ मेमोरी में रखना (ध्यान)।
अब, हम “पोस्ट-ट्रांसफॉर्मर आर्किटेक्चर” की एक नई लहर को देख रहे हैं जो वर्तमान परिदृश्य की सीमाओं को तोड़ने का वादा करती है। यह परिवर्तन एआई को अधिक कुशल, सुलभ और असीमित संदर्भों पर तर्क करने में सक्षम बनाने का वादा करता है।
पुनरावृत्ति की वापसी
मांबा के पीछे तकनीकी सफलता “चयनात्मकता” है। पिछले आरएनएन को आधुनिक बनाने के प्रयास विफल हो गए क्योंकि वे बहुत जटिल थे। उन्होंने समान रूप से जानकारी को संकुचित किया, चाहे वह महत्वपूर्ण हो या शोर। मांबा एक तंत्र पेश करता है जो मॉडल को डेटा को स्ट्रीम करते समय गतिशील रूप से तय करने की अनुमति देता है कि क्या याद रखना है और क्या भूलना है।
यदि मॉडल एक महत्वपूर्ण जानकारी प्राप्त करता है, जैसे कि एक कोड ब्लॉक में एक переменा परिभाषा, तो यह “गेट” खोलता है और इसे मजबूती से अपनी स्थिति में लिखता है। यदि यह फिलर शब्दों या अप्रासंगिक शोर का सामना करता है, तो यह गेट बंद कर देता है, अपनी सीमित मेमोरी क्षमता को महत्वपूर्ण चीजों के लिए संरक्षित करता है।
यह चयनात्मकता प्रभावी रूप से पुराने आरएनएन की “भूलने” की समस्या का समाधान करती है। कई परीक्षणों में, मांबा-आधारित मॉडल समान आकार के ट्रांसफॉर्मर के प्रदर्शन को मैच करते हैं लेकिन अनुमान में पांच गुना तेजी से चलते हैं। अधिक महत्वपूर्ण बात यह है कि उनके मेमोरी फुटप्रिंट बहुत छोटे हैं। यह दरवाजा खोलता है ताकि उच्च-प्रदर्शन वाले एलएलएम लैपटॉप, एज-कंप्यूटिंग नेटवर्क, या यहां तक कि स्मार्टफोन पर चल सकें, बिना क्लाउड में ऑफलोड किए।
हाइब्रिड का उदय
क्रांति हो सकती है कि ट्रांसफॉर्मर का पूर्ण प्रतिस्थापन नहीं है, बल्कि हाइब्रिड रूपों में विकास है। हम पहले से ही जाम्बा (एआई21 लैब्स से) जैसे मॉडल के उदय को देख रहे हैं, जो ट्रांसफॉर्मर परतों के साथ मांबा परतों को जोड़ती है।
यह हाइब्रिड दृष्टिकोण ट्रांसफॉर्मर सीमाओं को संबोधित करने का एक व्यावहारिक तरीका प्रदान करता है। ट्रांसफॉर्मर अभी भी कertain कार्यों के लिए असाधारण रूप से मजबूत हैं, विशेष रूप से संदर्भ से सटीक विवरण की प्रतिलिपि बनाने के लिए। मांबा परतों (जो डेटा प्रसंस्करण और लंबी अवधि की मेमोरी को संभालती हैं) के साथ ट्रांसफॉर्मर ध्यान परतों (जो तेज, तात्कालिक तर्क को संभालती हैं) को मिलाकर, हम दोनों दुनिया के सर्वश्रेष्ठ को प्राप्त करते हैं।
एक हाइब्रिड मॉडल एक विशाल संदर्भ विंडो बनाता है जो वास्तव में उपयोगी है। वर्तमान में, कई “लंबे संदर्भ” ट्रांसफॉर्मर 100,000 टोकन को संभालने का दावा करते हैं, लेकिन उनका प्रदर्शन तेजी से गिर जाता है क्योंकि संदर्भ भर जाता है। यह घटना “लॉस्ट इन द मिडल” के रूप में जानी जाती है। हाइब्रिड आर्किटेक्चर दूरी पर अपनी सुसंगतता को बहुत बेहतर ढंग से बनाए रखता है क्योंकि एसएसएम परतें विशेष रूप से समय के साथ स्थिति को संकुचित और ले जाने के लिए डिज़ाइन की जाती हैं।
इन विकासों से उद्योग का ध्यान “प्रशिक्षण कंप्यूट” (मुझे मॉडल बनाने के लिए कितना बड़ा क्लस्टर बनाने की आवश्यकता है?) से “अनुमान अर्थशास्त्र” (मैं इस मॉडल को एक अरब उपयोगकर्ताओं को कितनी सस्ते में परोस सकता हूं?) में स्थानांतरित हो जाता है। यदि एक हाइब्रिड मॉडल एक उपयोगकर्ता को 10% की लागत पर परोस सकता है जो एक ट्रांसफॉर्मर की तुलना में है, तो एआई अनुप्रयोगों के लिए व्यवसाय मामला रातोंरात बदल जाता है।
एआई तैनाती का भविष्य
इस पोस्ट-ट्रांसफॉर्मर क्रांति के निहितार्थ केवल डेटा सेंटर तक ही सीमित नहीं हैं। जीपीयू दीवार ने ऐतिहासिक रूप से एक गेटकीपर के रूप में कार्य किया है, यह सुनिश्चित करते हुए कि केवल बड़े प्रौद्योगिकी दिग्गज जो अरबों डॉलर के हार्डवेयर में निवेश कर सकते हैं, राज्य-of-the-आर्ट मॉडल बना और चला सकते हैं। मांबा और आरडब्ल्यूकेवी जैसी कुशल आर्किटेक्चर इस शक्ति को लोकतांत्रिक बनाते हैं। यदि आप एक ग्राहक-ग्रेड कार्ड पर जीपीटी-4 स्तर का मॉडल चला सकते हैं क्योंकि आपको अब केवी कैश के लिए टेराबाइट्स वीआरएएम की आवश्यकता नहीं है, तो एआई का केंद्रीय नियंत्रण शिथिल होने लगता है। हम स्थानीय, निजी एआई एजेंटों के पुनरुत्थान को देख सकते हैं जो पूरी तरह से आपके कंप्यूटर पर रहते हैं, आपके निजी डेटा को संसाधित करते हैं बिना क्लाउड में एक पैकेट भेजे।
इसके अलावा, यह दक्षता “एजेंटिक एआई” प्रणालियों को अनलॉक करने की कुंजी है जो घंटों या दिनों तक चलती हैं जटिल कार्यों को पूरा करने के लिए। वर्तमान ट्रांसफॉर्मर बहुत महंगे और धीमे हैं और लंबे समय तक निरंतर लूप में चलने के लिए। एक कुशल, रैखिक-समय आर्किटेक्चर “सोच” सकता है और बिना उपयोगकर्ता को दिवालिया करने या हार्डवेयर को ओवरहीट करने के लिए लूप में निरंतर रूप से संसाधित कर सकता है।
नीचे की पंक्ति
ट्रांसफॉर्मर ने एआई हेडलाइन्स पर हावी है, लेकिन परदे के पीछे, एक शांत क्रांति चल रही है। जीपीयू दीवार शोधकर्ताओं को मॉडल को मेमोरी और गणना को कैसे संभालना है, इस पर पुनः विचार करने के लिए दबाव डाल रही है। मांबा और हाइब्रिड मॉडल जैसे पोस्ट-ट्रांसफॉर्मर आर्किटेक्चर साबित कर रहे हैं कि कुशलता, न केवल पैमाने, अगले युग को परिभाषित करेगी। इन नवाचारों से बड़े संदर्भ विंडो व्यावहारिक हो जाते हैं, अनुमान सस्ता हो जाता है, और उन्नत एआई डेटा केंद्रों से परे सुलभ हो जाता है। एआई का भविष्य बड़े मॉडल में नहीं है, बल्कि उन मॉडल में है जो कुशलता से याद रखते हैं, तर्क करते हैं और पैमाने पर कुशलता से चलते हैं।












