Connect with us

рдЬреАрдкреАрдпреВ рджреАрд╡рд╛рд░ рдЯреВрдЯ рд░рд╣реА рд╣реИ: рдкреЛрд╕реНрдЯ-рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рдореЗрдВ рдЕрдирджреЗрдЦреА рдХреНрд░рд╛рдВрддрд┐

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдЬреАрдкреАрдпреВ рджреАрд╡рд╛рд░ рдЯреВрдЯ рд░рд╣реА рд╣реИ: рдкреЛрд╕реНрдЯ-рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рдореЗрдВ рдЕрдирджреЗрдЦреА рдХреНрд░рд╛рдВрддрд┐

mm

पिछले पांच वर्षों से, कृत्रिम बुद्धिमत्ता उद्योग प्रभावी रूप से एक शब्द के साथ पर्यायवाची रहा है: ट्रांसफॉर्मर। 2017 में “Attention Is All You Need” पेपर के प्रकाशन के बाद से, यह आर्किटेक्चर क्षेत्र को निगल लिया है। जीपीटी से लेकर क्लॉड तक, लगभग हर हेडलाइन-ग्रैबिंग मॉडल उसी अंतर्निहित तंत्र पर निर्भर करता है जो स्व-ध्यान है। हमने माना है कि बेहतर एआई का मार्ग केवल पैमाने की बात है। व्यवहार में, इसका अर्थ है अधिक डेटा के साथ बड़े ट्रांसफॉर्मर को बड़े जीपीयू क्लस्टर पर प्रशिक्षित करना।

जबकि इस विश्वास ने कई सफलताओं को चलाया है, यह अब अपनी सीमाओं तक पहुंच रहा है। हम एक “जीपीयू दीवार” से टकरा रहे हैं, जो केवल कच्ची गणना शक्ति की बाधा नहीं है, बल्कि मेमोरी बैंडविथ और आर्थिक स्थिरता की भी है। जबकि दुनिया ट्रिलियन-पैरामीटर मॉडल की दौड़ पर ध्यान केंद्रित कर रही है, शोध प्रयोगशालाओं में एक कट्टर परिवर्तन हो रहा है। “पोस्ट-ट्रांसफॉर्मर आर्किटेक्चर” की एक नई लहर उभर रही है जो वर्तमान परिदृश्य की सीमाओं को तोड़ने का वादा करती है। यह परिवर्तन एआई को अधिक कुशल, सुलभ और असीमित संदर्भों पर तर्क करने में सक्षम बनाने का वादा करता है।

सिलिकॉन सीलिंग: ट्रांसफॉर्मर दीवार क्यों मार रहे हैं

इस परिवर्तन की आवश्यकता को समझने के लिए, हमें पहले वर्तमान शासन की बोतलें को समझने की आवश्यकता है। ट्रांसफॉर्मर अविश्वसनीय रूप से शक्तिशाली हैं, लेकिन वे विशिष्ट तरीकों से भी अविश्वसनीय रूप से अक्षम हैं। उनकी क्षमता का केंद्र “ध्यान तंत्र” में निहित है, जो मॉडल को एक क्रम में हर टोकन को देखने और इसके संबंध की गणना करने की अनुमति देता है। यह उन्हें संदर्भ को आश्चर्यजनक रूप से समझने की क्षमता प्रदान करता है।

हालांकि, यह क्षमता एक घातीय स्केलिंग की घातक खामी के साथ आती है। यदि आप दस्तावेज़ की लंबाई को दोगुना करते हैं, तो गणना कार्य में वृद्धि नहीं होती है, यह चौगुनी हो जाती है। जब हम “असीमित संदर्भ” मॉडल की ओर बढ़ रहे हैं जो पूरे पुस्तकालयों या कोडबेस को पढ़ सकते हैं, तो गणना मांगें बहुत अधिक हो जाती हैं।

लेकिन अधिक तात्कालिक समस्या मेमोरी है, विशेष रूप से “केवी कैश” (की-वैल्यू कैश)। प्रवाह से पाठ उत्पन्न करने के लिए, एक ट्रांसफॉर्मर को जीपीयू की उच्च-गति मेमोरी (वीआरएएम) में वह सब कुछ रखना होगा जो उसने अभी कहा है। जैसे ही बातचीत लंबी होती है, यह कैश फूल जाता है, जिससे बड़ी मात्रा में मेमोरी की खपत होती है, बस तीन अनुच्छेद पहले क्या हुआ था, यह याद रखने के लिए।

यह “जीपीयू दीवार” बनाता है। हम केवल चिप्स से नहीं भाग रहे हैं; हम मेमोरी बैंडविथ से भाग रहे हैं जो उन्हें ईंधन देने के लिए। हमने ऐसे इंजन बनाए हैं जो बड़े और बड़े होते जा रहे हैं, लेकिन वे ईंधन देने में असंभव हो रहे हैं। लंबे समय से, उद्योग का समाधान बस अधिक एनवीडिया एच100 खरीदना था। लेकिन यह जंगली बल अब घटती वापसी के बिंदु पर आ रहा है। हमें एक ऐसे इंजन की आवश्यकता नहीं है जो ईंधन की खपत करता है, बल्कि एक नई आर्किटेक्चर की आवश्यकता है।

अदृश्य क्रांति

जबकि मुख्यधारा के शोध ने एलएलएम पर ध्यान केंद्रित किया है, शोधकर्ताओं के एक समूह ने एक पुराने विचार पर पुनः विचार किया है: रिकरेंट न्यूरल नेटवर्क (आरएनएन)। ट्रांसफॉर्मर से पहले, आरएनएन भाषा के लिए मानक थे। उन्होंने शब्द दर शब्द पाठ को संसाधित किया, एक छिपी हुई आंतरिक “स्थिति” को अद्यतन करते हुए जैसे वे चले गए। वे अविश्वसनीय रूप से कुशल थे क्योंकि उन्हें पूरे इतिहास पर वापस देखने की आवश्यकता नहीं थी, उन्होंने बस इसका “सार” अपनी मेमोरी में रखा।

आरएनएन असफल हो गए क्योंकि वे लंबी निर्भरताओं को संभाल नहीं सकते थे; वे वाक्य के अंत तक पहुंचने से पहले वाक्य की शुरुआत को “भूल” जाते थे। वे प्रशिक्षण के लिए भी धीमे थे क्योंकि आप उन्हें समानांतर नहीं कर सकते थे। इसका अर्थ है कि आपको शब्द ए को संसाधित करने से पहले शब्द बी को संसाधित करना होगा। ट्रांसफॉर्मर ने इसे हल किया bằng एक बार में सब कुछ संसाधित करना (समानांतरकरण) और सब कुछ मेमोरी में रखना (ध्यान)।

अब, हम “पोस्ट-ट्रांसफॉर्मर आर्किटेक्चर” की एक नई लहर को देख रहे हैं जो वर्तमान परिदृश्य की सीमाओं को तोड़ने का वादा करती है। यह परिवर्तन एआई को अधिक कुशल, सुलभ और असीमित संदर्भों पर तर्क करने में सक्षम बनाने का वादा करता है।

पुनरावृत्ति की वापसी

मांबा के पीछे तकनीकी सफलता “चयनात्मकता” है। पिछले आरएनएन को आधुनिक बनाने के प्रयास विफल हो गए क्योंकि वे बहुत जटिल थे। उन्होंने समान रूप से जानकारी को संकुचित किया, चाहे वह महत्वपूर्ण हो या शोर। मांबा एक तंत्र पेश करता है जो मॉडल को डेटा को स्ट्रीम करते समय गतिशील रूप से तय करने की अनुमति देता है कि क्या याद रखना है और क्या भूलना है।

यदि मॉडल एक महत्वपूर्ण जानकारी प्राप्त करता है, जैसे कि एक कोड ब्लॉक में एक переменा परिभाषा, तो यह “गेट” खोलता है और इसे मजबूती से अपनी स्थिति में लिखता है। यदि यह फिलर शब्दों या अप्रासंगिक शोर का सामना करता है, तो यह गेट बंद कर देता है, अपनी सीमित मेमोरी क्षमता को महत्वपूर्ण चीजों के लिए संरक्षित करता है।

यह चयनात्मकता प्रभावी रूप से पुराने आरएनएन की “भूलने” की समस्या का समाधान करती है। कई परीक्षणों में, मांबा-आधारित मॉडल समान आकार के ट्रांसफॉर्मर के प्रदर्शन को मैच करते हैं लेकिन अनुमान में पांच गुना तेजी से चलते हैं। अधिक महत्वपूर्ण बात यह है कि उनके मेमोरी फुटप्रिंट बहुत छोटे हैं। यह दरवाजा खोलता है ताकि उच्च-प्रदर्शन वाले एलएलएम लैपटॉप, एज-कंप्यूटिंग नेटवर्क, या यहां तक कि स्मार्टफोन पर चल सकें, बिना क्लाउड में ऑफलोड किए।

हाइब्रिड का उदय

क्रांति हो सकती है कि ट्रांसफॉर्मर का पूर्ण प्रतिस्थापन नहीं है, बल्कि हाइब्रिड रूपों में विकास है। हम पहले से ही जाम्बा (एआई21 लैब्स से) जैसे मॉडल के उदय को देख रहे हैं, जो ट्रांसफॉर्मर परतों के साथ मांबा परतों को जोड़ती है।

यह हाइब्रिड दृष्टिकोण ट्रांसफॉर्मर सीमाओं को संबोधित करने का एक व्यावहारिक तरीका प्रदान करता है। ट्रांसफॉर्मर अभी भी कertain कार्यों के लिए असाधारण रूप से मजबूत हैं, विशेष रूप से संदर्भ से सटीक विवरण की प्रतिलिपि बनाने के लिए। मांबा परतों (जो डेटा प्रसंस्करण और लंबी अवधि की मेमोरी को संभालती हैं) के साथ ट्रांसफॉर्मर ध्यान परतों (जो तेज, तात्कालिक तर्क को संभालती हैं) को मिलाकर, हम दोनों दुनिया के सर्वश्रेष्ठ को प्राप्त करते हैं।

एक हाइब्रिड मॉडल एक विशाल संदर्भ विंडो बनाता है जो वास्तव में उपयोगी है। वर्तमान में, कई “लंबे संदर्भ” ट्रांसफॉर्मर 100,000 टोकन को संभालने का दावा करते हैं, लेकिन उनका प्रदर्शन तेजी से गिर जाता है क्योंकि संदर्भ भर जाता है। यह घटना “लॉस्ट इन द मिडल” के रूप में जानी जाती है। हाइब्रिड आर्किटेक्चर दूरी पर अपनी सुसंगतता को बहुत बेहतर ढंग से बनाए रखता है क्योंकि एसएसएम परतें विशेष रूप से समय के साथ स्थिति को संकुचित और ले जाने के लिए डिज़ाइन की जाती हैं।

इन विकासों से उद्योग का ध्यान “प्रशिक्षण कंप्यूट” (मुझे मॉडल बनाने के लिए कितना बड़ा क्लस्टर बनाने की आवश्यकता है?) से “अनुमान अर्थशास्त्र” (मैं इस मॉडल को एक अरब उपयोगकर्ताओं को कितनी सस्ते में परोस सकता हूं?) में स्थानांतरित हो जाता है। यदि एक हाइब्रिड मॉडल एक उपयोगकर्ता को 10% की लागत पर परोस सकता है जो एक ट्रांसफॉर्मर की तुलना में है, तो एआई अनुप्रयोगों के लिए व्यवसाय मामला रातोंरात बदल जाता है।

एआई तैनाती का भविष्य

इस पोस्ट-ट्रांसफॉर्मर क्रांति के निहितार्थ केवल डेटा सेंटर तक ही सीमित नहीं हैं। जीपीयू दीवार ने ऐतिहासिक रूप से एक गेटकीपर के रूप में कार्य किया है, यह सुनिश्चित करते हुए कि केवल बड़े प्रौद्योगिकी दिग्गज जो अरबों डॉलर के हार्डवेयर में निवेश कर सकते हैं, राज्य-of-the-आर्ट मॉडल बना और चला सकते हैं। मांबा और आरडब्ल्यूकेवी जैसी कुशल आर्किटेक्चर इस शक्ति को लोकतांत्रिक बनाते हैं। यदि आप एक ग्राहक-ग्रेड कार्ड पर जीपीटी-4 स्तर का मॉडल चला सकते हैं क्योंकि आपको अब केवी कैश के लिए टेराबाइट्स वीआरएएम की आवश्यकता नहीं है, तो एआई का केंद्रीय नियंत्रण शिथिल होने लगता है। हम स्थानीय, निजी एआई एजेंटों के पुनरुत्थान को देख सकते हैं जो पूरी तरह से आपके कंप्यूटर पर रहते हैं, आपके निजी डेटा को संसाधित करते हैं बिना क्लाउड में एक पैकेट भेजे।

इसके अलावा, यह दक्षता “एजेंटिक एआई” प्रणालियों को अनलॉक करने की कुंजी है जो घंटों या दिनों तक चलती हैं जटिल कार्यों को पूरा करने के लिए। वर्तमान ट्रांसफॉर्मर बहुत महंगे और धीमे हैं और लंबे समय तक निरंतर लूप में चलने के लिए। एक कुशल, रैखिक-समय आर्किटेक्चर “सोच” सकता है और बिना उपयोगकर्ता को दिवालिया करने या हार्डवेयर को ओवरहीट करने के लिए लूप में निरंतर रूप से संसाधित कर सकता है।

नीचे की पंक्ति

ट्रांसफॉर्मर ने एआई हेडलाइन्स पर हावी है, लेकिन परदे के पीछे, एक शांत क्रांति चल रही है। जीपीयू दीवार शोधकर्ताओं को मॉडल को मेमोरी और गणना को कैसे संभालना है, इस पर पुनः विचार करने के लिए दबाव डाल रही है। मांबा और हाइब्रिड मॉडल जैसे पोस्ट-ट्रांसफॉर्मर आर्किटेक्चर साबित कर रहे हैं कि कुशलता, न केवल पैमाने, अगले युग को परिभाषित करेगी। इन नवाचारों से बड़े संदर्भ विंडो व्यावहारिक हो जाते हैं, अनुमान सस्ता हो जाता है, और उन्नत एआई डेटा केंद्रों से परे सुलभ हो जाता है। एआई का भविष्य बड़े मॉडल में नहीं है, बल्कि उन मॉडल में है जो कुशलता से याद रखते हैं, तर्क करते हैं और पैमाने पर कुशलता से चलते हैं।

рдбреЙ. рддрд╣рд╕реАрди рдЬрд╝рд┐рдпрд╛ рдХреЛрдореНрд╕реИрдЯреНрд╕ рдпреВрдирд┐рд╡рд░реНрд╕рд┐рдЯреА рдЗрд╕реНрд▓рд╛рдорд╛рдмрд╛рдж рдореЗрдВ рдПрдХ рдЯреЗрдиреНрдпреЛрд░реНрдб рдПрд╕реЛрд╕рд┐рдПрдЯ рдкреНрд░реЛрдлреЗрд╕рд░ рд╣реИрдВ, рдЬреЛ рдСрд╕реНрдЯреНрд░рд┐рдпрд╛ рдХреА рд╡рд┐рдпрдирд╛ рдЯреЗрдХреНрдиреЛрд▓реЙрдЬреА рдпреВрдирд┐рд╡рд░реНрд╕рд┐рдЯреА рд╕реЗ рдПрдЖрдИ рдореЗрдВ рдкреАрдПрдЪрдбреА рд░рдЦрддреЗ рд╣реИрдВред рдЖрд░реНрдЯрд┐рдлрд┐рд╢рд┐рдпрд▓ рдЗрдВрдЯреЗрд▓рд┐рдЬреЗрдВрд╕, рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ, рдбреЗрдЯрд╛ рд╕рд╛рдЗрдВрд╕ рдФрд░ рдХрдВрдкреНрдпреВрдЯрд░ рд╡рд┐рдЬрди рдореЗрдВ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛, рдЙрдиреНрд╣реЛрдВрдиреЗ рдкреНрд░рддрд┐рд╖реНрдард┐рдд рд╡реИрдЬреНрдЮрд╛рдирд┐рдХ рдкрддреНрд░рд┐рдХрд╛рдУрдВ рдореЗрдВ рдкреНрд░рдХрд╛рд╢рди рдХреЗ рд╕рд╛рде рдорд╣рддреНрд╡рдкреВрд░реНрдг рдпреЛрдЧрджрд╛рди рджрд┐рдпрд╛ рд╣реИред рдбреЙ. рддрд╣рд╕реАрди рдиреЗ рдкреНрд░рд┐рдВрд╕рд┐рдкрд▓ рдЗрдиреНрд╡реЗрд╕реНрдЯрд┐рдЧреЗрдЯрд░ рдХреЗ рд░реВрдк рдореЗрдВ рд╡рд┐рднрд┐рдиреНрди рдФрджреНрдпреЛрдЧрд┐рдХ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдХрд╛ рдиреЗрддреГрддреНрд╡ рдХрд┐рдпрд╛ рд╣реИ рдФрд░ рдПрдХ рдПрдЖрдИ рд╕рд▓рд╛рд╣рдХрд╛рд░ рдХреЗ рд░реВрдк рдореЗрдВ рдХрд╛рд░реНрдп рдХрд┐рдпрд╛ рд╣реИред