Connect with us

рд╕реНрдХреЗрд▓рд┐рдВрдЧ рдпреБрдЧ рдХрд╛ рдЕрдВрдд: рдПрд▓реНрдЧреЛрд░рд┐рджрдорд┐рдХ рдмреНрд░реЗрдХрдереНрд░реВ рдХреНрдпреЛрдВ рдореЙрдбрд▓ рдХреЗ рдЖрдХрд╛рд░ рд╕реЗ рдЕрдзрд┐рдХ рдорд╛рдпрдиреЗ рд░рдЦрддреЗ рд╣реИрдВ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рд╕реНрдХреЗрд▓рд┐рдВрдЧ рдпреБрдЧ рдХрд╛ рдЕрдВрдд: рдПрд▓реНрдЧреЛрд░рд┐рджрдорд┐рдХ рдмреНрд░реЗрдХрдереНрд░реВ рдХреНрдпреЛрдВ рдореЙрдбрд▓ рдХреЗ рдЖрдХрд╛рд░ рд╕реЗ рдЕрдзрд┐рдХ рдорд╛рдпрдиреЗ рд░рдЦрддреЗ рд╣реИрдВ

mm

पिछले दशक के अधिकांश हिस्से के लिए, कृत्रिम बुद्धिमत्ता में प्रगति स्केल द्वारा संचालित की गई है। बड़े डेटासेट, अधिक पैरामीटर, और अधिक गणना शक्ति सफलता का सूत्र बन गए हैं। टीमें बड़े मॉडल बनाने के लिए प्रतिस्पर्धा करती हैं, जिसमें ट्रिलियन पैरामीटर और पेटाबाइट्स के प्रशिक्षण डेटा को मापती हैं। हम इसे स्केलिंग युग कहते हैं। यह आज हम देख रहे कृत्रिम बुद्धिमत्ता की प्रगति को बढ़ावा देने में बहुत बड़ा योगदान दिया है, लेकिन हम अब एक सीमा की ओर बढ़ रहे हैं जहां केवल मॉडल को बड़ा बनाना सबसे कुशल, चतुर, या टिकाऊ दृष्टिकोण नहीं है। इसके परिणामस्वरूप, ध्यान को कच्चे स्केल से एल्गोरिदमिक ब्रेकथ्रू की ओर स्थानांतरित किया जा रहा है। इस लेख में, हम जांचते हैं कि क्यों स्केलिंग स्वयं कम पड़ जाती है और कैसे कृत्रिम बुद्धिमत्ता के विकास का अगला चरण एल्गोरिदमिक नवाचार पर निर्भर करेगा।

मॉडल स्केलिंग में कम होती वापसी का नियम

स्केलिंग युग मजबूत अनुभवजन्य आधारों पर बनाया गया था। शोधकर्ताओं ने देखा कि मॉडल और डेटासेट के आकार को बढ़ाने से प्रदर्शन में विश्वसनीय लाभ हो सकते हैं। यह पैटर्न स्केलिंग कानून के रूप में जाना जाने लगा। ये कानून जल्द ही अग्रणी कृत्रिम बुद्धिमत्ता प्रयोगशालाओं के लिए प्लेबुक बन गए, जो बड़े पैमाने पर प्रणालियों के निर्माण की दौड़ को बढ़ावा देते हैं। यह दौड़ बड़े भाषा मॉडल और मूलभूत मॉडल को जन्म देती है जो आज की अधिकांश कृत्रिम बुद्धिमत्ता को शक्ति प्रदान करते हैं। हालांकि, प्रत्येक घातांकीय वक्र की तरह, यह कृत्रिम बुद्धिमत्ता स्केलिंग अब समतल होने लगी है। व्यय भी तेजी से बढ़ रहे हैं जो और भी बड़े मॉडल विकसित करने के लिए हैं। एक राज्य-оф-द-आर्ट सिस्टम को प्रशिक्षित करने में अब एक छोटे शहर जितनी ऊर्जा की खपत होती है, जो गंभीर पर्यावरण संबंधी चिंताएं उठाता है। वित्तीय लागत इतनी उच्च है कि केवल कुछ संगठन ही प्रतिस्पर्धा कर सकते हैं। इसके बीच, हम कम होती वापसी के स्पष्ट संकेत देख रहे हैं। पैरामीटर गणना को दोगुना करने से क्षमता दोगुनी नहीं होती। सुधार भी क्रमिक हैं, जो केवल मौजूदा ज्ञान को परिष्कृत करते हैं न कि नई क्षमताओं को अनलॉक करते हैं। प्रत्येक अतिरिक्त डॉलर और वाट खर्च करने से मूल्य लाभ कम हो रहा है। स्केलिंग रणनीति अपनी आर्थिक और तकनीकी सीमाओं तक पहुंच रही है।

नया मोर्चा: एल्गोरिदमिक दक्षता

स्केलिंग कानूनों की सीमाओं ने शोधकर्ताओं को एल्गोरिदमिक दक्षता पर पुनः ध्यान केंद्रित करने के लिए प्रेरित किया है। कच्चे बल पर निर्भर रहने के बजाय, वे संसाधनों का अधिक प्रभावी ढंग से उपयोग करने वाले स्मार्टर एल्गोरिदम डिज़ाइन करने पर ध्यान केंद्रित कर रहे हैं। हाल के अग्रिमों से इस बदलाव की शक्ति का प्रदर्शन होता है। उदाहरण के लिए, ट्रांसफॉर्मर आर्किटेक्चर, जो अपने ध्यान तंत्र द्वारा संचालित है, वर्षों से कृत्रिम बुद्धिमत्ता में प्रमुख रहा है। लेकिन ध्यान की कमजोरी यह है कि इसकी गणनात्मक मांगें तेजी से क्रम बढ़ने के साथ बढ़ती हैं। स्टेट स्पेस मॉडल (एसएसएम), जैसे माम्बा, ट्रांसफॉर्मर के विकल्प के रूप में उभर रहे हैं। अधिक कुशल चयनात्मक तर्क को सक्षम करके, एसएसएम बड़े ट्रांसफॉर्मर के प्रदर्शन को मैच कर सकते हैं जबकि तेजी से और काफी कम मेमोरी का उपयोग करते हैं।
एक और एल्गोरिदमिक दक्षता का उदाहरण मिक्सचर ऑफ एक्सपर्ट्स (मोई) मॉडल का उदय है। इसके बजाय प्रत्येक इनपुट के लिए पूरे विशाल नेटवर्क को सक्रिय करने के, मोई सिस्टम कार्यों को केवल सबसे प्रासंगिक उप-नेटवर्क के एक छोटे से उपसेट, या “विशेषज्ञों” को मार्गदर्शन करते हैं। मॉडल में कुल मिलाकर अरबों पैरामीटर हो सकते हैं, लेकिन प्रत्येक गणना में केवल एक अंश का उपयोग किया जाता है। यह एक विशाल पुस्तकालय होने जैसा है लेकिन केवल उन कुछ पुस्तकों को खोलना जो प्रश्न का उत्तर देने के लिए आवश्यक है, प्रत्येक बार पूरे भवन में हर पुस्तक को पढ़ने के बजाय। परिणाम एक विशाल मॉडल की ज्ञान क्षमता है जो एक बहुत छोटे मॉडल की दक्षता के साथ है।
इनमें से एक और उदाहरण जो इन विचारों को मिलाता है डीपसीक-V3 है, जो मिक्सचर-ऑफ-एक्सपर्ट्स मॉडल है जो मल्टी-हेड लैटेंट अटेंशन (एमएलए) से बढ़ाया गया है। एमएलए पारंपरिक ध्यान को बेहतर बनाता है कि कुंजी-मूल्य राज्यों को संपीड़ित करके, मॉडल को लंबे क्रमों को कुशलता से संभालने की अनुमति देता है, जैसा कि एसएसएम में है, जबकि ट्रांसफॉर्मर की ताकत को बनाए रखता है। 236 अरब पैरामीटर के साथ लेकिन प्रति कार्य केवल एक अंश सक्रिय, डीपसीक-V3 कोडिंग और तर्क जैसे क्षेत्रों में शीर्ष-स्तरीय प्रदर्शन प्रदान करता है, सभी जबकि तुलनात्मक रूप से बड़े, स्केल किए गए मॉडलों की तुलना में अधिक सुलभ और कम संसाधन गहन है।
ये केवल अलग-अलग उदाहरण नहीं हैं। वे एक व्यापक प्रवृत्ति का प्रतिनिधित्व करते हैं जो स्मार्टर, अधिक कुशल डिज़ाइन की ओर है। शोधकर्ता अब इस बात पर ध्यान केंद्रित कर रहे हैं कि मॉडल को तेज, छोटा और कम डेटा भूखा कैसे बनाया जाए बिना प्रदर्शन को त्यागे।

यह बदलाव क्यों महत्वपूर्ण है

स्केल से एल्गोरिदमिक ब्रेकथ्रू पर ध्यान केंद्रित करने का संक्रमण कृत्रिम बुद्धिमत्ता क्षेत्र पर महत्वपूर्ण प्रभाव डालता है। सबसे पहले, यह कृत्रिम बुद्धिमत्ता को सभी के लिए अधिक सुलभ बनाता है। सफलता अब केवल सबसे शक्तिशाली कंप्यूटरों पर निर्भर नहीं करती। एक छोटे से शोधकर्ता समूह एक नया डिज़ाइन बना सकता है जो बहुत बड़े बजट वाले मॉडलों को पीछे छोड़ देता है। यह नवाचार को संसाधनों की दौड़ से विचारों और विशेषज्ञता द्वारा संचालित दौड़ में बदल देता है। इसके परिणामस्वरूप, विश्वविद्यालय, स्टार्टअप और स्वतंत्र प्रयोगशालाएं अब बड़ी प्रौद्योगिकी कंपनियों के अलावा एक बड़ी भूमिका निभा सकते हैं।
दूसरा, यह कृत्रिम बुद्धिमत्ता को दैनिक सेटिंग्स में अधिक उपयोगी बनाता है। 500 अरब पैरामीटर वाला एक मॉडल अध्ययनों में प्रभावशाली दिख सकता है, लेकिन इसका विशाल आकार इसे व्यावहारिक रूप से उपयोग करना मुश्किल और महंगा बना देता है। इसके विपरीत, कुशल विकल्प जैसे माम्बा या मिक्सचर ऑफ एक्सपर्ट्स मॉडल मानक हार्डवेयर पर चल सकते हैं, जिसमें नेटवर्क के किनारे पर उपकरण भी शामिल हैं। यह उपयोग में आसानी कृत्रिम बुद्धिमत्ता को सामान्य अनुप्रयोगों में लाने के लिए महत्वपूर्ण है, जैसे स्वास्थ्य सेवा में नैदानिक उपकरण या स्मार्टफोन पर त्वरित अनुवाद सुविधाएं।
तीसरा, यह स्थिरता के मुद्दे को संबोधित करता है। विशाल कृत्रिम बुद्धिमत्ता मॉडल के निर्माण और संचालन की ऊर्जा मांगें पर्यावरण के लिए एक बड़ी चुनौती बन रही हैं। दक्षता पर जोर देकर, हम कृत्रिम बुद्धिमत्ता कार्य से कार्बन उत्सर्जन में तेजी से कटौती कर सकते हैं।

आगे क्या है: बुद्धिमत्ता डिज़ाइन का युग

हम बुद्धिमत्ता डिज़ाइन के युग में प्रवेश कर रहे हैं। प्रश्न अब यह नहीं है कि हम मॉडल को कितना बड़ा बना सकते हैं, बल्कि यह है कि हम एक मॉडल को कैसे डिज़ाइन कर सकते हैं जो स्वाभाविक रूप से अधिक बुद्धिमान और कुशल हो।
यह बदलाव अनुसंधान के कई मूलभूत क्षेत्रों में नवाचार लाएगा। एक क्षेत्र जहां हम उन्नति की उम्मीद कर सकते हैं वह है कृत्रिम बुद्धिमत्ता मॉडल आर्किटेक्चर। नए मॉडल जैसे स्टेट स्पेस मॉडल, जिन्हें पहले ही उल्लेख किया गया है, न्यूरल नेटवर्क द्वारा डेटा के प्रसंस्करण को बदल सकते हैं। उदाहरण के लिए, दynamical सिस्टम से प्रेरित आर्किटेक्चर प्रयोगों में अधिक शक्तिशाली साबित हो रहे हैं। एक और फोकस प्रशिक्षण विधियों पर होगा जो मॉडल को बहुत कम डेटा के साथ प्रभावी ढंग से सीखने में मदद करती हैं। उदाहरण के लिए, few-shot और zero-shot सीखने की उन्नति कृत्रिम बुद्धिमत्ता को अधिक डेटा-कुशल बना रही है, जबकि एक्टिवेशन स्टीयरिंग जैसी तकनीकें बिना पुनः प्रशिक्षण के व्यवहार सुधार की अनुमति देती हैं। पोस्ट-ट्रेनिंग रिफाइनमेंट और सिंथेटिक डेटा का उपयोग प्रशिक्षण की आवश्यकताओं में नाटकीय रूप से कटौती कर रहा है, कभी-कभी 10,000 गुना तक।
हम हाइब्रिड मॉडल, जैसे न्यूरो-सимвोलिक कृत्रिम बुद्धिमत्ता में बढ़ती रुचि देखेंगे। न्यूरो-सимвोलिक कृत्रिम बुद्धिमत्ता 2025 में एक प्रमुख प्रवृत्ति के रूप में उभर रही है, जो न्यूरल लर्निंग की पैटर्न मान्यता को सимвोलिक सिस्टम की तार्किक ताकत के साथ मिलाती है ताकि बेहतर व्याख्या और कम डेटा निर्भरता हो। उदाहरणों में अल्फाज्यामिति 2 और अल्फाप्रूफ शामिल हैं, जो गूगल डीपमाइंड को आईएमओ 2025 में स्वर्ण पदक प्रदर्शन हासिल करने में मदद करते हैं। लक्ष्य ऐसी प्रणाली विकसित करना है जो केवल आंकड़ों के आधार पर अगले शब्द की भविष्यवाणी न करे, बल्कि मानवों की तरह दुनिया के बारे में समझ और तर्क करे।

नीचे की रेखा

स्केलिंग युग आवश्यक था और कृत्रिम बुद्धिमत्ता में उल्लेखनीय विकास लाया। यह संभावनाओं की सीमाओं को विस्तारित किया और आज हम जिन मूलभूत प्रौद्योगिकियों पर निर्भर हैं, उन्हें वितरित किया। लेकिन जैसा कि कोई भी परिपक्व प्रौद्योगिकी होती है, शुरुआती रणनीति अंततः अपनी संभावनाओं को समाप्त कर देती है। आगे के प्रमुख ब्रेकथ्रू स्टैक में अधिक परतें जोड़ने से नहीं आएंगे। इसके बजाय, वे स्टैक को स्वयं पुनः डिज़ाइन करके उभरेंगे।
आगे का भविष्य उन लोगों का है जो एल्गोरिदम, आर्किटेक्चर और मशीन लर्निंग के मूलभूत विज्ञान में नवाचार करते हैं। यह एक ऐसा भविष्य है जहां बुद्धिमत्ता को पैरामीटर की संख्या से नहीं, बल्कि डिज़ाइन की सुंदरता से मापा जाता है। स्मार्टर एल्गोरिदम बनाने की प्रेरणा अभी शुरू हुई है। यह संक्रमण अधिक सुलभ, स्थिर और वास्तव में बुद्धिमान कृत्रिम बुद्धिमत्ता के लिए दरवाजा खोलता है।

рдбреЙ. рддрд╣рд╕реАрди рдЬрд╝рд┐рдпрд╛ рдХреЛрдореНрд╕реИрдЯреНрд╕ рдпреВрдирд┐рд╡рд░реНрд╕рд┐рдЯреА рдЗрд╕реНрд▓рд╛рдорд╛рдмрд╛рдж рдореЗрдВ рдПрдХ рдЯреЗрдиреНрдпреЛрд░реНрдб рдПрд╕реЛрд╕рд┐рдПрдЯ рдкреНрд░реЛрдлреЗрд╕рд░ рд╣реИрдВ, рдЬреЛ рдСрд╕реНрдЯреНрд░рд┐рдпрд╛ рдХреА рд╡рд┐рдпрдирд╛ рдЯреЗрдХреНрдиреЛрд▓реЙрдЬреА рдпреВрдирд┐рд╡рд░реНрд╕рд┐рдЯреА рд╕реЗ рдПрдЖрдИ рдореЗрдВ рдкреАрдПрдЪрдбреА рд░рдЦрддреЗ рд╣реИрдВред рдЖрд░реНрдЯрд┐рдлрд┐рд╢рд┐рдпрд▓ рдЗрдВрдЯреЗрд▓рд┐рдЬреЗрдВрд╕, рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ, рдбреЗрдЯрд╛ рд╕рд╛рдЗрдВрд╕ рдФрд░ рдХрдВрдкреНрдпреВрдЯрд░ рд╡рд┐рдЬрди рдореЗрдВ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛, рдЙрдиреНрд╣реЛрдВрдиреЗ рдкреНрд░рддрд┐рд╖реНрдард┐рдд рд╡реИрдЬреНрдЮрд╛рдирд┐рдХ рдкрддреНрд░рд┐рдХрд╛рдУрдВ рдореЗрдВ рдкреНрд░рдХрд╛рд╢рди рдХреЗ рд╕рд╛рде рдорд╣рддреНрд╡рдкреВрд░реНрдг рдпреЛрдЧрджрд╛рди рджрд┐рдпрд╛ рд╣реИред рдбреЙ. рддрд╣рд╕реАрди рдиреЗ рдкреНрд░рд┐рдВрд╕рд┐рдкрд▓ рдЗрдиреНрд╡реЗрд╕реНрдЯрд┐рдЧреЗрдЯрд░ рдХреЗ рд░реВрдк рдореЗрдВ рд╡рд┐рднрд┐рдиреНрди рдФрджреНрдпреЛрдЧрд┐рдХ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдХрд╛ рдиреЗрддреГрддреНрд╡ рдХрд┐рдпрд╛ рд╣реИ рдФрд░ рдПрдХ рдПрдЖрдИ рд╕рд▓рд╛рд╣рдХрд╛рд░ рдХреЗ рд░реВрдк рдореЗрдВ рдХрд╛рд░реНрдп рдХрд┐рдпрд╛ рд╣реИред