Connect with us

рдбреАрдкрд╕реАрдХ рдиреЗ $5.6M рдХреЗ рд╕рд╛рде рд▓рд╛рдЧрдд рдмрд╛рдзрд╛ рдХреЛ рдХреИрд╕реЗ рддреЛрдбрд╝рд╛

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдбреАрдкрд╕реАрдХ рдиреЗ $5.6M рдХреЗ рд╕рд╛рде рд▓рд╛рдЧрдд рдмрд╛рдзрд╛ рдХреЛ рдХреИрд╕реЗ рддреЛрдбрд╝рд╛

mm

पारंपरिक एआई ज्ञान यह सुझाव देता है कि बड़े भाषा मॉडल (एलएलएम) बनाने के लिए गहरे जेब की आवश्यकता होती है – आमतौर पर अरबों डॉलर का निवेश। लेकिन डीपसीक, एक चीनी एआई स्टार्टअप, ने इस परिदृश्य को अपनी最新 उपलब्धि के साथ तोड़ दिया है: केवल $5.6 मिलियन में एक विश्व-स्तरीय एआई मॉडल विकसित किया है।

डीपसीक के वी3 मॉडल गूगल के जेमिनी और ओपनएआई के नवीनतम प्रस्ताव जैसे उद्योग के दिग्गजों के साथ सिर-से-सिर जा सकते हैं, जबकि पारंपरिक कंप्यूटिंग संसाधनों का एक अंश उपयोग करते हैं। यह उपलब्धि कई उद्योग नेताओं का ध्यान आकर्षित करती है, और जो इसे विशेष रूप से उल्लेखनीय बनाता है वह यह है कि कंपनी ने इसे हासिल किया है尽管 उन्हें अमेरिकी निर्यात प्रतिबंधों का सामना करना पड़ा, जिसने उनकी पहुंच को नवीनतम एनवीडिया चिप्स तक सीमित कर दिया।

कुशल एआई का अर्थशास्त्र

संख्याएं एक प्रभावशाली कहानी बताती हैं कि कुशलता की। जबकि अधिकांश उन्नत एआई मॉडल के प्रशिक्षण के लिए 16,000 और 100,000 जीपीयू की आवश्यकता होती है, डीपसीक ने केवल 2,048 जीपीयू के साथ प्रबंधित किया, जो 57 दिनों तक चले। मॉडल के प्रशिक्षण ने एनवीडिया एच800 चिप्स पर 2.78 मिलियन जीपीयू घंटे की खपत की – एक 671-बिलियन-पैरामीटर मॉडल के लिए आश्चर्यजनक रूप से साधारण।

इसे परिप्रेक्ष्य में रखने के लिए, मेटा को अपने लामा 3 मॉडल को प्रशिक्षित करने के लिए लगभग 30.8 मिलियन जीपीयू घंटे की आवश्यकता थी – लगभग 11 गुना अधिक कंप्यूटिंग शक्ति – जो वास्तव में 405 बिलियन पैरामीटर के साथ कम पैरामीटर है। डीपसीक का दृष्टिकोण एक प्रतिबंध के तहत अनुकूलन का एक मास्टरक्लास जैसा दिखता है। एच800 जीपीयू – चीनी बाजार के लिए एनवीडिया द्वारा डिज़ाइन किए गए एआई चिप्स, कम क्षमता के साथ – कंपनी ने संभावित सीमाओं को नवाचार में बदल दिया। प्रोसेसर संचार के लिए ऑफ-द-शेल्फ समाधानों का उपयोग करने के बजाय, उन्होंने कुशलता को अधिकतम करने के लिए कस्टम समाधान विकसित किए।

जबकि प्रतिस्पर्धी अभी भी यह मानकर काम करते हैं कि बड़े निवेश आवश्यक हैं, डीपसीक यह प्रदर्शित कर रहा है कि प्रतिभा और कुशल संसाधन उपयोग खेल को बराबर कर सकते हैं।

असंभव को इंजीनियरिंग

डीपसीक की उपलब्धि इसके नवाचारी तकनीकी दृष्टिकोण में निहित है, जो दिखाती है कि कभी-कभी सबसे प्रभावशाली सफलताएं संसाधनों को फेंकने के बजाय प्रतिबंधों के भीतर काम करने से आती हैं।

इस नवाचार के केंद्र में एक रणनीति है जिसे “ऑक्सिलरी-लॉस-फ्री लोड बैलेंसिंग” कहा जाता है। इसे एक बड़े समानांतर प्रसंस्करण प्रणाली की कल्पना करें जहां पारंपरिक रूप से, आपको सब कुछ सुचारू रूप से चलाने के लिए जटिल नियमों और दंड की आवश्यकता होगी। डीपसीक ने इस पारंपरिक ज्ञान को अपने सिर पर रख दिया, एक ऐसी प्रणाली विकसित की जो पारंपरिक दृष्टिकोणों के ओवरहेड के बिना स्वाभाविक रूप से संतुलन बनाए रखती है।

टीम ने “मल्टी-टोकन प्रेडिक्शन” (एमटीपी) नामक एक तकनीक का भी अनुसंधान किया – एक तकनीक जो मॉडल को एक साथ कई टोकन की भविष्यवाणी करने देती है। व्यवहार में, यह विभिन्न विषयों पर 85-90% स्वीकृति दर के लिए अनुवाद करता है, पिछले दृष्टिकोणों की तुलना में 1.8 गुना तेजी से प्रसंस्करण गति प्रदान करता है।

तकनीकी वास्तुकला स्वयं एक कुशलता का शिल्पकला है। डीपसीक के वी3 में 671 बिलियन कुल पैरामीटर के साथ विशेषज्ञों का मिश्रण दृष्टिकोण है, लेकिन यहाँ चतुर भाग है – यह प्रत्येक टोकन के लिए केवल 37 बिलियन को सक्रिय करता है। यह चयनात्मक सक्रियण का अर्थ है कि वे एक बड़े मॉडल के लाभ प्राप्त करते हुए व्यावहारिक कुशलता बनाए रखते हैं।

उनका एफपी8 मिश्रित सटीकता प्रशिक्षण फ्रेमवर्क एक और कदम आगे है। कम सटीकता की पारंपरिक सीमाओं को स्वीकार करने के बजाय, उन्होंने सटीकता को बनाए रखते हुए स्मृति और गणना आवश्यकताओं को काफी कम करने के लिए कस्टम समाधान विकसित किए।

एआई के पारिस्थितिकी तंत्र में परिणाम

डीपसीक की उपलब्धि का प्रभाव केवल एक सफल मॉडल से परे है।

यूरोपीय एआई विकास के लिए, यह उपलब्धि विशेष रूप से महत्वपूर्ण है। कई उन्नत मॉडल यूरोपीय संघ में नहीं पहुंच पाते हैं क्योंकि कंपनियां जैसे मेटा और ओपनएआई या तो यूरोपीय संघ के एआई अधिनियम के अनुकूल नहीं हो सकती हैं या नहीं होना चाहती हैं। डीपसीक का दृष्टिकोण यह दिखाता है कि अग्रिम एआई बनाने के लिए हमेशा बड़े जीपीयू क्लस्टर की आवश्यकता नहीं होती है – यह कुशलता से उपलब्ध संसाधनों का उपयोग करने के बारे में है।

यह विकास यह भी दिखाता है कि निर्यात प्रतिबंध वास्तव में नवाचार को बढ़ावा दे सकते हैं। डीपसीक की उच्च-अंत हार्डवेयर तक सीमित पहुंच ने उन्हें अलग सोचने पर मजबूर किया, जिसके परिणामस्वरूप सॉफ्टवेयर अनुकूलन हुए जो संसाधन-संपन्न वातावरण में कभी नहीं उभरे होते। यह सिद्धांत वैश्विक स्तर पर एआई विकास के दृष्टिकोण को बदल सकता है।

लोकतांत्रीकरण के निहितार्थ गहरे हैं। जबकि उद्योग के दिग्गज अरबों डॉलर जलाते रहते हैं, डीपसीक ने कुशल, लागत-प्रभावी एआई विकास के लिए एक नीलाकृति तैयार की है। यह छोटी कंपनियों और शोध संस्थानों के लिए दरवाजे खोल सकता है जो पहले संसाधन सीमाओं के कारण प्रतिस्पर्धा नहीं कर सकते थे।

हालांकि, इसका मतलब यह नहीं है कि बड़े पैमाने पर कंप्यूटिंग बुनियादी ढांचा पुराना हो रहा है। उद्योग अनुमान समय – एक मॉडल को उत्तर देने में कितना समय लगता है – को स्केल करने की ओर ध्यान केंद्रित कर रहा है। जैसा कि यह रुझान जारी रहता है, समय के साथ संभवतः अधिक कंप्यूटिंग संसाधनों की आवश्यकता होगी।

लेकिन डीपसीक ने बातचीत को मौलिक रूप से बदल दिया है। दीर्घकालिक निहितार्थ स्पष्ट हैं: हम एक ऐसे युग में प्रवेश कर रहे हैं जहां नवाचारी सोच और कुशल संसाधन उपयोग बड़ी मात्रा में कंप्यूटिंग शक्ति से अधिक मायने रख सकते हैं। एआई समुदाय के लिए, इसका अर्थ है कि हम जिन संसाधनों का उपयोग करते हैं उन पर ध्यान केंद्रित करना, न कि केवल उन संसाधनों पर जो हमारे पास हैं।

рдПрд▓реЗрдХреНрд╕ рдореИрдХрдлрд╛рд░рд▓реИрдВрдб рдПрдХ рдПрдЖрдИ рдкрддреНрд░рдХрд╛рд░ рдФрд░ рд▓реЗрдЦрдХ рд╣реИрдВ рдЬреЛ рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛ рдореЗрдВ рдирд╡реАрдирддрдо рд╡рд┐рдХрд╛рд╕реЛрдВ рдХрд╛ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░ рд░рд╣реЗ рд╣реИрдВред рдЙрдиреНрд╣реЛрдВрдиреЗ рд╡рд┐рд╢реНрд╡рднрд░ рдХреЗ рдХрдИ рдПрдЖрдИ рд╕реНрдЯрд╛рд░реНрдЯрдЕрдкреНрд╕ рдФрд░ рдкреНрд░рдХрд╛рд╢рдиреЛрдВ рдХреЗ рд╕рд╛рде рд╕рд╣рдпреЛрдЧ рдХрд┐рдпрд╛ рд╣реИред