कृत्रिम बुद्धिमत्ता

डीपसीक ने $5.6M के साथ लागत बाधा को कैसे तोड़ा

Published December 30, 2024

Updated April 27, 2026

Alex McFarland

पारंपरिक एआई ज्ञान यह सुझाव देता है कि बड़े भाषा मॉडल (एलएलएम) बनाने के लिए गहरे जेब की आवश्यकता होती है – आमतौर पर अरबों डॉलर का निवेश। लेकिन डीपसीक, एक चीनी एआई स्टार्टअप, ने इस परिदृश्य को अपनी最新 उपलब्धि के साथ तोड़ दिया है: केवल $5.6 मिलियन में एक विश्व-स्तरीय एआई मॉडल विकसित किया है।

डीपसीक के वी3 मॉडल गूगल के जेमिनी और ओपनएआई के नवीनतम प्रस्ताव जैसे उद्योग के दिग्गजों के साथ सिर-से-सिर जा सकते हैं, जबकि पारंपरिक कंप्यूटिंग संसाधनों का एक अंश उपयोग करते हैं। यह उपलब्धि कई उद्योग नेताओं का ध्यान आकर्षित करती है, और जो इसे विशेष रूप से उल्लेखनीय बनाता है वह यह है कि कंपनी ने इसे हासिल किया है尽管 उन्हें अमेरिकी निर्यात प्रतिबंधों का सामना करना पड़ा, जिसने उनकी पहुंच को नवीनतम एनवीडिया चिप्स तक सीमित कर दिया।

कुशल एआई का अर्थशास्त्र

संख्याएं एक प्रभावशाली कहानी बताती हैं कि कुशलता की। जबकि अधिकांश उन्नत एआई मॉडल के प्रशिक्षण के लिए 16,000 और 100,000 जीपीयू की आवश्यकता होती है, डीपसीक ने केवल 2,048 जीपीयू के साथ प्रबंधित किया, जो 57 दिनों तक चले। मॉडल के प्रशिक्षण ने एनवीडिया एच800 चिप्स पर 2.78 मिलियन जीपीयू घंटे की खपत की – एक 671-बिलियन-पैरामीटर मॉडल के लिए आश्चर्यजनक रूप से साधारण।

इसे परिप्रेक्ष्य में रखने के लिए, मेटा को अपने लामा 3 मॉडल को प्रशिक्षित करने के लिए लगभग 30.8 मिलियन जीपीयू घंटे की आवश्यकता थी – लगभग 11 गुना अधिक कंप्यूटिंग शक्ति – जो वास्तव में 405 बिलियन पैरामीटर के साथ कम पैरामीटर है। डीपसीक का दृष्टिकोण एक प्रतिबंध के तहत अनुकूलन का एक मास्टरक्लास जैसा दिखता है। एच800 जीपीयू – चीनी बाजार के लिए एनवीडिया द्वारा डिज़ाइन किए गए एआई चिप्स, कम क्षमता के साथ – कंपनी ने संभावित सीमाओं को नवाचार में बदल दिया। प्रोसेसर संचार के लिए ऑफ-द-शेल्फ समाधानों का उपयोग करने के बजाय, उन्होंने कुशलता को अधिकतम करने के लिए कस्टम समाधान विकसित किए।

जबकि प्रतिस्पर्धी अभी भी यह मानकर काम करते हैं कि बड़े निवेश आवश्यक हैं, डीपसीक यह प्रदर्शित कर रहा है कि प्रतिभा और कुशल संसाधन उपयोग खेल को बराबर कर सकते हैं।

छवि: आर्टिफिशियल एनालिसिस

असंभव को इंजीनियरिंग

डीपसीक की उपलब्धि इसके नवाचारी तकनीकी दृष्टिकोण में निहित है, जो दिखाती है कि कभी-कभी सबसे प्रभावशाली सफलताएं संसाधनों को फेंकने के बजाय प्रतिबंधों के भीतर काम करने से आती हैं।

इस नवाचार के केंद्र में एक रणनीति है जिसे “ऑक्सिलरी-लॉस-फ्री लोड बैलेंसिंग” कहा जाता है। इसे एक बड़े समानांतर प्रसंस्करण प्रणाली की कल्पना करें जहां पारंपरिक रूप से, आपको सब कुछ सुचारू रूप से चलाने के लिए जटिल नियमों और दंड की आवश्यकता होगी। डीपसीक ने इस पारंपरिक ज्ञान को अपने सिर पर रख दिया, एक ऐसी प्रणाली विकसित की जो पारंपरिक दृष्टिकोणों के ओवरहेड के बिना स्वाभाविक रूप से संतुलन बनाए रखती है।

टीम ने “मल्टी-टोकन प्रेडिक्शन” (एमटीपी) नामक एक तकनीक का भी अनुसंधान किया – एक तकनीक जो मॉडल को एक साथ कई टोकन की भविष्यवाणी करने देती है। व्यवहार में, यह विभिन्न विषयों पर 85-90% स्वीकृति दर के लिए अनुवाद करता है, पिछले दृष्टिकोणों की तुलना में 1.8 गुना तेजी से प्रसंस्करण गति प्रदान करता है।

तकनीकी वास्तुकला स्वयं एक कुशलता का शिल्पकला है। डीपसीक के वी3 में 671 बिलियन कुल पैरामीटर के साथ विशेषज्ञों का मिश्रण दृष्टिकोण है, लेकिन यहाँ चतुर भाग है – यह प्रत्येक टोकन के लिए केवल 37 बिलियन को सक्रिय करता है। यह चयनात्मक सक्रियण का अर्थ है कि वे एक बड़े मॉडल के लाभ प्राप्त करते हुए व्यावहारिक कुशलता बनाए रखते हैं।

उनका एफपी8 मिश्रित सटीकता प्रशिक्षण फ्रेमवर्क एक और कदम आगे है। कम सटीकता की पारंपरिक सीमाओं को स्वीकार करने के बजाय, उन्होंने सटीकता को बनाए रखते हुए स्मृति और गणना आवश्यकताओं को काफी कम करने के लिए कस्टम समाधान विकसित किए।

एआई के पारिस्थितिकी तंत्र में परिणाम

डीपसीक की उपलब्धि का प्रभाव केवल एक सफल मॉडल से परे है।

यूरोपीय एआई विकास के लिए, यह उपलब्धि विशेष रूप से महत्वपूर्ण है। कई उन्नत मॉडल यूरोपीय संघ में नहीं पहुंच पाते हैं क्योंकि कंपनियां जैसे मेटा और ओपनएआई या तो यूरोपीय संघ के एआई अधिनियम के अनुकूल नहीं हो सकती हैं या नहीं होना चाहती हैं। डीपसीक का दृष्टिकोण यह दिखाता है कि अग्रिम एआई बनाने के लिए हमेशा बड़े जीपीयू क्लस्टर की आवश्यकता नहीं होती है – यह कुशलता से उपलब्ध संसाधनों का उपयोग करने के बारे में है।

यह विकास यह भी दिखाता है कि निर्यात प्रतिबंध वास्तव में नवाचार को बढ़ावा दे सकते हैं। डीपसीक की उच्च-अंत हार्डवेयर तक सीमित पहुंच ने उन्हें अलग सोचने पर मजबूर किया, जिसके परिणामस्वरूप सॉफ्टवेयर अनुकूलन हुए जो संसाधन-संपन्न वातावरण में कभी नहीं उभरे होते। यह सिद्धांत वैश्विक स्तर पर एआई विकास के दृष्टिकोण को बदल सकता है।

लोकतांत्रीकरण के निहितार्थ गहरे हैं। जबकि उद्योग के दिग्गज अरबों डॉलर जलाते रहते हैं, डीपसीक ने कुशल, लागत-प्रभावी एआई विकास के लिए एक नीलाकृति तैयार की है। यह छोटी कंपनियों और शोध संस्थानों के लिए दरवाजे खोल सकता है जो पहले संसाधन सीमाओं के कारण प्रतिस्पर्धा नहीं कर सकते थे।

हालांकि, इसका मतलब यह नहीं है कि बड़े पैमाने पर कंप्यूटिंग बुनियादी ढांचा पुराना हो रहा है। उद्योग अनुमान समय – एक मॉडल को उत्तर देने में कितना समय लगता है – को स्केल करने की ओर ध्यान केंद्रित कर रहा है। जैसा कि यह रुझान जारी रहता है, समय के साथ संभवतः अधिक कंप्यूटिंग संसाधनों की आवश्यकता होगी।

लेकिन डीपसीक ने बातचीत को मौलिक रूप से बदल दिया है। दीर्घकालिक निहितार्थ स्पष्ट हैं: हम एक ऐसे युग में प्रवेश कर रहे हैं जहां नवाचारी सोच और कुशल संसाधन उपयोग बड़ी मात्रा में कंप्यूटिंग शक्ति से अधिक मायने रख सकते हैं। एआई समुदाय के लिए, इसका अर्थ है कि हम जिन संसाधनों का उपयोग करते हैं उन पर ध्यान केंद्रित करना, न कि केवल उन संसाधनों पर जो हमारे पास हैं।