कृत्रिम बुद्धिमत्ता

छोटे तर्क मॉडल का उदय: क्या कॉम्पैक्ट एआई जीपीटी-स्तरीय तर्क मेल खा सकता है?

Published April 5, 2025

Updated April 26, 2026

Dr. Tehseen Zia

हाल के वर्षों में, एआई क्षेत्र बड़े भाषा मॉडल (एलएलएम) की सफलता से मोहित हो गया है। शुरू में प्राकृतिक भाषा प्रसंस्करण के लिए डिज़ाइन किए गए, ये मॉडल मानव जैसे चरण-दर-चरण विचार प्रक्रिया के साथ जटिल समस्याओं का सामना करने में सक्षम शक्तिशाली तर्क उपकरण में विकसित हुए हैं। हालांकि, उनकी असाधारण तर्क क्षमताओं के बावजूद, एलएलएम में उच्च गणना लागत और धीमी तैनाती गति जैसे महत्वपूर्ण नुकसान हैं, जो मोबाइल डिवाइस या एज कंप्यूटिंग जैसे संसाधन-सीमित वातावरण में वास्तविक दुनिया के उपयोग के लिए व्यावहारिक बनाते हैं। यह छोटे, अधिक कुशल मॉडल विकसित करने में बढ़ती रुचि की ओर ले जाता है जो समान तर्क क्षमता प्रदान कर सकते हैं जबकि लागत और संसाधन मांग को कम करते हैं। यह लेख छोटे तर्क मॉडल के उदय, उनकी संभावना, चुनौतियों और एआई के भविष्य के लिए उनके निहितार्थ का अन्वेषण करता है।

दृष्टिकोण में परिवर्तन

एआई के हाल के इतिहास के लिए, क्षेत्र “स्केलिंग कानूनों” के सिद्धांत का पालन करता है, जो सुझाव देता है कि मॉडल का प्रदर्शन डेटा, कंप्यूट पावर और मॉडल आकार में वृद्धि के साथ भविष्यवाणी के अनुसार सुधरता है। जबकि इस दृष्टिकोण ने शक्तिशाली मॉडल दिए हैं, इसने उच्च बुनियादी ढांचे की लागत, पर्यावरण प्रभाव और देरी के मुद्दों जैसे महत्वपूर्ण व्यापार-बंद का परिणाम दिया है। सभी अनुप्रयोगों को बड़े मॉडल की पूर्ण क्षमताओं की आवश्यकता नहीं होती है। कई व्यावहारिक मामलों में – जैसे कि डिवाइस सहायक, स्वास्थ्य सेवा और शिक्षा – छोटे मॉडल समान परिणाम प्राप्त कर सकते हैं, यदि वे प्रभावी ढंग से तर्क कर सकते हैं।

एआई में तर्क को समझना

एआई में तर्क एक मॉडल की क्षमता को संदर्भित करता है तार्किक श्रृंखला का पालन करने के लिए, कारण और प्रभाव को समझने, निहितार्थ का अनुमान लगाने, एक प्रक्रिया में चरणों की योजना बनाने और विरोधाभासों की पहचान करने के लिए। भाषा मॉडल के लिए, इसका अर्थ अक्सर जानकारी पुनर्प्राप्त करने के अलावा जानकारी को एक संरचित, चरण-दर-चरण दृष्टिकोण के माध्यम से मानिपुलेट और अनुमान लगाना है। यह स्तर का तर्क आमतौर पर एलएलएम को मल्टी-स्टेप तर्क करने के लिए फाइन-ट्यून करके प्राप्त किया जाता है trước कि वे एक उत्तर पर पहुंचें। जबकि प्रभावी, ये तरीके महत्वपूर्ण गणना संसाधनों की मांग करते हैं और तैनाती के लिए धीमे और महंगे हो सकते हैं, जो उनकी पहुंच और पर्यावरण प्रभाव के बारे में चिंताएं बढ़ाते हैं।

छोटे तर्क मॉडल को समझना

छोटे तर्क मॉडल बड़े मॉडल की तर्क क्षमता को दोहराने का लक्ष्य रखते हैं लेकिन गणना शक्ति, मेमोरी उपयोग और देरी के संदर्भ में अधिक कुशलता के साथ। ये मॉडल अक्सर ज्ञान संक्षेपण नामक एक तकनीक का उपयोग करते हैं, जहां एक छोटा मॉडल (छात्र) एक बड़े, पूर्व-प्रशिक्षित मॉडल (शिक्षक) से सीखता है। संक्षेपण प्रक्रिया में छोटे मॉडल को बड़े द्वारा उत्पन्न डेटा पर प्रशिक्षित करना शामिल है, जिसका लक्ष्य तर्क क्षमता को स्थानांतरित करना है। छात्र मॉडल को तब अपने प्रदर्शन में सुधार के लिए फाइन-ट्यून किया जाता है। कुछ मामलों में, विशेषज्ञता के साथ पुरस्कार कार्यों के साथ प्रबलीकरण सीखने को लागू किया जाता है मॉडल की कार्य-विशिष्ट तर्क क्षमता को और बढ़ाने के लिए।

छोटे तर्क मॉडल का उदय और उन्नति

छोटे तर्क मॉडल के विकास में एक उल्लेखनीय मील का पत्थर DeepSeek-R1 की रिलीज के साथ आया। पुराने जीपीयू के एक मामूली क्लस्टर पर प्रशिक्षित होने के बावजूद, DeepSeek-R1 ने एमएमएलयू और जीएसएम-8के जैसे बेंचमार्क पर ओपनएआई के o1 जैसे बड़े मॉडल के समान प्रदर्शन हासिल किया। यह उपलब्धि पारंपरिक स्केलिंग दृष्टिकोण की पुनः समीक्षा की ओर ले जाती है, जिसने माना कि बड़े मॉडल स्वाभाविक रूप से श्रेष्ठ थे।

क्या छोटे मॉडल जीपीटी-स्तरीय तर्क मेल खा सकते हैं

यह आकलन करने के लिए कि क्या छोटे तर्क मॉडल (एसआरएम) जीपीटी जैसे बड़े मॉडल (एलआरएम) की तर्क शक्ति को मेल कर सकते हैं, यह महत्वपूर्ण है कि उनके प्रदर्शन का मूल्यांकन मानक बेंचमार्क पर किया जाए। उदाहरण के लिए, DeepSeek-R1 मॉडल ने एमएमएलयू परीक्षण पर लगभग 0.844 स्कोर किया, जो बड़े मॉडल जैसे o1 के समान है। जीएसएम-8के डेटासेट पर, जो ग्रेड-स्कूल गणित पर केंद्रित है, DeepSeek-R1 के संक्षिप्त मॉडल ने शीर्ष-स्तरीय प्रदर्शन हासिल किया, o1 और o1-मिनी दोनों को पार कर गया।

व्यापार-बंद और व्यावहारिक निहितार्थ

मॉडल आकार और प्रदर्शन के बीच व्यापार-बंद एसआरएम की तुलना जीपीटी-स्तरीय एलआरएम से करने में महत्वपूर्ण है। छोटे मॉडल कम मेमोरी और गणना शक्ति की आवश्यकता होती है, जो उन्हें एज डिवाइस, मोबाइल ऐप या ऑफलाइन अनुमान की आवश्यकता वाली स्थितियों के लिए आदर्श बनाते हैं। यह दक्षता कम परिचालन लागत में परिणाम देती है, जिसमें मॉडल जैसे DeepSeek-R1 o1 जैसे बड़े मॉडल की तुलना में 96% तक सस्ते होते हैं।

निष्कर्ष

भाषा मॉडल का छोटे तर्क मॉडल में विकास एआई में एक महत्वपूर्ण प्रगति है। जबकि ये मॉडल अभी तक बड़े भाषा मॉडल की व्यापक क्षमताओं को पूरी तरह से मेल नहीं कर सकते हैं, वे दक्षता, लागत प्रभावशीलता और पहुंच में महत्वपूर्ण लाभ प्रदान करते हैं। तर्क शक्ति और संसाधन दक्षता के बीच संतुलन बनाकर, छोटे मॉडल विभिन्न अनुप्रयोगों में महत्वपूर्ण भूमिका निभाने के लिए तैयार हैं, जिससे एआई अधिक व्यावहारिक और टिकाऊ हो जाता है वास्तविक दुनिया के उपयोग के लिए।

Dr. Tehseen Zia

डॉ. तहसीन ज़िया कोम्सैट्स यूनिवर्सिटी इस्लामाबाद में एक टेन्योर्ड एसोसिएट प्रोफेसर हैं, जो ऑस्ट्रिया की वियना टेक्नोलॉजी यूनिवर्सिटी से एआई में पीएचडी रखते हैं। आर्टिफिशियल इंटेलिजेंस, मशीन लर्निंग, डेटा साइंस और कंप्यूटर विजन में विशेषज्ञता, उन्होंने प्रतिष्ठित वैज्ञानिक पत्रिकाओं में प्रकाशन के साथ महत्वपूर्ण योगदान दिया है। डॉ. तहसीन ने प्रिंसिपल इन्वेस्टिगेटर के रूप में विभिन्न औद्योगिक परियोजनाओं का नेतृत्व किया है और एक एआई सलाहकार के रूप में कार्य किया है।