कृत्रिम बुद्धिमत्ता

एलेन एआई का टुलु 3 डीपसीक का अप्रत्याशित प्रतिद्वंद्वी बन गया है

Published February 1, 2025

Updated April 26, 2026

Alex McFarland

सुर्खियां जारी हैं। डीपसीक के मॉडल बेंचमार्क को चुनौती दे रहे हैं, नए मानक स्थापित कर रहे हैं और बहुत शोर मचा रहे हैं। लेकिन कुछ दिलचस्प हुआ है जो आपका ध्यान आकर्षित करने योग्य है।

एलेन एआई ने अपने नए टुलु 3 मॉडल परिवार को चुपचाप जारी किया है, और उनका 405B पैरामीटर संस्करण न केवल डीपसीक के साथ प्रतिस्पर्धा कर रहा है – यह कुछ प्रमुख बेंचमार्क पर इसका मिलान या हरा रहा है।

आइए इसे परिप्रेक्ष्य में रखें।

405बी टुलु 3 मॉडल विभिन्न कार्यों में शीर्ष प्रदर्शनकर्ताओं जैसे डीपसीक वी3 के साथ प्रतिस्पर्धा कर रहा है। हम गणित की समस्याओं, कोडिंग चुनौतियों और सटीक निर्देश के पालन जैसे क्षेत्रों में तुलनात्मक या उत्कृष्ट प्रदर्शन देख रहे हैं। और वे पूरी तरह से खुले दृष्टिकोण के साथ ऐसा कर रहे हैं।

उन्होंने पूरी प्रशिक्षण पाइपलाइन, कोड और यहां तक कि अपनी नई प्रवर्तित学习 विधि को भी जारी किया है जिसे प्रवर्तनीय पुरस्कारों के साथ प्रवर्तित学习 (आरएलवीआर) कहा जाता है जिसने इसे संभव बनाया।

पिछले कुछ हफ्तों में इस तरह के विकास वास्तव में शीर्ष-स्तरीय एआई विकास के तरीके को बदल रहे हैं। जब एक पूरी तरह से ओपन-सोर्स मॉडल बंद मॉडल को मैच कर सकता है जो बाहर है, तो यह पहले से निजी कॉर्पोरेट दीवारों के पीछे बंद संभावनाओं को खोलता है।

तकनीकी लड़ाई

टुलु 3 को क्या अलग बनाता है? यह एक अनोखे चार-चरण प्रशिक्षण प्रक्रिया पर निर्भर करता है जो पारंपरिक दृष्टिकोण से परे है।

आइए देखें कि एलेन एआई ने इस मॉडल का निर्माण कैसे किया:

चरण 1: रणनीतिक डेटा चयन

टीम जानती थी कि मॉडल की गुणवत्ता डेटा की गुणवत्ता से शुरू होती है। उन्होंने स्थापित डेटासेट जैसे वाइल्डचैट और ओपन असिस्टेंट को कस्टम-जनरेटेड सामग्री के साथ जोड़ा। लेकिन यहाँ मुख्य अंतर्दृष्टि है: उन्होंने बस डेटा को एकत्र नहीं किया – उन्होंने गणितीय तर्क और कोडिंग क्षमता जैसे विशिष्ट कौशल के लिए लक्षित डेटासेट बनाए।

चरण 2: बेहतर प्रतिक्रिया बनाना

दूसरे चरण में, एलेन एआई ने अपने मॉडल को विशिष्ट कौशल सिखाने पर ध्यान केंद्रित किया। उन्होंने गणित, कोडिंग और सामान्य कार्यों के लिए प्रशिक्षण डेटा के विभिन्न सेट बनाए। इन संयोजनों का बार-बार परीक्षण करके, वे देख सकते थे कि मॉडल कहां उत्कृष्ट था और कहां उसे काम करने की आवश्यकता थी। यह पुनरावृत्ति प्रक्रिया ने दिखाया कि टुलु 3 प्रत्येक क्षेत्र में क्या हासिल कर सकता है।

चरण 3: तुलना से सीखना

यह वह जगह है जहां एलेन एआई रचनात्मक हो गया। उन्होंने एक प्रणाली बनाई जो टुलु 3 की प्रतिक्रियाओं की तुलना अन्य शीर्ष मॉडलों से तुरंत कर सकती थी। लेकिन उन्होंने एआई की एक स्थायी समस्या का समाधान भी किया – मॉडल की प्रतिक्रिया लंबी करने की प्रवृत्ति केवल लंबाई के लिए। उनके दृष्टिकोण ने, लंबाई-सामान्यीकृत डायरेक्ट प्रिफरेंस ऑप्टिमाइजेशन (डीपीओ) का उपयोग करके, मॉडल को गुणवत्ता पर मात्रा की तुलना में मूल्य देना सिखाया। परिणाम? प्रतिक्रियाएं जो सटीक और उद्देश्यपूर्ण दोनों हैं।

जब एआई मॉडल वरीयताओं से सीखते हैं (कौन सी प्रतिक्रिया बेहतर है, ए या बी?), तो वे एक निराशाजनक पूर्वाग्रह विकसित करने की प्रवृत्ति रखते हैं: वे लंबी प्रतिक्रियाओं को हमेशा बेहतर मानने लगते हैं। यह जैसे कि वे अधिक कहने के बजाय अच्छी तरह से कहने के बजाय जीतने की कोशिश कर रहे हैं।

लंबाई-सामान्यीकृत डीपीओ इसे ठीक करता है bằng प्रतिक्रियाओं से सीखने के तरीके को समायोजित करके। यह केवल यह नहीं देखता कि कौन सी प्रतिक्रिया वरीयता प्राप्त हुई, बल्कि प्रत्येक प्रतिक्रिया की लंबाई को भी ध्यान में रखता है। इसे प्रतिक्रियाओं को उनके प्रत्येक शब्द की गुणवत्ता से, न कि केवल उनके कुल प्रभाव से, आंकने के रूप में सोचें।

यह छोटी बात लगती है, लेकिन यह प्राकृतिक रूप से संवाद करने वाले एआई का निर्माण करने के लिए महत्वपूर्ण है। सर्वश्रेष्ठ मानव विशेषज्ञ जानते हैं कि कब संक्षिप्त और कब विस्तार से बताना है – और यही लंबाई-सामान्यीकृत डीपीओ मॉडल को सिखाता है।

चरण 4: आरएलवीआर नवाचार

यह तकनीकी सफलता ध्यान देने योग्य है। आरएलवीआर विषयगत पुरस्कार मॉडल को ठोस सत्यापन से बदल देता है।

अधिकांश एआई मॉडल एक जटिल पुरस्कार मॉडल प्रणाली के माध्यम से सीखते हैं – मूल रूप से एक अच्छी प्रतिक्रिया के बारे में शिक्षित अनुमान। लेकिन एलेन एआई ने आरएलवीआर के साथ एक अलग मार्ग अपनाया।

सोचें कि हम वर्तमान में एआई मॉडल को कैसे प्रशिक्षित करते हैं। हम आमतौर पर अन्य एआई मॉडल (पुरस्कार मॉडल कहा जाता है) की आवश्यकता होती है ताकि यह判断 किया जा सके कि कोई प्रतिक्रिया अच्छी है या नहीं। यह विषयगत, जटिल और अक्सर असंगत है। कुछ प्रतिक्रियाएं अच्छी लग सकती हैं लेकिन सूक्ष्म त्रुटियों को शामिल कर सकती हैं जो फिसल जाती हैं।

आरएलवीआर इस दृष्टिकोण को उलट देता है। विषयगत निर्णयों पर निर्भर रहने के बजाय, यह ठोस, सत्यापन योग्य परिणामों का उपयोग करता है। जब मॉडल एक गणित की समस्या का प्रयास करता है, तो कोई ग्रे क्षेत्र नहीं है – उत्तर या तो सही है या गलत है। जब यह कोड लिखता है, तो वह कोड या तो सही से चलता है या नहीं।

यहाँ यह दिलचस्प हो जाता है:

मॉडल को तुरंत, द्विआधारी प्रतिक्रिया मिलती है: सही उत्तरों के लिए 10 अंक, गलत के लिए 0
आंशिक क्रेडिट या फजी मूल्यांकन के लिए कोई जगह नहीं है
सीखने का ध्यान केंद्रित और सटीक हो जाता है
मॉडल सटीक प्रतिक्रियाओं पर प्राथमिकता देना सीखता है, संभावित लेकिन गलत प्रतिक्रियाओं की तुलना में

आरएलवीआर प्रशिक्षण (एलेन एआई)

परिणाम? टुलु 3 ने उन कार्यों में महत्वपूर्ण सुधार दिखाया जहां सही उत्तर मायने रखता है। इसके गणितीय तर्क (जीएसएम8के बेंचमार्क) और कोडिंग चुनौतियों पर प्रदर्शन में उल्लेखनीय वृद्धि हुई। यहां तक कि इसका निर्देश का पालन करना अधिक सटीक हो गया क्योंकि मॉडल ने ठोस सटीकता को अनुमानित प्रतिक्रियाओं पर मूल्य देना सीखा।

जो विशेष रूप से रोमांचक है वह यह है कि यह ओपन-सोर्स एआई के लिए खेल को कैसे बदलता है। पिछले दृष्टिकोण अक्सर तकनीकी कार्यों पर बंद मॉडल की सटीकता का मिलान करने के लिए संघर्ष करते थे। आरएलवीआर दिखाता है कि सही प्रशिक्षण दृष्टिकोण के साथ, ओपन-सोर्स मॉडल उसी स्तर की विश्वसनीयता हासिल कर सकते हैं।

संख्या पर एक नज़र

405बी पैरामीटर संस्करण का टुलु 3 क्षेत्र में शीर्ष मॉडल के साथ直接 प्रतिस्पर्धा करता है। आइए देखें कि यह कहां उत्कृष्ट है और इसका क्या अर्थ है ओपन सोर्स एआई के लिए।

गणित

टुलु 3 जटिल गणितीय तर्क में उत्कृष्ट है। जीएसएम8के और मैथ जैसे बेंचमार्क पर, यह डीपसीक के प्रदर्शन का मिलान करता है। मॉडल मल्टी-स्टेप समस्याओं को संभालता है और मजबूत गणितीय तर्क क्षमता प्रदर्शित करता है।

कोड

कोडिंग परिणाम समान रूप से प्रभावशाली हैं। आरएलवीआर प्रशिक्षण के लिए धन्यवाद, टुलु 3 समस्याओं का समाधान करने वाला कोड लिखता है। इसकी ताकत कोडिंग निर्देशों को समझने और कार्यात्मक समाधान प्रदान करने में निहित है।

सटीक निर्देश का पालन

मॉडल की निर्देश का पालन करने की क्षमता एक प्रमुख ताकत के रूप में खड़ी है। जबकि कई मॉडल अनुमान लगाते हैं या निर्देशों को सामान्य बनाते हैं, टुलु 3 सटीक रूप से निर्देशों का पालन करने में उल्लेखनीय सटीकता प्रदर्शित करता है।

एआई विकास के ब्लैक बॉक्स को खोलना

एलेन एआई ने न केवल एक शक्तिशाली मॉडल जारी किया है, बल्कि अपनी पूरी विकास प्रक्रिया भी जारी की है।

प्रशिक्षण प्रक्रिया के हर पहलू को दस्तावेज और सुलभ बनाया गया है। चार-चरण दृष्टिकोण से लेकर डेटा तैयारी विधियों और आरएलवीआर कार्यान्वयन तक – पूरी प्रक्रिया अध्ययन और पुनरावृत्ति के लिए खुली है। यह पारदर्शिता उच्च-प्रदर्शन एआई विकास में एक नया मानक स्थापित करती है।

विकासकर्ताओं को व्यापक संसाधन प्राप्त होते हैं:

पूर्ण प्रशिक्षण पाइपलाइन
डेटा प्रोसेसिंग टूल
मूल्यांकन फ्रेमवर्क
कार्यान्वयन विशिष्टताएं

यह टीमों को सक्षम बनाता है:

प्रशिक्षण प्रक्रिया को संशोधित करना
विशिष्ट आवश्यकताओं के लिए तरीकों को अनुकूलित करना
सिद्ध दृष्टिकोण पर निर्माण करना
विशेषज्ञता वाले कार्यान्वयन बनाना

यह क्षेत्र भर में नवाचार को तेज करता है। शोधकर्ता सत्यापित तरीकों पर निर्माण कर सकते हैं, जबकि विकासकर्ता शून्य से शुरू करने के बजाय सुधार पर ध्यान केंद्रित कर सकते हैं।

ओपन सोर्स उत्कृष्टता का उदय

टुलु 3 की सफलता ओपन एआई विकास के लिए एक बड़ा क्षण है। जब ओपन सोर्स मॉडल निजी विकल्पों का मिलान या उन्हें पार करते हैं, तो यह उद्योग को मूल रूप से बदल देता है। दुनिया भर की शोध टीमें सिद्ध तरीकों तक पहुंच प्राप्त करती हैं, अपने काम को तेज करती हैं और नए नवाचारों को जन्म देती हैं। निजी एआई प्रयोगशालाओं को या तो पारदर्शिता बढ़ाने या तकनीकी सीमाओं को और आगे बढ़ाने की आवश्यकता होगी।

आगे देखते हुए, टुलु 3 के सत्यापन योग्य पुरस्कारों और बहु-चरण प्रशिक्षण में सफलता से संकेत मिलता है कि क्या आ रहा है। टीमें इन नींवों पर निर्माण कर सकती हैं, संभावित रूप से प्रदर्शन को और भी उच्च स्तर तक ले जा सकती हैं। कोड मौजूद है, तरीके दस्तावेज हैं, और एक नए एआई विकास का एक नया अध्याय शुरू हुआ है। विकासकर्ताओं और शोधकर्ताओं के लिए, इन तरीकों को प्रयोग करने और सुधारने का अवसर एआई विकास में एक रोमांचक अध्याय की शुरुआत का प्रतीक है।

टुलु 3 के बारे में अक्सर पूछे जाने वाले प्रश्न (एफएक्यू)

टुलु 3 क्या है और इसकी मुख्य विशेषताएं क्या हैं?

टुलु 3 एलेन एआई द्वारा विकसित ओपन-सोर्स एलएलएम का एक परिवार है, जो एलमा 3.1 आर्किटेक्चर पर आधारित है। यह 8बी, 70बी और 405बी पैरामीटर संस्करणों में आता है। टुलु 3 ज्ञान, तर्क, गणित, कोडिंग, निर्देश का पालन करने और सुरक्षा सहित विभिन्न कार्यों में सुधार के लिए डिज़ाइन किया गया है।

टुलु 3 की प्रशिक्षण प्रक्रिया क्या है और कौन से डेटा का उपयोग किया जाता है?

टुलु 3 का प्रशिक्षण कई महत्वपूर्ण चरणों में होता है। पहले, टीम विशिष्ट कौशलों के लिए लक्षित प्रोम्प्ट्स के साथ सार्वजनिक डेटासेट और सिंथेटिक डेटा को जोड़ती है। दूसरे, पर्यवेक्षित फाइनट्यूनिंग (एसएफटी) निर्देश का पालन करने, गणित और कोडिंग डेटा के मिश्रण पर किया जाता है। इसके बाद, मानव और एलएलएम फीडबैक के माध्यम से उत्पन्न वरीयता डेटा के साथ डायरेक्ट प्रिफरेंस ऑप्टिमाइजेशन (डीपीओ) का उपयोग किया जाता है। अंत में, सत्यापन योग्य पुरस्कारों वाले कार्यों के लिए प्रवर्तित学习 के साथ प्रवर्तित学习 (आरएलवीआर) का उपयोग किया जाता है। टुलु 3 विभिन्न चरणों के लिए विशिष्ट डेटासेट का उपयोग करता है, जिनमें व्यक्तित्व-निर्देशित निर्देश, गणित और कोड डेटा शामिल हैं।

टुलु 3 सुरक्षा को कैसे देखता है और इसका मूल्यांकन करने के लिए कौन से मेट्रिक्स का उपयोग किया जाता है?

सुरक्षा टुलु 3 के विकास का एक मूलभूत घटक है, जिसे प्रशिक्षण प्रक्रिया के दौरान संबोधित किया जाता है। सुरक्षा-विशिष्ट डेटासेट का उपयोग पर्यवेक्षित फाइनट्यूनिंग के दौरान किया जाता है, जो अन्य कार्य-उन्मुख डेटा से मुख्य रूप से अलग है।

आरएलवीआर क्या है?

आरएलवीआर एक तकनीक है जहां मॉडल को सत्यापन योग्य पुरस्कार के खिलाफ अनुकूलित किया जाता है, जैसे कि उत्तर की सही उत्तर। यह पारंपरिक आरएलएचएफ से अलग है जो पुरस्कार मॉडल का उपयोग करता है।

Alex McFarland

एलेक्स मैकफारलैंड एक एआई पत्रकार और लेखक हैं जो कृत्रिम बुद्धिमत्ता में नवीनतम विकासों का अन्वेषण कर रहे हैं। उन्होंने विश्वभर के कई एआई स्टार्टअप्स और प्रकाशनों के साथ सहयोग किया है।