рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдлрд╛рдИ-рек-рд░реАрдЬрдирд┐рдВрдЧ рдХреИрд╕реЗ рдПрдЖрдИ рд░реАрдЬрдирд┐рдВрдЧ рдХреЛ рдлрд┐рд░ рд╕реЗ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рддрд╛ рд╣реИ “рдмigger is Better” рдорд┐рдердХ рдХреЛ рдЪреБрдиреМрддреА рджреЗрдХрд░

माइक्रोसॉफ्ट की हालिया रिलीज़ फाई-४-रीजनिंग एआई सिस्टम में रीजनिंग क्षमता वाले निर्माण में एक प्रमुख धारणा को चुनौती देती है। २०२२ में चेन-ऑफ-थॉट रीजनिंग की शुरुआत के बाद से, शोधकर्ताओं ने माना कि उन्नत रीजनिंग के लिए सैकड़ों अरबों पैरामीटर वाले बहुत बड़े भाषा मॉडल की आवश्यकता होती है। हालांकि, माइक्रोसॉफ्ट के नए १४-अरब पैरामीटर मॉडल, फाई-४-रीजनिंग, इस विश्वास को चुनौती देता है। डेटा-केंद्रित दृष्टिकोण का उपयोग करके जो केवल गणनात्मक शक्ति पर निर्भर नहीं करता है, मॉडल बड़े प्रणालियों के समान प्रदर्शन प्राप्त करता है। यह सफलता दिखाती है कि डेटा-केंद्रित दृष्टिकोण पारंपरिक एआई प्रशिक्षण के लिए उतना ही प्रभावी हो सकता है जितना कि रीजनिंग मॉडल के प्रशिक्षण के लिए है। यह संभावना खोलता है कि छोटे एआई मॉडल उन्नत रीजनिंग प्राप्त कर सकते हैं जो एआई डेवलपर्स द्वारा रीजनिंग मॉडल को प्रशिक्षित करने के तरीके को बदलकर “बigger is Better” से “better data is Better” में स्थानांतरित करके हासिल किया जा सकता है।
पारंपरिक रीजनिंग परिदृश्य
चेन-ऑफ-थॉट रीजनिंग कृत्रिम बुद्धिमत्ता में जटिल समस्याओं का समाधान करने के लिए एक मानक बन गया है। यह तकनीक भाषा मॉडल को चरण-दर-चरण रीजनिंग के माध्यम से मार्गदर्शन करती है, कठिन समस्याओं को छोटे, प्रबंधनीय चरणों में तोड़ती है। यह मानव विचार की नकल करता है जो मॉडल को प्राकृतिक भाषा में “जोर से सोचने” के लिए प्रेरित करता है और फिर उत्तर देता है।
हालांकि, इस क्षमता के साथ एक महत्वपूर्ण सीमा थी। शोधकर्ताओं ने लगातार पाया कि चेन-ऑफ-थॉट प्रॉम्प्टिंग केवल तभी अच्छा काम करती है जब भाषा मॉडल बहुत बड़े होते हैं। रीजनिंग क्षमता सीधे मॉडल आकार से जुड़ी हुई लगती है, जिसमें बड़े मॉडल जटिल रीजनिंग कार्यों पर बेहतर प्रदर्शन करते हैं। यह खोज बड़े रीजनिंग मॉडल के निर्माण में प्रतिस्पर्धा की ओर ले जाती है, जहां कंपनियां अपने बड़े भाषा मॉडल को शक्तिशाली रीजनिंग इंजन में बदलने पर ध्यान केंद्रित करती हैं।
एआई मॉडल में रीजनिंग क्षमताओं को शामिल करने का विचार मुख्य रूप से इस अवलोकन से आया कि बड़े भाषा मॉडल संदर्भ में सीखने कर सकते हैं। शोधकर्ताओं ने देखा कि जब मॉडल को चरण-दर-चरण समस्या समाधान के उदाहरण दिखाए जाते हैं, तो वे नए समस्याओं के लिए इस पैटर्न का पालन करना सीखते हैं। यह विश्वास को जन्म देता है कि बड़े मॉडल जो विशाल डेटा पर प्रशिक्षित होते हैं, स्वाभाविक रूप से अधिक उन्नत रीजनिंग विकसित करते हैं। मॉडल आकार और रीजनिंग प्रदर्शन के बीच मजबूत संबंध स्वीकृत ज्ञान बन गया। टीमों ने सुदृढ़ सीखने का उपयोग करके रीजनिंग क्षमताओं को स्केल करने में बड़े संसाधनों का निवेश किया, मानते हुए कि गणनात्मक शक्ति उन्नत रीजनिंग की कुंजी है।
डेटा-केंद्रित दृष्टिकोण को समझना
डेटा-केंद्रित एआई का उदय “बigger is Better” मानसिकता को चुनौती देता है। यह दृष्टिकोण मॉडल वास्तुकला से डेटा पर ध्यान केंद्रित करने के लिए स्थानांतरित करता है जिसका उपयोग एआई सिस्टम को प्रशिक्षित करने के लिए किया जाता है। डेटा को निश्चित इनपुट के रूप में उपचारित करने के बजाय, डेटा-केंद्रित विधि डेटा को सामग्री के रूप में देखती है जिसे एआई प्रदर्शन में सुधार के लिए बेहतर और अनुकूलित किया जा सकता है।
इस क्षेत्र के एक नेता, एंड्रू एनजी, निर्माण को बढ़ावा देते हैं व्यवस्थित इंजीनियरिंग प्रथाओं को डेटा गुणवत्ता में सुधार के लिए निर्माण के बजाय केवल कोड या मॉडल को स्केल करने के लिए। यह दर्शन मानता है कि डेटा गुणवत्ता और क्यूरेशन अक्सर मॉडल आकार से अधिक महत्वपूर्ण है। इस दृष्टिकोण को अपनाने वाली कंपनियां दिखाती हैं कि छोटे, अच्छी तरह से प्रशिक्षित मॉडल बड़े लोगों को पीछे छोड़ सकते हैं यदि उन्हें उच्च गुणवत्ता वाले, सावधानी से तैयार किए गए डेटासेट पर प्रशिक्षित किया जाए।
डेटा-केंद्रित दृष्टिकोण एक अलग प्रश्न पूछता है: “हम अपने डेटा में सुधार कैसे कर सकते हैं?” बजाय “हम मॉडल को कैसे बड़ा बना सकते हैं?” इसका अर्थ है बेहतर प्रशिक्षण डेटासेट बनाना, डेटा गुणवत्ता में सुधार करना, और व्यवस्थित डेटा इंजीनियरिंग विकसित करना। डेटा-केंद्रित एआई में, ध्यान विशिष्ट कार्यों के लिए डेटा को प्रभावी बनाने के लिए क्या बनाता है, इस पर नहीं है, बल्कि बस अधिक एकत्र करने पर है।
फाई-४-रीजनिंग की सफलता रणनीति
फाई-४-रीजनिंग दिखाता है कि डेटा-केंद्रित दृष्टिकोण का उपयोग छोटे रीजनिंग मॉडल को प्रशिक्षित करने के लिए कैसे किया जा सकता है। मॉडल को ओपेनएआई के ओ३-मिनी के साथ सावधानी से चुने गए “सिखाने योग्य” प्रॉम्प्ट और रीजनिंग उदाहरणों पर आधारित फाई-४ मॉडल को पर्यवेक्षित फाइन-ट्यूनिंग द्वारा बनाया गया था। ध्यान गुणवत्ता और विशिष्टता पर था, न कि डेटासेट आकार पर। मॉडल को लगभग १.४ मिलियन उच्च-गुणवत्ता वाले प्रॉम्प्ट के साथ प्रशिक्षित किया जाता है, बजाय अरबों सामान्य लोगों के। शोधकर्ताओं ने विभिन्न कठिनाई स्तरों और रीजनिंग प्रकारों को कवर करने के लिए उदाहरणों को फिल्टर किया, विविधता सुनिश्चित की। इस सावधानी से क्यूरेशन ने प्रत्येक प्रशिक्षण उदाहरण को उद्देश्यपूर्ण बना दिया, मॉडल को विशिष्ट रीजनिंग पैटर्न सिखाने के बजाय डेटा वॉल्यूम को बढ़ाने के लिए।
प्रदर्शन अपेक्षाओं से परे
परिणाम इस डेटा-केंद्रित दृष्टिकोण को साबित करते हैं। फाई-४-रीजनिंग बहुत बड़े ओपन-वेट मॉडल जैसे डीपसीक-R१-डिस्टिल-लामा- और लगभग पूरे डीपसीक-R१ को पीछे छोड़ देता है, हालांकि यह बहुत छोटा है। एआईएमई २०२५ परीक्षण (एक यूएस मैथ ओलंपियाड योग्य) पर, फाई-४-रीजनिंग डीपसीक-R१ को मात देता है, जिसमें ६७१ अरब पैरामीटर हैं।
एआई विकास के लिए निहितार्थ
फाई-४-रीजनिंग की सफलता एआई रीजनिंग मॉडल के निर्माण में एक बदलाव का संकेत देती है। मॉडल आकार में वृद्धि पर ध्यान केंद्रित करने के बजाय, टीमें बेहतर परिणाम प्राप्त कर सकती हैं यदि वे डेटा गुणवत्ता और क्यूरेशन में निवेश करती हैं। यह उन्नत रीजनिंग को उन संगठनों के लिए अधिक सुलभ बनाता है जिनके पास बड़े कंप्यूटational बजट नहीं हैं।
रीजनिंग मॉडल का भविष्य
फाई-४-रीजनिंग रीजनिंग मॉडल विकास के लिए एक नया मानक स्थापित करता है। भविष्य के एआई सिस्टम सावधानी से डेटा क्यूरेशन के साथ वास्तुकला सुधार को संतुलित करेंगे। यह दृष्टिकोण स्वीकार करता है कि दोनों डेटा गुणवत्ता और मॉडल डिज़ाइन महत्वपूर्ण हैं, लेकिन डेटा में सुधार तेज़, अधिक लागत-प्रभावी लाभ प्रदान कर सकता है।
निचोड़
माइक्रोसॉफ्ट का फाई-४-रीजनिंग सामान्य धारणा को बदल देता है कि उन्नत एआई रीजनिंग के लिए बहुत बड़े मॉडल की आवश्यकता होती है। इसके बजाय, यह मॉडल एक डेटा-केंद्रित दृष्टिकोण का उपयोग करता है जो उच्च-गुणवत्ता वाले और सावधानी से चुने गए प्रशिक्षण डेटा पर निर्भर करता है। फाई-४-रीजनिंग में केवल १४ अरब पैरामीटर हैं, लेकिन यह कठिन रीजनिंग कार्यों पर बहुत बड़े मॉडल के रूप में अच्छा प्रदर्शन करता है। यह दिखाता है कि बेहतर डेटा पर ध्यान केंद्रित करना मॉडल आकार को बढ़ाने से अधिक महत्वपूर्ण है।












