कृत्रिम बुद्धिमत्ता

ओपनएआई के ओ३ से डीपसीक के आर१ तक: कैसे सिम्युलेटेड थिंकिंग एलएलएम को गहराई से सोचने में मदद कर रही है

Published February 1, 2025

Updated April 26, 2026

Dr. Tehseen Zia

बड़े भाषा मॉडल (एलएलएम) काफी हद तक विकसित हुए हैं। जो शुरू में सरल पाठ जनरेशन और अनुवाद उपकरण के रूप में शुरू हुए थे, वे अब शोध, निर्णय लेने और जटिल समस्या समाधान में उपयोग किए जा रहे हैं। इस बदलाव में एक महत्वपूर्ण कारक एलएलएम की बढ़ती क्षमता है जो अधिक व्यवस्थित रूप से सोचते हैं bằng समस्याओं को तोड़कर, कई संभावनाओं का मूल्यांकन करके और अपने प्रतिक्रियाओं को गतिविधियों में सुधारते हैं। केवल एक क्रम में अगले शब्द की भविष्यवाणी करने के बजाय, ये मॉडल अब संरचित तर्क करने में सक्षम हैं, जो उन्हें जटिल कार्यों को संभालने में अधिक प्रभावी बनाता है। ओपनएआई के ओ३, गूगल के जेमिनी और डीपसीक के आर१ जैसे प्रमुख मॉडल इन क्षमताओं को एकीकृत करते हैं ताकि वे जानकारी को अधिक प्रभावी ढंग से संसाधित और विश्लेषण कर सकें।

सिम्युलेटेड थिंकिंग को समझना

मानव स्वाभाविक रूप से विभिन्न विकल्पों का विश्लेषण करते हैं इससे पहले कि वे निर्णय लें। चाहे हम एक छुट्टी की योजना बना रहे हों या एक समस्या का समाधान कर रहे हों, हम अक्सर अपने दिमाग में विभिन्न योजनाओं को सिम्युलेट करते हैं ताकि विभिन्न कारकों का मूल्यांकन किया जा सके, पेशेवरों और विपक्ष को तौला जा सके और हमारी पसंद के अनुसार समायोजित किया जा सके। शोधकर्ता एलएलएम में इस क्षमता को एकीकृत कर रहे हैं ताकि उनकी तर्क क्षमता में सुधार हो सके। यहाँ, सिम्युलेटेड थिंकिंग मूल रूप से एलएलएम की क्षमता को संदर्भित करती है जो एक उत्तर उत्पन्न करने से पहले व्यवस्थित तर्क करने में सक्षम होती है। यह स्टोर्ड डेटा से एक प्रतिक्रिया प्राप्त करने के विपरीत है।
एक उपयोगी तुलना एक गणित समस्या को हल करना है:

एक बुनियादी एआई एक पैटर्न को पहचान सकता है और सत्यापन किए बिना जल्दी से एक उत्तर उत्पन्न कर सकता है।
एक एआई जो सिम्युलेटेड तर्क का उपयोग करता है, वह चरणों के माध्यम से काम करेगा, त्रुटियों की जांच करेगा और अपने तर्क की पुष्टि करेगा trước कि यह प्रतिक्रिया दे।

चेन-ऑफ-थॉट: एआई को चरणों में सोचना सिखाना

यदि एलएलएम मानवों की तरह सिम्युलेटेड थिंकिंग करना है, तो उन्हें जटिल समस्याओं को छोटे, अनुक्रमिक चरणों में तोड़ने में सक्षम होना चाहिए। यह वह जगह है जहां चेन-ऑफ-थॉट (सीओटी) तकनीक एक महत्वपूर्ण भूमिका निभाती है।

सीओटी एक प्रॉम्प्टिंग दृष्टिकोण है जो एलएलएम को समस्याओं के माध्यम से व्यवस्थित रूप से काम करने के लिए मार्गदर्शन करता है। निष्कर्ष पर कूदने के बजाय, यह संरचित तर्क प्रक्रिया एलएलएम को जटिल समस्याओं को सरल, प्रबंधनीय चरणों में विभाजित करने और उन्हें चरणबद्ध तरीके से हल करने में सक्षम बनाती है।

उदाहरण के लिए, जब गणित में एक शब्द समस्या का समाधान किया जाता है:

एक बुनियादी एआई एक समस्या को एक पहले देखे गए उदाहरण से मेल करने का प्रयास कर सकता है और एक उत्तर प्रदान कर सकता है।
एक एआई जो चेन-ऑफ-थॉट तर्क का उपयोग करता है, वह प्रत्येक चरण को रेखांकित करेगा, तार्किक रूप से गणना के माध्यम से काम करेगा और अंतिम समाधान पर पहुंचेगा।

यह दृष्टिकोण तर्कसंगत निष्कर्ष, बहु-चरण समस्या समाधान और संदर्भUAL समझ के क्षेत्रों में कुशल है। जबकि पहले के मॉडल मानव-प्रदत्त तर्क श्रृंखला की आवश्यकता थी, उन्नत एलएलएम जैसे ओपनएआई के ओ३ और डीपसीक के आर१ सीओटी तर्क को अनुकूल रूप से सीखने और लागू करने में सक्षम हैं।

प्रमुख एलएलएम सिम्युलेटेड थिंकिंग को कैसे लागू करते हैं

विभिन्न एलएलएम विभिन्न तरीकों से सिम्युलेटेड थिंकिंग का उपयोग कर रहे हैं। नीचे ओपनएआई के ओ३, गूगल डीपमाइंड के मॉडल और डीपसीक-आर१ द्वारा सिम्युलेटेड थिंकिंग को कैसे निष्पादित किया जाता है, साथ ही उनकी संबंधित ताकत और सीमाओं का एक अवलोकन है।

ओपनएआई ओ३: एक शतरंज खिलाड़ी की तरह सोच

जबकि ओपनएआई के ओ३ मॉडल के बारे में विस्तृत विवरण प्रकट नहीं किए गए हैं, शोधकर्ता मानते हैं कि यह मोंटे कार्लो ट्री सर्च (एमसीटीएस) जैसी तकनीक का उपयोग करता है, जो एआई-संचालित गेम जैसे अल्फागो में उपयोग की जाने वाली रणनीति है। एक शतरंज खिलाड़ी की तरह जो निर्णय लेने से पहले कई चालों का विश्लेषण करता है, ओ३ विभिन्न समाधानों का अन्वेषण करता है, उनकी गुणवत्ता का मूल्यांकन करता है और सबसे आशाजनक एक का चयन करता है।

ओ३ पैटर्न पहचान पर निर्भर पहले के मॉडल के विपरीत, सक्रिय रूप से तर्क मार्गों को उत्पन्न और परिष्कृत करता है जो सीओटी तकनीकों का उपयोग करते हैं। अनुमान के दौरान, यह तर्क श्रृंखला का निर्माण करने के लिए अतिरिक्त गणना चरणों का संचालन करता है। ये तब एक मूल्यांकनकर्ता मॉडल द्वारा मूल्यांकन किए जाते हैं – संभवतः एक पुरस्कार मॉडल जो तार्किक संगति और सहीपन की गारंटी के लिए प्रशिक्षित है। अंतिम प्रतिक्रिया एक स्कोरिंग तंत्र के आधार पर चुनी जाती है ताकि एक अच्छी तरह से तर्कसंगत आउटपुट प्रदान किया जा सके।
ओ३ एक संरचित बहु-चरण प्रक्रिया का अनुसरण करता है। शुरू में, इसे मानव तर्क श्रृंखलाओं के एक विशाल डेटासेट पर महीन बनाया जाता है, जो तार्किक सोच पैटर्न को आंतरिक करता है। अनुमान के समय, यह एक दिए गए समस्या के लिए कई समाधान उत्पन्न करता है, उन्हें सहीपन और सुसंगतता के आधार पर रैंक करता है और यदि आवश्यक हो तो सबसे अच्छे एक को परिष्कृत करता है। जबकि यह विधि ओ३ को प्रतिक्रिया देने से पहले स्वयं को सुधारने और सटीकता में सुधार करने की अनुमति देती है, इसका व्यापार-ऑफ कम्प्यूटेशनल लागत है – कई संभावनाओं का अन्वेषण करने से महत्वपूर्ण प्रसंस्करण शक्ति की आवश्यकता होती है, जिससे यह धीमा और अधिक संसाधन गहन हो जाता है। फिर भी, ओ३ गतिशील विश्लेषण और समस्या समाधान में उत्कृष्टता प्राप्त करता है, जो इसे आज के सबसे उन्नत एआई मॉडल में से एक बनाता है।

गूगल डीपमाइंड: एक संपादक की तरह उत्तरों को परिष्कृत करना

डीपमाइंड ने “माइंड इवोल्यूशन” नामक एक नई दृष्टिकोण विकसित की है, जो तर्क को एक पुनरावृत्ति परिष्करण प्रक्रिया के रूप में मानता है। कई भविष्य की स्थितियों का विश्लेषण करने के बजाय, यह मॉडल अधिक एक संपादक की तरह कार्य करता है जो एक निबंध के विभिन्न प्रारूपों को परिष्कृत करता है। मॉडल कई संभावित उत्तर उत्पन्न करता है, उनकी गुणवत्ता का मूल्यांकन करता है और सबसे अच्छे एक को परिष्कृत करता है।

जेनेटिक एल्गोरिदम से प्रेरित, यह प्रक्रिया उच्च गुणवत्ता वाले उत्तरों की गारंटी देती है जो पुनरावृत्ति के माध्यम से। यह संरचित कार्यों जैसे तर्क पaheli और प्रोग्रामिंग चुनौतियों के लिए विशेष रूप से प्रभावी है, जहां स्पष्ट मानदंड सबसे अच्छा उत्तर निर्धारित करते हैं।

हालांकि, इस पद्धति में सीमाएं हैं। चूंकि यह उत्तर की गुणवत्ता का मूल्यांकन करने के लिए एक बाहरी स्कोरिंग प्रणाली पर निर्भर करता है, यह स्पष्ट रूप से सही या गलत उत्तर के बिना अमूर्त तर्क के साथ संघर्ष कर सकता है। ओ३ के विपरीत, जो वास्तविक समय में गतिशील रूप से तर्क करता है, डीपमाइंड का मॉडल मौजूदा उत्तरों को परिष्कृत करने पर केंद्रित है, जो इसे खुले प्रश्नों के लिए कम लचीला बनाता है।

डीपसीक-आर१: एक छात्र की तरह तर्क सीखना

डीपसीक-आर१ एक पुनरावृत्ति शिक्षण-आधारित दृष्टिकोण का उपयोग करता है जो इसे समय के साथ तर्क क्षमता विकसित करने की अनुमति देता है, वास्तविक समय में कई प्रतिक्रियाओं का मूल्यांकन करने के बजाय। पूर्व-उत्पन्न तर्क डेटा पर निर्भर रहने के बजाय, डीपसीक-आर१ समस्याओं को हल करके, प्रतिक्रिया प्राप्त करके और पुनरावृत्ति में सुधार करके सीखता है – एक छात्र की तरह जो अभ्यास के माध्यम से समस्या समाधान कौशल को परिष्कृत करता है।

मॉडल एक संरचित पुनरावृत्ति शिक्षण लूप का अनुसरण करता है। यह एक आधार मॉडल, जैसे डीपसीक-वी३ के साथ शुरू होता है, और चरणबद्ध तरीके से गणितीय समस्याओं को हल करने के लिए प्रेरित किया जाता है। प्रत्येक उत्तर को सीधे कोड निष्पादन के माध्यम से सत्यापित किया जाता है, जो एक अतिरिक्त मॉडल की आवश्यकता को समाप्त करता है जो सहीपन की पुष्टि करता है। यदि समाधान सही है, तो मॉडल को पुरस्कृत किया जाता है; यदि यह गलत है, तो इसे दंडित किया जाता है। इस प्रक्रिया को व्यापक रूप से दोहराया जाता है, जिससे डीपसीक-आर१ अपनी तार्किक तर्क क्षमता को परिष्कृत करने और समय के साथ जटिल समस्याओं पर प्राथमिकता देने में सक्षम होता है।

इस दृष्टिकोण का एक प्रमुख लाभ कुशलता है। ओ३ के विपरीत, जो अनुमान के समय व्यापक तर्क करता है, डीपसीक-आर१ प्रशिक्षण के दौरान तर्क क्षमता को एम्बेड करता है, जिससे यह तेज और अधिक लागत प्रभावी हो जाता है। यह अत्यधिक मापनीय है क्योंकि इसके लिए एक बड़ा लेबल वाला डेटासेट या एक महंगा सत्यापन मॉडल की आवश्यकता नहीं होती है।

हालांकि, इस पुनरावृत्ति शिक्षण-आधारित दृष्टिकोण में व्यापार-ऑफ हैं। चूंकि यह सत्यापित परिणामों वाले कार्यों पर निर्भर करता है, यह गणित और कोडिंग में उत्कृष्टता प्राप्त करता है। फिर भी, यह अमूर्त तर्क में संघर्ष कर सकता है, जैसे कानून, नैतिकता या रचनात्मक समस्या समाधान में। जबकि गणितीय तर्क अन्य डोमेन में स्थानांतरित हो सकता है, इसकी व्यापक अनुप्रयोगिता अभी भी अनिश्चित है।

तालिका: ओपनएआई के ओ३, डीपमाइंड के माइंड इवोल्यूशन और डीपसीक के आर१ की तुलना

एआई तर्क का भविष्य

सिम्युलेटेड तर्क एआई को अधिक विश्वसनीय और बुद्धिमान बनाने की दिशा में एक महत्वपूर्ण कदम है। जैसे ही ये मॉडल विकसित होते हैं, ध्यान केवल पाठ उत्पन्न करने से लेकर मजबूत समस्या समाधान क्षमता विकसित करने पर स्थानांतरित हो जाएगा जो मानव विचार के समान है। भविष्य की प्रगति संभवतः एआई मॉडल को त्रुटियों की पहचान और सुधार करने, उन्हें बाहरी उपकरणों के साथ एकीकृत करने के लिए प्रतिक्रियाओं को सत्यापित करने और अस्पष्ट जानकारी का सामना करने पर अनिश्चितता को पहचानने में सक्षम बनाने पर केंद्रित होगी। हालांकि, एक प्रमुख चुनौती तर्क गहराई को कम्प्यूटेशनल दक्षता के साथ संतुलित करना है। अंतिम लक्ष्य एआई प्रणाली विकसित करना है जो अपनी प्रतिक्रियाओं पर विचारशील रूप से विचार करे, सुनिश्चित करते हुए कि सटीकता और विश्वसनीयता एक मानव विशेषज्ञ की तरह जो प्रत्येक निर्णय से पहले ध्यान से मूल्यांकन करता है।