कृत्रिम बुद्धिमत्ता

एलएलएम्स आसान पहेलियों पर अधिक विचार करते हैं लेकिन कठिन लोगों पर हार मानते हैं

Published June 12, 2025

Updated April 26, 2026

Dr. Tehseen Zia

कृत्रिम बुद्धिमत्ता ने उल्लेखनीय प्रगति की है, जिसमें बड़े भाषा मॉडल (एलएलएम) और उनके उन्नत समकक्ष, बड़े तर्क मॉडल (एलआरएम), मशीनों द्वारा मानव-जैसे पाठ को संसाधित करने और उत्पन्न करने के तरीके को फिर से परिभाषित किया है। इन मॉडलों को निबंध लिखने, प्रश्नों के उत्तर देने और यहां तक कि गणितीय समस्याओं को हल करने की क्षमता है। हालांकि, उनकी प्रभावशाली क्षमताओं के बावजूद, इन मॉडलों में एक अजीब व्यवहार प्रदर्शित होता है: वे अक्सर सरल समस्याओं को जटिल बनाते हैं जबकि जटिल लोगों के साथ संघर्ष करते हैं। एप्पल शोधकर्ताओं द्वारा एक हालिया अध्ययन इस घटना में मूल्यवान अंतर्दृष्टि प्रदान करता है। यह लेख यह अन्वेषण करता है कि एलएलएम और एलआरएम इस तरह से व्यवहार क्यों करते हैं और इसका क्या अर्थ है कृत्रिम बुद्धिमत्ता के भविष्य के लिए।

एलएलएम और एलआरएम को समझना

एलएलएम और एलआरएम के व्यवहार को समझने के लिए, हम पहले यह स्पष्ट करने की आवश्यकता है कि ये मॉडल क्या हैं। एलएलएम, जैसे कि जीपीटी-3 या बीईआरटी, विशाल डेटासेट पर प्रशिक्षित होते हैं ताकि वे एक क्रम में अगले शब्द का अनुमान लगा सकें। इससे उन्हें पाठ उत्पन्न करने, अनुवाद करने और सारांश बनाने जैसे कार्यों में उत्कृष्टता प्राप्त होती है। हालांकि, वे स्वाभाविक रूप से तर्क के लिए डिज़ाइन नहीं किए गए हैं, जिसमें तार्किक निष्कर्ष या समस्या समाधान शामिल है।

एलआरएम एक नए वर्ग के मॉडल हैं जो इस अंतर को दूर करने के लिए डिज़ाइन किए गए हैं। वे चेन-ऑफ-थॉट (सीओटी) प्रॉम्प्टिंग जैसी तकनीकों को शामिल करते हैं, जहां मॉडल मध्यवर्ती तर्क चरण उत्पन्न करता है trước अंतिम उत्तर देने के। उदाहरण के लिए, जब एक गणितीय समस्या को हल करना हो, तो एलआरएम इसे चरणों में तोड़ सकता है, जैसे कि एक मानव करता है। यह दृष्टिकोण जटिल कार्यों पर प्रदर्शन में सुधार करता है लेकिन विभिन्न जटिलता की समस्याओं को संभालने में चुनौतियों का सामना करता है, जैसा कि एप्पल अध्ययन से पता चलता है।

अध्ययन

एप्पल अनुसंधान टीम ने एलएलएम और एलआरएम की तर्क क्षमताओं का मूल्यांकन करने के लिए एक अलग दृष्टिकोण अपनाया। उन्होंने पारंपरिक बेंचमार्क जैसे कि गणित या कोडिंग परीक्षणों पर निर्भर नहीं किया, जो डेटा दूषण (जहां मॉडल उत्तरों को याद रखते हैं) से प्रभावित हो सकते हैं। इसके बजाय, उन्होंने नियंत्रित पहेली वातावरण बनाए, जिनमें टावर ऑफ हानोई, चेकर जंपिंग, रिवर क्रॉसिंग, और ब्लॉक्स वर्ल्ड जैसी प्रसिद्ध पहेलियां शामिल थीं। उदाहरण के लिए, टावर ऑफ हानोई में डिस्क को पेग्स के बीच ले जाना शामिल है, जिसमें विशिष्ट नियमों का पालन किया जाता है, जिसकी जटिलता अधिक डिस्क जोड़ने पर बढ़ जाती है। पहेलियों की जटिलता को तर्कसंगत संरचना को बनाए रखते हुए व्यवस्थित रूप से समायोजित करके, शोधकर्ता यह देखते हैं कि मॉडल विभिन्न कठिनाई स्तरों पर कैसा प्रदर्शन करते हैं। यह तरीका उन्हें न केवल अंतिम उत्तरों का विश्लेषण करने की अनुमति देता है, बल्कि तर्क प्रक्रियाओं को भी देखने की अनुमति देता है, जो यह दिखाता है कि ये मॉडल “सोचते” हैं कि वे कैसे “सोचते हैं।”

अति विचार और हार मानने पर निष्कर्ष

अध्ययन ने समस्या जटिलता के आधार पर तीन विशिष्ट प्रदर्शन शासनों की पहचान की:

निम्न जटिलता स्तरों पर, मानक एलएलएम अक्सर एलआरएम की तुलना में बेहतर प्रदर्शन करते हैं क्योंकि एलआरएम अति विचार करते हैं, जो आवश्यक नहीं है, जबकि मानक एलएलएम अधिक कुशल होते हैं।
मध्यम जटिलता वाली समस्याओं के लिए, एलआरएम अपनी विस्तृत तर्क निशान उत्पन्न करने की क्षमता के कारण बेहतर प्रदर्शन दिखाते हैं जो उन्हें इन चुनौतियों का सामना करने में मदद करते हैं।
उच्च जटिलता वाली समस्याओं के लिए, एलएलएम और एलआरएम दोनों पूरी तरह से विफल हो जाते हैं; एलआरएम, विशेष रूप से, कठिनाई में वृद्धि के बावजूद सटीकता में एक कुल पतन का अनुभव करते हैं और अपने तर्क प्रयास को कम करते हैं।

सरल पहेलियों के लिए, जैसे कि एक या दो डिस्क के साथ टावर ऑफ हानोई, मानक एलएलएम सही उत्तर देने के लिए अधिक कुशल थे। एलआरएम, हालांकि, इन समस्याओं पर अति विचार करते थे, यहां तक कि जब समाधान सीधा था तब भी विस्तृत तर्क निशान उत्पन्न करते थे। यह सुझाव देता है कि एलआरएम अपने प्रशिक्षण डेटा में अतिरंजित व्याख्याओं की नकल कर सकते हैं, जो अकुशलता का कारण बन सकता है।

मध्यम जटिलता वाले दृश्यों में, एलआरएम ने बेहतर प्रदर्शन किया। उनकी विस्तृत तर्क चरणों का उत्पादन करने की क्षमता ने उन्हें कई तार्किक चरणों की आवश्यकता वाली समस्याओं का सामना करने में मदद की। इससे उन्हें मानक एलएलएम से बेहतर प्रदर्शन करने में मदद मिली, जो एक साथ तर्क को बनाए रखने में संघर्ष करते थे।

हालांकि, अत्यधिक जटिल पहेलियों के लिए, जैसे कि कई डिस्क के साथ टावर ऑफ हानोई, दोनों मॉडल पूरी तरह से विफल हो गए। आश्चर्यजनक रूप से, एलआरएम ने एक निश्चित बिंदु से परे जटिलता में वृद्धि के साथ अपने तर्क प्रयास को कम कर दिया,尽管 उन्हें पर्याप्त गणना संसाधन थे। यह “हार मानने” व्यवहार उनकी तर्क क्षमताओं को स्केल करने में एक मूलभूत सीमा को इंगित करता है।

यह क्यों होता है

सरल पहेलियों पर अति विचार करने की संभावना एलएलएम और एलआरएम के प्रशिक्षण से उत्पन्न होती है। इन मॉडलों को विशाल डेटासेट से सीखने की क्षमता है जिसमें संक्षिप्त और विस्तृत व्याख्याएं दोनों शामिल हैं। आसान समस्याओं के लिए, वे सीधे उत्तर देने के बजाय विस्तृत तर्क निशान उत्पन्न करने के लिए डिफ़ॉल्ट हो सकते हैं, जो उनके प्रशिक्षण डेटा में विस्तृत उदाहरणों की नकल करते हैं। यह व्यवहार आवश्यक रूप से एक दोष नहीं है, बल्कि उनके प्रशिक्षण का प्रतिबिंब है जो तर्क पर कुशलता को प्राथमिकता देता है।

जटिल पहेलियों पर विफलता एलएलएम और एलआरएम की तार्किक नियमों को सामान्य बनाने में असमर्थता को दर्शाती है। जैसे ही समस्या जटिलता बढ़ती है, उनकी पैटर्न मिलान पर निर्भरता टूट जाती है, जिससे असंगत तर्क और प्रदर्शन में गिरावट आती है। अध्ययन में पाया गया कि एलआरएम स्पष्ट अल्गोरिदम का उपयोग करने में विफल रहते हैं और विभिन्न पहेलियों में असंगत रूप से तर्क करते हैं। यह बताता है कि जबकि ये मॉडल तर्क की नकल कर सकते हैं, वे मानवों की तरह अंतर्निहित तर्क को वास्तव में नहीं समझते हैं।

विविध दृष्टिकोण

इस अध्ययन ने एआई समुदाय में चर्चा को जन्म दिया है। कुछ विशेषज्ञ तर्क देते हैं कि इन निष्कर्षों को गलत तरीके से व्याख्या किया जा सकता है। वे सुझाव देते हैं कि जबकि एलएलएम और एलआरएम मानवों की तरह तर्क नहीं कर सकते हैं, वे अभी भी निश्चित जटिलता सीमा के भीतर प्रभावी समस्या समाधान प्रदर्शित करते हैं। वे जोर देते हैं कि “तर्क” को मानव संज्ञान की नकल करने की आवश्यकता नहीं है ताकि यह मूल्यवान हो। इसी तरह, चर्चाएं हैकर न्यूज जैसे प्लेटफार्मों पर अध्ययन के कठोर दृष्टिकोण की प्रशंसा करती हैं लेकिन एआई तर्क में सुधार के लिए आगे के शोध की आवश्यकता पर प्रकाश डालती हैं। ये दृष्टिकोण एआई में तर्क के मूल्यांकन और इसके गठन पर चल रही बहस पर जोर देते हैं।

निहितार्थ और भविष्य के दिशानिर्देश

अध्ययन के निष्कर्ष एआई विकास के लिए महत्वपूर्ण निहितार्थ रखते हैं। जबकि एलआरएम मानव तर्क की नकल करने में प्रगति का प्रतिनिधित्व करते हैं, जटिल समस्याओं को संभालने और तर्क प्रयासों को स्केल करने में उनकी सीमाएं बताती हैं कि वर्तमान मॉडल सार्वजनिक तर्क प्राप्त करने से बहुत दूर हैं। यह तर्क प्रक्रियाओं की गुणवत्ता और अनुकूलन क्षमता पर ध्यान केंद्रित करने वाले नए मूल्यांकन तरीकों की आवश्यकता को रेखांकित करता है, न कि केवल अंतिम उत्तरों की सटीकता पर।

भविष्य के शोध को मॉडलों को तर्क चरणों को सटीक रूप से निष्पादित करने और समस्या जटिलता के आधार पर अपने तर्क प्रयासों को समायोजित करने में सुधार करने का लक्ष्य रखना चाहिए। वास्तविक दुनिया की तर्क कार्यों को प्रतिबिंबित करने वाले बेंचमार्क विकसित करना, जैसे कि चिकित्सा निदान या कानूनी तर्क, एआई क्षमताओं में अधिक अर्थपूर्ण अंतर्दृष्टि प्रदान कर सकता है। इसके अलावा, मॉडलों को पैटर्न मान्यता पर उनकी अधिक निर्भरता को संबोधित करना और तार्किक नियमों को सामान्य बनाने की उनकी क्षमता में सुधार करना एआई तर्क को आगे बढ़ाने के लिए महत्वपूर्ण होगा।

नीचे की पंक्ति

अध्ययन एलएलएम और एलआरएम की तर्क क्षमताओं का एक महत्वपूर्ण विश्लेषण प्रदान करता है। यह दिखाता है कि जबकि ये मॉडल सरल पहेलियों पर अति विचार करते हैं, वे अधिक जटिल लोगों के साथ संघर्ष करते हैं, उनकी ताकत और सीमाओं दोनों को उजागर करते हैं। हालांकि वे कertain स्थितियों में अच्छा प्रदर्शन करते हैं, जटिल समस्याओं को संभालने में उनकी अक्षमता मानव समझ और सिम्युलेटेड तर्क के बीच की खाई को रेखांकित करती है। अध्ययन जोर देता है कि एक एआई प्रणाली विकसित करने की आवश्यकता है जो विभिन्न जटिलता स्तरों पर अनुकूल रूप से तर्क कर सके, जिससे यह समस्याओं को संबोधित कर सके जो मानवों की तरह विभिन्न जटिलता के स्तर पर हों।