Connect with us

рдПрдХ ‘рдЬрд╝реЗрди’ рд╡рд┐рдзрд┐ рдЬреЛ рднрд╛рд╖рд╛ рдореЙрдбрд▓реНрд╕ рдХреЛ рд╣реЙрд▓реБрд╕рд┐рдиреЗрдЯрд┐рдВрдЧ рд╕реЗ рд░реЛрдХрддреА рд╣реИ

Anderson рдХрд╛ рдПрдВрдЧрд▓

рдПрдХ ‘рдЬрд╝реЗрди’ рд╡рд┐рдзрд┐ рдЬреЛ рднрд╛рд╖рд╛ рдореЙрдбрд▓реНрд╕ рдХреЛ рд╣реЙрд▓реБрд╕рд┐рдиреЗрдЯрд┐рдВрдЧ рд╕реЗ рд░реЛрдХрддреА рд╣реИ

mm
AI-generated image: A robot sits in front of a laptop and a 'Eureka!' light-bulb lights up over its head. Z-Image, Qwen Edit (509), and Firefly V3

चैटजीपीटी को एक यादृच्छिक उत्तर को तथ्य-जांच करने के लिए कहना, इससे पहले कि यह एक वास्तविक समस्या का समाधान करे, यह अधिक सोचता है और अधिक बार सही उत्तर देता है – भले ही पहले का ‘यादृच्छिक’ उत्तर आपके वास्तविक प्रश्न से कोई संबंध नहीं रखता हो।

 

चीन से एक दिलचस्प नए शोध पत्र ने भाषा मॉडल्स जैसे कि चैटजीपीटी को हॉलुसिनेटिंग से रोकने और उत्तरों की गुणवत्ता में सुधार करने के लिए एक बहुत ही कम लागत वाली विधि विकसित की है: मॉडल से पहले एक पूरी तरह से अनसंबंधित प्रश्न के उत्तर की जांच करने के लिए कहना:

рдПрдХ рдЕрдирд╕рдВрдмрдВрдзрд┐рдд рдкреНрд░рд╢реНрди рдХрд╛ рдПрдХ рдЙрджрд╛рд╣рд░рдг рдЬреЛ рдПрдХ рдПрд▓рдПрд▓рдПрдо рдХреЗ 'рдорд╛рдирд╕рд┐рдХ' рдХреЛ рдореБрдХреНрдд рдХрд░ рд╕рдХрддрд╛ рд╣реИ рдФрд░ рдЗрд╕реЗ рдПрдХ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдмрд╛рдж рдХреЗ рдкреНрд░рд╢реНрди рдкрд░ рдзреНрдпрд╛рди рдХреЗрдВрджреНрд░рд┐рдд рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░ рд╕рдХрддрд╛ рд╣реИред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2511.21734

एक अनसंबंधित प्रश्न का एक उदाहरण जो एक एलएलएम के ‘मानसिक’ को मुक्त कर सकता है और इसे एक वास्तविक बाद के प्रश्न पर ध्यान केंद्रित करने में मदद कर सकता है।

यह ज़ेन स्लैप एक बहुत ही सस्ता तरीका है जो प्रदर्शन में सुधार करता है, अन्य अधिक जटिल तरीकों की तुलना में जैसे कि फाइन-ट्यूनिंग, प्रॉम्प्ट-क्राफ्टिंग और पैरेलल सैंपलिंग, और यह खुले और बंद-स्रोत मॉडल दोनों पर काम करता है, जो दर्शाता है कि यह एक मूलभूत विशेषता है जो कई एलएलएम आर्किटेक्चर में सामान्य है।

लेखकों ने इस विधि के माध्यम से संभव अर्थव्यवस्था को रेखांकित किया है*:

‘VF को लागू करने के लिए, केवल एक यादृच्छिक/तुच्छ उत्तर की आवश्यकता होती है। सत्यापन प्रक्रिया में आउटपुट टोकन की संख्या एक सामान्य कोटी पथ की तुलना में बहुत कम होती है, [कभी-कभी] यहां तक कि कोई स्पष्ट सत्यापन-प्रक्रिया भी नहीं होती है, इसलिए [बहुत कम] अतिरिक्त परीक्षण-समय गणना की आवश्यकता होती है।’

परीक्षणों में, यह दृष्टिकोण – वरिफिकेशन-फर्स्ट (VF) – विभिन्न कार्यों में उत्तरों में सुधार करने में सक्षम था, जिनमें गणितीय तर्क शामिल था, खुले स्रोत और वाणिज्यिक प्लेटफार्मों पर।

इस तकनीक के काम करने का एक कारण यह हो सकता है कि यह मानव मनोविज्ञान में रुझानों को कैसे अवशोषित करता है और उन्हें अपनाता है, ताकि एक सीधा प्रश्न मॉडल को ‘रक्षात्मक’ और ‘चिंतित’ बना दे, जबकि किसी और के काम की जांच करने का अनुरोध नहीं करता है।

मूल विचार यह है कि किसी उत्तर की जांच करना उत्तर उत्पन्न करने से कम प्रयास करता है, और यह एक अलग तर्क पथ को ट्रिगर कर सकता है जो मानक चेन-ऑफ-थॉट को पूरक करता है।

मॉडल को एक दिए गए उत्तर की आलोचना करने (यानी, एक उत्तर जिसमें मॉडल शामिल नहीं है) के लिए प्रेरित करना भी एक महत्वपूर्ण सोच को सक्रिय कर सकता है जो मॉडल के अपने पहले प्रभाव में अति-विश्वास से बचने में मदद करता है।

कार्य में इस प्रक्रिया को रिवर्स-रीजनिंग पथ के रूप में वर्णित किया गया है:

рдПрдХ рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдЙрддреНрддрд░ рд╕реЗ рд╢реБрд░реВ рдХрд░рдХреЗ рдФрд░ рдкреНрд░рд╢реНрди рдХреА рдУрд░ рдкреАрдЫреЗ рдХреА рдУрд░ рддрд░реНрдХ рдХрд░рдирд╛ рдЙрди рд╢реЙрд░реНрдЯрдХрдЯреНрд╕ рдпрд╛ рдЕрдВрддрд░реНрджреГрд╖реНрдЯрд┐ рдХреЛ рдЙрдЬрд╛рдЧрд░ рдХрд░ рд╕рдХрддрд╛ рд╣реИ рдЬреЛ рд╕рдорд╕реНрдпрд╛ рд╕реЗ рдЖрдЧреЗ рдмрдврд╝рдиреЗ рдкрд░ рдореБрд╢реНрдХрд┐рд▓ рд╕реЗ рдорд┐рд▓ рд╕рдХрддреЗ рд╣реИрдВред рдпрд╣ 'рд░рд┐рд╡рд░реНрд╕ рдкрде' рдПрдХ рд╕рд░рд▓ ╤В╤А╨░рдЬреЗрдХреНрдЯреНрд░реА рдХрд╛ рдЕрдиреБрд╕рд░рдг рдХрд░ рд╕рдХрддрд╛ рд╣реИ рдФрд░ рдорд╛рдирдХ рдЪреЗрди-рдСрдл-рдереЙрдЯ рддрд░реНрдХ рдХреЗ рдкреВрд░рдХ рдЬрд╛рдирдХрд╛рд░реА рдкреНрд░рджрд╛рди рдХрд░ рд╕рдХрддрд╛ рд╣реИред

एक प्रस्तावित उत्तर से शुरू करके और प्रश्न की ओर पीछे की ओर तर्क करना उन शॉर्टकट्स या अंतर्दृष्टि को उजागर कर सकता है जो समस्या से आगे बढ़ने पर मुश्किल से मिल सकते हैं। यह ‘रिवर्स पथ’ एक सरल траजेक्ट्री का अनुसरण कर सकता है और मानक चेन-ऑफ-थॉट तर्क के पूरक जानकारी प्रदान कर सकता है।

शोधकर्ताओं ने इस केंद्रीय अवधारणा को इटर-वीएफ में संक्षेपित किया है, एक क्रमिक समय-परीक्षण स्केलिंग विधि जो उत्तरों को बार-बार परिष्कृत करती है, जो एलएलएम आर्किटेक्चर में अक्सर पाए जाने वाले स्व-सुधार रणनीतियों में त्रुटि संचय समस्या से बचती है।

नई कार्य नई कार्य का शीर्षक है एलएलएम को पहले सत्यापन करने के लिए कहना लगभग नि:शुल्क भोजन है, और यह त्सिंगहुआ विश्वविद्यालय, बीजिंग में इलेक्ट्रॉनिक इंजीनियरिंग विभाग के दो शोधकर्ताओं से आया है।

विधि

नई कार्य के पीछे का केंद्रीय विचार भाषा मॉडल्स में सामान्य तर्क प्रवाह को पलटना है। इसके बजाय मॉडल से समस्या का समाधान करने के लिए कहने के, यह पहले एक उम्मीदवार उत्तर (अक्सर गलत या यादृच्छिक) दिया जाता है और यह जांच करने के लिए कहा जाता है कि क्या वह उत्तर समझ में आता है।

यह मॉडल को पीछे की ओर तर्क करने के लिए प्रेरित करता है, प्रस्तावित उत्तर से प्रश्न की ओर काम करता है। एक बार सत्यापन पूरा हो जाने के बाद, मॉडल तब मूल समस्या का समाधान करने के लिए आगे बढ़ता है।

इस पलटने से, पत्र में दावा किया गया है, लापरवाह गलतियों को कम करता है और एक अधिक विचारशील तर्क को बढ़ावा देता है, जो एलएलएम को छिपी हुई संरचना का पता लगाने और भ्रामक धारणाओं से बचने में मदद करता है।

नीचे दिए गए उदाहरणों के रूप में, यहां तक कि मॉडल को एक स्पष्ट रूप से गलत अनुमान जैसे ’10’ की जांच करने के लिए कहना भी इसे त्रुटिपूर्ण तर्क से उबरने और मानक चेन-ऑफ-थॉट प्रॉम्प्टिंग से बेहतर प्रदर्शन करने में मदद कर सकता है:

рдореЙрдбрд▓ рдХреЛ рдкрд╣рд▓реЗ рдПрдХ рдЕрдиреБрдорд╛рдирд┐рдд рдЙрддреНрддрд░ рдХреА рдЬрд╛рдВрдЪ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд╣рдирд╛ рдЗрд╕реЗ рдЕрд╕рдВрдЧрддрддрд╛рдУрдВ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рдФрд░ рд╕рдорд╕реНрдпрд╛ рдХреЗ рд╕рд╛рде рдЕрдзрд┐рдХ рд╕рд╛рд╡рдзрд╛рдиреА рд╕реЗ рдЬреБрдбрд╝рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рддрд╛ рд╣реИред рдЗрд╕ рдЙрджрд╛рд╣рд░рдг рдореЗрдВ, рдорд╛рдирдХ рджреГрд╖реНрдЯрд┐рдХреЛрдг рдПрдХ рд╕рд╣рдЬ рд▓реЗрдХрд┐рди рдЧрд▓рдд рд╕рдорд╛рдзрд╛рди рдХреА рдУрд░ рд▓реЗ рдЬрд╛рддрд╛ рд╣реИ, рдЬрдмрдХрд┐ рд╡рд░рд┐рдлрд┐рдХреЗрд╢рди-рдлрд░реНрд╕реНрдЯ рдкреНрд░реЙрдореНрдкреНрдЯ рдПрдХ рд╕реНрдкрд╖реНрдЯ рддрд░реНрдХ рд╕рдВрд░рдЪрдирд╛ рдФрд░ рд╕рд╣реА рдкрд░рд┐рдгрд╛рдо рдХреЛ рдЯреНрд░рд┐рдЧрд░ рдХрд░рддрд╛ рд╣реИред

मॉडल को पहले एक अनुमानित उत्तर की जांच करने के लिए कहना इसे असंगतताओं का पता लगाने और समस्या के साथ अधिक सावधानी से जुड़ने में मदद करता है। इस उदाहरण में, मानक दृष्टिकोण एक सहज लेकिन गलत समाधान की ओर ले जाता है, जबकि वरिफिकेशन-फर्स्ट प्रॉम्प्ट एक स्पष्ट तर्क संरचना और सही परिणाम को ट्रिगर करता है।

वास्तविक दुनिया की समस्याओं के संबंध में, यह अक्सर मॉडल के लिए एक अनुमान प्रदान करना मुश्किल होता है जिसे जांचा जा सके, खासकर जब कार्य खुला होता है, जैसे कि कोड लिखना या एपीआई को कॉल करना। इसलिए, विधि को बेहतर ढंग से अनुकूल बनाने के लिए, यह पहले अपना सर्वश्रेष्ठ उत्तर देता है और फिर उस उत्तर को वरिफिकेशन-फर्स्ट प्रारूप में वापस खिलाता है:

рдЬрдм рдореЙрдбрд▓ рдХреЛ рдЕрдкрдиреЗ рдкрд╣рд▓реЗ рдХреЗ рдЙрддреНрддрд░ рдХреА рдЬрд╛рдВрдЪ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИ, рддреЛ рдпрд╣ рдЕрдкрдиреА рддрд░реНрдХ рдореЗрдВ рддреНрд░реБрдЯрд┐ рдХреЛ рдкрдХрдбрд╝рддрд╛ рд╣реИ рдФрд░ рд╕рдорд╛рдзрд╛рди рдХреЛ рд╕рд╣реА рдврдВрдЧ рд╕реЗ рдлрд┐рд░ рд╕реЗ рд▓рд┐рдЦрддрд╛ рд╣реИред рд╡рд░рд┐рдлрд┐рдХреЗрд╢рди-рдлрд░реНрд╕реНрдЯ рдкреНрд░реЙрдореНрдкреНрдЯ рдЗрд╕реЗ рд╡рд┐рд╢рд┐рд╖реНрдЯ рддреНрд░реБрдЯрд┐ рдкрд░ рдзреНрдпрд╛рди рдХреЗрдВрджреНрд░рд┐рдд рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рддрд╛ рд╣реИ, рди рдХрд┐хРМ рдПрдХ рд╣реА рддреНрд░реБрдЯрд┐ рдХреЛ рджреЛрд╣рд░рд╛рдиреЗ рдореЗрдВред

जब मॉडल को अपने पहले के उत्तर की जांच करने के लिए कहा जाता है, तो यह अपनी तर्क में त्रुटि को पकड़ता है और समाधान को सही ढंग से फिर से लिखता है। वरिफिकेशन-फर्स्ट प्रॉम्प्ट इसे विशिष्ट त्रुटि पर ध्यान केंद्रित करने में मदद करता है, न कि同 एक ही त्रुटि को दोहराने में।

यह दृष्टिकोण इटर-वीएफ का गठन करता है, एक क्रमिक समय-परीक्षण स्केलिंग विधि जो उत्तरों को बार-बार परिष्कृत करती है, जो एलएलएम आर्किटेक्चर में अक्सर पाए जाने वाले स्व-सुधार रणनीतियों में त्रुटि संचय समस्या से बचती है। मॉडल इस चक्र को दोहराता है, प्रत्येक चरण में अपने उत्तर को परिष्कृत करता है, बिना पुनः प्रशिक्षण या विशेष उपकरण की आवश्यकता के।

डेटा और परीक्षण

लेखकों ने इस विधि का मूल्यांकन चार डोमेन में किया है: सामान्य तर्क कार्य, जहां वीएफ को एक तुच्छ अनुमान के साथ बीज दिया जाता है; समय-संवेदनशील कार्य, जहां इटर-वीएफ की तुलना प्रतिद्वंद्वी स्केलिंग विधियों से की जाती है; खुले अंत वाली समस्याएं जैसे कि कोडिंग और एपीआई कॉल, जहां वीएफ मॉडल के अपने पहले के उत्तर का उपयोग करता है; और बंद-स्रोत वाणिज्यिक एलएलएम, जहां आंतरिक तर्क चरण अनुपलब्ध हैं।

इस विधि का परीक्षण करने के लिए, शोधकर्ताओं ने तीन तर्क बेंचमार्क का उपयोग किया: जीएसएम8के और मैथ500 गणितीय समस्याओं के लिए; और जीपीक्यूए-डायमंड स्नातक स्तर के विज्ञान प्रश्नों के लिए。

प्रत्येक मामले में, मॉडल को या तो एक तुच्छ अनुमान, जैसे कि संख्यात्मक उत्तरों के लिए ‘1’; या एक यादृच्छिक रूप से जोड़े गए बहुविकल्पी विकल्प, सत्यापन के लिए प्रारंभिक बिंदु के रूप में दिया गया था। कोई विशेष ट्यूनिंग या पूर्व ज्ञान जोड़ा नहीं गया था, और तुलना के लिए आधार मानक शून्य-शॉट चेन-ऑफ-थॉट प्रॉम्प्टिंग थी।

परीक्षण पूरे क्यूवेन2.5 और लामा3 निर्देश-ट्यून किए गए मॉडलों पर चले, 1बी से 72बी (पैरामीटर) तक। क्यूवेन मॉडल क्यूवेन2.5-1.5बी-इन्सट्रक्ट, क्यूवेन2.5-3बी-इन्सट्रक्ट, क्यूवेन2.5-14बी-इन्सट्रक्ट, और क्यूवेन2.5-72बी-इन्सट्रक्ट थे। लामा3 वेरिएंट लामा3.2-1बी-इन्सट्रक्ट, लामा3.2-3बी-इन्सट्रक्ट, लामा3.1-8बी-इन्सट्रक्ट, और लामा3.3-70बी-इन्सट्रक्ट थे।

नीचे दिखाया गया है, वरिफिकेशन-फर्स्ट प्रॉम्प्टिंग से सुधार मॉडल के पैमाने में स्थिर रहा, स्पष्ट लाभ 1बी पैरामीटर से लेकर 72बी तक दिखाई दे रहे हैं:

рдХреНрдпреВрд╡реЗрди2.5 рдФрд░ рд▓рд╛рдорд╛3 рдкрд░рд┐рд╡рд╛рд░реЛрдВ рдореЗрдВ рд╕рднреА рдореЙрдбрд▓ рдЖрдХрд╛рд░реЛрдВ рдкрд░, рд╡рд░рд┐рдлрд┐рдХреЗрд╢рди-рдлрд░реНрд╕реНрдЯ рдкреНрд░реЙрдореНрдкреНрдЯрд┐рдВрдЧ рдиреЗ рдЬреАрдПрд╕рдПрдо8рдХреЗ, рдореИрде500, рдФрд░ рдЬреАрдкреАрдХреНрдпреВрдП-рдбрд╛рдпрдордВрдб рдкрд░ рдорд╛рдирдХ рдЪреЗрди-рдСрдл-рдереЙрдЯ рдкреНрд░реЙрдореНрдкреНрдЯрд┐рдВрдЧ рд╕реЗ рдмреЗрд╣рддрд░ рдкреНрд░рджрд░реНрд╢рди рдХрд┐рдпрд╛ред

क्यूवेन2.5 और लामा3 परिवारों में सभी मॉडल आकारों पर, वरिफिकेशन-फर्स्ट प्रॉम्प्टिंग ने जीएसएम8के, मैथ500, और जीपीक्यूए-डायमंड पर मानक चेन-ऑफ-थॉट प्रॉम्प्टिंग से बेहतर प्रदर्शन किया।

यह प्रभाव गणित-गहन मैथ बेंचमार्क जैसे जीएसएम8के और मैथ500 पर सबसे मजबूत था, जहां एक गलत उत्तर की जांच करने से मानक चेन-ऑफ-थॉट प्रॉम्प्टिंग की तुलना में बेहतर तर्क हुआ। जीपीक्यूए-डायमंड पर, जो संचित ज्ञान पर अधिक निर्भर करता है और तर्क संरचना पर कम, लाभ छोटा लेकिन स्थिर था।

वरिफिकेशन-फर्स्ट की गणनात्मक लागत मामूली थी: नीचे दी गई तालिका में, हम देख सकते हैं कि एक सत्यापन चरण उत्पन्न करने से मानक चेन-ऑफ-थॉट प्रॉम्प्टिंग की तुलना में लगभग 20-50% अधिक आउटपुट टोकन जोड़े गए:

рдкреНрд░рддреНрдпреЗрдХ рдкреНрд░реЙрдореНрдкреНрдЯрд┐рдВрдЧ рд╡рд┐рдзрд┐ рдХреЗ рддрд╣рдд рдЬреАрдПрд╕рдПрдо8рдХреЗ, рдореИрде500, рдФрд░ рдЬреАрдкреАрдХреНрдпреВрдП рдмреЗрдВрдЪрдорд╛рд░реНрдХ рдкрд░ рдЙрддреНрдкрдиреНрди рдЖрдЙрдЯрдкреБрдЯ рдЯреЛрдХрди рдХреА рдФрд╕рдд рд╕рдВрдЦреНрдпрд╛ред

प्रत्येक प्रॉम्प्टिंग विधि के तहत जीएसएम8के, मैथ500, और जीपीक्यूए बेंचमार्क पर उत्पन्न आउटपुट टोकन की औसत संख्या।

इसके बावजूद, अतिरिक्त लागत उन रणनीतियों की तुलना में बहुत कम रही जिनमें कई नमूने लेने या पुनरावृत्ति योजना की आवश्यकता होती है।

नीचे दिए गए ग्राफ में, हम देख सकते हैं कि यह विधि अनुमानित उत्तर की गुणवत्ता के प्रति कितनी संवेदनशील है: आश्चर्य की बात नहीं है, यहां तक कि जब अनुमान तुच्छ (‘1’), असंभव (‘2025’), या एक यादृच्छिक बहुविकल्पी विकल्प होता है, तब भी वरिफिकेशन-फर्स्ट प्रॉम्प्टिंग मानक प्रॉम्प्टिंग से बेहतर प्रदर्शन करती है:

рдЬреАрдПрд╕рдПрдо8рдХреЗ, рдореИрде500, рдФрд░ рдЬреАрдкреАрдХреНрдпреВрдП рдкрд░ рд╡рд░рд┐рдлрд┐рдХреЗрд╢рди-рдлрд░реНрд╕реНрдЯ рдкреНрд░реЙрдореНрдкреНрдЯрд┐рдВрдЧ рд╕реЗ рд╕рдЯреАрдХрддрд╛ рдореЗрдВ рд╡реГрджреНрдзрд┐, рдЬрдм рдореЙрдбрд▓ рдХреЛ рддреБрдЪреНрдЫ, рдЕрд╕рдВрднрд╡, рдпрд╛ рд╕рд╣реА рдЙрддреНрддрд░ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИред

जीएसएम8के, मैथ500, और जीपीक्यूए पर वरिफिकेशन-फर्स्ट प्रॉम्प्टिंग से सटीकता में वृद्धि, जब मॉडल को तुच्छ, असंभव, या सही उत्तर देने के लिए कहा जाता है।

जैसा कि अपेक्षित था, सटीकता तब और भी अधिक बढ़ जाती है जब अनुमान सही उत्तर होता है; लेकिन यह विधि अच्छी तरह से काम करती है, यह सुझाव देती है कि लाभ अनुमानित उत्तर में निहित जानकारी से नहीं बल्कि सत्यापन के कार्य से ही आता है।

इटर-वीएफ की तुलना चार परीक्षण-समय स्केलिंग रणनीतियों से की गई जो पुनः प्रशिक्षण या कार्य-विशिष्ट अनुकूलन के बिना काम करती हैं। स्व-सुधार में, मॉडल को अपने उत्तरों को संशोधित करने के लिए प्रेरित किया गया था जो पिछले तर्क चरणों पर प्रतिबिंबित करते हैं; पीएचपी में, पिछले उत्तर संदर्भ के रूप में इनपुट में जोड़े गए थे, हालांकि उनका उपयोग करने के निर्देश नहीं दिए गए थे।

इसके अलावा, स्व-संगति में, कई तर्क पथों का नमूना लिया गया और अंतिम उत्तर बहुमत के मत से चुना गया; और अंत में, बेस्ट-ऑफ-एन में, कई आउटपुट स्वतंत्र रूप से उत्पन्न किए गए और एक सत्यापन प्रॉम्प्ट का उपयोग करके रैंक किए गए, जिसमें उच्चतम स्कोर वाला प्रतिक्रिया चुना गया था।

इटर-वीएफ के दो संस्करण लागू किए गए: एक तुच्छ अनुमान (‘1’) के साथ प्रारंभ किया गया, और दूसरा मानक कोटी आउटपुट के साथ:

рдореИрде500 рдкрд░ рд╕рдЯреАрдХрддрд╛ рдФрд░ рдЯреЛрдХрди рдХреА рджрдХреНрд╖рддрд╛, рдмрдврд╝рддреЗ рдЖрдЙрдЯрдкреБрдЯ рдмрдЬрдЯ рдХреЗ рддрд╣рдд, рдЬреЛ рджрд┐рдЦрд╛рддрд╛ рд╣реИ рдХрд┐ рдЗрдЯрд░-рд╡реАрдПрдл рдХреЗ рджреЛрдиреЛрдВ рд╕рдВрд╕реНрдХрд░рдг рд╕рднреА рдмреЗрд╕рд▓рд╛рдЗрди рд╕реЗ рдмреЗрд╣рддрд░ рдкреНрд░рджрд░реНрд╢рди рдХрд░рддреЗ рд╣реИрдВред

मैथ500 पर सटीकता और टोकन की दक्षता, बढ़ते आउटपुट बजट के तहत, जो दिखाता है कि इटर-वीएफ के दोनों संस्करण सभी बेसलाइन से बेहतर प्रदर्शन करते हैं।

इटर-वीएफ ने तब भी बेहतर परिणाम दिए जब उपलब्ध कंप्यूट कम था, जिसे लेखकों ने इस तरह से जिम्मेदार ठहराया कि यह उत्तरों की जांच करता है, न कि पहले उत्तरों की गुणवत्ता के कारण (क्योंकि वीएफ और कोटी दोनों संस्करण जल्दी ही समान सटीकता तक पहुंच गए)।

पीएचपी ने खराब प्रदर्शन किया, हालांकि यह पहले के उत्तरों को संदर्भ के रूप में पुन: उपयोग करता था, संभवतः इसलिए कि एलएलएम ने उन संकेतों का अच्छी तरह से उपयोग नहीं किया।

इसके विपरीत, पीएचपी और स्व-सुधार के विपरीत, जो पुनरावृत्ति के साथ संदर्भ जमा करते हैं, इटर-वीएफ केवल प्रत्येक चरण में सबसे हाल के उत्तर पर विचार करता है, जो स्व-सुधार की एक कमजोरी को टाल देता है – एक कमजोरी जो विशेष रूप से स्व-सुधार के लिए विनाशकारी है।

सामांतर विधियां, जैसे कि स्व-संगति और बेस्ट-ऑफ-एन, इस मुद्दे से बचती हैं, हालांकि उनके सुधार धीमे और अधिक मामूली थे।

(नोट: परिणाम अनुभाग, हालांकि विस्तृत, एक अनुकूल और प्रोलिक्स पढ़ाई है, और हमें इस बिंदु पर अधिकांश शेष कवरेज को छोटा करना होगा, और पाठक को अधिक विवरण के लिए स्रोत पत्र का उल्लेख करना होगा।)

जब जीपीटी-5 नैनो और जीपीटी-5 मिनी पर परीक्षण किया गया, जो बंद वाणिज्यिक मॉडल हैं जो पूरे तर्क ट्रेस को छुपाते हैं और केवल अंतिम उत्तर ही वापस करते हैं, तो इटर-वीएफ ने मध्यवर्ती आउटपुट पर निर्भर किए बिना प्रदर्शन में सुधार किया:

рдЬреАрдкреАрдЯреА-5 рдореЙрдбрд▓ рдкрд░ рдореИрде500 рдФрд░ рдЬреАрдкреАрдХреНрдпреВрдП рдкрд░ рд╕рдЯреАрдХрддрд╛, рдЬреЛ рдЫреБрдкреА рд╣реБрдИ рддрд░реНрдХ рдЯреНрд░реЗрд╕ рдХреЗ рд╕рд╛рде, рдЗрдЯрд░-рд╡реАрдПрдл рд▓рд╛рдЧреВ рдХрд░рдиреЗ рдкрд░ред

जीपीटी-5 मॉडल पर मैथ500 और जीपीक्यूए पर सटीकता, जो छुपी हुई तर्क ट्रेस के साथ, इटर-वीएफ लागू करने पर।

निष्कर्ष

हालांकि नई कार्य परिणाम अनुभाग से आगे धुंधला हो जाता है, एलएलएम मॉडल के एक वर्ग में एक सर्वोत्कृष्ट विशेषता की खोज एक दिलचस्प विकास है। जो कोई भी नियमित रूप से एक एलएलएम का उपयोग करता है, उसने स्वाभाविक रूप से उन तरीकों का विकास किया होगा जो मॉडल की कमियों को दूर करने में मदद करते हैं, क्योंकि प्रत्येक कमी समय के साथ स्पष्ट हो जाती है, और पैटर्न उभरता है; और सभी एक ऐसी ‘चाल’ की खोज की आशा करते हैं जो इतनी व्यापक और सामान्य हो।

एक एलएलएम में एक संदर्भ खिड़की को लागू करने और अपडेट करने में सबसे बड़ी समस्याओं में से एक सत्र प्रगति की अवधारणा और नए दिशाओं में निकलने की क्षमता के बीच संतुलन बनाना है, बिना भ्रामक हॉलुसिनेशन या ऑफ-टॉप आउटपुट में पड़े। इस पत्र में प्रस्तुत मामले में, हम एक ऐसे ‘जागरण कॉल’ का एक उदाहरण देखते हैं जो एलएलएम को पुनः फोकस और रीसेट करने में मदद करता है, बिना संदर्भ को खोए। यह देखना दिलचस्प होगा कि क्या बाद के परियोजनाएं इस विधि को अनुकूलित और विकसित करती हैं।

शोधकर्ता अपनी नई विधि की आर्थिकी का बहुत जोर देते हैं – एक विचार जो 12 महीने पहले की तुलना में बहुत अधिक महत्वपूर्ण हो गया है। आजकल, हाइपरस्केल एआई के निहितार्थ यह स्पष्ट करते हैं कि संसाधनों की बचत, जो पहले ‘शुद्ध अनुसंधान’ युग में तुच्छ मानी जाती थी, अब मौलिक और आवश्यक हो गई हैं।

 

* कृपया ध्यान दें कि मैं पत्र के कुछ हिस्सों में पाए जाने वाले अंग्रेजी मानक को भ्रमित करने से रोकने के लिए सामान्य संख्या में उद्धरणों को शामिल करने से वंचित हूं, इसलिए मैंने मुख्य अंतर्दृष्टि को सारांशित करने की स्वतंत्रता ली है, और पाठक को सत्यापन के लिए स्रोत पत्र का उल्लेख करने के लिए कहता हूं।

पहली बार गुरुवार, 4 दिसंबर, 2025 को प्रकाशित हुआ।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai