विचार नेता

एलएलएम वास्तव में जटिल समस्याओं के माध्यम से कितनी अच्छी तरह से तर्क कर सकते हैं?

Published March 28, 2025

Updated May 19, 2026

David Balaban

जनरेटिव एआई की शुरुआत और विकास इतनी तेजी से और तीव्र है कि यह वास्तव में काफी मुश्किल है कि यह तकनीक हमारे जीवन को कितना बदल दिया है।

तीन साल पहले की स्थिति को देखें। हाँ, एआई अधिक व्यापक हो रहा था, कम से कम सिद्धांत रूप में। अधिक लोग जानते थे कि यह क्या कर सकता है, हालांकि इसके साथ ही एआई की क्षमताओं के बारे में बड़े गलतफहमी थे। कुछ तरह से, तकनीक को एक साथ पर्याप्त और बहुत अधिक श्रेय दिया गया था कि यह वास्तव में क्या हासिल कर सकता था। फिर भी, औसत व्यक्ति कम से कम एक या दो क्षेत्रों की ओर इशारा कर सकता था जहां एआई काम कर रहा था, उच्च विशेषज्ञता वाले कार्यों को नियंत्रित वातावरण में। इसके परे कुछ भी या तो शोध प्रयोगशाला में था या बस अस्तित्व में नहीं था।

आज की स्थिति की तुलना करें। शून्य कौशल के साथ, केवल एक वाक्य लिखने या एक प्रश्न पूछने की क्षमता के साथ, दुनिया हमारी उंगलियों पर है। हम वास्तव में अनोखे और आश्चर्यजनक चित्र, संगीत, और यहां तक कि फिल्में भी बना सकते हैं जो पूरी तरह से नए और आश्चर्यजनक हैं, और पूरे उद्योगों को बाधित करने की क्षमता रखते हैं। हम अपनी खोज इंजन प्रक्रिया को सुपरचार्ज कर सकते हैं, एक सरल प्रश्न पूछ सकते हैं जो यदि सही ढंग से फ्रेम किया जाए, तो विश्वविद्यालय-प्रशिक्षित विद्वान के रूप में पर्याप्त गुणवत्ता वाली पृष्ठों की सामग्री उत्पन्न कर सकता है … या एक औसत तीसरे ग्रेडर यदि हम दृष्टिकोण निर्दिष्ट करते हैं। जबकि वे केवल एक या दो वर्षों में सामान्य हो गए हैं, ये क्षमताएं कुछ वर्षों पहले तक असंभव मानी जाती थीं। जनरेटिव एआई का क्षेत्र अस्तित्व में था लेकिन वास्तव में नहीं ले रहा था।

आज, कई लोगों ने जनरेटिव एआई जैसे ChatGPT, Midjourney, या अन्य उपकरणों के साथ प्रयोग किया है। अन्य लोगों ने उन्हें अपने दैनिक जीवन में शामिल कर लिया है। इनमें से विकास की गति इतनी तेज है कि यह लगभग चौंकाने वाला है। और पिछले छह महीनों की प्रगति को देखते हुए, हम निश्चित रूप से अगले कुछ वर्षों में बार-बार आश्चर्यचकित होंगे।

जनरेटिव एआई के भीतर एक विशिष्ट उपकरण रिट्रीवल-ऑगमेंटेड जेनरेशन (RAG) सिस्टम का प्रदर्शन रहा है, और उनकी जटिल प्रश्नों के माध्यम से सोचने की क्षमता। FRAMES डेटासेट की शुरुआत, जिसे एक लेख में विस्तार से समझाया गया है कि मूल्यांकन डेटासेट कैसे काम करता है, यह दिखाता है कि वर्तमान में राज्य का क्या है और यह कहां जा रहा है। FRAMES की शुरुआत के बाद से, कई प्लेटफार्मों ने पहले से ही कठिन और जटिल प्रश्नों के माध्यम से सोचने की अपनी क्षमता में नए रिकॉर्ड तोड़ दिए हैं।

आइए देखें कि FRAMES क्या मूल्यांकन करने के लिए है और विभिन्न जनरेटिव एआई मॉडल कितनी अच्छी तरह से प्रदर्शन कर रहे हैं। हम देख सकते हैं कि कैसे दोनों विकेंद्रीकरण और ओपन-सोर्स प्लेटफ़ॉर्म न केवल अपना स्थान बनाए हुए हैं (विशेष रूप से Sentient Chat), वे उपयोगकर्ताओं को आश्चर्यजनक तर्क की एक स्पष्ट झलक दे रहे हैं जो कुछ एआई मॉडल हासिल कर सकते हैं।

FRAMES as a Window into the GenAI Brain

FRAMES डेटासेट और इसकी मूल्यांकन प्रक्रिया 824 “मल्टी-हॉप” प्रश्नों पर केंद्रित है जिन्हें अनुमान, तर्कसंगत जोड़ने, विभिन्न स्रोतों से महत्वपूर्ण जानकारी प्राप्त करने और उन्हें तार्किक रूप से एक साथ जोड़ने की आवश्यकता होती है ताकि प्रश्न का उत्तर दिया जा सके। प्रश्नों को सही ढंग से उत्तर देने के लिए दो से 15 दस्तावेजों की आवश्यकता होती है, और जानबूझकर प्रतिबंध, गणितीय गणनाएं और निष्कर्ष, साथ ही समय-आधारित तर्क को संसाधित करने की क्षमता भी शामिल है। दूसरे शब्दों में, ये प्रश्न बहुत मुश्किल हैं और वास्तव में वे वास्तविक दुनिया के शोध कार्य हैं जो एक मानव इंटरनेट पर कर सकता है। हम इन चुनौतियों का सामना करते हैं, और हमें इंटरनेट स्रोतों के समुद्र में बिखरे हुए महत्वपूर्ण जानकारी के टुकड़ों की तलाश करनी होती है, विभिन्न साइटों से जानकारी को एक साथ जोड़ना होता है, गणना और निष्कर्ष द्वारा नई जानकारी बनाना होता है, और उन तथ्यों को एक साथ जोड़ना होता है ताकि प्रश्न का सही उत्तर दिया जा सके।

शोधकर्ताओं ने जब डेटासेट पहली बार जारी किया गया और परीक्षण किया गया, तो उन्होंने पाया कि शीर्ष जनरेटिव एआई मॉडल एकल-चरण विधियों का उपयोग करके लगभग 40% सटीक थे, लेकिन यदि उन्हें प्रश्न का उत्तर देने के लिए सभी आवश्यक दस्तावेज एकत्र करने की अनुमति दी जाती है, तो वे 73% सटीकता प्राप्त कर सकते हैं। हाँ, 73% क्रांतिकारी नहीं लग सकता है, लेकिन यदि आप समझते हैं कि क्या उत्तर दिया जाना चाहिए, तो संख्या बहुत अधिक प्रभावशाली हो जाती है।

उदाहरण के लिए, एक विशिष्ट प्रश्न है: “क्या वर्ष था जब ग्रुप के बैंडलीडर का जन्म हुआ था जिसने मूल रूप से गीत गाया था जो कान्ये वेस्ट के गीत पावर में नमूना लिया गया था?” एक मानव इस समस्या को कैसे हल करेगा? व्यक्ति देख सकता है कि उन्हें विभिन्न जानकारी तत्वों को इकट्ठा करने की आवश्यकता है, जैसे कान्ये वेस्ट के गीत पावर के बोल, और फिर गीत में एक अलग गीत के नमूने की पहचान करने में सक्षम होने के लिए गीत को सुनने में सक्षम होना चाहिए। हम मानव इस गीत को सुन सकते हैं (यहां तक कि अगर यह परिचित नहीं है) और बता सकते हैं कि जब एक अलग गीत नमूना लिया जाता है।

लेकिन इसे सोचें: एक जेनएआई को क्या हासिल करना होगा ताकि वह एक अलग गीत का पता लगा सके जबकि मूल गीत “सुन” रहा है? यह वह जगह है जहां एक बुनियादी प्रश्न वास्तव में बुद्धिमान एआई का एक उत्कृष्ट परीक्षण बन जाता है। और यदि हम गीत को ढूंढने, सुनने और नमूने के बोल की पहचान करने में सक्षम हैं, तो यह केवल चरण 1 है। हमें अभी भी यह पता लगाने की आवश्यकता है कि गीत का नाम क्या है, बैंड क्या है, बैंड का नेता कौन है, और फिर उस व्यक्ति का जन्म कब हुआ।

FRAMES दिखाता है कि वास्तविक प्रश्नों का उत्तर देने के लिए, एक बड़ी मात्रा में विचार प्रसंस्करण की आवश्यकता होती है। दो बातें यहां ध्यान में आती हैं।

पहला, विकेंद्रीकृत जेनएआई मॉडलों की क्षमता न केवल प्रतिस्पर्धा करने के लिए, बल्कि संभावित रूप से परिणामों को प्रभावित करने के लिए, अविश्वसनीय है। एक बढ़ती संख्या में कंपनियां अपनी प्रसंस्करण क्षमताओं को स्केल करने के लिए विकेंद्रीकृत तरीके का उपयोग कर रही हैं, सुनिश्चित करती हैं कि एक बड़े समुदाय के पास सॉफ़्टवेयर का स्वामित्व है, न कि एक केंद्रीकृत ब्लैक बॉक्स जो अपनी प्रगति को साझा नहीं करेगा। Perplexity और Sentient जैसी कंपनियां इस प्रवृत्ति का नेतृत्व कर रही हैं, प्रत्येक में FRAMES जारी होने पर पहली सटीकता रिकॉर्ड से ऊपर प्रदर्शन करने वाले शक्तिशाली मॉडल हैं।

दूसरा तत्व यह है कि इन एआई मॉडलों में से एक छोटी संख्या न केवल विकेंद्रीकृत है, वे ओपन-सोर्स भी हैं। उदाहरण के लिए, Sentient Chat दोनों है, और प्रारंभिक परीक्षण दिखाते हैं कि इसकी जटिल तर्क कितनी है। FRAMES प्रश्न का उत्तर देने के लिए एक ही विचार प्रक्रिया का उपयोग किया जाता है जैसा कि एक मानव उपयोग करेगा, इसके तर्क विवरण की समीक्षा के लिए उपलब्ध है। शायद और भी दिलचस्प बात यह है कि उनका प्लेटफ़ॉर्म कई मॉडलों के रूप में संरचित है जो एक दिए गए दृष्टिकोण और प्रदर्शन को ठीक-ट्यून कर सकते हैं, भले ही कुछ जेनएआई मॉडलों में फ़ाइन-ट्यूनिंग प्रक्रिया में कम हुई सटीकता हो। Sentient Chat के मामले में, कई अलग-अलग मॉडल विकसित किए गए हैं। उदाहरण के लिए, एक हालिया मॉडल “Dobby 8B” न केवल FRAMES बेंचमार्क को पार कर सकता है, बल्कि एक विशिष्ट प्रो-क्रिप्टो और प्रो-स्वतंत्रता दृष्टिकोण विकसित कर सकता है, जो मॉडल के दृष्टिकोण को प्रभावित करता है क्योंकि यह जानकारी के टुकड़ों को संसाधित करता है और एक उत्तर विकसित करता है।

आगामी

इन सभी आश्चर्यजनक नवाचारों की कुंजी यह तेजी से विकास है जिसने हमें यहां पहुंचाया है। हमें यह स्वीकार करना होगा कि जितनी तेजी से यह तकनीक विकसित हुई है, यह भविष्य में और भी तेजी से विकसित होगी। हम विकेंद्रीकृत और ओपन-सोर्स जेनएआई मॉडल के साथ देखेंगे कि महत्वपूर्ण सीमा जहां प्रणाली की बुद्धिमत्ता हमारी अपनी बुद्धिमत्ता से अधिक और अधिक पार कर जाएगी, और इसका भविष्य के लिए क्या अर्थ है।

David Balaban

डेविड बालाबान एक कंप्यूटर सुरक्षा शोधकर्ता हैं जिनके पास मैलवेयर विश्लेषण और एंटीवायरस सॉफ्टवेयर मूल्यांकन में 17 वर्ष से अधिक का अनुभव है। डेविड MacSecurity.net और Privacy-PC.com परियोजनाओं का संचालन करते हैं जो सामाजिक इंजीनियरिंग, मैलवेयर, प्रवेश परीक्षण, खतरा खुफिया, ऑनलाइन गोपनीयता और श्वेत टोपी हैकिंग सहित समकालीन सूचना सुरक्षा मामलों पर विशेषज्ञ राय प्रस्तुत करते हैं। डेविड के पास मैलवेयर समस्या निवारण की मजबूत पृष्ठभूमि है, जिसमें हाल ही में फिरौती सॉफ्टवेयर काउंटरमाप पर ध्यान केंद्रित किया गया है।

Unite.AI

एलएलएम वास्तव में जटिल समस्याओं के माध्यम से कितनी अच्छी तरह से तर्क कर सकते हैं?

FRAMES as a Window into the GenAI Brain

आगामी

You may like