कृत्रिम बुद्धिमत्ता

डीपमाइंड का माइकलएंजेलो बेंचमार्क: लंबे संदर्भ एलएलएम की सीमाओं का खुलासा

Published October 17, 2024

Updated April 27, 2026

Dr. Assad Abbas

DeepMind Michelangelo Benchmark LLM limits

क्योंकि आर्टिफिशियल इंटेलिजेंस (एआई) आगे बढ़ रही है, लंबी जानकारी क्रमों को संसाधित और समझने की क्षमता अधिक महत्वपूर्ण होती जा रही है। एआई सिस्टम अब जटिल कार्यों के लिए उपयोग किए जाते हैं जैसे कि लंबे दस्तावेजों का विश्लेषण, विस्तारित बातचीत का पालन करना और बड़ी मात्रा में डेटा को संसाधित करना। हालांकि, कई वर्तमान मॉडल लंबे संदर्भ तर्क में संघर्ष करते हैं। जैसे ही इनपुट लंबा होता जाता है, वे अक्सर महत्वपूर्ण विवरण को खो देते हैं, जिससे कम सटीक या सुसंगत परिणाम मिलते हैं।

यह समस्या विशेष रूप से स्वास्थ्य सेवा, कानूनी सेवाओं और वित्त उद्योगों में समस्याग्रस्त है, जहां एआई टूल्स को विस्तृत दस्तावेजों या लंबी चर्चाओं को संभालना होता है जबकि सटीक, संदर्भ-जागरूक प्रतिक्रियाएं प्रदान करनी होती हैं। एक सामान्य चुनौती संदर्भ ड्रिफ्ट है, जहां मॉडल नए इनपुट को संसाधित करते समय पहले की जानकारी को खो देते हैं, जिससे कम प्रासंगिक परिणाम मिलते हैं।

इन सीमाओं को दूर करने के लिए, डीपमाइंड ने माइकलएंजेलो बेंचमार्क विकसित किया है। यह उपकरण यह परीक्षण करता है कि एआई मॉडल लंबे संदर्भ तर्क का प्रबंधन कितनी अच्छी तरह से करते हैं। माइकलएंजेलो कलाकार से प्रेरित, जो जटिल मूर्तियों को संगमरमर के ब्लॉक से उजागर करते हैं, बेंचमार्क यह खोज करने में मदद करता है कि एआई मॉडल बड़े डेटासेट से अर्थपूर्ण पैटर्न कैसे निकाल सकते हैं। वर्तमान मॉडलों की कमियों की पहचान करके, माइकलएंजेलो बेंचमार्क एआई की क्षमता में भविष्य के सुधार के लिए नेतृत्व करता है लंबे संदर्भों पर तर्क करने के लिए।

एआई में लंबे संदर्भ तर्क को समझना

लंबे संदर्भ तर्क एआई मॉडल की क्षमता के बारे में है जो लंबे पाठ, कोड या बातचीत क्रमों पर सुसंगत और सटीक रहता है। जीपीटी-4 और पीएएलएम-2 जैसे मॉडल छोटे या मध्यम-लंबाई वाले इनपुट के साथ अच्छा प्रदर्शन करते हैं। हालांकि, वे लंबे संदर्भों के साथ संघर्ष करते हैं। जैसे ही इनपुट लंबा होता जाता है, ये मॉडल अक्सर पहले के हिस्सों से महत्वपूर्ण विवरण को खो देते हैं। इससे समझने, सारांश बनाने या निर्णय लेने में त्रुटियां होती हैं। यह समस्या संदर्भ विंडो सीमा के रूप में जानी जाती है। मॉडल की जानकारी को बनाए रखने और संसाधित करने की क्षमता संदर्भ लंबा होने के साथ कम हो जाती है।

यह समस्या वास्तविक दुनिया के अनुप्रयोगों में महत्वपूर्ण है। उदाहरण के लिए, कानूनी सेवाओं में, एआई मॉडल अनुबंध, मामले के अध्ययन या नियमों का विश्लेषण करते हैं जो सैकड़ों पृष्ठ लंबे हो सकते हैं। यदि ये मॉडल प्रभावी ढंग से ऐसे लंबे दस्तावेजों पर तर्क और संसाधित नहीं कर सकते हैं, तो वे महत्वपूर्ण खंडों को याद कर सकते हैं या कानूनी शब्दों को गलत तरीके से व्याख्या कर सकते हैं। इससे असटीक सलाह या विश्लेषण हो सकता है। स्वास्थ्य सेवा में, एआई सिस्टम को रोगी रिकॉर्ड, चिकित्सा इतिहास और उपचार योजनाओं को संश्लेषित करने की आवश्यकता होती है जो वर्षों या दशकों तक फैली होती हैं। यदि एक मॉडल पहले के रिकॉर्ड से महत्वपूर्ण जानकारी को सटीक रूप से याद नहीं कर सकता है, तो यह अनुचित उपचार की सिफारिश कर सकता है या रोगियों का गलत निदान कर सकता है।

हालांकि मॉडल की टोकन सीमा में सुधार के प्रयास किए गए हैं (जैसे जीपीटी-4 32,000 टोकन तक संभाल सकता है, लगभग 50 पृष्ठों का पाठ), लंबे संदर्भ तर्क अभी भी एक चुनौती है। संदर्भ विंडो समस्या मॉडल द्वारा संभाले जा सकने वाले इनपुट की मात्रा को सीमित करती है और इसकी संपूर्ण इनपुट क्रम में सटीक समझ बनाए रखने की क्षमता को प्रभावित करती है। इससे संदर्भ ड्रिफ्ट होता है, जहां मॉडल नए इनपुट के परिचय के साथ पहले के विवरण को भूल जाता है। इससे सुसंगत और प्रासंगिक आउटपुट उत्पन्न करने की इसकी क्षमता कम हो जाती है।

माइकलएंजेलो बेंचमार्क: अवधारणा और दृष्टिकोण

माइकलएंजेलो बेंचमार्क लंबे संदर्भ तर्क की चुनौतियों का सामना करता है जो एलएलएम को विस्तारित क्रमों पर जानकारी को बनाए रखने और संसाधित करने का परीक्षण करता है। पहले के बेंचमार्क के विपरीत, जो वाक्य पूर्ति या बुनियादी प्रश्न उत्तर जैसे छोटे संदर्भ कार्यों पर केंद्रित हैं, माइकलएंजेलो बेंचमार्क मॉडल को लंबे डेटा क्रमों पर तर्क करने की चुनौती देने वाले कार्यों पर जोर देता है, अक्सर विकर्षण या अप्रासंगिक जानकारी के साथ।

माइकलएंजेलो बेंचमार्क लेटेंट स्ट्रक्चर क्वेरीज (एलएसक्यू) फ्रेमवर्क का उपयोग करके एआई मॉडल को चुनौती देता है। यह विधि मॉडल को बड़े डेटासेट में अर्थपूर्ण पैटर्न खोजने की आवश्यकता होती है, जबकि अप्रासंगिक जानकारी को फिल्टर करना, जैसे कि मानव जटिल डेटा के माध्यम से महत्वपूर्ण बातों पर ध्यान केंद्रित करने के लिए। बेंचमार्क का ध्यान दो मुख्य क्षेत्रों पर है: प्राकृतिक भाषा और कोड, जो केवल डेटा पुनर्प्राप्ति से अधिक परीक्षण कार्य पेश करता है।

एक महत्वपूर्ण कार्य लेटेंट सूची कार्य है। इस कार्य में, मॉडल को पाइथन सूची ऑपरेशन की एक श्रृंखला दी जाती है, जैसे कि तत्वों को जोड़ना, हटाना या सॉर्ट करना, और फिर यह सही अंतिम सूची उत्पन्न करनी होती है। इसे और कठिन बनाने के लिए, कार्य में अप्रासंगिक ऑपरेशन शामिल हैं, जैसे कि सूची को उलटना या पिछले चरणों को रद्द करना। इससे मॉडल की क्षमता का परीक्षण किया जाता है कि यह महत्वपूर्ण ऑपरेशन पर ध्यान केंद्रित करे, जो यह दिखाता है कि एआई सिस्टम कैसे मिश्रित प्रासंगिकता वाले बड़े डेटासेट को संभालते हैं।

एक और महत्वपूर्ण कार्य मल्टी-राउंड को-रिफरेंस रिजॉल्यूशन (एमआरसीआर) है। यह कार्य मॉडल की क्षमता को मापता है कि यह लंबी बातचीत में संदर्भों को कैसे ट्रैक करता है, जिसमें ओवरलैपिंग या अस्पष्ट विषय हो सकते हैं। चुनौती मॉडल के लिए बाद में की गई संदर्भों को पहले के बिंदुओं से जोड़ना है, भले ही वे अप्रासंगिक विवरण के नीचे छिपे हों। यह कार्य वास्तविक दुनिया की चर्चाओं को प्रतिबिंबित करता है, जहां विषय अक्सर बदलते हैं, और एआई को सुसंगत संचार बनाए रखने के लिए संदर्भों को सटीक रूप से ट्रैक और हल करना होता है।

इसके अलावा, माइकलएंजेलो में आईडीके कार्य है, जो मॉडल की क्षमता का परीक्षण करता है कि यह पहचाने कि जब यह किसी प्रश्न का उत्तर देने के लिए पर्याप्त जानकारी नहीं है। इस कार्य में, मॉडल को एक पाठ दिया जाता है जो प्रश्न का उत्तर देने के लिए प्रासंगिक जानकारी नहीं हो सकती है। चुनौती मॉडल के लिए यह पहचानना है कि कौन से मामलों में सही प्रतिक्रिया “मुझे नहीं पता” है, बजाय इसके कि एक संभावित लेकिन गलत उत्तर प्रदान किया जाए। यह कार्य एआई की विश्वसनीयता के एक महत्वपूर्ण पहलू को प्रतिबिंबित करता है – अनिश्चितता को पहचानना।

इन कार्यों के माध्यम से, माइकलएंजेलो सरल पुनर्प्राप्ति से परे मॉडल की क्षमता का परीक्षण करता है कि यह तर्क, संश्लेषण और लंबे संदर्भ इनपुट का प्रबंधन करे। यह लंबे संदर्भ तर्क के लिए एक मापनीय, सिंथेटिक और अनलीक्ड बेंचमार्क प्रदान करता है, जो एलएलएम की वर्तमान स्थिति और भविष्य की संभावना का एक अधिक सटीक माप प्रदान करता है।

एआई अनुसंधान और विकास के लिए निहितार्थ

माइकलएंजेलो बेंचमार्क के परिणाम एआई के विकास के लिए महत्वपूर्ण निहितार्थ हैं। बेंचमार्क यह दिखाता है कि वर्तमान एलएलएम को बेहतर वास्तुकला की आवश्यकता है, विशेष रूप से ध्यान तंत्र और मेमोरी सिस्टम में। वर्तमान में, अधिकांश एलएलएम स्व-ध्यान तंत्र पर निर्भर करते हैं। वे छोटे कार्यों के लिए प्रभावी होते हैं लेकिन लंबे संदर्भों के साथ संघर्ष करते हैं। यहीं पर हम संदर्भ ड्रिफ्ट की समस्या देखते हैं, जहां मॉडल पहले के विवरण को भूल जाते हैं या मिला देते हैं। इसे हल करने के लिए, शोधकर्ता मेमोरी-अग्रिम मॉडल का अन्वेषण कर रहे हैं। ये मॉडल पहले की बातचीत या दस्तावेज़ के महत्वपूर्ण जानकारी को संग्रहीत कर सकते हैं, जिससे एआई को जब आवश्यकता हो तब इसका उपयोग करने की अनुमति मिलती है।

एक और आशाजनक दृष्टिकोण है स्तरीय प्रसंस्करण। यह विधि एआई को लंबे इनपुट को छोटे और प्रबंधनीय भागों में तोड़ने में सक्षम बनाती है, जिससे यह प्रत्येक चरण में सबसे प्रासंगिक विवरण पर ध्यान केंद्रित कर सकता है। इस तरह, मॉडल जटिल कार्यों को बेहतर ढंग से संभाल सकता है बिना बहुत अधिक जानकारी से अभिभूत हुए।

लंबे संदर्भ तर्क में सुधार का एक महत्वपूर्ण प्रभाव होगा। स्वास्थ्य सेवा में, यह बेहतर रोगी रिकॉर्ड विश्लेषण का मतलब हो सकता है, जहां एआई एक रोगी के इतिहास को समय के साथ ट्रैक कर सकता है और अधिक सटीक उपचार सिफारिशें प्रदान कर सकता है। कानूनी सेवाओं में, ये प्रगति एआई सिस्टम का मतलब हो सकता है जो लंबे अनुबंध या मामले के कानून का अधिक सटीक विश्लेषण कर सकते हैं, जिससे वकीलों और कानूनी पेशेवरों के लिए अधिक विश्वसनीय अंतर्दृष्टि प्रदान की जा सकती है।

हालांकि, इन प्रगति के साथ महत्वपूर्ण नैतिक चिंताएं आती हैं। जैसे ही एआई लंबे संदर्भों पर तर्क करने में बेहतर होता जाता है, संवेदनशील या निजी जानकारी के उजागर होने का जोखिम होता है। यह स्वास्थ्य सेवा और ग्राहक सेवा जैसे उद्योगों के लिए एक वास्तविक चिंता है, जहां गोपनीयता महत्वपूर्ण है।

यदि एआई मॉडल पिछली बातचीत से बहुत अधिक जानकारी को बनाए रखते हैं, तो वे भविष्य की बातचीत में अनजाने में व्यक्तिगत विवरण का खुलासा कर सकते हैं। इसके अलावा, जैसे ही एआई लंबे फॉर्म सामग्री को उत्पन्न करने में बेहतर होता जाता है, इसका उपयोग अधिक उन्नत गलत सूचना या भ्रामक सूचना बनाने के लिए किया जा सकता है, जो एआई विनियमन के आसपास की चुनौतियों को और जटिल बना देता है।

नीचे की पंक्ति

माइकलएंजेलो बेंचमार्क ने जटिल, लंबे संदर्भ कार्यों का प्रबंधन करने वाले एआई मॉडल के अंतर्दृष्टि प्रदान किए हैं, उनकी ताकत और सीमाओं को उजागर करते हुए। यह बेंचमार्क नवाचार को आगे बढ़ाता है क्योंकि एआई विकसित होता है, बेहतर मॉडल वास्तुकला और सुधारित मेमोरी सिस्टम को प्रोत्साहित करता है। उद्योगों जैसे स्वास्थ्य सेवा और कानूनी सेवाओं को बदलने की संभावना उत्साहजनक है, लेकिन यह नैतिक जिम्मेदारियों के साथ आता है।

गोपनीयता, गलत सूचना और न्याय संबंधी चिंताओं को एआई की क्षमता में वृद्धि के साथ संबोधित किया जाना चाहिए। एआई का विकास समाज को सोच-समझकर और जिम्मेदारी से लाभ पहुंचाने पर केंद्रित रहना चाहिए।

Dr. Assad Abbas

डॉ असद अब्बास, पाकिस्तान में कॉमसैट्स यूनिवर्सिटी इस्लामाबाद में एक टेन्योर्ड एसोसिएट प्रोफेसर, ने उत्तर डकोटा स्टेट यूनिवर्सिटी, यूएसए से अपनी पीएचडी प्राप्त की। उनका शोध उन्नत प्रौद्योगिकियों पर केंद्रित है, जिनमें क्लाउड, फॉग और एज कंप्यूटिंग, बिग डेटा विश्लेषण और एआई शामिल हैं। डॉ अब्बास ने प्रतिष्ठित वैज्ञानिक पत्रिकाओं और सम्मेलनों में प्रकाशनों के साथ महत्वपूर्ण योगदान दिया है। वह MyFastingBuddy के संस्थापक भी हैं।