कृत्रिम बुद्धिमत्ता

शीर्ष एआई मॉडल लंबे दस्तावेजों में खो जा रहे हैं

Published February 13, 2025

Updated April 26, 2026

Alex McFarland

एक नई अध्ययन LMU म्यूनिख, म्यूनिख सेंटर फॉर मशीन लर्निंग, और एडोब रिसर्च के शोधकर्ताओं से एआई भाषा मॉडल में एक कमजोरी का खुलासा किया है: वे लंबे दस्तावेजों को समझने में संघर्ष करते हैं जो आपको आश्चर्यचकित कर सकते हैं। शोध टीम के निष्कर्षों से पता चलता है कि सबसे उन्नत एआई मॉडल भी साधारण शब्द मिलान पर निर्भर नहीं होने पर जानकारी को जोड़ने में परेशानी होती है।

एआई की पढ़ने की क्षमता के साथ छिपी हुई समस्या

एक लंबे शोध पत्र में एक विशिष्ट विवरण खोजने की कोशिश करने की कल्पना करें। आप शायद इसे तेजी से पढ़ें, विभिन्न खंडों के बीच मानसिक संबंध बनाते हुए जानकारी को एक साथ रखें। कई एआई मॉडल, यह पता चलता है, बिल्कुल इस तरह से काम नहीं करते हैं। इसके बजाय, वे अक्सर सटीक शब्द मिलान खोजने पर बहुत अधिक निर्भर करते हैं, जो आपके कंप्यूटर पर Ctrl + F का उपयोग करने के समान है।

शोध टीम ने विभिन्न एआई मॉडलों का परीक्षण करने के लिए एक नया बेंचमार्क विकसित किया जिसे NOLIMA (नो लिटरल मैचिंग) कहा जाता है। परिणामों से पता चला कि जब एआई मॉडल 2,000 शब्दों से अधिक लंबे ग्रंथों को संभालते हैं, तो उनका प्रदर्शन नाटकीय रूप से गिर जाता है। जब वे 32,000 शब्दों के आसपास पहुंचते हैं – एक छोटी पुस्तक की लंबाई के बारे में – तो अधिकांश मॉडल अपनी सामान्य क्षमता के आधे पर प्रदर्शन करते हैं। इसमें मेजर मॉडल जैसे GPT-4o, Gemini 1.5 Pro, और Llama 3.3 70B का परीक्षण शामिल था।

एक चिकित्सा शोधकर्ता को एआई का उपयोग मरीज़ के रिकॉर्ड का विश्लेषण करने के लिए करने की कल्पना करें, या एक कानूनी टीम एआई का उपयोग मामले के दस्तावेजों की समीक्षा करने के लिए करती है। यदि एआई महत्वपूर्ण संबंधों को याद करता है क्योंकि प्रासंगिक जानकारी खोज प्रश्न के समान शब्दों का उपयोग नहीं करती है, तो परिणाम महत्वपूर्ण हो सकते हैं।

शब्द मिलान पर्याप्त क्यों नहीं है

वर्तमान एआई मॉडल एक ध्यान तंत्र का उपयोग करके पाठ को संसाधित करते हैं। यह प्रणाली एआई को विभिन्न पाठ के हिस्सों पर ध्यान केंद्रित करने में मदद करती है ताकि शब्दों और विचारों के बीच संबंधों को समझा जा सके। जब छोटे पाठ के साथ काम किया जाता है, तो यह पर्याप्त रूप से काम करता है। हालांकि, शोध से पता चलता है कि यह तंत्र लंबे पाठ के साथ अभिभूत हो जाता है, विशेष रूप से जब यह सटीक शब्द मिलान पर निर्भर नहीं हो सकता है।

NOLIMA परीक्षण ने इस सीमा का खुलासा किया कि एआई मॉडल से संदर्भ को समझने के बजाय शब्द मिलान की आवश्यकता वाले प्रश्न पूछकर। परिणाम बताने वाले थे। जबकि मॉडल छोटे पाठ के साथ अच्छा प्रदर्शन करते थे, उनकी क्षमता इन संबंधों को बनाने में गिर जाती है क्योंकि पाठ की लंबाई बढ़ जाती है। यहां तक कि तर्क कार्यों के लिए विशेष मॉडल भी लंबे दस्तावेजों के साथ 50% से कम सटीकता के साथ स्कोर करते थे।

शब्द मिलान के बिना, एआई मॉडल संघर्ष करते हैं:

विभिन्न शब्दावली का उपयोग करने वाले संबंधित अवधारणाओं को जोड़ने के लिए
बहु-चरण तर्क पथ का अनुसरण करने के लिए
प्रासंगिक जानकारी को खोजने के लिए जब यह मुख्य संदर्भ के बाद दिखाई देता है
अप्रासंगिक खंडों में भ्रामक शब्द मिलान की उपेक्षा करने के लिए

संख्याएं कहानी बताती हैं

शोध के निष्कर्ष लंबे ग्रंथों के साथ एआई मॉडल के प्रदर्शन की एक स्पष्ट तस्वीर पेश करते हैं। GPT-4o ने सबसे मजबूत प्रदर्शन दिखाया, लगभग 8,000 टोकन (लगभग 6,000 शब्दों) तक प्रभावशीलता बनाए रखी। हालांकि, यहां तक कि इस शीर्ष प्रदर्शनकर्ता ने लंबे पाठ के साथ महत्वपूर्ण गिरावट दिखाई। अधिकांश अन्य मॉडल, जिनमें Gemini 1.5 Pro और Llama 3.3 70B शामिल हैं, ने 2,000 और 8,000 टोकन के बीच तेजी से प्रदर्शन में गिरावट का अनुभव किया।

प्रदर्शन में गिरावट तब और अधिक स्पष्ट हो गई जब कार्यों ने कई चरणों के तर्क की आवश्यकता थी। उदाहरण के लिए, यदि एक मॉडल को दो तर्कसंगत संबंध बनाने की आवश्यकता थी – जैसे कि यह समझना कि एक पात्र एक लैंडमार्क के पास रहता था, और वह लैंडमार्क एक विशिष्ट शहर में था – सफलता दर काफी कम हो गई। शोध से पता चला कि इस प्रकार का बहु-चरण तर्क 16,000 टोकन से परे ग्रंथों में विशेष रूप से चुनौतीपूर्ण हो जाता है, यहां तक कि तर्क में सुधार के लिए डिज़ाइन की गई तकनीकों का उपयोग करने पर भी, जैसे कि Chain-of-Thought प्रॉम्प्टिंग।

इन निष्कर्षों को विशेष रूप से उल्लेखनीय बनाने वाली बात यह है कि वे एआई मॉडल की लंबे संदर्भों को संभालने की क्षमता के दावों को चुनौती देते हैं। जबकि कई मॉडल व्यापक संदर्भ विंडो के समर्थन का विज्ञापन करते हैं, NOLIMA बेंचमार्क दिखाता है कि प्रभावी समझ इन सैद्धांतिक सीमाओं के बहुत पहले गिर जाती है।

स्रोत: Modarressi et al.

जब एआई पेड़ के लिए जंगल को खो देता है

इन सीमाओं का वास्तविक दुनिया के अनुप्रयोगों में हमारे एआई का उपयोग करने के तरीके के लिए गंभीर परिणाम हैं। एक कानूनी एआई प्रणाली को मामले के कानून के माध्यम से खोज करने की कल्पना करें। यह प्रासंगिक पूर्ववर्ती को याद कर सकता है क्योंकि वे खोज प्रश्न के समान शब्दावली का उपयोग नहीं करते हैं। प्रणाली इसके बजाय कम प्रासंगिक मामलों पर ध्यान केंद्रित कर सकती है जो खोज शब्दों के साथ अधिक शब्द साझा करते हैं।

खोज और दस्तावेज़ विश्लेषण पर प्रभाव विशेष रूप से चिंताजनक है। वर्तमान एआई-संचालित खोज प्रणाली अक्सर रिट्रीवल-ऑगमेंटेड जेनरेशन (RAG) नामक एक तकनीक पर निर्भर करती हैं। भले ही ये प्रणाली सही जानकारी वाले दस्तावेज़ को सफलतापूर्वक पुनर्प्राप्त करती हैं, एआई प्रश्न से शब्दावली के अंतर के कारण इसकी प्रासंगिकता को पहचानने में विफल हो सकता है। इसके बजाय, एआई कम प्रासंगिक दस्तावेज़ों की ओर आकर्षित हो सकता है जो खोज शब्दों के साथ सतह-स्तरीय समानता साझा करते हैं।

एआई उपयोगकर्ताओं के लिए, इन निष्कर्षों से कई महत्वपूर्ण विचार हैं:

पहले, छोटे प्रश्न और दस्तावेज़ अधिक विश्वसनीय परिणाम प्रदान करेंगे। लंबे पाठ के साथ काम करते समय, उन्हें छोटे फोकस्ड खंडों में तोड़ने से एआई के प्रदर्शन को बनाए रखने में मदद मिल सकती है।

दूसरा, जब आप एआई से लंबे दस्तावेज़ का विश्लेषण करने के लिए कहते हैं, तो आप जिन संबंधों को बनाना चाहते हैं उनमें विशिष्ट होने के लिए सावधान रहें। व्यापक प्रश्न पूछने के बजाय, एआई को आपके द्वारा अन्वेषण करने में रुचि रखने वाले विशिष्ट संबंधों की ओर मार्गदर्शन करें। यह मॉडल की सीमाओं के लिए क्षतिपूर्ति करता है जो स्वतंत्र रूप से इन संबंधों को बनाता है।

अंत में, ये सीमाएं मानव निरीक्षण के महत्व को रेखांकित करती हैं। जबकि एआई टूल्स पाठ के प्रसंस्करण और विश्लेषण के लिए बहुत शक्तिशाली हो सकते हैं, उन्हें जटिल दस्तावेजों में महत्वपूर्ण संबंधों की पहचान के एकमात्र साधन के रूप में भरोसा नहीं किया जाना चाहिए। लंबे पाठ के साथ मानव संदर्भ और संबंध बनाने की क्षमता वर्तमान एआई क्षमताओं से अधिक है।

निष्कर्ष एआई प्रौद्योगिकी में तेजी से प्रगति के बावजूद, ये प्रणाली जानकारी को बहुत अलग तरीके से संसाधित करती हैं। इन सीमाओं को समझना एआई टूल का प्रभावी ढंग से उपयोग करने और यह जानने के लिए महत्वपूर्ण है कि कब मानव निर्णय आवश्यक है।

आगे क्या है

लंबे पाठ के साथ वर्तमान एआई मॉडल की सीमाओं को समझने से एआई विकास के भविष्य के बारे में महत्वपूर्ण प्रश्न खुलते हैं। NOLIMA बेंचमार्क के पीछे के शोध ने दिखाया है कि हमें लंबे पाराग्राफ में जानकारी को संभालने के तरीके में सुधार की आवश्यकता है।

वर्तमान समाधानों ने आंशिक सफलता दिखाई है। तर्क को प्रोत्साहित करने वाली प्रॉम्प्टिंग, जो एआई मॉडल को अपने तर्क को कदमों में तोड़ने के लिए प्रोत्साहित करती है, प्रदर्शन में थोड़ा सुधार करती है। उदाहरण के लिए, इस तकनीक का उपयोग करते समय, Llama 3.3 70B ने लंबे संदर्भों को संभालने में बेहतर क्षमता दिखाई। हालांकि, यह दृष्टिकोण अभी भी 16,000 टोकन से परे ग्रंथों के साथ विफल हो जाता है, जो अधिक मौलिक समाधानों की आवश्यकता का सुझाव देता है।

वर्तमान एआई मॉडल पाठ को संसाधित करने के लिए एक ध्यान तंत्र का उपयोग करते हैं। इसे एक भीड़ भरे कमरे में बातचीत की कोशिश करने जैसा सोचें – बातचीत जितनी लंबी होगी, उतनी ही मुश्किल होगी कि पहले उल्लिखित सभी महत्वपूर्ण बिंदुओं को ट्रैक रखा जाए। हमारे वर्तमान एआई मॉडल एक समान चुनौती का सामना करते हैं, लेकिन बहुत बड़े पैमाने पर।

भविष्य की ओर देखते हुए, शोधकर्ता कई आशाजनक दिशाओं का अन्वेषण कर रहे हैं। एक दृष्टिकोण लंबे पाठ में जानकारी को व्यवस्थित और प्राथमिकता देने के लिए एआई के लिए नए तरीके विकसित करना शामिल है, साधारण शब्द मिलान से परे गहरे概念 संबंधों को समझने के लिए। यह मानवों द्वारा जानकारी के मानसिक मानचित्र बनाने के तरीके की तरह काम कर सकता है, जो शब्दावली के साझा होने के बजाय अर्थ के आधार पर विचारों को जोड़ता है।

विकास का एक अन्य क्षेत्र एआई मॉडल द्वारा संबंधित जानकारी के विभिन्न टुकड़ों को जोड़ने के लिए आवश्यक तर्कसंगत कदमों में सुधार पर केंद्रित है, जिसे शोधकर्ता “लेटेंट हॉप्स” कहते हैं। वर्तमान मॉडल, विशेष रूप से लंबे पाठ में, इन संबंधों को बनाने में संघर्ष करते हैं, लेकिन नई वास्तुकला इस अंतर को पाटने में मदद कर सकती है।

आज एआई टूल के साथ काम करने वालों के लिए, ये निष्कर्ष कई व्यावहारिक दृष्टिकोण सुझाते हैं:

एआई के साथ काम करते समय लंबे दस्तावेज़ों को अर्थपूर्ण खंडों में तोड़ने पर विचार करें। यह महत्वपूर्ण संदर्भ को संरक्षित करने वाले तार्किक अनुभाग बनाने में मदद करता है। उदाहरण के लिए, यदि आप एक शोध पत्र का विश्लेषण कर रहे हैं, तो आप विधि और परिणाम अनुभागों को एक साथ रखने पर विचार कर सकते हैं क्योंकि वे अक्सर संबंधित जानकारी chứaते हैं।

जब आप एआई से लंबे पाठ का विश्लेषण करने के लिए कहते हैं, तो आप जिन संबंधों को बनाना चाहते हैं उनमें विशिष्ट होने के लिए सावधान रहें। एआई को आपके द्वारा अन्वेषण करने में रुचि रखने वाले विशिष्ट संबंधों की ओर मार्गदर्शन करें। यह मॉडल की सीमाओं के लिए क्षतिपूर्ति करता है जो स्वतंत्र रूप से इन संबंधों को बनाता है।

शायद सबसे महत्वपूर्ण बात, लंबे पाठ के साथ एआई की क्षमताओं के बारे में वास्तविक अपेक्षाएं रखें। जबकि ये उपकरण कई कार्यों के लिए बहुत मददगार हो सकते हैं, उन्हें जटिल दस्तावेजों के एकमात्र विश्लेषण के रूप में नहीं माना जाना चाहिए। मानव विश्लेषण की तुलना में एआई की सीमाएं हैं, और इन सीमाओं को समझना प्रभावी ढंग से एआई टूल का उपयोग करने के लिए महत्वपूर्ण है।

लंबे पाठ को वास्तव में समझने वाली एआई प्रणाली की दिशा में आगे का मार्ग चुनौतीपूर्ण और रोमांचक है। जैसे ही हम इन सीमाओं को बेहतर ढंग से समझते हैं, हम उन एआई प्रणालियों की ओर काम कर सकते हैं जो केवल पाठ को संसाधित नहीं करती हैं, बल्कि वास्तव में इसे समझती भी हैं। तब तक, एआई का उपयोग करने का अर्थ है इसकी वर्तमान सीमाओं के साथ काम करना और इसकी ताकत को सराहना करना।

Alex McFarland

एलेक्स मैकफारलैंड एक एआई पत्रकार और लेखक हैं जो कृत्रिम बुद्धिमत्ता में नवीनतम विकासों का अन्वेषण कर रहे हैं। उन्होंने विश्वभर के कई एआई स्टार्टअप्स और प्रकाशनों के साथ सहयोग किया है।