Anderson का एंगल

बड़े भाषा मॉडल डेटासेट को याद कर रहे हैं जिनका उपयोग उन्हें परीक्षण करने के लिए किया जाना चाहिए

Published May 16, 2025

Updated April 26, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

यदि आप यह देखने के लिए एआई पर निर्भर करते हैं कि आपको क्या देखना चाहिए, पढ़ना चाहिए या खरीदना चाहिए, तो नए शोध से पता चलता है कि कुछ सिस्टम इन परिणामों को स्मृति से आधारित कर सकते हैं, न कि कौशल से: सुझाव देने के लिए उपयोगी सुझाव देने के बजाय, मॉडल अक्सर उन आइटमों को याद करते हैं जो उनका मूल्यांकन करने के लिए उपयोग किए जाने वाले डेटासेट से हैं, जिससे प्रदर्शन का अतिरंजित अनुमान लगाया जा सकता है और सिफारिशें हो सकती हैं जो पुरानी हो सकती हैं या उपयोगकर्ता के लिए खराब मेल खा सकती हैं।

मशीन लर्निंग में, एक परीक्षण-विभाजन यह देखने के लिए उपयोग किया जाता है कि क्या एक प्रशिक्षित मॉडल ने समस्याओं को हल करना सीखा है जो समान हैं, लेकिन उस सामग्री से अलग है जिस पर यह प्रशिक्षित किया गया था।

तो यदि एक नया एआई ‘कुत्ते की नस्ल पहचान’ मॉडल 100,000 कुत्तों की तस्वीरों के डेटासेट पर प्रशिक्षित किया जाता है, तो यह आमतौर पर 80/20 विभाजन की सुविधा प्रदान करेगा – 80,000 तस्वीरें मॉडल को प्रशिक्षित करने के लिए प्रदान की जाती हैं; और 20,000 तस्वीरें वापस रखी जाती हैं और परीक्षण सामग्री के रूप में उपयोग की जाती हैं तैयार मॉडल का परीक्षण करने के लिए।

यह कहना स्पष्ट है कि यदि एआई के प्रशिक्षण डेटा में अनजाने में ‘गुप्त’ 20% खंड शामिल है, तो मॉडल इन परीक्षणों में उत्तीर्ण हो जाएगा, क्योंकि यह पहले से ही उत्तर जानता है (यह पहले से ही 100% डोमेन डेटा देख चुका है)। बिल्कुल, यह वास्तव में नहीं दर्शाता है कि मॉडल बाद में कैसा प्रदर्शन करेगा, नए ‘लाइव’ डेटा पर, एक उत्पादन संदर्भ में।

मूवी स्पॉइलर

एआई के अपने परीक्षणों में धोखा देने की समस्या मॉडल के पैमाने के साथ बढ़ी है। क्योंकि आज के सिस्टम विशाल, बिना भेदभाव के वेब-स्क्रैप्ड निगमों जैसे कॉमन क्रॉल पर प्रशिक्षित होते हैं, यह संभावना नहीं है कि बेंचमार्क डेटासेट (अर्थात, 20% वापस रखा हुआ) प्रशिक्षण मिश्रण में फिसल जाए, लेकिन डिफ़ॉल्ट – एक सिंड्रोम जिसे डेटा दूषण के रूप में जाना जाता है; और इस पैमाने पर, त्रुटियों को पकड़ने के लिए मैनुअल क्यूरेशन व्यावहारिक रूप से असंभव है।

यह मामला इटली के पोलिटेक्निको डी बारी से एक नए पत्र में अन्वेषित किया गया है, जहां शोधकर्ता एक फिल्म सिफारिश डेटासेट, मूवीलेंस-1एम की असामान्य भूमिका पर ध्यान केंद्रित करते हैं, जिसे वे तर्क देते हैं कि कई प्रमुख एआई मॉडल द्वारा प्रशिक्षण के दौरान आंशिक रूप से स्मृति किया गया है।

चूंकि यह विशेष डेटासेट सिफारिश प्रणालियों के परीक्षण में इतना व्यापक रूप से उपयोग किया जाता है, इसकी मॉडल की स्मृति में उपस्थिति संभावित रूप से उन परीक्षणों को अर्थहीन बना देती है: जो बुद्धिमत्ता के रूप में प्रकट हो सकता है वास्तव में साधारण रिकॉल हो सकता है, और जो सिफारिश कौशल की सहजता के रूप में दिखाई दे सकता है वह केवल एक सांख्यिकीय गूंज हो सकती है जो पहले के संपर्क को दर्शाती है।

लेखकों का कहना है:

‘हमारे निष्कर्ष यह दर्शाते हैं कि एलएलएम मूवीलेंस-1एम डेटासेट का व्यापक ज्ञान रखते हैं, जिसमें आइटम, उपयोगकर्ता विशेषताएं और इंटरैक्शन इतिहास शामिल हैं।

‘विशेष रूप से, एक सरल प्रॉम्प्ट जीपीटी-4ओ को डेटासेट में अधिकांश फिल्मों के नामों को पुनर्प्राप्त करने में सक्षम बनाता है।

‘परीक्षित किए गए मॉडलों में से कोई भी इस ज्ञान से मुक्त नहीं है, जो सुझाव देता है कि मूवीलेंस-1एम डेटा उनके प्रशिक्षण सेट में शामिल होने की संभावना है।

‘हमने उपयोगकर्ता विशेषताओं और इंटरैक्शन इतिहास को पुनर्प्राप्त करने में समान रुझानों का अवलोकन किया।’

शोधकर्ताओं ने अपना काम पुन: उत्पन्न करने के लिए गिटहब पर पाइपलाइन बनाई है।

विधि

यह समझने के लिए कि क्या मॉडल वास्तव में सीख रहे थे या बस याद कर रहे थे, शोधकर्ताओं ने इस संदर्भ में स्मृति का क्या अर्थ है, इसकी परिभाषा करनी शुरू की और मूवीलेंस-1एम डेटासेट से विशिष्ट जानकारी को पुनर्प्राप्त करने में मॉडल की क्षमता का परीक्षण करने के लिए।

यदि एक मॉडल को एक फिल्म का आईडी नंबर दिखाया जा सकता था और वह इसका शीर्षक और शैली उत्पन्न कर सकता था, तो यह एक आइटम को स्मृति में रखने के रूप में गिना जाता था; यदि यह एक उपयोगकर्ता के विवरण (जैसे आयु, व्यवसाय, या ज़िप कोड) को एक उपयोगकर्ता आईडी से उत्पन्न कर सकता था, तो यह भी उपयोगकर्ता स्मृति के रूप में गिना जाता था; और यदि यह एक ज्ञात अनुक्रम से एक उपयोगकर्ता की अगली फिल्म रेटिंग का उत्पादन कर सकता था, तो यह सामान्य पैटर्न सीखने के बजाय विशिष्ट इंटरैक्शन डेटा को याद रखने के प्रमाण के रूप में लिया जाता था।

इन प्रत्येक रिकॉल फॉर्म का परीक्षण सावधानी से लिखे गए प्रॉम्प्ट का उपयोग करके किया गया था, जो मॉडल को नई जानकारी दिए बिना इसे प्रेरित करने के लिए तैयार किए गए थे:

मूल्यांकन प्रोटोकॉल के लिए शून्य-शॉट प्रॉम्प्टिंग जो नए पत्र में उपयोग की जाती है। स्रोत: https://arxiv.org/pdf/2505.10212

डेटा और परीक्षण

एक उपयुक्त डेटासेट क्यूरेट करने के लिए, लेखकों ने क्षेत्र की दो प्रमुख सम्मेलनों से हाल के पत्रों का सर्वेक्षण किया, एसीएम रेक्सिस 2024, और एसीएम सिगिर 2024। मूवीलेंस-1एम सबसे अधिक दिखाई दिया, जो लगभग एक पांचवें सबमिशन में उद्धृत किया गया था। चूंकि पिछले अध्ययनों ने समान निष्कर्षों पर पहुंचा था, यह एक आश्चर्यजनक परिणाम नहीं था, बल्कि डेटासेट के प्रभुत्व की पुष्टि थी।

मूवीलेंस-1एम में तीन फाइलें होती हैं: मूवीज़.डेट, जो मूवी को उनके आईडी, शीर्षक और शैली द्वारा सूचीबद्ध करती है; यूज़र्स.डेट, जो उपयोगकर्ता आईडी को मूल बायोग्राफिकल फील्ड्स से मैप करती है; और रेटिंग्स.डेट, जो रिकॉर्ड करती है कि किसने क्या रेट किया और कब।

यह देखने के लिए कि क्या यह डेटा बड़े भाषा मॉडल द्वारा स्मृति में रखा गया था, शोधकर्ताओं ने पेपर लार्ज लैंग्वेज मॉडल से प्रशिक्षण डेटा निकालना में पहली बार पेश की गई प्रॉम्प्टिंग तकनीकों का उपयोग किया, और बाद में बाद के काम लैंग्वेज मॉडल से प्रशिक्षण डेटा निकालने के लिए ट्रिक्स का बैग में अनुकूलित किया गया।

विधि सीधी है: एक प्रश्न प्रस्तुत करें जो डेटासेट प्रारूप को दर्शाता है और देखें कि क्या मॉडल सही ढंग से उत्तर देता है। शून्य-शॉट, चेन-ऑफ-थॉट, और कुछ-शॉट प्रॉम्प्टिंग का परीक्षण किया गया था, और पाया गया कि最后 वाला तरीका, जिसमें मॉडल को कुछ उदाहरण दिखाए जाते हैं, सबसे प्रभावी था; भले ही अधिक विस्तृत दृष्टिकोण उच्च रिकॉल प्राप्त कर सकते हैं, इसे स्मृति को प्रकट करने के लिए पर्याप्त माना जाता था:

न्यूनतम संदर्भ के साथ प्रश्न के साथ मूवीलेंस-1एम मानों को पुनर्प्राप्त करने के लिए उपयोग किया जाने वाला कुछ-शॉट प्रॉम्प्ट।

स्मृति को मापने के लिए, शोधकर्ताओं ने तीन रूपों की रिकॉल को परिभाषित किया: आइटम, उपयोगकर्ता, और इंटरैक्शन। इन परीक्षणों ने यह देखा कि क्या एक मॉडल एक फिल्म के आईडी से इसका शीर्षक पुनर्प्राप्त कर सकता है, एक उपयोगकर्ता आईडी से उपयोगकर्ता विवरण उत्पन्न कर सकता है, या पहले के अनुक्रम से एक उपयोगकर्ता की अगली रेटिंग का अनुमान लगा सकता है। प्रत्येक को एक कवरेज मेट्रिक का उपयोग करके स्कोर किया गया था जो यह दर्शाता था कि डेटासेट का कितना हिस्सा प्रॉम्प्टिंग के माध्यम से पुनर्निर्मित किया जा सकता है।

परीक्षण किए गए मॉडल थे जीपीटी-4ओ; जीपीटी-4ओ मिनी; जीपीटी-3.5 टर्बो; लामा-3.3 70बी; लामा-3.2 3बी; लामा-3.2 1बी; लामा-3.1 405बी; लामा-3.1 70बी; और लामा-3.1 8बी। सभी को तापमान शून्य पर सेट किया गया था, टॉप_पी एक पर सेट किया गया था, और दोनों आवृत्ति और उपस्थिति दंड अक्षम थे। एक निश्चित रैंडम सीड ने रनों में सुसंगत आउटपुट सुनिश्चित किया।

मूवीलेंस-1एम प्रविष्टियों का मूवीज़.डेट, यूज़र्स.डेट, और रेटिंग्स.डेट से पुनर्प्राप्त अनुपात, मॉडल को संस्करण द्वारा समूहीकृत किया गया और पैरामीटर गणना द्वारा क्रमबद्ध किया गया।

परीक्षणों के परिणाम, ऊपर दिखाए गए हैं, जीपीटी और लामा परिवारों के बीच तेजी से अंतर को दर्शाते हैं, लेकिन मॉडल के आकार के साथ भी। जबकि जीपीटी-4ओ और जीपीटी-3.5 टर्बो डेटासेट के बड़े हिस्से को आसानी से पुनर्प्राप्त करते हैं, अधिकांश ओपन-सोर्स मॉडल केवल एक अंश को याद करते हैं, जो सुझाव देता है कि प्रीट्रेनिंग में इस बेंचमार्क के संपर्क में असमान एक्सपोजर है।

यह छोटे मार्जिन नहीं हैं। तीनों फाइलों में, सबसे मजबूत मॉडल ने न केवल कमजोर मॉडलों को पीछे छोड़ दिया, बल्कि मूवीलेंस-1एम के पूरे हिस्से को याद किया।

जीपीटी-4ओ के मामले में, कवरेज इतना उच्च था कि यह सुझाव देता है कि डेटासेट का एक महत्वपूर्ण हिस्सा सीधे स्मृति में रखा गया था।

लेखकों का कहना है:

‘हमारे निष्कर्ष यह दर्शाते हैं कि एलएलएम मूवीलेंस-1एम डेटासेट का व्यापक ज्ञान रखते हैं, जिसमें आइटम, उपयोगकर्ता विशेषताएं, और इंटरैक्शन इतिहास शामिल हैं।

‘विशेष रूप से, एक सरल प्रॉम्प्ट जीपीटी-4ओ को मूवीलेंस-1एम डेटासेट में लगभग 80% मूवीआईडी::टाइटल रिकॉर्ड को पुनर्प्राप्त करने में सक्षम बनाता है।

इसके बाद, लेखकों ने सिफारिश कार्यों पर स्मृति के प्रभाव का परीक्षण करने के लिए प्रत्येक मॉडल को एक सिफारिश प्रणाली के रूप में कार्य करने के लिए प्रेरित किया। प्रदर्शन को बेंचमार्क करने के लिए, उन्होंने आउटपुट की तुलना सात मानक विधियों से की: यूज़रकेएनएन; आइटमकेएनएन; बीपीआरएमएफ; ईज़ेआर; लाइटजीसीएन; मोस्टपॉप; और रैंडम।

मूवीलेंस-1एम डेटासेट को 80/20 में विभाजित किया गया था प्रशिक्षण और परीक्षण सेट, एक लीव-वन-आउट नमूना रणनीति का उपयोग करके वास्तविक दुनिया के उपयोग का अनुकरण करने के लिए। उपयोग किए गए मेट्रिक्स थे हिट रेट (एचआर@[n]); और एनडीसीजी(@[n]):

मानक बेसलाइन और एलएलएम-आधारित तरीकों पर सिफारिश सटीकता। मॉडल को परिवार द्वारा समूहीकृत किया जाता है और पैरामीटर गणना द्वारा क्रमबद्ध किया जाता है, बोल्ड मान प्रत्येक समूह के भीतर उच्चतम स्कोर को इंगित करते हैं।

यहाँ कई बड़े भाषा मॉडल पारंपरिक बेसलाइन को सभी मेट्रिक्स में पार कर गए, जीपीटी-4ओ ने हर कॉलम में एक व्यापक बढ़त स्थापित की, और यहां तक कि मध्यम आकार के मॉडल जैसे जीपीटी-3.5 टर्बो और लामा-3.1 405बी ने बीपीआरएमएफ और लाइटजीसीएन जैसे बेंचमार्क तरीकों को निरंतर रूप से पार किया।

छोटे लामा वेरिएंट के बीच प्रदर्शन में तेजी से उतार-चढ़ाव हुआ, लेकिन लामा-3.2 3बी अपने समूह में उच्चतम एचआर@1 के साथ खड़ा है।

परिणाम, लेखकों का सुझाव है, यह दर्शाते हैं कि स्मृति किए गए डेटा का सिफारिश-शैली प्रॉम्प्टिंग में मापनीय लाभ में अनुवाद हो सकता है, विशेष रूप से सबसे मजबूत मॉडल के लिए।

एक अतिरिक्त अवलोकन में, शोधकर्ता जारी रखते हैं:

‘हालांकि सिफारिश प्रदर्शन उत्कृष्ट लगता है, तालिका 2 की तुलना तालिका 1 से एक दिलचस्प पैटर्न का खुलासा करती है। प्रत्येक समूह के भीतर, स्मृति में उच्च मॉडल सिफारिश कार्य में भी बेहतर प्रदर्शन प्रदर्शित करता है।

‘उदाहरण के लिए, जीपीटी-4ओ जीपीटी-4ओ मिनी से बेहतर प्रदर्शन करता है, और लामा-3.1 405बी लामा-3.1 70बी और 8बी से बेहतर प्रदर्शन करता है।

‘इन परिणामों से यह पता चलता है कि यदि एलएलएम का मूल्यांकन उनके प्रशिक्षण डेटा में रिसाव वाले डेटासेट पर किया जाता है, तो यह स्मृति के बजाय सामान्यीकरण के कारण अतिरंजित प्रदर्शन का कारण बन सकता है।’

मॉडल के पैमाने और इस मुद्दे के बीच संबंध के संबंध में, लेखकों ने स्मृति, सिफारिश प्रदर्शन और मॉडल के आकार के बीच एक स्पष्ट संबंध देखा。

लामा-3.1 405बी, उदाहरण के लिए, ने मूवीलेंस-1एम डेटासेट की 12.9% की स्मृति दर दिखाई, जबकि लामा-3.1 8बी ने केवल 5.82% को याद रखा। यह लगभग 55% की स्मृति में कमी नीडीसीजी और एचआर में 47.36% की गिरावट के साथ मेल खाती थी, मूल्यांकन कट-ऑफ के साथ।

पैटर्न पूरे में बना रहा – जहां स्मृति कम हुई, वहीं स्पष्ट प्रदर्शन भी कम हो गया:

‘इन निष्कर्षों से पता चलता है कि मॉडल के पैमाने में वृद्धि डेटासेट की स्मृति में वृद्धि की ओर ले जाती है, जिससे प्रदर्शन में सुधार होता है।

‘परिणामस्वरूप, जबकि बड़े मॉडल बेहतर सिफारिश प्रदर्शन प्रदर्शित करते हैं, वे संभावित प्रशिक्षण डेटा रिसाव से जुड़े जोखिमों को भी प्रस्तुत करते हैं।’

अंतिम परीक्षण यह देखने के लिए किया गया था कि क्या स्मृति मूवीलेंस-1एम में लोकप्रियता पूर्वाग्रह को प्रतिबिंबित करती है। आइटम को बातचीत की आवृत्ति द्वारा समूहीकृत किया गया था, और नीचे दी गई चार्ट से पता चलता है कि बड़े मॉडल लगातार सबसे लोकप्रिय प्रविष्टियों को पसंद करते हैं:

मॉडल द्वारा तीन लोकप्रियता स्तरों में आइटम कवरेज: शीर्ष 20% सबसे लोकप्रिय; मध्य 20% मध्यम रूप से लोकप्रिय; और नीचे 20% कम से कम बातचीत वाले आइटम।

जीपीटी-4ओ ने शीर्ष रैंक वाले आइटमों में से 89.06% को पुनर्प्राप्त किया, लेकिन केवल 63.97% कम से कम इंटरैक्ट किए गए आइटम। जीपीटी-4ओ मिनी और छोटे लामा मॉडल ने सभी बैंड में बहुत कम कवरेज दिखाई। शोधकर्ताओं का कहना है कि यह प्रवृत्ति यह सुझाव देती है कि स्मृति न केवल मॉडल के आकार के साथ बढ़ती है, बल्कि प्रशिक्षण डेटा में पहले से मौजूद असमानताओं को भी बढ़ाती है।

वे जारी रखते हैं:

‘हमारे निष्कर्ष एलएलएम में एक प्रमुख लोकप्रियता पूर्वाग्रह का खुलासा करते हैं, जिसमें शीर्ष 20% लोकप्रिय आइटम कम से कम 20% की तुलना में काफी अधिक पुनर्प्राप्ति योग्य होते हैं।

‘यह प्रवृत्ति प्रशिक्षण डेटा वितरण के प्रभाव को उजागर करती है, जहां लोकप्रिय फिल्में अधिक प्रतिनिधित्व करती हैं, जिससे मॉडल द्वारा उनकी असमान स्मृति होती है।’

निष्कर्ष

यह दुविधा अब नए नहीं है: जैसे ही प्रशिक्षण सेट बढ़ते हैं, उनकी क्यूरेशन की संभावना इसके विपरीत अनुपात में कम हो जाती है। मूवीलेंस-1एम, शायद कई अन्य लोगों के बीच, इन विशाल निगमों में बिना निरीक्षण के प्रवेश करता है, जिसमें डेटा की मात्रा के बीच गुम हो जाता है।

समस्या प्रत्येक पैमाने पर दोहराई जाती है और स्वचालन का विरोध करती है। कोई भी समाधान प्रयास की मांग नहीं करता है, बल्कि मानव निर्णय की – वह धीमी, त्रुटिपूर्ण प्रकार जो मशीनें प्रदान नहीं कर सकती हैं। इस संबंध में, नई पत्र में कोई आगे का रास्ता नहीं है।

* इस संदर्भ में, कवरेज मेट्रिक एक प्रतिशत है जो दर्शाता है कि एक भाषा मॉडल मूल डेटासेट को पुनर्प्राप्त करने में सक्षम है जब उसे सही प्रकार का प्रश्न पूछा जाता है। यदि एक मॉडल को एक फिल्म का आईडी दिखाया जा सकता है और वह इसका शीर्षक और शैली उत्पन्न कर सकता है, तो यह एक सफल रिकॉल के रूप में गिना जाता है; डेटासेट में सफल रिकॉल की कुल संख्या को तब डेटासेट में प्रविष्टियों की कुल संख्या से विभाजित किया जाता है ताकि एक कवरेज स्कोर उत्पन्न किया जा सके। उदाहरण के लिए, यदि एक मॉडल 1,000 आइटम में से 800 के बारे में जानकारी सही ढंग से वापस कर देता है, तो इसका कवरेज 80 प्रतिशत होगा।

पहली बार शुक्रवार, 16 मई, 2025 को प्रकाशित

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai