Connect with us

рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рдбреЗрдЯрд╛рд╕реЗрдЯ рдХреЛ рдпрд╛рдж рдХрд░ рд░рд╣реЗ рд╣реИрдВ рдЬрд┐рдирдХрд╛ рдЙрдкрдпреЛрдЧ рдЙрдиреНрд╣реЗрдВ рдкрд░реАрдХреНрд╖рдг рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдП

Anderson рдХрд╛ рдПрдВрдЧрд▓

рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рдбреЗрдЯрд╛рд╕реЗрдЯ рдХреЛ рдпрд╛рдж рдХрд░ рд░рд╣реЗ рд╣реИрдВ рдЬрд┐рдирдХрд╛ рдЙрдкрдпреЛрдЧ рдЙрдиреНрд╣реЗрдВ рдкрд░реАрдХреНрд╖рдг рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдП

mm
'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

यदि आप यह देखने के लिए एआई पर निर्भर करते हैं कि आपको क्या देखना चाहिए, पढ़ना चाहिए या खरीदना चाहिए, तो नए शोध से पता चलता है कि कुछ सिस्टम इन परिणामों को स्मृति से आधारित कर सकते हैं, न कि कौशल से: सुझाव देने के लिए उपयोगी सुझाव देने के बजाय, मॉडल अक्सर उन आइटमों को याद करते हैं जो उनका मूल्यांकन करने के लिए उपयोग किए जाने वाले डेटासेट से हैं, जिससे प्रदर्शन का अतिरंजित अनुमान लगाया जा सकता है और सिफारिशें हो सकती हैं जो पुरानी हो सकती हैं या उपयोगकर्ता के लिए खराब मेल खा सकती हैं।

 

मशीन लर्निंग में, एक परीक्षण-विभाजन यह देखने के लिए उपयोग किया जाता है कि क्या एक प्रशिक्षित मॉडल ने समस्याओं को हल करना सीखा है जो समान हैं, लेकिन उस सामग्री से अलग है जिस पर यह प्रशिक्षित किया गया था।

तो यदि एक नया एआई ‘कुत्ते की नस्ल पहचान’ मॉडल 100,000 कुत्तों की तस्वीरों के डेटासेट पर प्रशिक्षित किया जाता है, तो यह आमतौर पर 80/20 विभाजन की सुविधा प्रदान करेगा – 80,000 तस्वीरें मॉडल को प्रशिक्षित करने के लिए प्रदान की जाती हैं; और 20,000 तस्वीरें वापस रखी जाती हैं और परीक्षण सामग्री के रूप में उपयोग की जाती हैं तैयार मॉडल का परीक्षण करने के लिए।

यह कहना स्पष्ट है कि यदि एआई के प्रशिक्षण डेटा में अनजाने में ‘गुप्त’ 20% खंड शामिल है, तो मॉडल इन परीक्षणों में उत्तीर्ण हो जाएगा, क्योंकि यह पहले से ही उत्तर जानता है (यह पहले से ही 100% डोमेन डेटा देख चुका है)। बिल्कुल, यह वास्तव में नहीं दर्शाता है कि मॉडल बाद में कैसा प्रदर्शन करेगा, नए ‘लाइव’ डेटा पर, एक उत्पादन संदर्भ में।

मूवी स्पॉइलर

एआई के अपने परीक्षणों में धोखा देने की समस्या मॉडल के पैमाने के साथ बढ़ी है। क्योंकि आज के सिस्टम विशाल, बिना भेदभाव के वेब-स्क्रैप्ड निगमों जैसे कॉमन क्रॉल पर प्रशिक्षित होते हैं, यह संभावना नहीं है कि बेंचमार्क डेटासेट (अर्थात, 20% वापस रखा हुआ) प्रशिक्षण मिश्रण में फिसल जाए, लेकिन डिफ़ॉल्ट – एक सिंड्रोम जिसे डेटा दूषण के रूप में जाना जाता है; और इस पैमाने पर, त्रुटियों को पकड़ने के लिए मैनुअल क्यूरेशन व्यावहारिक रूप से असंभव है।

यह मामला इटली के पोलिटेक्निको डी बारी से एक नए पत्र में अन्वेषित किया गया है, जहां शोधकर्ता एक फिल्म सिफारिश डेटासेट, मूवीलेंस-1एम की असामान्य भूमिका पर ध्यान केंद्रित करते हैं, जिसे वे तर्क देते हैं कि कई प्रमुख एआई मॉडल द्वारा प्रशिक्षण के दौरान आंशिक रूप से स्मृति किया गया है।

चूंकि यह विशेष डेटासेट सिफारिश प्रणालियों के परीक्षण में इतना व्यापक रूप से उपयोग किया जाता है, इसकी मॉडल की स्मृति में उपस्थिति संभावित रूप से उन परीक्षणों को अर्थहीन बना देती है: जो बुद्धिमत्ता के रूप में प्रकट हो सकता है वास्तव में साधारण रिकॉल हो सकता है, और जो सिफारिश कौशल की सहजता के रूप में दिखाई दे सकता है वह केवल एक सांख्यिकीय गूंज हो सकती है जो पहले के संपर्क को दर्शाती है।

लेखकों का कहना है:

‘हमारे निष्कर्ष यह दर्शाते हैं कि एलएलएम मूवीलेंस-1एम डेटासेट का व्यापक ज्ञान रखते हैं, जिसमें आइटम, उपयोगकर्ता विशेषताएं और इंटरैक्शन इतिहास शामिल हैं।

‘विशेष रूप से, एक सरल प्रॉम्प्ट जीपीटी-4ओ को डेटासेट में अधिकांश फिल्मों के नामों को पुनर्प्राप्त करने में सक्षम बनाता है।

‘परीक्षित किए गए मॉडलों में से कोई भी इस ज्ञान से मुक्त नहीं है, जो सुझाव देता है कि मूवीलेंस-1एम डेटा उनके प्रशिक्षण सेट में शामिल होने की संभावना है।

‘हमने उपयोगकर्ता विशेषताओं और इंटरैक्शन इतिहास को पुनर्प्राप्त करने में समान रुझानों का अवलोकन किया।’

शोधकर्ताओं ने अपना काम पुन: उत्पन्न करने के लिए गिटहब पर पाइपलाइन बनाई है।

विधि

यह समझने के लिए कि क्या मॉडल वास्तव में सीख रहे थे या बस याद कर रहे थे, शोधकर्ताओं ने इस संदर्भ में स्मृति का क्या अर्थ है, इसकी परिभाषा करनी शुरू की और मूवीलेंस-1एम डेटासेट से विशिष्ट जानकारी को पुनर्प्राप्त करने में मॉडल की क्षमता का परीक्षण करने के लिए।

यदि एक मॉडल को एक फिल्म का आईडी नंबर दिखाया जा सकता था और वह इसका शीर्षक और शैली उत्पन्न कर सकता था, तो यह एक आइटम को स्मृति में रखने के रूप में गिना जाता था; यदि यह एक उपयोगकर्ता के विवरण (जैसे आयु, व्यवसाय, या ज़िप कोड) को एक उपयोगकर्ता आईडी से उत्पन्न कर सकता था, तो यह भी उपयोगकर्ता स्मृति के रूप में गिना जाता था; और यदि यह एक ज्ञात अनुक्रम से एक उपयोगकर्ता की अगली फिल्म रेटिंग का उत्पादन कर सकता था, तो यह सामान्य पैटर्न सीखने के बजाय विशिष्ट इंटरैक्शन डेटा को याद रखने के प्रमाण के रूप में लिया जाता था।

इन प्रत्येक रिकॉल फॉर्म का परीक्षण सावधानी से लिखे गए प्रॉम्प्ट का उपयोग करके किया गया था, जो मॉडल को नई जानकारी दिए बिना इसे प्रेरित करने के लिए तैयार किए गए थे:

рдореВрд▓реНрдпрд╛рдВрдХрди рдкреНрд░реЛрдЯреЛрдХреЙрд▓ рдХреЗ рд▓рд┐рдП рд╢реВрдиреНрдп-рд╢реЙрдЯ рдкреНрд░реЙрдореНрдкреНрдЯрд┐рдВрдЧ рдЬреЛ рдирдП рдкрддреНрд░ рдореЗрдВ рдЙрдкрдпреЛрдЧ рдХреА рдЬрд╛рддреА рд╣реИред

मूल्यांकन प्रोटोकॉल के लिए शून्य-शॉट प्रॉम्प्टिंग जो नए पत्र में उपयोग की जाती है। स्रोत: https://arxiv.org/pdf/2505.10212

डेटा और परीक्षण

एक उपयुक्त डेटासेट क्यूरेट करने के लिए, लेखकों ने क्षेत्र की दो प्रमुख सम्मेलनों से हाल के पत्रों का सर्वेक्षण किया, एसीएम रेक्सिस 2024, और एसीएम सिगिर 2024। मूवीलेंस-1एम सबसे अधिक दिखाई दिया, जो लगभग एक पांचवें सबमिशन में उद्धृत किया गया था। चूंकि पिछले अध्ययनों ने समान निष्कर्षों पर पहुंचा था, यह एक आश्चर्यजनक परिणाम नहीं था, बल्कि डेटासेट के प्रभुत्व की पुष्टि थी।

मूवीलेंस-1एम में तीन फाइलें होती हैं: मूवीज़.डेट, जो मूवी को उनके आईडी, शीर्षक और शैली द्वारा सूचीबद्ध करती है; यूज़र्स.डेट, जो उपयोगकर्ता आईडी को मूल बायोग्राफिकल फील्ड्स से मैप करती है; और रेटिंग्स.डेट, जो रिकॉर्ड करती है कि किसने क्या रेट किया और कब।

यह देखने के लिए कि क्या यह डेटा बड़े भाषा मॉडल द्वारा स्मृति में रखा गया था, शोधकर्ताओं ने पेपर लार्ज लैंग्वेज मॉडल से प्रशिक्षण डेटा निकालना में पहली बार पेश की गई प्रॉम्प्टिंग तकनीकों का उपयोग किया, और बाद में बाद के काम लैंग्वेज मॉडल से प्रशिक्षण डेटा निकालने के लिए ट्रिक्स का बैग में अनुकूलित किया गया।

विधि सीधी है: एक प्रश्न प्रस्तुत करें जो डेटासेट प्रारूप को दर्शाता है और देखें कि क्या मॉडल सही ढंग से उत्तर देता है। शून्य-शॉट, चेन-ऑफ-थॉट, और कुछ-शॉट प्रॉम्प्टिंग का परीक्षण किया गया था, और पाया गया कि最后 वाला तरीका, जिसमें मॉडल को कुछ उदाहरण दिखाए जाते हैं, सबसे प्रभावी था; भले ही अधिक विस्तृत दृष्टिकोण उच्च रिकॉल प्राप्त कर सकते हैं, इसे स्मृति को प्रकट करने के लिए पर्याप्त माना जाता था:

рдиреНрдпреВрдирддрдо рд╕рдВрджрд░реНрдн рдХреЗ рд╕рд╛рде рдкреНрд░рд╢реНрди рдХреЗ рд╕рд╛рде рдореВрд╡реАрд▓реЗрдВрд╕-1рдПрдо рдорд╛рдиреЛрдВ рдХреЛ рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛рдиреЗ рд╡рд╛рд▓рд╛ рдХреБрдЫ-рд╢реЙрдЯ рдкреНрд░реЙрдореНрдкреНрдЯред

न्यूनतम संदर्भ के साथ प्रश्न के साथ मूवीलेंस-1एम मानों को पुनर्प्राप्त करने के लिए उपयोग किया जाने वाला कुछ-शॉट प्रॉम्प्ट।

स्मृति को मापने के लिए, शोधकर्ताओं ने तीन रूपों की रिकॉल को परिभाषित किया: आइटम, उपयोगकर्ता, और इंटरैक्शन। इन परीक्षणों ने यह देखा कि क्या एक मॉडल एक फिल्म के आईडी से इसका शीर्षक पुनर्प्राप्त कर सकता है, एक उपयोगकर्ता आईडी से उपयोगकर्ता विवरण उत्पन्न कर सकता है, या पहले के अनुक्रम से एक उपयोगकर्ता की अगली रेटिंग का अनुमान लगा सकता है। प्रत्येक को एक कवरेज मेट्रिक का उपयोग करके स्कोर किया गया था जो यह दर्शाता था कि डेटासेट का कितना हिस्सा प्रॉम्प्टिंग के माध्यम से पुनर्निर्मित किया जा सकता है।

परीक्षण किए गए मॉडल थे जीपीटी-4ओ; जीपीटी-4ओ मिनी; जीपीटी-3.5 टर्बो; लामा-3.3 70बी; लामा-3.2 3बी; लामा-3.2 1बी; लामा-3.1 405बी; लामा-3.1 70बी; और लामा-3.1 8बी। सभी को तापमान शून्य पर सेट किया गया था, टॉप_पी एक पर सेट किया गया था, और दोनों आवृत्ति और उपस्थिति दंड अक्षम थे। एक निश्चित रैंडम सीड ने रनों में सुसंगत आउटपुट सुनिश्चित किया।

рдореВрд╡реАрд▓реЗрдВрд╕-1рдПрдо рдкреНрд░рд╡рд┐рд╖реНрдЯрд┐рдпреЛрдВ рдХрд╛ рдореВрд╡реАрдЬрд╝.рдбреЗрдЯ, рдпреВрдЬрд╝рд░реНрд╕.рдбреЗрдЯ, рдФрд░ рд░реЗрдЯрд┐рдВрдЧреНрд╕.рдбреЗрдЯ рд╕реЗ рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрдд рдЕрдиреБрдкрд╛рдд, рдореЙрдбрд▓ рдХреЛ рд╕рдВрд╕реНрдХрд░рдг рджреНрд╡рд╛рд░рд╛ рд╕рдореВрд╣реАрдХреГрдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рдФрд░ рдкреИрд░рд╛рдореАрдЯрд░ рдЧрдгрдирд╛ рджреНрд╡рд╛рд░рд╛ рдХреНрд░рдордмрджреНрдз рдХрд┐рдпрд╛ рдЧрдпрд╛ред

मूवीलेंस-1एम प्रविष्टियों का मूवीज़.डेट, यूज़र्स.डेट, और रेटिंग्स.डेट से पुनर्प्राप्त अनुपात, मॉडल को संस्करण द्वारा समूहीकृत किया गया और पैरामीटर गणना द्वारा क्रमबद्ध किया गया।

परीक्षणों के परिणाम, ऊपर दिखाए गए हैं, जीपीटी और लामा परिवारों के बीच तेजी से अंतर को दर्शाते हैं, लेकिन मॉडल के आकार के साथ भी। जबकि जीपीटी-4ओ और जीपीटी-3.5 टर्बो डेटासेट के बड़े हिस्से को आसानी से पुनर्प्राप्त करते हैं, अधिकांश ओपन-सोर्स मॉडल केवल एक अंश को याद करते हैं, जो सुझाव देता है कि प्रीट्रेनिंग में इस बेंचमार्क के संपर्क में असमान एक्सपोजर है।

यह छोटे मार्जिन नहीं हैं। तीनों फाइलों में, सबसे मजबूत मॉडल ने न केवल कमजोर मॉडलों को पीछे छोड़ दिया, बल्कि मूवीलेंस-1एम के पूरे हिस्से को याद किया।

जीपीटी-4ओ के मामले में, कवरेज इतना उच्च था कि यह सुझाव देता है कि डेटासेट का एक महत्वपूर्ण हिस्सा सीधे स्मृति में रखा गया था।

लेखकों का कहना है:

‘हमारे निष्कर्ष यह दर्शाते हैं कि एलएलएम मूवीलेंस-1एम डेटासेट का व्यापक ज्ञान रखते हैं, जिसमें आइटम, उपयोगकर्ता विशेषताएं, और इंटरैक्शन इतिहास शामिल हैं।

‘विशेष रूप से, एक सरल प्रॉम्प्ट जीपीटी-4ओ को मूवीलेंस-1एम डेटासेट में लगभग 80% मूवीआईडी::टाइटल रिकॉर्ड को पुनर्प्राप्त करने में सक्षम बनाता है।

‘परीक्षित किए गए मॉडलों में से कोई भी इस ज्ञान से मुक्त नहीं है, जो सुझाव देता है कि मूवीलेंस-1एम डेटा उनके प्रशिक्षण सेट में शामिल होने की संभावना है।

‘हमने उपयोगकर्ता विशेषताओं और इंटरैक्शन इतिहास को पुनर्प्राप्त करने में समान रुझानों का अवलोकन किया।’

इसके बाद, लेखकों ने सिफारिश कार्यों पर स्मृति के प्रभाव का परीक्षण करने के लिए प्रत्येक मॉडल को एक सिफारिश प्रणाली के रूप में कार्य करने के लिए प्रेरित किया। प्रदर्शन को बेंचमार्क करने के लिए, उन्होंने आउटपुट की तुलना सात मानक विधियों से की: यूज़रकेएनएन; आइटमकेएनएन; बीपीआरएमएफ; ईज़ेआर; लाइटजीसीएन; मोस्टपॉप; और रैंडम।

मूवीलेंस-1एम डेटासेट को 80/20 में विभाजित किया गया था प्रशिक्षण और परीक्षण सेट, एक लीव-वन-आउट नमूना रणनीति का उपयोग करके वास्तविक दुनिया के उपयोग का अनुकरण करने के लिए। उपयोग किए गए मेट्रिक्स थे हिट रेट (एचआर@[n]); और एनडीसीजी(@[n]):

рдорд╛рдирдХ рдмреЗрд╕рд▓рд╛рдЗрди рдФрд░ рдПрд▓рдПрд▓рдПрдо-рдЖрдзрд╛рд░рд┐рдд рддрд░реАрдХреЛрдВ рдкрд░ рд╕рд┐рдлрд╛рд░рд┐рд╢ рд╕рдЯреАрдХрддрд╛ред рдореЙрдбрд▓ рдХреЛ рдкрд░рд┐рд╡рд╛рд░ рджреНрд╡рд╛рд░рд╛ рд╕рдореВрд╣реАрдХреГрдд рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рдФрд░ рдкреИрд░рд╛рдореАрдЯрд░ рдЧрдгрдирд╛ рджреНрд╡рд╛рд░рд╛ рдХреНрд░рдордмрджреНрдз рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдмреЛрд▓реНрдб рдорд╛рди рдкреНрд░рддреНрдпреЗрдХ рд╕рдореВрд╣ рдХреЗ рднреАрддрд░ рдЙрдЪреНрдЪрддрдо рд╕реНрдХреЛрд░ рдХреЛ рдЗрдВрдЧрд┐рдд рдХрд░рддреЗ рд╣реИрдВред

मानक बेसलाइन और एलएलएम-आधारित तरीकों पर सिफारिश सटीकता। मॉडल को परिवार द्वारा समूहीकृत किया जाता है और पैरामीटर गणना द्वारा क्रमबद्ध किया जाता है, बोल्ड मान प्रत्येक समूह के भीतर उच्चतम स्कोर को इंगित करते हैं।

यहाँ कई बड़े भाषा मॉडल पारंपरिक बेसलाइन को सभी मेट्रिक्स में पार कर गए, जीपीटी-4ओ ने हर कॉलम में एक व्यापक बढ़त स्थापित की, और यहां तक कि मध्यम आकार के मॉडल जैसे जीपीटी-3.5 टर्बो और लामा-3.1 405बी ने बीपीआरएमएफ और लाइटजीसीएन जैसे बेंचमार्क तरीकों को निरंतर रूप से पार किया।

छोटे लामा वेरिएंट के बीच प्रदर्शन में तेजी से उतार-चढ़ाव हुआ, लेकिन लामा-3.2 3बी अपने समूह में उच्चतम एचआर@1 के साथ खड़ा है।

परिणाम, लेखकों का सुझाव है, यह दर्शाते हैं कि स्मृति किए गए डेटा का सिफारिश-शैली प्रॉम्प्टिंग में मापनीय लाभ में अनुवाद हो सकता है, विशेष रूप से सबसे मजबूत मॉडल के लिए।

एक अतिरिक्त अवलोकन में, शोधकर्ता जारी रखते हैं:

‘हालांकि सिफारिश प्रदर्शन उत्कृष्ट लगता है, तालिका 2 की तुलना तालिका 1 से एक दिलचस्प पैटर्न का खुलासा करती है। प्रत्येक समूह के भीतर, स्मृति में उच्च मॉडल सिफारिश कार्य में भी बेहतर प्रदर्शन प्रदर्शित करता है।

‘उदाहरण के लिए, जीपीटी-4ओ जीपीटी-4ओ मिनी से बेहतर प्रदर्शन करता है, और लामा-3.1 405बी लामा-3.1 70बी और 8बी से बेहतर प्रदर्शन करता है।

‘इन परिणामों से यह पता चलता है कि यदि एलएलएम का मूल्यांकन उनके प्रशिक्षण डेटा में रिसाव वाले डेटासेट पर किया जाता है, तो यह स्मृति के बजाय सामान्यीकरण के कारण अतिरंजित प्रदर्शन का कारण बन सकता है।’

मॉडल के पैमाने और इस मुद्दे के बीच संबंध के संबंध में, लेखकों ने स्मृति, सिफारिश प्रदर्शन और मॉडल के आकार के बीच एक स्पष्ट संबंध देखा。

लामा-3.1 405बी, उदाहरण के लिए, ने मूवीलेंस-1एम डेटासेट की 12.9% की स्मृति दर दिखाई, जबकि लामा-3.1 8बी ने केवल 5.82% को याद रखा। यह लगभग 55% की स्मृति में कमी नीडीसीजी और एचआर में 47.36% की गिरावट के साथ मेल खाती थी, मूल्यांकन कट-ऑफ के साथ।

पैटर्न पूरे में बना रहा – जहां स्मृति कम हुई, वहीं स्पष्ट प्रदर्शन भी कम हो गया:

‘इन निष्कर्षों से पता चलता है कि मॉडल के पैमाने में वृद्धि डेटासेट की स्मृति में वृद्धि की ओर ले जाती है, जिससे प्रदर्शन में सुधार होता है।

‘परिणामस्वरूप, जबकि बड़े मॉडल बेहतर सिफारिश प्रदर्शन प्रदर्शित करते हैं, वे संभावित प्रशिक्षण डेटा रिसाव से जुड़े जोखिमों को भी प्रस्तुत करते हैं।’

अंतिम परीक्षण यह देखने के लिए किया गया था कि क्या स्मृति मूवीलेंस-1एम में लोकप्रियता पूर्वाग्रह को प्रतिबिंबित करती है। आइटम को बातचीत की आवृत्ति द्वारा समूहीकृत किया गया था, और नीचे दी गई चार्ट से पता चलता है कि बड़े मॉडल लगातार सबसे लोकप्रिय प्रविष्टियों को पसंद करते हैं:

рдореЙрдбрд▓ рджреНрд╡рд╛рд░рд╛ рддреАрди рд▓реЛрдХрдкреНрд░рд┐рдпрддрд╛ рд╕реНрддрд░реЛрдВ рдореЗрдВ рдЖрдЗрдЯрдо рдХрд╡рд░реЗрдЬ: рд╢реАрд░реНрд╖ 20% рд╕рдмрд╕реЗ рд▓реЛрдХрдкреНрд░рд┐рдп; рдордзреНрдп 20% рдордзреНрдпрдо рд░реВрдк рд╕реЗ рд▓реЛрдХрдкреНрд░рд┐рдп; рдФрд░ рдиреАрдЪреЗ 20% рдХрдо рд╕реЗ рдХрдо рдмрд╛рддрдЪреАрдд рд╡рд╛рд▓реЗ рдЖрдЗрдЯрдоред

मॉडल द्वारा तीन लोकप्रियता स्तरों में आइटम कवरेज: शीर्ष 20% सबसे लोकप्रिय; मध्य 20% मध्यम रूप से लोकप्रिय; और नीचे 20% कम से कम बातचीत वाले आइटम।

जीपीटी-4ओ ने शीर्ष रैंक वाले आइटमों में से 89.06% को पुनर्प्राप्त किया, लेकिन केवल 63.97% कम से कम इंटरैक्ट किए गए आइटम। जीपीटी-4ओ मिनी और छोटे लामा मॉडल ने सभी बैंड में बहुत कम कवरेज दिखाई। शोधकर्ताओं का कहना है कि यह प्रवृत्ति यह सुझाव देती है कि स्मृति न केवल मॉडल के आकार के साथ बढ़ती है, बल्कि प्रशिक्षण डेटा में पहले से मौजूद असमानताओं को भी बढ़ाती है।

वे जारी रखते हैं:

‘हमारे निष्कर्ष एलएलएम में एक प्रमुख लोकप्रियता पूर्वाग्रह का खुलासा करते हैं, जिसमें शीर्ष 20% लोकप्रिय आइटम कम से कम 20% की तुलना में काफी अधिक पुनर्प्राप्ति योग्य होते हैं।

‘यह प्रवृत्ति प्रशिक्षण डेटा वितरण के प्रभाव को उजागर करती है, जहां लोकप्रिय फिल्में अधिक प्रतिनिधित्व करती हैं, जिससे मॉडल द्वारा उनकी असमान स्मृति होती है।’

निष्कर्ष

यह दुविधा अब नए नहीं है: जैसे ही प्रशिक्षण सेट बढ़ते हैं, उनकी क्यूरेशन की संभावना इसके विपरीत अनुपात में कम हो जाती है। मूवीलेंस-1एम, शायद कई अन्य लोगों के बीच, इन विशाल निगमों में बिना निरीक्षण के प्रवेश करता है, जिसमें डेटा की मात्रा के बीच गुम हो जाता है।

समस्या प्रत्येक पैमाने पर दोहराई जाती है और स्वचालन का विरोध करती है। कोई भी समाधान प्रयास की मांग नहीं करता है, बल्कि मानव निर्णय की – वह धीमी, त्रुटिपूर्ण प्रकार जो मशीनें प्रदान नहीं कर सकती हैं। इस संबंध में, नई पत्र में कोई आगे का रास्ता नहीं है।

 

* इस संदर्भ में, कवरेज मेट्रिक एक प्रतिशत है जो दर्शाता है कि एक भाषा मॉडल मूल डेटासेट को पुनर्प्राप्त करने में सक्षम है जब उसे सही प्रकार का प्रश्न पूछा जाता है। यदि एक मॉडल को एक फिल्म का आईडी दिखाया जा सकता है और वह इसका शीर्षक और शैली उत्पन्न कर सकता है, तो यह एक सफल रिकॉल के रूप में गिना जाता है; डेटासेट में सफल रिकॉल की कुल संख्या को तब डेटासेट में प्रविष्टियों की कुल संख्या से विभाजित किया जाता है ताकि एक कवरेज स्कोर उत्पन्न किया जा सके। उदाहरण के लिए, यदि एक मॉडल 1,000 आइटम में से 800 के बारे में जानकारी सही ढंग से वापस कर देता है, तो इसका कवरेज 80 प्रतिशत होगा।

पहली बार शुक्रवार, 16 मई, 2025 को प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai