рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдПрдХ рдкреНрд░рднрд╛рд╡рд╢рд╛рд▓реА рдбреЗрдЯрд╛рд╕реЗрдЯ рдХрд╛рд░реНрдЯреЗрд▓ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдЕрдиреБрд╕рдВрдзрд╛рди рдХреЛ рдирд┐рдпрдВрддреНрд░рд┐рдд рдХрд░ рд░рд╣рд╛ рд╣реИ, рдПрдХ рдирдП рдЕрдзреНрдпрдпрди рд╕реЗ рдкрддрд╛ рдЪрд▓рддрд╛ рд╣реИ

कैलिफोर्निया विश्वविद्यालय और गूगल रिसर्च से एक नए शोध पत्र में पाया गया है कि ‘बेंचमार्क’ मशीन लर्निंग डेटासेट की एक छोटी संख्या, ज्यादातर प्रभावशाली पश्चिमी संस्थानों से, और अक्सर सरकारी संगठनों से, एआई अनुसंधान क्षेत्र को बढ़ते रूप से नियंत्रित कर रहे हैं।
शोधकर्ताओं का निष्कर्ष है कि उच्च प्रभाव वाले खुले स्रोत डेटासेट, जैसे कि ImageNet, के प्रति ‘डिफ़ॉल्ट’ करने की यह प्रवृत्ति व्यावहारिक, नैतिक और यहां तक कि राजनीतिक चिंताओं के लिए कई कारण प्रस्तुत करती है।
उनके निष्कर्षों में – फेसबुक के नेतृत्व वाली सामुदायिक परियोजना पेपर्स विद कोड (पीडब्ल्यूसी) से मुख्य डेटा पर आधारित – लेखकों का तर्क है कि ‘व्यापक रूप से उपयोग किए जाने वाले डेटासेट को केवल कुछ शीर्ष संस्थानों द्वारा पेश किया जाता है’, और यह ‘एकीकरण’ हाल के वर्षों में 80% तक बढ़ गया है।
‘[हम] पाते हैं कि डेटासेट उपयोग में वैश्विक स्तर पर बढ़ती असमानता है, और हमारे 43,140 के नमूने में डेटासेट उपयोग के 50% से अधिक डेटासेट द्वारा परिचित किए गए हैं जो बारह शीर्ष, मुख्य रूप से पश्चिमी, संस्थानों द्वारा पेश किए गए हैं।’

पिछले दस वर्षों में गैर-टास्क विशिष्ट डेटासेट उपयोगों का एक मानचित्र। मानदंड यह है कि जहां संस्थान या कंपनी ज्ञात उपयोगों के 50% से अधिक के लिए जिम्मेदार है। दाईं ओर संस्थानों और डेटासेट के लिए एकत्रीकरण के लिए जिनी गुणांक दिखाया गया है। स्रोत: https://arxiv.org/pdf/2112.01716.pdf
प्रमुख संस्थानों में स्टैनफोर्ड विश्वविद्यालय, माइक्रोसॉफ्ट, प्रिंसटन, फेसबुक, गूगल, मैक्स प्लैंक संस्थान और एटी एंड टी शामिल हैं। शीर्ष दस डेटासेट स्रोतों में से चार कॉर्पोरेट संस्थान हैं।
इस पत्र में यह भी बताया गया है कि इन शीर्ष डेटासेट का बढ़ता उपयोग ‘विज्ञान में असमानता का एक साधन’ है। यह इसलिए है क्योंकि समुदाय की मान्यता प्राप्त करने के लिए शोध टीमें एक सुसंगत डेटासेट के खिलाफ राज्य-ऑफ-द-आर्ट (एसओटीए) परिणाम प्राप्त करने के लिए अधिक प्रेरित होती हैं niż मूल डेटासेट उत्पन्न करने के लिए जो कोई ऐसी स्थिति नहीं रखते हैं और जिसके लिए मानक सूचकांकों के बजाय नए मेट्रिक्स के लिए पीयर्स को अनुकूलन करने की आवश्यकता होगी।
किसी भी मामले में, जैसा कि पत्र स्वीकार करता है, अपना डेटासेट बनाना कम संसाधन वाले संस्थानों और टीमों के लिए एक निषिद्ध रूप से महंगा पीछा है।
‘प्राथमिक वैज्ञानिक मान्यता जो एसओटीए बेंचमार्किंग द्वारा दी जाती है, सामाजिक विश्वसनीयता से जुड़ी हुई है जो शोधकर्ता यह दिखाकर प्राप्त करते हैं कि वे एक व्यापक रूप से मान्यता प्राप्त डेटासेट पर प्रतिस्पर्धा कर सकते हैं, भले ही एक अधिक संदर्भ-विशिष्ट बेंचमार्क अधिक तकनीकी रूप से उपयुक्त हो। ‘
‘हम तर्क देते हैं कि ये गतिविधियां एक “मैथ्यू प्रभाव” (अर्थात “अमीर लोग अमीर होते जाते हैं और गरीब लोग गरीब होते जाते हैं”) बनाती हैं जहां सफल बेंचमार्क, और जो शीर्ष संस्थान उन्हें पेश करते हैं, क्षेत्र में असमान्य स्थिति प्राप्त करते हैं। ‘
पत्र पत्र का शीर्षक मशीन लर्निंग अनुसंधान में एक डेटासेट का जीवन: कम, पुनः उपयोग और पुनर्नवीनीकरण है, और यह यूसीएलए से बर्नार्ड कोच और जैकब जी फोस्टर, और गूगल रिसर्च से एमिली डेंटन और एलेक्स हन्ना से आया है।
इस कार्य ने एकत्रीकरण की बढ़ती प्रवृत्ति के साथ कई मुद्दों को उठाया है जिसे यह दस्तावेज करता है, और इसे ओपन रिव्यू में सामान्य अनुमोदन के साथ मिला है। न्यूरिप्स 2021 के एक समीक्षक ने टिप्पणी की कि यह कार्य ‘मशीन लर्निंग अनुसंधान में शामिल किसी के लिए भी अत्यधिक प्रासंगिक है।’‘ और इसके विश्वविद्यालय पाठ्यक्रमों में निर्धारित पठन के रूप में इसके समावेश की भविष्यवाणी की।
आवश्यकता से भ्रष्टाचार तक
लेखकों का उल्लेख है कि वर्तमान ‘बेंचमार्क-को-हराने’ की संस्कृति एआई में रुचि और निवेश को दूसरी बार गिरने के बाद तीस साल से अधिक समय पहले एक उपाय के रूप में उभरी, जब ‘एक्सपर्ट सिस्टम’ में नए शोध के प्रति व्यावसायिक उत्साह में गिरावट आई थी।
‘बेंचमार्क आमतौर पर एक विशिष्ट कार्य को एक डेटासेट और एक संबंधित मूल्यांकन मेट्रिक के माध्यम से औपचारिक करते हैं। यह अभ्यास मूल रूप से 1980 के दशक में ‘एआई शीतकाल’ के बाद मशीन लर्निंग अनुसंधान में सरकारी प्रायोजकों द्वारा पेश किया गया था, जो अनुदान पर प्राप्त मूल्य का अधिक सटीक रूप से मूल्यांकन करना चाहते थे। ‘
पत्र तर्क देता है कि इस अनौपचारिक मानकीकरण संस्कृति के प्रारंभिक लाभ (भागीदारी के लिए बाधाओं को कम करना, सुसंगत मेट्रिक्स और अधिक लचीले विकास के अवसर) अब उन नुकसानों से अधिक होने लगे हैं जो तब होते हैं जब कोई डेटा इतना शक्तिशाली हो जाता है कि यह अपने ‘उपयोग की शर्तों’ और प्रभाव के दायरे को प्रभावी ढंग से परिभाषित कर सकता है।
लेखकों का सुझाव है, हाल के उद्योग और अकादमिक विचारों के साथ, कि शोध समुदाय नवीन समस्याएं नहीं रखता है यदि वे मौजूदा बेंचमार्क डेटासेट के माध्यम से संबोधित नहीं किए जा सकते हैं।
वे यह भी बताते हैं कि इस छोटे संख्या में ‘गोल्ड’ डेटासेट के प्रति अंधी प्रतिबद्धता शोधकर्ताओं को ऐसे परिणाम प्राप्त करने के लिए प्रेरित करती है जो अत्यधिक फिट होते हैं (अर्थात जो डेटासेट-विशिष्ट होते हैं और वास्तविक दुनिया के डेटा, नए अकादमिक या मूल डेटासेट पर, या यहां तक कि अनिवार्य रूप से अन्य डेटासेट पर भी उतना अच्छा प्रदर्शन नहीं करेंगे)।
‘दिए गए डेटासेट के उपयोग पर हमारे अवलोकन से पता चलता है कि हम मानते हैं कि मूल्यांकन के रूपों को विविधता देना विशेष रूप से महत्वपूर्ण है ताकि मौजूदा डेटासेट के लिए ओवरफिटिंग से बचा जा सके और क्षेत्र में प्रगति को गलत तरीके से प्रस्तुत न किया जा सके। ‘
कंप्यूटर विजन अनुसंधान में सरकारी प्रभाव
पत्र के अनुसार, कंप्यूटर विजन अनुसंधान इस सिंड्रोम से अन्य क्षेत्रों की तुलना में अधिक प्रभावित है, जिसमें लेखकों का उल्लेख है कि प्राकृतिक भाषा प्रसंस्करण (एनएलपी) अनुसंधान कम प्रभावित है। लेखकों का सुझाव है कि यह इसलिए हो सकता है क्योंकि एनएलपी समुदाय ‘अधिक सुसंगत‘ और बड़े आकार के हैं, और क्योंकि एनएलपी डेटासेट अधिक सुलभ और आसानी से क्यूरेट किए जा सकते हैं, साथ ही साथ डेटा संग्रह में छोटे और कम संसाधन-गहन हैं।
कंप्यूटर विजन में, और विशेष रूप से चेहरे की पहचान (एफआर) डेटासेट के संबंध में, लेखकों का तर्क है कि कॉर्पोरेट, राज्य और निजी हित अक्सर टकराते हैं:
‘कॉर्पोरेट और सरकारी संस्थानों के उद्देश्य गोपनीयता (जैसे कि निगरानी) के साथ संघर्ष में आ सकते हैं, और उनके प्राथमिकताओं का वजन अकादमिक या एआई के व्यापक सामाजिक हितधारकों द्वारा आयोजित किए जाने वाले लोगों से अलग होने की संभावना है। ‘
चेहरे की पहचान कार्यों के लिए, शोधकर्ताओं ने पाया कि शुद्ध रूप से अकादमिक डेटासेट की घटना औसत के खिलाफ तेजी से गिरती है:
‘[चार] डेटासेट (33.69% कुल उपयोग) को विशेष रूप से निगमों, संयुक्त राज्य सैन्य, या चीनी सरकार (एमएस-सेलिब्रिटी-1एम, सासिया-वेबफेस, आईजेबी-ए, वीजीजेफेस 2) द्वारा वित्त पोषित किया गया था। एमएस-सेलिब्रिटी-1एम को अंततः विभिन्न हितधारकों के लिए गोपनीयता के मूल्य के बारे में विवाद के कारण वापस ले लिया गया था। ‘
इस ग्राफ में, जैसा कि लेखकों ने उल्लेख किया है, हम यह भी देखते हैं कि इमेज जेनरेशन (या इमेज सिंथेसिस) के क्षेत्र, जो अपेक्षाकृत हाल का है, मौजूदा पुराने डेटासेट पर बहुत अधिक निर्भर है जो इस उपयोग के लिए नहीं बनाए गए थे।
वास्तव में, पत्र यह观察 करता है कि डेटासेट का एक बढ़ता हुआ रुझान उनके इरादे के उद्देश्य से ‘प्रवास’ कर रहा है, जो उनकी फिटनेस के बारे में प्रश्न उठाता है और नए या बाहरी अनुसंधान क्षेत्रों की जरूरतों के लिए, और यह भी कि बजटीय प्रतिबंध शोधकर्ताओं की महत्वाकांक्षाओं को संकीर्ण फ्रेम में कैसे सीमित कर सकते हैं जो दोनों द्वारा प्रदान किया जाता है उपलब्ध सामग्री और एक संस्कृति द्वारा जो इतनी अधिक वर्ष-दर-वर्ष बेंचमार्क रेटिंग से इतनी अधिक चिंतित है कि मूल डेटासेट को गति प्राप्त करने में कठिनाई होती है।
‘हमारे निष्कर्ष यह भी बताते हैं कि डेटासेट नियमित रूप से विभिन्न कार्य समुदायों के बीच स्थानांतरित होते हैं। सबसे चरम मामले में, कुछ कार्य समुदायों के लिए परिचालित बेंचमार्क डेटासेट का अधिकांश भाग अन्य कार्यों के लिए बनाया गया था। ‘
मशीन लर्निंग के प्रतिष्ठित व्यक्तियों (包括 एंड्रू एनजी) के बारे में जो हाल के वर्षों में डेटासेट की विविधता और क्यूरेशन के लिए बढ़ते रूप से आह्वान कर रहे हैं, लेखक इस भावना का समर्थन करते हैं, लेकिन मानते हैं कि यह प्रयास, भले ही यह सफल हो, वर्तमान संस्कृति के एसओटीए-परिणामों और स्थापित डेटासेट पर निर्भरता से कमजोर हो सकता है:
‘हमारा शोध सुझाव देता है कि केवल यह कहना कि एमएल शोधकर्ताओं को अधिक डेटासेट विकसित करना चाहिए, और प्रोत्साहन संरचनाओं को बदलना चाहिए ताकि डेटासेट विकास मूल्यवान और पुरस्कृत हो, डेटासेट उपयोग और अंततः एमएलआर अनुसंधान एजेंडे को आकार देने वाले दृष्टिकोण को विविधता देने के लिए पर्याप्त नहीं हो सकता है। ‘
‘डेटासेट विकास को प्रोत्साहित करने के अलावा, हम समाज और सांस्कृतिक दृष्टिकोण से बेंचमार्क डेटासेट को विविधता देने के लिए नीति हस्तक्षेप की वकालत करते हैं जो कम संसाधन वाले संस्थानों में लोगों के लिए उच्च गुणवत्ता वाले डेटासेट बनाने के लिए महत्वपूर्ण धन प्रदान करते हैं। ‘
6 दिसंबर 2021, 4:49 बजे जीएमटी + 2 – शीर्षक में स्वामित्व की सुधारा। – एमए









