कृत्रिम बुद्धिमत्ता

एक प्रभावशाली डेटासेट कार्टेल मशीन लर्निंग अनुसंधान को नियंत्रित कर रहा है, एक नए अध्ययन से पता चलता है

Published December 6, 2021

Updated April 28, 2026

Martin Anderson

कैलिफोर्निया विश्वविद्यालय और गूगल रिसर्च से एक नए शोध पत्र में पाया गया है कि ‘बेंचमार्क’ मशीन लर्निंग डेटासेट की एक छोटी संख्या, ज्यादातर प्रभावशाली पश्चिमी संस्थानों से, और अक्सर सरकारी संगठनों से, एआई अनुसंधान क्षेत्र को बढ़ते रूप से नियंत्रित कर रहे हैं।

शोधकर्ताओं का निष्कर्ष है कि उच्च प्रभाव वाले खुले स्रोत डेटासेट, जैसे कि ImageNet, के प्रति ‘डिफ़ॉल्ट’ करने की यह प्रवृत्ति व्यावहारिक, नैतिक और यहां तक कि राजनीतिक चिंताओं के लिए कई कारण प्रस्तुत करती है।

उनके निष्कर्षों में – फेसबुक के नेतृत्व वाली सामुदायिक परियोजना पेपर्स विद कोड (पीडब्ल्यूसी) से मुख्य डेटा पर आधारित – लेखकों का तर्क है कि ‘व्यापक रूप से उपयोग किए जाने वाले डेटासेट को केवल कुछ शीर्ष संस्थानों द्वारा पेश किया जाता है’, और यह ‘एकीकरण’ हाल के वर्षों में 80% तक बढ़ गया है।

‘[हम] पाते हैं कि डेटासेट उपयोग में वैश्विक स्तर पर बढ़ती असमानता है, और हमारे 43,140 के नमूने में डेटासेट उपयोग के 50% से अधिक डेटासेट द्वारा परिचित किए गए हैं जो बारह शीर्ष, मुख्य रूप से पश्चिमी, संस्थानों द्वारा पेश किए गए हैं।’

पिछले दस वर्षों में गैर-टास्क विशिष्ट डेटासेट उपयोगों का एक मानचित्र। मानदंड यह है कि जहां संस्थान या कंपनी ज्ञात उपयोगों के 50% से अधिक के लिए जिम्मेदार है। दाईं ओर संस्थानों और डेटासेट के लिए एकत्रीकरण के लिए जिनी गुणांक दिखाया गया है। स्रोत: https://arxiv.org/pdf/2112.01716.pdf

प्रमुख संस्थानों में स्टैनफोर्ड विश्वविद्यालय, माइक्रोसॉफ्ट, प्रिंसटन, फेसबुक, गूगल, मैक्स प्लैंक संस्थान और एटी एंड टी शामिल हैं। शीर्ष दस डेटासेट स्रोतों में से चार कॉर्पोरेट संस्थान हैं।

इस पत्र में यह भी बताया गया है कि इन शीर्ष डेटासेट का बढ़ता उपयोग ‘विज्ञान में असमानता का एक साधन’ है। यह इसलिए है क्योंकि समुदाय की मान्यता प्राप्त करने के लिए शोध टीमें एक सुसंगत डेटासेट के खिलाफ राज्य-ऑफ-द-आर्ट (एसओटीए) परिणाम प्राप्त करने के लिए अधिक प्रेरित होती हैं niż मूल डेटासेट उत्पन्न करने के लिए जो कोई ऐसी स्थिति नहीं रखते हैं और जिसके लिए मानक सूचकांकों के बजाय नए मेट्रिक्स के लिए पीयर्स को अनुकूलन करने की आवश्यकता होगी।

किसी भी मामले में, जैसा कि पत्र स्वीकार करता है, अपना डेटासेट बनाना कम संसाधन वाले संस्थानों और टीमों के लिए एक निषिद्ध रूप से महंगा पीछा है।

‘प्राथमिक वैज्ञानिक मान्यता जो एसओटीए बेंचमार्किंग द्वारा दी जाती है, सामाजिक विश्वसनीयता से जुड़ी हुई है जो शोधकर्ता यह दिखाकर प्राप्त करते हैं कि वे एक व्यापक रूप से मान्यता प्राप्त डेटासेट पर प्रतिस्पर्धा कर सकते हैं, भले ही एक अधिक संदर्भ-विशिष्ट बेंचमार्क अधिक तकनीकी रूप से उपयुक्त हो। ‘

‘हम तर्क देते हैं कि ये गतिविधियां एक “मैथ्यू प्रभाव” (अर्थात “अमीर लोग अमीर होते जाते हैं और गरीब लोग गरीब होते जाते हैं”) बनाती हैं जहां सफल बेंचमार्क, और जो शीर्ष संस्थान उन्हें पेश करते हैं, क्षेत्र में असमान्य स्थिति प्राप्त करते हैं। ‘

पत्र पत्र का शीर्षक मशीन लर्निंग अनुसंधान में एक डेटासेट का जीवन: कम, पुनः उपयोग और पुनर्नवीनीकरण है, और यह यूसीएलए से बर्नार्ड कोच और जैकब जी फोस्टर, और गूगल रिसर्च से एमिली डेंटन और एलेक्स हन्ना से आया है।

इस कार्य ने एकत्रीकरण की बढ़ती प्रवृत्ति के साथ कई मुद्दों को उठाया है जिसे यह दस्तावेज करता है, और इसे ओपन रिव्यू में सामान्य अनुमोदन के साथ मिला है। न्यूरिप्स 2021 के एक समीक्षक ने टिप्पणी की कि यह कार्य ‘मशीन लर्निंग अनुसंधान में शामिल किसी के लिए भी अत्यधिक प्रासंगिक है।’‘ और इसके विश्वविद्यालय पाठ्यक्रमों में निर्धारित पठन के रूप में इसके समावेश की भविष्यवाणी की।

आवश्यकता से भ्रष्टाचार तक

लेखकों का उल्लेख है कि वर्तमान ‘बेंचमार्क-को-हराने’ की संस्कृति एआई में रुचि और निवेश को दूसरी बार गिरने के बाद तीस साल से अधिक समय पहले एक उपाय के रूप में उभरी, जब ‘एक्सपर्ट सिस्टम’ में नए शोध के प्रति व्यावसायिक उत्साह में गिरावट आई थी।

‘बेंचमार्क आमतौर पर एक विशिष्ट कार्य को एक डेटासेट और एक संबंधित मूल्यांकन मेट्रिक के माध्यम से औपचारिक करते हैं। यह अभ्यास मूल रूप से 1980 के दशक में ‘एआई शीतकाल’ के बाद मशीन लर्निंग अनुसंधान में सरकारी प्रायोजकों द्वारा पेश किया गया था, जो अनुदान पर प्राप्त मूल्य का अधिक सटीक रूप से मूल्यांकन करना चाहते थे। ‘

पत्र तर्क देता है कि इस अनौपचारिक मानकीकरण संस्कृति के प्रारंभिक लाभ (भागीदारी के लिए बाधाओं को कम करना, सुसंगत मेट्रिक्स और अधिक लचीले विकास के अवसर) अब उन नुकसानों से अधिक होने लगे हैं जो तब होते हैं जब कोई डेटा इतना शक्तिशाली हो जाता है कि यह अपने ‘उपयोग की शर्तों’ और प्रभाव के दायरे को प्रभावी ढंग से परिभाषित कर सकता है।

लेखकों का सुझाव है, हाल के उद्योग और अकादमिक विचारों के साथ, कि शोध समुदाय नवीन समस्याएं नहीं रखता है यदि वे मौजूदा बेंचमार्क डेटासेट के माध्यम से संबोधित नहीं किए जा सकते हैं।

वे यह भी बताते हैं कि इस छोटे संख्या में ‘गोल्ड’ डेटासेट के प्रति अंधी प्रतिबद्धता शोधकर्ताओं को ऐसे परिणाम प्राप्त करने के लिए प्रेरित करती है जो अत्यधिक फिट होते हैं (अर्थात जो डेटासेट-विशिष्ट होते हैं और वास्तविक दुनिया के डेटा, नए अकादमिक या मूल डेटासेट पर, या यहां तक कि अनिवार्य रूप से अन्य डेटासेट पर भी उतना अच्छा प्रदर्शन नहीं करेंगे)।

‘दिए गए डेटासेट के उपयोग पर हमारे अवलोकन से पता चलता है कि हम मानते हैं कि मूल्यांकन के रूपों को विविधता देना विशेष रूप से महत्वपूर्ण है ताकि मौजूदा डेटासेट के लिए ओवरफिटिंग से बचा जा सके और क्षेत्र में प्रगति को गलत तरीके से प्रस्तुत न किया जा सके। ‘

कंप्यूटर विजन अनुसंधान में सरकारी प्रभाव

पत्र के अनुसार, कंप्यूटर विजन अनुसंधान इस सिंड्रोम से अन्य क्षेत्रों की तुलना में अधिक प्रभावित है, जिसमें लेखकों का उल्लेख है कि प्राकृतिक भाषा प्रसंस्करण (एनएलपी) अनुसंधान कम प्रभावित है। लेखकों का सुझाव है कि यह इसलिए हो सकता है क्योंकि एनएलपी समुदाय ‘अधिक सुसंगत‘ और बड़े आकार के हैं, और क्योंकि एनएलपी डेटासेट अधिक सुलभ और आसानी से क्यूरेट किए जा सकते हैं, साथ ही साथ डेटा संग्रह में छोटे और कम संसाधन-गहन हैं।

कंप्यूटर विजन में, और विशेष रूप से चेहरे की पहचान (एफआर) डेटासेट के संबंध में, लेखकों का तर्क है कि कॉर्पोरेट, राज्य और निजी हित अक्सर टकराते हैं:

‘कॉर्पोरेट और सरकारी संस्थानों के उद्देश्य गोपनीयता (जैसे कि निगरानी) के साथ संघर्ष में आ सकते हैं, और उनके प्राथमिकताओं का वजन अकादमिक या एआई के व्यापक सामाजिक हितधारकों द्वारा आयोजित किए जाने वाले लोगों से अलग होने की संभावना है। ‘

चेहरे की पहचान कार्यों के लिए, शोधकर्ताओं ने पाया कि शुद्ध रूप से अकादमिक डेटासेट की घटना औसत के खिलाफ तेजी से गिरती है:

‘[चार] डेटासेट (33.69% कुल उपयोग) को विशेष रूप से निगमों, संयुक्त राज्य सैन्य, या चीनी सरकार (एमएस-सेलिब्रिटी-1एम, सासिया-वेबफेस, आईजेबी-ए, वीजीजेफेस 2) द्वारा वित्त पोषित किया गया था। एमएस-सेलिब्रिटी-1एम को अंततः विभिन्न हितधारकों के लिए गोपनीयता के मूल्य के बारे में विवाद के कारण वापस ले लिया गया था। ‘

इमेज जेनरेशन और फेस रिकग्निशन अनुसंधान समुदायों में उपयोग किए जाने वाले शीर्ष डेटासेट।

इस ग्राफ में, जैसा कि लेखकों ने उल्लेख किया है, हम यह भी देखते हैं कि इमेज जेनरेशन (या इमेज सिंथेसिस) के क्षेत्र, जो अपेक्षाकृत हाल का है, मौजूदा पुराने डेटासेट पर बहुत अधिक निर्भर है जो इस उपयोग के लिए नहीं बनाए गए थे।

वास्तव में, पत्र यह观察 करता है कि डेटासेट का एक बढ़ता हुआ रुझान उनके इरादे के उद्देश्य से ‘प्रवास’ कर रहा है, जो उनकी फिटनेस के बारे में प्रश्न उठाता है और नए या बाहरी अनुसंधान क्षेत्रों की जरूरतों के लिए, और यह भी कि बजटीय प्रतिबंध शोधकर्ताओं की महत्वाकांक्षाओं को संकीर्ण फ्रेम में कैसे सीमित कर सकते हैं जो दोनों द्वारा प्रदान किया जाता है उपलब्ध सामग्री और एक संस्कृति द्वारा जो इतनी अधिक वर्ष-दर-वर्ष बेंचमार्क रेटिंग से इतनी अधिक चिंतित है कि मूल डेटासेट को गति प्राप्त करने में कठिनाई होती है।

‘हमारे निष्कर्ष यह भी बताते हैं कि डेटासेट नियमित रूप से विभिन्न कार्य समुदायों के बीच स्थानांतरित होते हैं। सबसे चरम मामले में, कुछ कार्य समुदायों के लिए परिचालित बेंचमार्क डेटासेट का अधिकांश भाग अन्य कार्यों के लिए बनाया गया था। ‘

मशीन लर्निंग के प्रतिष्ठित व्यक्तियों (包括 एंड्रू एनजी) के बारे में जो हाल के वर्षों में डेटासेट की विविधता और क्यूरेशन के लिए बढ़ते रूप से आह्वान कर रहे हैं, लेखक इस भावना का समर्थन करते हैं, लेकिन मानते हैं कि यह प्रयास, भले ही यह सफल हो, वर्तमान संस्कृति के एसओटीए-परिणामों और स्थापित डेटासेट पर निर्भरता से कमजोर हो सकता है:

‘हमारा शोध सुझाव देता है कि केवल यह कहना कि एमएल शोधकर्ताओं को अधिक डेटासेट विकसित करना चाहिए, और प्रोत्साहन संरचनाओं को बदलना चाहिए ताकि डेटासेट विकास मूल्यवान और पुरस्कृत हो, डेटासेट उपयोग और अंततः एमएलआर अनुसंधान एजेंडे को आकार देने वाले दृष्टिकोण को विविधता देने के लिए पर्याप्त नहीं हो सकता है। ‘

‘डेटासेट विकास को प्रोत्साहित करने के अलावा, हम समाज और सांस्कृतिक दृष्टिकोण से बेंचमार्क डेटासेट को विविधता देने के लिए नीति हस्तक्षेप की वकालत करते हैं जो कम संसाधन वाले संस्थानों में लोगों के लिए उच्च गुणवत्ता वाले डेटासेट बनाने के लिए महत्वपूर्ण धन प्रदान करते हैं। ‘

6 दिसंबर 2021, 4:49 बजे जीएमटी + 2 – शीर्षक में स्वामित्व की सुधारा। – एमए

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

एक प्रभावशाली डेटासेट कार्टेल मशीन लर्निंग अनुसंधान को नियंत्रित कर रहा है, एक नए अध्ययन से पता चलता है

आवश्यकता से भ्रष्टाचार तक

कंप्यूटर विजन अनुसंधान में सरकारी प्रभाव

You may like