Anderson рдХрд╛ рдПрдВрдЧрд▓

рд╡рд░реНрддрдорд╛рди рдПрдЖрдИ рдкреНрд░рдерд╛рдПрдВ рдПрдХ рдирдП рдкреАрдврд╝реА рдХреЗ рдХреЙрдкреАрд░рд╛рдЗрдЯ рдЯреНрд░реЛрд▓реНрд╕ рдХреЛ рд╕рдХреНрд╖рдо рдХрд░ рд╕рдХрддреА рд╣реИрдВ

mm

हुआवे और अकादमिक जगत के बीच एक नए शोध सहयोग से पता चलता है कि कृत्रिम बुद्धिमत्ता और मशीन लर्निंग में वर्तमान में सबसे महत्वपूर्ण अनुसंधान का एक बड़ा हिस्सा व्यावसायिक रूप से प्रमुख होने के तुरंत बाद मुकदमेबाजी के लिए खुला हो सकता है, क्योंकि उन्हें संभव बनाने वाले डेटासेट सार्वजनिक डोमेन से प्राप्त डेटा की मूल शर्तों का सम्मान नहीं करते हुए अमान्य लाइसेंस के साथ वितरित किए जा रहे हैं।

वास्तव में, इसके दो लगभग अनिवार्य संभावित परिणाम हैं: जो बहुत सफल, व्यावसायिक एआई अल्गोरिदम ज्ञात हैं जिन्होंने ऐसे डेटासेट का उपयोग किया है, वे भविष्य में अवसरवादी पेटेंट ट्रोल्स के लक्ष्य बन सकते हैं जिनके कॉपीराइट का सम्मान नहीं किया गया था जब उनका डेटा स्क्रैप किया गया था; और संगठन और व्यक्ति इन्हीं कानूनी कमजोरियों का उपयोग मशीन लर्निंग प्रौद्योगिकियों के तैनाती या प्रसार का विरोध करने के लिए कर सकते हैं जिन्हें वे आपत्तिजनक मानते हैं।

इस कागज़ का शीर्षक क्या मैं व्यावसायिक एआई सॉफ़्टवेयर बनाने के लिए सार्वजनिक रूप से उपलब्ध डेटासेट का उपयोग कर सकता हूँ? सबसे अधिक संभावना नहीं है, और यह हुआवे कनाडा और हुआवे चीन, साथ ही यॉर्क विश्वविद्यालय यूके और विक्टोरिया विश्वविद्यालय कनाडा के बीच एक सहयोग है।

पांच में से छह (लोकप्रिय) ओपन सोर्स डेटासेट कानूनी रूप से उपयोग योग्य नहीं

अनुसंधान के लिए, लेखकों ने विभागों से हुआवे में उन लोकप्रिय ओपन सोर्स डेटासेट का चयन करने के लिए कहा जिन्हें वे व्यावसायिक परियोजनाओं में शोषण करना चाहेंगे, और प्रतिक्रियाओं से छह सबसे अधिक अनुरोधित डेटासेट चुने: सीआईएफएआर-10 ( 80 मिलियन छोटी छवियों डेटासेट का एक उपसेट, जो ‘अपमानजनक शब्दों’ और ‘अपमानजनक छवियों’ के लिए वापस ले लिया गया था, हालांकि इसके व्युत्पन्न प्रसारित होते रहते हैं); इमेजनेट; सिटीस्केप्स (जिसमें मूल रूप से उत्पन्न सामग्री शामिल है); एफएफएचक्यू; वीजीएफेस2, और एमएससीओसीओ.

चयनित डेटासेट की कानूनी उपयोगिता का विश्लेषण करने के लिए, लेखकों ने प्रत्येक सेट के लिए लाइसेंस की श्रृंखला को वापस करने के लिए एक नई पाइपलाइन विकसित की, हालांकि उन्हें अक्सर वेब आर्काइव कैप्चर में लाइसेंस का पता लगाने के लिए मजबूर होना पड़ा जो अब समाप्त हो चुके डोमेन से, और कुछ मामलों में उन्हें निकटतम उपलब्ध जानकारी से लाइसेंस की स्थिति का ‘अनुमान’ लगाना पड़ा।

рд▓реЗрдЦрдХреЛрдВ рджреНрд╡рд╛рд░рд╛ рд╡рд┐рдХрд╕рд┐рдд рдкреНрд░реЛрд╡реЗрдиреЗрдВрд╕-рдЯреНрд░реЗрд╕рд┐рдВрдЧ рд╕рд┐рд╕реНрдЯрдо рдХреЗ рд▓рд┐рдП рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2111.02374.pdf

लेखकों द्वारा विकसित प्रोवेनेंस-ट्रेसिंग सिस्टम के लिए आर्किटेक्चर। स्रोत: https://arxiv.org/pdf/2111.02374.pdf

लेखकों ने पाया कि छह डेटासेट में से पांच के लाइसेंस ‘कम से कम एक व्यावसायिक उपयोग संदर्भ में जोखिम से जुड़े हैं’:

‘[हम] देखते हैं कि एमएस कोको को छोड़कर, अध्ययन किए गए लाइसेंस किसी भी अभ्यासी को डेटा पर प्रशिक्षित एआई मॉडल को व्यावसायिक बनाने या यहां तक कि प्रशिक्षित एआई मॉडल के आउटपुट का उपयोग करने का अधिकार नहीं देते हैं। ऐसा परिणाम वास्तव में उन्हें इन डेटासेट पर पूर्व-प्रशिक्षित मॉडल का भी उपयोग करने से रोकता है। सार्वजनिक रूप से उपलब्ध डेटासेट और उन पर पूर्व-प्रशिक्षित एआई मॉडल व्यावसायिक रूप से व्यापक रूप से उपयोग किए जा रहे हैं।’ *

लेखकों ने आगे उल्लेख किया कि छह अध्ययन किए गए डेटासेट में से तीन व्यावसायिक उत्पादों में लाइसेंस उल्लंघन का परिणाम भी दे सकते हैं यदि डेटासेट संशोधित किया जाता है, क्योंकि केवल एमएस-सीओसीओ में संशोधन की अनुमति देता है। हालांकि डेटा ऑगमेंटेशन और प्रभावशाली डेटासेट के उपसेट और सुपरसेट एक सामान्य अभ्यास हैं।

सीआईएफएआर-10 के मामले में, मूल संकलकों ने किसी भी पारंपरिक लाइसेंस का निर्माण नहीं किया, केवल यह आवश्यकता है कि परियोजनाएं जो डेटासेट का उपयोग करती हैं मूल पेपर का हवाला दें जो डेटासेट की रिलीज़ के साथ आया था, जो डेटा की कानूनी स्थिति को स्थापित करने में एक और बाधा प्रस्तुत करता है।

इसके अलावा, केवल सिटीस्केप्स डेटासेट में मूल रूप से उत्पन्न सामग्री शामिल है, न कि नेटवर्क स्रोतों से ‘संकलित’ (स्क्रैप की गई) सामग्री, जबकि सीआईएफएआर-10 और इमेजनेट कई स्रोतों का उपयोग करते हैं, जिनमें से प्रत्येक को कॉपीराइट तंत्र (या यहां तक कि एक अर्थपूर्ण अस्वीकरण) स्थापित करने के लिए जांचा और वापस जाना होगा।

कोई रास्ता नहीं

व्यावसायिक एआई कंपनियां कॉपीराइट सामग्री का उपयोग करके प्रशिक्षित एआई अल्गोरिदम वाले उत्पादों के आसपास मुकदमेबाजी से बचने के लिए तीन कारकों पर निर्भर लगती हैं। इनमें से कोई भी भरोसेमंद दीर्घकालिक सुरक्षा प्रदान नहीं करता है:

1: लैसेज़ फ़ेयर नेशनल लॉ
हालांकि दुनिया भर की सरकारें डेटा-स्क्रैपिंग के आसपास कानूनों को आराम देने के लिए मजबूर हैं ताकि वे प्रदर्शनकारी एआई (जो वास्तविक दुनिया के डेटा की बड़ी मात्रा पर निर्भर करता है, जिसके लिए नियमित कॉपीराइट अनुपालन और लाइसेंसिंग अवास्तविक होगा) की दौड़ में पिछड़ने से बच सकें, केवल संयुक्त राज्य अमेरिका में फेयर यूज़ डॉक्ट्रिन के तहत पूर्ण प्रतिरक्षा प्रदान करता है – एक नीति जो 2015 में अथॉर्स गिल्ड वी. गूगल, इंक. के निष्कर्ष के साथ अनुमोदित की गई थी, जिसने पुष्टि की कि खोज दिग्गज अपने गूगल बुक्स परियोजना के लिए कॉपीराइट सामग्री को मुफ्त में निगल सकता है बिना उल्लंघन का आरोप लगाए।

यदि फेयर यूज़ डॉक्ट्रिन नीति कभी भी बदलती है (यानी, एक और महत्वपूर्ण मामले के जवाब में जिसमें पर्याप्त शक्तिशाली संगठन या निगम शामिल हैं), तो यह संभवतः एक अप्रिय राज्य माना जाएगा वर्तमान कॉपीराइट-उल्लंघन डेटाबेस का शोषण करने के संबंध में; लेकिन चालू उपयोग और उन प्रणालियों के विकास की सुरक्षा नहीं करेगा जो कॉपीराइट सामग्री के बिना अनुमति के साथ सक्षम हुए थे।

यह फेयर यूज़ डॉक्ट्रिन की वर्तमान सुरक्षा को बहुत अस्थायी आधार पर रखता है, और संभावित रूप से उस स्थिति में आवश्यक बना सकता है कि स्थापित, व्यावसायिक एआई अल्गोरिदम को बंद करना होगा जो कॉपीराइट सामग्री द्वारा सक्षम किए गए थे – यहां तक कि उन मामलों में जहां मॉडल के वज़न अब केवल अनुमत सामग्री से संबंधित हैं, लेकिन अवैध रूप से कॉपी की गई सामग्री पर प्रशिक्षित किए गए थे।

संयुक्त राज्य अमेरिका के बाहर, जैसा कि लेखक नए कागज़ में उल्लेख करते हैं, नीतियां आम तौर पर कम उदार हैं। यूके और कनाडा केवल गैर-व्यावसायिक उद्देश्यों के लिए कॉपीराइट डेटा के उपयोग को प्रतिरक्षित करते हैं, जबकि यूरोपीय संघ का टेक्स्ट और डेटा माइनिंग लॉ (जिसे हाल के प्रस्तावों द्वारा पूरी तरह से ओवरराइड नहीं किया गया है एआई के लिए अधिक औपचारिक नियमन) भी एआई प्रणालियों के लिए व्यावसायिक शोषण को बाहर करता है जो मूल डेटा की कॉपीराइट आवश्यकताओं का अनुपालन नहीं करती हैं।

इन व्यवस्थाओं का अर्थ है कि एक संगठन दूसरों के डेटा का उपयोग करके बहुत कुछ हासिल कर सकता है, लेकिन उस बिंदु तक नहीं जहां वे इसका मोनेटाइजेशन करना शुरू कर देते हैं। उस स्तर पर, उत्पाद या तो कानूनी रूप से उजागर हो जाएगा, या मूल डेटा के सैकड़ों कॉपीराइट धारकों के साथ व्यवस्था करनी होगी, जिनमें से कई अब इंटरनेट की बदलती प्रकृति के कारण अनुसरण करने योग्य नहीं हैं – एक असंभव और महंगा प्रस्ताव।

2: केवाट एम्प्टोर
उन मामलों में जहां उल्लंघन करने वाले संगठन दोष को स्थगित करने की उम्मीद करते हैं, नए कागज़ में यह भी观察 किया गया है कि सबसे लोकप्रिय ओपन सोर्स डेटासेट के लाइसेंस में से कई स्वयं को कॉपीराइट दुरुपयोग के किसी भी दावे के खिलाफ स्वयं को मुक्त करने की मांग करते हैं:

‘उदाहरण के लिए, इमेजनेट के लाइसेंस में यह आवश्यक है कि अभ्यासी इमेजनेट टीम को डेटासेट के उपयोग से उत्पन्न होने वाले किसी भी दावे के खिलाफ मुक्त करने के लिए बाध्य हों। एफएफएचक्यू, वीजीएफेस2 और एमएस कोको डेटासेट की आवश्यकता है कि यदि डेटासेट वितरित या संशोधित किया जाता है, तो इसे उसी लाइसेंस के तहत प्रस्तुत किया जाना चाहिए।’

प्रभावी रूप से, यह उन लोगों को मजबूर करता है जो फॉस डेटासेट का उपयोग करते हैं कि वे कॉपीराइट सामग्री का उपयोग करने के लिए दोष को अवशोषित करें (हालांकि यह आवश्यक रूप से मूल संकलकों की सुरक्षा नहीं करता है जहां वर्तमान ‘सुरक्षित बंदरगाह’ जलवायु समझौता है)।

3: अस्पष्टता के माध्यम से प्रतिरक्षा
मशीन लर्निंग समुदाय की सहयोगी प्रकृति यह सुनिश्चित करती है कि कॉर्पोरेट गुप्तता का उपयोग उन अल्गोरिदम की उपस्थिति को छिपाने के लिए किया जा सके जिन्होंने कॉपीराइट-उल्लंघन डेटासेट से लाभान्वित किया है। दीर्घकालिक व्यावसायिक परियोजनाएं अक्सर खुले फॉस परिवेश में शुरू होती हैं जहां डेटासेट का उपयोग एक मामले की रिकॉर्ड है, जीएचबी और अन्य सार्वजनिक रूप से सुलभ मंचों पर, या जहां परियोजना के मूल को प्रिंट या पीयर-रिव्यूड पेपर्स में प्रकाशित किया गया है।

यहां तक कि जहां यह मामला नहीं है, मॉडल इनवर्जन तेजी से सक्षम है डेटासेट की विशिष्ट विशेषताओं (या यहां तक कि स्पष्ट रूप से कुछ स्रोत सामग्री को आउटपुट करने) को प्रकट करने के लिए, या तो स्वयं में प्रमाण प्रदान करना या कॉपीराइट उल्लंघन का संदेह पैदा करने के लिए पर्याप्त है ताकि न्यायालय-आदेशित पहुंच को अल्गोरिदम के विकास के इतिहास और उपयोग किए गए डेटासेट के विवरण तक अनुमति मिल सके।

निष्कर्ष

कागज़ एक अनधिकृत और अनियमित कॉपीराइट सामग्री के उपयोग की एक अराजक और अनियमित प्रणाली को चित्रित करता है, और लाइसेंस श्रृंखला की एक श्रृंखला जो तर्कसंगत रूप से मूल डेटा के स्रोत तक वापस ले जाने पर, हजारों कॉपीराइट धारकों के साथ बातचीत की आवश्यकता होगी जिनका काम विभिन्न लाइसेंस शर्तों के तहत प्रस्तुत किया गया था, जिनमें से कई व्युत्पन्न व्यावसायिक कार्यों को प्रतिबंधित करते हैं।

लेखक निष्कर्ष निकालते हैं:

‘सार्वजनिक रूप से उपलब्ध डेटासेट का उपयोग व्यावसायिक एआई सॉफ़्टवेयर बनाने के लिए किया जा रहा है। ऐसा करने के लिए एक ही शर्त है कि सार्वजनिक रूप से उपलब्ध डेटासेट से जुड़ा लाइसेंस ऐसा करने का अधिकार देता है। हालांकि, सार्वजनिक रूप से उपलब्ध डेटासेट से जुड़े लाइसेंस में दिए गए अधिकारों और दायित्वों की पुष्टि करना आसान नहीं है। क्योंकि कभी-कभी लाइसेंस अस्पष्ट या संभावित रूप से अमान्य होता है।’

एक नए काम, लीगल डेटासेट बनाना शीर्षक से, सिंगापुर मैनेजमेंट यूनिवर्सिटी के सेंटर फॉर कंप्यूटेशनल लॉ से 2 नवंबर को जारी किया गया, भी हुआवे के कागज़ की सिफारिशों को दोहराता है कि डेटा वैज्ञानिकों को यह पहचानने की आवश्यकता है कि डेटा के ‘वाइल्ड वेस्ट’ युग का अंत आ रहा है, और अधिक कठोर आदतों और विधियों को अपनाने की सिफारिश करता है ताकि यह सुनिश्चित किया जा सके कि डेटासेट का उपयोग कानूनी परिणामों के लिए परियोजना को उजागर नहीं करता है क्योंकि संस्कृति समय के साथ बदलती है और मशीन लर्निंग क्षेत्र में वर्तमान वैश्विक शैक्षणिक गतिविधि व्यावसायिक रूप से निवेश पर रिटर्न चाहती है। लेखक观察 करता है*:

‘[कॉर्पस ऑफ लेजिस्लेशन] एमएल डेटासेट को प्रभावित करने वाला कानूनी ढांचा बढ़ने वाला है, जो चिंताओं के बीच है कि वर्तमान कानून पर्याप्त सुरक्षा प्रदान नहीं करते हैं। ड्राफ्ट एआईए [ईयू आर्टिफ़िशियल इंटेलिजेंस एक्ट], यदि और जब पारित किया जाएगा, तो एआई और डेटा शासन के परिदृश्य को काफी बदल देगा; अन्य क्षेत्राधिकार अपने स्वयं के अधिनियमों के साथ इसका अनुसरण कर सकते हैं। ‘

 

* मेरा इनलाइन साइटेशन को हाइपरलिंक में बदलना

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai