рдиреИрддрд┐рдХрддрд╛
рд╡рд░реНрддрдорд╛рди рдПрдЖрдИ рдкреНрд░рдерд╛рдУрдВ рд╕реЗ рдирдП рдкреАрдврд╝реА рдХреЗ рдХреЙрдкреАрд░рд╛рдЗрдЯ рдЯреНрд░реЛрд▓реНрд╕ рдХреЛ рд╕рдХреНрд╖рдо рдХрд░рдирд╛ рд╕рдВрднрд╡ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ

हुआवे और अकादमिक जगत के बीच एक नए शोध सहयोग से पता चलता है कि कृत्रिम बुद्धिमत्ता और मशीन लर्निंग में सबसे महत्वपूर्ण वर्तमान शोध का एक बड़ा हिस्सा मुकदमेबाजी के लिए खुला हो सकता है, जैसे ही यह व्यावसायिक रूप से प्रमुख हो जाता है, क्योंकि उन डेटासेट्स को जो सफलता के लिए संभव बनाते हैं, उन्हें अमान्य लाइसेंस के साथ वितरित किया जा रहा है जो मूल रूप से डेटा प्राप्त किए गए सार्वजनिक डोमेन की शर्तों का सम्मान नहीं करते हैं।
इसका प्रभाव यह है कि दो लगभग अपरिहार्य संभावित परिणाम हैं: जो बहुत सफल, व्यावसायिक एआई एल्गोरिदम ज्ञात हैं जो ऐसे डेटासेट्स का उपयोग करते हैं, वे भविष्य में अवसरवादी पेटेंट ट्रोल्स के लक्ष्य बन सकते हैं जिनके कॉपीराइट का सम्मान नहीं किया गया था जब उनका डेटा स्क्रैप किया गया था; और संगठन और व्यक्ति इन्हीं कानूनी कमजोरियों का उपयोग उन मशीन लर्निंग प्रौद्योगिकियों की तैनाती या प्रसार का विरोध करने के लिए कर सकते हैं जिन्हें वे आपत्तिजनक पाते हैं।
पेपर का शीर्षक क्या मैं व्यावसायिक एआई सॉफ्टवेयर बनाने के लिए इस सार्वजनिक रूप से उपलब्ध डेटासेट का उपयोग कर सकता हूं? सबसे अधिक संभावना नहीं है, और यह हुआवे कनाडा और हुआवे चीन, यूके में यॉर्क विश्वविद्यालय और कनाडा में विक्टोरिया विश्वविद्यालय के साथ एक सहयोग है।
छह में से पांच (लोकप्रिय) ओपन सोर्स डेटासेट कानूनी रूप से उपयोग योग्य नहीं
शोध के लिए, लेखकों ने हुआवे के विभागों से अनुरोध किया कि वे उन खुले स्रोत डेटासेट्स का चयन करें जिन्हें वे व्यावसायिक परियोजनाओं में शोषण करना चाहेंगे, और प्रतिक्रियाओं से छह सबसे अधिक मांग वाले डेटासेट्स का चयन किया: सीआईएफएआर-10 ( 80 मिलियन छोटी छवियों डेटासेट का एक उपसेट, जो ‘अपमानजनक शर्तों’ और ‘आपत्तिजनक छवियों’ के लिए वापस ले लिया गया है, हालांकि इसके व्युत्पन्न प्रसारित होते हैं); इमेजनेट; सिटीस्केप्स (जिसमें विशेष रूप से मूल सामग्री शामिल है); एफएफएचक्यू; वीजीजीफेस2, और एमएससीओसीओ.
इन चयनित डेटासेट्स की कानूनी उपयोगिता का विश्लेषण करने के लिए, लेखकों ने प्रत्येक सेट के लिए लाइसेंस की श्रृंखला को वापस करने के लिए एक नई पाइपलाइन विकसित की, हालांकि उन्हें अक्सर अब समाप्त हो चुके डोमेन से लाइसेंस का पता लगाने के लिए वेब आर्काइव कैप्चर पर निर्भर करना पड़ा और कुछ मामलों में उन्हें निकटतम उपलब्ध जानकारी से लाइसेंस स्थिति का ‘अनुमान’ लगाना पड़ा।

लेखकों द्वारा विकसित प्रोवेनेंस-ट्रेसिंग सिस्टम के लिए आर्किटेक्चर। स्रोत: https://arxiv.org/pdf/2111.02374.pdf
लेखकों ने पाया कि छह में से पांच डेटासेट्स के लाइसेंस ‘कम से कम एक व्यावसायिक उपयोग संदर्भ में जोखिम से जुड़े हैं’:
‘[हम] देखते हैं कि एमएस सीओसीओ को छोड़कर, कोई भी अध्ययन किए गए लाइसेंस व्यावसायिक उपयोग के संदर्भ में डेटा पर प्रशिक्षित एआई मॉडल को व्यावसायिक बनाने या यहां तक कि प्रशिक्षित एआई मॉडल के आउटपुट का अधिकार नहीं देते हैं। ऐसा परिणाम व्यावसायिक रूप से उपयोग किए जाने वाले पूर्व-प्रशिक्षित मॉडलों का भी उपयोग करने से प्रतिबंधित करता है। सार्वजनिक रूप से उपलब्ध डेटासेट और उन पर पूर्व-प्रशिक्षित एआई मॉडल व्यावसायिक रूप से व्यापक रूप से उपयोग किए जा रहे हैं।’
लेखकों ने आगे उल्लेख किया कि छह में से तीन अध्ययन किए गए डेटासेट्स व्यावसायिक उत्पादों में लाइसेंस उल्लंघन का परिणाम भी दे सकते हैं यदि डेटासेट को संशोधित किया जाता है, क्योंकि केवल एमएस-सीओसीओ ही ऐसा करने की अनुमति देता है। फिर भी, डेटा वृद्धि और प्रभावशाली डेटासेट्स के उपसेट और अधिशेष सामान्य अभ्यास हैं।
सीआईएफएआर-10 के मामले में, मूल संकलकों ने किसी भी पारंपरिक लाइसेंस का कोई रूप नहीं बनाया, केवल यह आवश्यकता है कि डेटासेट का उपयोग करने वाली परियोजनाओं में मूल पेपर का हवाला दिया जाए जो डेटासेट की रिलीज के साथ आया था, जो डेटा की कानूनी स्थिति को स्थापित करने में एक और बाधा प्रस्तुत करता है।
इसके अलावा, केवल सिटीस्केप्स डेटासेट में मूल रूप से उत्पन्न सामग्री शामिल है, न कि नेटवर्क स्रोतों से ‘संकलित’ (स्क्रैप की गई), सीआईएफएआर-10 और इमेजनेट का उपयोग कई स्रोतों के साथ करते हैं, जिनमें से प्रत्येक की जांच और ट्रेस बैक करने की आवश्यकता होगी ताकि किसी भी प्रकार के कॉपीराइट तंत्र (या यहां तक कि एक अर्थपूर्ण अस्वीकरण) को स्थापित किया जा सके।
कोई रास्ता नहीं
व्यावसायिक एआई कंपनियां ऐसा प्रतीत होता है कि वे तीन कारकों पर निर्भर हैं जो उन्हें लिटिगेशन से बचाने के लिए लगता है जो कि कॉपीराइट सामग्री का उपयोग करते हुए उत्पादों के आसपास होता है, जो डेटासेट्स से मुक्त और बिना अनुमति के प्रशिक्षित एआई एल्गोरिदम का उपयोग करते हैं। इनमें से कोई भी विश्वसनीय दीर्घकालिक सुरक्षा प्रदान नहीं करता है:
1: लैसेज़ फेयर नेशनल लॉ
हालांकि दुनिया भर की सरकारें डेटा-स्क्रैपिंग के आसपास के कानूनों को आराम देने के लिए मजबूर हैं ताकि वे प्रदर्शनकारी एआई (जो वास्तविक दुनिया के डेटा पर निर्भर करता है जिसके लिए नियमित कॉपीराइट अनुपालन और लाइसेंसिंग अवास्तविक होगा) की दौड़ में पिछड़ने से बच सकें, केवल संयुक्त राज्य अमेरिका फेयर यूज़ डॉक्ट्रिन के तहत पूर्ण प्रतिरक्षा प्रदान करता है – एक नीति जो 2015 में निष्कर्ष के साथ अनुमोदित की गई थी। ऑथर्स गिल्ड वी। गूगल, इंक., जिसने पुष्टि की कि खोज दिग्गज को अपनी गूगल बुक्स परियोजना के लिए कॉपीराइट सामग्री को मुक्त रूप से उपयोग करने की अनुमति थी बिना उल्लंघन का आरोप लगाए।
यदि फेयर यूज़ डॉक्ट्रिन नीति कभी बदल जाती है (अर्थात् एक और महत्वपूर्ण मामले के जवाब में जिसमें पर्याप्त शक्तिशाली संगठन या निगम शामिल हैं), तो यह संभवतः वर्तमान कॉपीराइट-उल्लंघनकारी डेटाबेस का शोषण करने के लिए एक प्राथमिक राज्य माना जाएगा; लेकिन चालू उपयोग और सिस्टम के विकास के लिए नहीं जो कि अनुमति के बिना कॉपीराइट सामग्री द्वारा सक्षम किए गए थे।
यह फेयर यूज़ डॉक्ट्रिन की वर्तमान सुरक्षा को बहुत अस्थायी आधार पर रखता है, और संभावित रूप से उस स्थिति में, आवश्यकता हो सकती है कि स्थापित, व्यावसायिक एआई एल्गोरिदम को बंद कर दिया जाए जो कि कॉपीराइट सामग्री द्वारा सक्षम किए गए थे – यहां तक कि उन मामलों में जहां मॉडल के वजन अब केवल अनुमत सामग्री से संबंधित हैं, लेकिन अवैध रूप से कॉपी की गई सामग्री पर प्रशिक्षित किए गए थे।
संयुक्त राज्य अमेरिका के बाहर, जैसा कि लेखक नए पेपर में उल्लेख करते हैं, नीतियां आम तौर पर कम सहनशील हैं। यूके और कनाडा केवल गैर-व्यावसायिक उद्देश्यों के लिए कॉपीराइट डेटा के उपयोग को प्रतिरक्षित करते हैं, जबकि यूरोपीय संघ का टेक्स्ट एंड डेटा माइनिंग लॉ (जिसे हाल के प्रस्तावों द्वारा पूरी तरह से ओवरराइड नहीं किया गया है) व्यावसायिक शोषण को भी बाहर करता है एआई प्रणालियों के लिए जो मूल डेटा की कॉपीराइट आवश्यकताओं का पालन नहीं करती हैं।
इन последी व्यवस्थाओं का अर्थ है कि एक संगठन दूसरों के डेटा का उपयोग करके बड़ी चीजें हासिल कर सकता है, लेकिन उस बिंदु तक नहीं जहां वह इसका मोनेटाइजेशन करना शुरू कर देता है। उस स्तर पर, उत्पाद या तो कानूनी रूप से उजागर हो जाएगा, या मूल डेटा के साथ जुड़े सैकड़ों कॉपीराइट धारकों के साथ व्यवस्था करने की आवश्यकता होगी, जिनमें से कई अब इंटरनेट की बदलती प्रकृति के कारण अनुसरण करने योग्य नहीं हैं – एक असंभव और महंगा परिदृश्य।
2: केवेट एम्प्टोर
उल्लंघन करने वाले संगठनों को दोष को स्थगित करने की उम्मीद में, नए पेपर में यह भी观察 किया गया है कि सबसे लोकप्रिय ओपन सोर्स डेटासेट्स के लाइसेंस स्वयं को किसी भी प्रकार के कॉपीराइट दुरुपयोग के दावों के खिलाफ स्वयं को मुक्त करते हैं:
‘उदाहरण के लिए, इमेजनेट का लाइसेंस व्यावहारिक रूप से प्रैक्टिशनर्स को डेटासेट के उपयोग से उत्पन्न होने वाले किसी भी दावे के खिलाफ इमेजनेट टीम को मुक्त करने की आवश्यकता है। एफएफएचक्यू, वीजीजीफेस2 और एमएस सीओसीओ डेटासेट्स की आवश्यकता है कि यदि डेटासेट वितरित या संशोधित किया जाता है, तो इसे समान लाइसेंस के तहत प्रस्तुत किया जाना चाहिए।’
प्रभावी रूप से, यह उन लोगों को मजबूर करता है जो फॉस डेटासेट्स का उपयोग करते हैं कि वे कॉपीराइट सामग्री के उपयोग के लिए दोष को अवशोषित करें, अंतिम लिटिगेशन (हालांकि यह मूल संकलकों को सुरक्षित नहीं करता है जहां वर्तमान ‘सुरक्षित बंदरगाह’ जलवायु समझौता है) का सामना करने पर।
3: अस्पष्टता के माध्यम से प्रतिरक्षा
मशीन लर्निंग समुदाय की सहयोगी प्रकृति यह सुनिश्चित करती है कि कॉर्पोरेट ऑक्कुल्टिज्म का उपयोग करके एल्गोरिदम की उपस्थिति को अस्पष्ट करना मुश्किल है जो कि कॉपीराइट-उल्लंघनकारी डेटासेट्स से लाभान्वित हुए हैं। दीर्घकालिक व्यावसायिक परियोजनाएं अक्सर खुले फॉस वातावरण में शुरू होती हैं जहां डेटासेट्स का उपयोग एक रिकॉर्ड का विषय है, जीएचबी और अन्य सार्वजनिक रूप से सुलभ मंचों पर, या जहां परियोजना की उत्पत्ति प्रिंट या पीयर-रिव्यूड पेपर्स में प्रकाशित की गई है।
यहां तक कि जहां ऐसा नहीं है, मॉडल इनवर्जन तेजी से सक्षम है डेटासेट्स की विशिष्ट विशेषताओं (या यहां तक कि स्पष्ट रूप से आउटपुटिंग कुछ स्रोत सामग्री) को प्रकट करने के लिए, या तो स्वयं में प्रमाण प्रदान करता है, या पर्याप्त संदेह प्रदान करता है उल्लंघन के लिए अदालत के आदेश द्वारा एल्गोरिदम के विकास के इतिहास और उपयोग किए गए डेटासेट्स के विवरण तक पहुंच प्राप्त करने के लिए।
निष्कर्ष
पेपर एक अनधिकृत अनुमति के बिना कॉपीराइट सामग्री के उपयोग की एक अराजक और अनौपचारिक प्रणाली को चित्रित करता है, और लाइसेंस श्रृंखला की एक श्रृंखला जो तार्किक रूप से डेटा के मूल स्रोत तक वापस लाई जा सकती है, जिसके लिए हजारों कॉपीराइट धारकों के साथ बातचीत करने की आवश्यकता होगी जिनका काम विभिन्न लाइसेंस शर्तों वाली साइटों के तहत प्रस्तुत किया गया था, जिनमें से कई व्युत्पन्न व्यावसायिक कार्यों को प्रतिबंधित करते हैं।
लेखक निष्कर्ष निकालते हैं:
‘सार्वजनिक रूप से उपलब्ध डेटासेट्स का उपयोग व्यावसायिक एआई सॉफ्टवेयर बनाने के लिए किया जा रहा है। एक ऐसा कर सकता है यदि और केवल यदि सार्वजनिक रूप से उपलब्ध डेटासेट से जुड़ा लाइसेंस ऐसा करने का अधिकार प्रदान करता है। हालांकि, सार्वजनिक रूप से उपलब्ध डेटासेट्स से जुड़े लाइसेंस में दिए गए अधिकारों और दायित्वों की पुष्टि करना आसान नहीं है। क्योंकि कभी-कभी लाइसेंस अस्पष्ट या संभावित रूप से अमान्य होता है।’
एक और नई कार्य, लीगल डेटासेट्स का निर्माण, 2 नवंबर को सिंगापुर मैनेजमेंट यूनिवर्सिटी के सेंटर फॉर कंप्यूटेशनल लॉ से जारी किया गया है, जो डेटा वैज्ञानिकों को यह पहचानने की आवश्यकता पर जोर देता है कि डेटा संग्रह के ‘वाइल्ड वेस्ट’ युग समाप्त हो रहा है, और हुआवे पेपर की सिफारिशों को दर्शाता है अधिक कठोर आदतों और विधियों को अपनाने के लिए ताकि डेटासेट उपयोग परियोजना को कानूनी परिणामों से नहीं बचाए, क्योंकि संस्कृति समय के साथ बदलती है और मशीन लर्निंग क्षेत्र में वर्तमान वैश्विक अकादमिक गतिविधि वर्षों के निवेश पर व्यावसायिक रिटर्न चाहती है। लेखक टिप्पणी करता है*:
‘[द] एमएल डेटासेट्स पर प्रभाव डालने वाले कानूनों का निगम बढ़ने वाला है, चिंताओं के बीच कि वर्तमान कानून पर्याप्त सुरक्षा प्रदान नहीं करते हैं। ड्राफ्ट एआईए [यूरोपीय संघ का कृत्रिम बुद्धिमत्ता अधिनियम], यदि और जब पारित किया जाता है, तो यह एआई और डेटा शासन परिदृश्य को महत्वपूर्ण रूप से बदल देगा; अन्य क्षेत्राधिकार अपने स्वयं के अधिनियमों के साथ इसका अनुसरण कर सकते हैं। ‘
* मेरा इनलाइन साइटेशन को हाइपरलिंक में परिवर्तन












