Connect with us

рд╡рд░реНрддрдорд╛рди рдПрдЖрдИ рдкреНрд░рдерд╛рдУрдВ рд╕реЗ рдирдП рдкреАрдврд╝реА рдХреЗ рдХреЙрдкреАрд░рд╛рдЗрдЯ рдЯреНрд░реЛрд▓реНрд╕ рдХреЛ рд╕рдХреНрд╖рдо рдХрд░рдирд╛ рд╕рдВрднрд╡ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ

рдиреИрддрд┐рдХрддрд╛

рд╡рд░реНрддрдорд╛рди рдПрдЖрдИ рдкреНрд░рдерд╛рдУрдВ рд╕реЗ рдирдП рдкреАрдврд╝реА рдХреЗ рдХреЙрдкреАрд░рд╛рдЗрдЯ рдЯреНрд░реЛрд▓реНрд╕ рдХреЛ рд╕рдХреНрд╖рдо рдХрд░рдирд╛ рд╕рдВрднрд╡ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ

mm

हुआवे और अकादमिक जगत के बीच एक नए शोध सहयोग से पता चलता है कि कृत्रिम बुद्धिमत्ता और मशीन लर्निंग में सबसे महत्वपूर्ण वर्तमान शोध का एक बड़ा हिस्सा मुकदमेबाजी के लिए खुला हो सकता है, जैसे ही यह व्यावसायिक रूप से प्रमुख हो जाता है, क्योंकि उन डेटासेट्स को जो सफलता के लिए संभव बनाते हैं, उन्हें अमान्य लाइसेंस के साथ वितरित किया जा रहा है जो मूल रूप से डेटा प्राप्त किए गए सार्वजनिक डोमेन की शर्तों का सम्मान नहीं करते हैं।

इसका प्रभाव यह है कि दो लगभग अपरिहार्य संभावित परिणाम हैं: जो बहुत सफल, व्यावसायिक एआई एल्गोरिदम ज्ञात हैं जो ऐसे डेटासेट्स का उपयोग करते हैं, वे भविष्य में अवसरवादी पेटेंट ट्रोल्स के लक्ष्य बन सकते हैं जिनके कॉपीराइट का सम्मान नहीं किया गया था जब उनका डेटा स्क्रैप किया गया था; और संगठन और व्यक्ति इन्हीं कानूनी कमजोरियों का उपयोग उन मशीन लर्निंग प्रौद्योगिकियों की तैनाती या प्रसार का विरोध करने के लिए कर सकते हैं जिन्हें वे आपत्तिजनक पाते हैं।

पेपर का शीर्षक क्या मैं व्यावसायिक एआई सॉफ्टवेयर बनाने के लिए इस सार्वजनिक रूप से उपलब्ध डेटासेट का उपयोग कर सकता हूं? सबसे अधिक संभावना नहीं है, और यह हुआवे कनाडा और हुआवे चीन, यूके में यॉर्क विश्वविद्यालय और कनाडा में विक्टोरिया विश्वविद्यालय के साथ एक सहयोग है।

छह में से पांच (लोकप्रिय) ओपन सोर्स डेटासेट कानूनी रूप से उपयोग योग्य नहीं

शोध के लिए, लेखकों ने हुआवे के विभागों से अनुरोध किया कि वे उन खुले स्रोत डेटासेट्स का चयन करें जिन्हें वे व्यावसायिक परियोजनाओं में शोषण करना चाहेंगे, और प्रतिक्रियाओं से छह सबसे अधिक मांग वाले डेटासेट्स का चयन किया: सीआईएफएआर-10 ( 80 मिलियन छोटी छवियों डेटासेट का एक उपसेट, जो ‘अपमानजनक शर्तों’ और ‘आपत्तिजनक छवियों’ के लिए वापस ले लिया गया है, हालांकि इसके व्युत्पन्न प्रसारित होते हैं); इमेजनेट; सिटीस्केप्स (जिसमें विशेष रूप से मूल सामग्री शामिल है); एफएफएचक्यू; वीजीजीफेस2, और एमएससीओसीओ.

इन चयनित डेटासेट्स की कानूनी उपयोगिता का विश्लेषण करने के लिए, लेखकों ने प्रत्येक सेट के लिए लाइसेंस की श्रृंखला को वापस करने के लिए एक नई पाइपलाइन विकसित की, हालांकि उन्हें अक्सर अब समाप्त हो चुके डोमेन से लाइसेंस का पता लगाने के लिए वेब आर्काइव कैप्चर पर निर्भर करना पड़ा और कुछ मामलों में उन्हें निकटतम उपलब्ध जानकारी से लाइसेंस स्थिति का ‘अनुमान’ लगाना पड़ा।

рд▓реЗрдЦрдХреЛрдВ рджреНрд╡рд╛рд░рд╛ рд╡рд┐рдХрд╕рд┐рдд рдкреНрд░реЛрд╡реЗрдиреЗрдВрд╕-рдЯреНрд░реЗрд╕рд┐рдВрдЧ рд╕рд┐рд╕реНрдЯрдо рдХреЗ рд▓рд┐рдП рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2111.02374.pdf

लेखकों द्वारा विकसित प्रोवेनेंस-ट्रेसिंग सिस्टम के लिए आर्किटेक्चर। स्रोत: https://arxiv.org/pdf/2111.02374.pdf

लेखकों ने पाया कि छह में से पांच डेटासेट्स के लाइसेंस ‘कम से कम एक व्यावसायिक उपयोग संदर्भ में जोखिम से जुड़े हैं’:

‘[हम] देखते हैं कि एमएस सीओसीओ को छोड़कर, कोई भी अध्ययन किए गए लाइसेंस व्यावसायिक उपयोग के संदर्भ में डेटा पर प्रशिक्षित एआई मॉडल को व्यावसायिक बनाने या यहां तक कि प्रशिक्षित एआई मॉडल के आउटपुट का अधिकार नहीं देते हैं। ऐसा परिणाम व्यावसायिक रूप से उपयोग किए जाने वाले पूर्व-प्रशिक्षित मॉडलों का भी उपयोग करने से प्रतिबंधित करता है। सार्वजनिक रूप से उपलब्ध डेटासेट और उन पर पूर्व-प्रशिक्षित एआई मॉडल व्यावसायिक रूप से व्यापक रूप से उपयोग किए जा रहे हैं।’

लेखकों ने आगे उल्लेख किया कि छह में से तीन अध्ययन किए गए डेटासेट्स व्यावसायिक उत्पादों में लाइसेंस उल्लंघन का परिणाम भी दे सकते हैं यदि डेटासेट को संशोधित किया जाता है, क्योंकि केवल एमएस-सीओसीओ ही ऐसा करने की अनुमति देता है। फिर भी, डेटा वृद्धि और प्रभावशाली डेटासेट्स के उपसेट और अधिशेष सामान्य अभ्यास हैं।

सीआईएफएआर-10 के मामले में, मूल संकलकों ने किसी भी पारंपरिक लाइसेंस का कोई रूप नहीं बनाया, केवल यह आवश्यकता है कि डेटासेट का उपयोग करने वाली परियोजनाओं में मूल पेपर का हवाला दिया जाए जो डेटासेट की रिलीज के साथ आया था, जो डेटा की कानूनी स्थिति को स्थापित करने में एक और बाधा प्रस्तुत करता है।

इसके अलावा, केवल सिटीस्केप्स डेटासेट में मूल रूप से उत्पन्न सामग्री शामिल है, न कि नेटवर्क स्रोतों से ‘संकलित’ (स्क्रैप की गई), सीआईएफएआर-10 और इमेजनेट का उपयोग कई स्रोतों के साथ करते हैं, जिनमें से प्रत्येक की जांच और ट्रेस बैक करने की आवश्यकता होगी ताकि किसी भी प्रकार के कॉपीराइट तंत्र (या यहां तक कि एक अर्थपूर्ण अस्वीकरण) को स्थापित किया जा सके।

कोई रास्ता नहीं

व्यावसायिक एआई कंपनियां ऐसा प्रतीत होता है कि वे तीन कारकों पर निर्भर हैं जो उन्हें लिटिगेशन से बचाने के लिए लगता है जो कि कॉपीराइट सामग्री का उपयोग करते हुए उत्पादों के आसपास होता है, जो डेटासेट्स से मुक्त और बिना अनुमति के प्रशिक्षित एआई एल्गोरिदम का उपयोग करते हैं। इनमें से कोई भी विश्वसनीय दीर्घकालिक सुरक्षा प्रदान नहीं करता है:

1: लैसेज़ फेयर नेशनल लॉ
हालांकि दुनिया भर की सरकारें डेटा-स्क्रैपिंग के आसपास के कानूनों को आराम देने के लिए मजबूर हैं ताकि वे प्रदर्शनकारी एआई (जो वास्तविक दुनिया के डेटा पर निर्भर करता है जिसके लिए नियमित कॉपीराइट अनुपालन और लाइसेंसिंग अवास्तविक होगा) की दौड़ में पिछड़ने से बच सकें, केवल संयुक्त राज्य अमेरिका फेयर यूज़ डॉक्ट्रिन के तहत पूर्ण प्रतिरक्षा प्रदान करता है – एक नीति जो 2015 में निष्कर्ष के साथ अनुमोदित की गई थी। ऑथर्स गिल्ड वी। गूगल, इंक., जिसने पुष्टि की कि खोज दिग्गज को अपनी गूगल बुक्स परियोजना के लिए कॉपीराइट सामग्री को मुक्त रूप से उपयोग करने की अनुमति थी बिना उल्लंघन का आरोप लगाए।

यदि फेयर यूज़ डॉक्ट्रिन नीति कभी बदल जाती है (अर्थात् एक और महत्वपूर्ण मामले के जवाब में जिसमें पर्याप्त शक्तिशाली संगठन या निगम शामिल हैं), तो यह संभवतः वर्तमान कॉपीराइट-उल्लंघनकारी डेटाबेस का शोषण करने के लिए एक प्राथमिक राज्य माना जाएगा; लेकिन चालू उपयोग और सिस्टम के विकास के लिए नहीं जो कि अनुमति के बिना कॉपीराइट सामग्री द्वारा सक्षम किए गए थे।

यह फेयर यूज़ डॉक्ट्रिन की वर्तमान सुरक्षा को बहुत अस्थायी आधार पर रखता है, और संभावित रूप से उस स्थिति में, आवश्यकता हो सकती है कि स्थापित, व्यावसायिक एआई एल्गोरिदम को बंद कर दिया जाए जो कि कॉपीराइट सामग्री द्वारा सक्षम किए गए थे – यहां तक कि उन मामलों में जहां मॉडल के वजन अब केवल अनुमत सामग्री से संबंधित हैं, लेकिन अवैध रूप से कॉपी की गई सामग्री पर प्रशिक्षित किए गए थे।

संयुक्त राज्य अमेरिका के बाहर, जैसा कि लेखक नए पेपर में उल्लेख करते हैं, नीतियां आम तौर पर कम सहनशील हैं। यूके और कनाडा केवल गैर-व्यावसायिक उद्देश्यों के लिए कॉपीराइट डेटा के उपयोग को प्रतिरक्षित करते हैं, जबकि यूरोपीय संघ का टेक्स्ट एंड डेटा माइनिंग लॉ (जिसे हाल के प्रस्तावों द्वारा पूरी तरह से ओवरराइड नहीं किया गया है) व्यावसायिक शोषण को भी बाहर करता है एआई प्रणालियों के लिए जो मूल डेटा की कॉपीराइट आवश्यकताओं का पालन नहीं करती हैं।

इन последी व्यवस्थाओं का अर्थ है कि एक संगठन दूसरों के डेटा का उपयोग करके बड़ी चीजें हासिल कर सकता है, लेकिन उस बिंदु तक नहीं जहां वह इसका मोनेटाइजेशन करना शुरू कर देता है। उस स्तर पर, उत्पाद या तो कानूनी रूप से उजागर हो जाएगा, या मूल डेटा के साथ जुड़े सैकड़ों कॉपीराइट धारकों के साथ व्यवस्था करने की आवश्यकता होगी, जिनमें से कई अब इंटरनेट की बदलती प्रकृति के कारण अनुसरण करने योग्य नहीं हैं – एक असंभव और महंगा परिदृश्य।

2: केवेट एम्प्टोर
उल्लंघन करने वाले संगठनों को दोष को स्थगित करने की उम्मीद में, नए पेपर में यह भी观察 किया गया है कि सबसे लोकप्रिय ओपन सोर्स डेटासेट्स के लाइसेंस स्वयं को किसी भी प्रकार के कॉपीराइट दुरुपयोग के दावों के खिलाफ स्वयं को मुक्त करते हैं:

‘उदाहरण के लिए, इमेजनेट का लाइसेंस व्यावहारिक रूप से प्रैक्टिशनर्स को डेटासेट के उपयोग से उत्पन्न होने वाले किसी भी दावे के खिलाफ इमेजनेट टीम को मुक्त करने की आवश्यकता है। एफएफएचक्यू, वीजीजीफेस2 और एमएस सीओसीओ डेटासेट्स की आवश्यकता है कि यदि डेटासेट वितरित या संशोधित किया जाता है, तो इसे समान लाइसेंस के तहत प्रस्तुत किया जाना चाहिए।’

प्रभावी रूप से, यह उन लोगों को मजबूर करता है जो फॉस डेटासेट्स का उपयोग करते हैं कि वे कॉपीराइट सामग्री के उपयोग के लिए दोष को अवशोषित करें, अंतिम लिटिगेशन (हालांकि यह मूल संकलकों को सुरक्षित नहीं करता है जहां वर्तमान ‘सुरक्षित बंदरगाह’ जलवायु समझौता है) का सामना करने पर।

3: अस्पष्टता के माध्यम से प्रतिरक्षा
मशीन लर्निंग समुदाय की सहयोगी प्रकृति यह सुनिश्चित करती है कि कॉर्पोरेट ऑक्कुल्टिज्म का उपयोग करके एल्गोरिदम की उपस्थिति को अस्पष्ट करना मुश्किल है जो कि कॉपीराइट-उल्लंघनकारी डेटासेट्स से लाभान्वित हुए हैं। दीर्घकालिक व्यावसायिक परियोजनाएं अक्सर खुले फॉस वातावरण में शुरू होती हैं जहां डेटासेट्स का उपयोग एक रिकॉर्ड का विषय है, जीएचबी और अन्य सार्वजनिक रूप से सुलभ मंचों पर, या जहां परियोजना की उत्पत्ति प्रिंट या पीयर-रिव्यूड पेपर्स में प्रकाशित की गई है।

यहां तक कि जहां ऐसा नहीं है, मॉडल इनवर्जन तेजी से सक्षम है डेटासेट्स की विशिष्ट विशेषताओं (या यहां तक कि स्पष्ट रूप से आउटपुटिंग कुछ स्रोत सामग्री) को प्रकट करने के लिए, या तो स्वयं में प्रमाण प्रदान करता है, या पर्याप्त संदेह प्रदान करता है उल्लंघन के लिए अदालत के आदेश द्वारा एल्गोरिदम के विकास के इतिहास और उपयोग किए गए डेटासेट्स के विवरण तक पहुंच प्राप्त करने के लिए।

निष्कर्ष

पेपर एक अनधिकृत अनुमति के बिना कॉपीराइट सामग्री के उपयोग की एक अराजक और अनौपचारिक प्रणाली को चित्रित करता है, और लाइसेंस श्रृंखला की एक श्रृंखला जो तार्किक रूप से डेटा के मूल स्रोत तक वापस लाई जा सकती है, जिसके लिए हजारों कॉपीराइट धारकों के साथ बातचीत करने की आवश्यकता होगी जिनका काम विभिन्न लाइसेंस शर्तों वाली साइटों के तहत प्रस्तुत किया गया था, जिनमें से कई व्युत्पन्न व्यावसायिक कार्यों को प्रतिबंधित करते हैं।

लेखक निष्कर्ष निकालते हैं:

‘सार्वजनिक रूप से उपलब्ध डेटासेट्स का उपयोग व्यावसायिक एआई सॉफ्टवेयर बनाने के लिए किया जा रहा है। एक ऐसा कर सकता है यदि और केवल यदि सार्वजनिक रूप से उपलब्ध डेटासेट से जुड़ा लाइसेंस ऐसा करने का अधिकार प्रदान करता है। हालांकि, सार्वजनिक रूप से उपलब्ध डेटासेट्स से जुड़े लाइसेंस में दिए गए अधिकारों और दायित्वों की पुष्टि करना आसान नहीं है। क्योंकि कभी-कभी लाइसेंस अस्पष्ट या संभावित रूप से अमान्य होता है।’

एक और नई कार्य, लीगल डेटासेट्स का निर्माण, 2 नवंबर को सिंगापुर मैनेजमेंट यूनिवर्सिटी के सेंटर फॉर कंप्यूटेशनल लॉ से जारी किया गया है, जो डेटा वैज्ञानिकों को यह पहचानने की आवश्यकता पर जोर देता है कि डेटा संग्रह के ‘वाइल्ड वेस्ट’ युग समाप्त हो रहा है, और हुआवे पेपर की सिफारिशों को दर्शाता है अधिक कठोर आदतों और विधियों को अपनाने के लिए ताकि डेटासेट उपयोग परियोजना को कानूनी परिणामों से नहीं बचाए, क्योंकि संस्कृति समय के साथ बदलती है और मशीन लर्निंग क्षेत्र में वर्तमान वैश्विक अकादमिक गतिविधि वर्षों के निवेश पर व्यावसायिक रिटर्न चाहती है। लेखक टिप्पणी करता है*:

‘[द] एमएल डेटासेट्स पर प्रभाव डालने वाले कानूनों का निगम बढ़ने वाला है, चिंताओं के बीच कि वर्तमान कानून पर्याप्त सुरक्षा प्रदान नहीं करते हैं। ड्राफ्ट एआईए [यूरोपीय संघ का कृत्रिम बुद्धिमत्ता अधिनियम], यदि और जब पारित किया जाता है, तो यह एआई और डेटा शासन परिदृश्य को महत्वपूर्ण रूप से बदल देगा; अन्य क्षेत्राधिकार अपने स्वयं के अधिनियमों के साथ इसका अनुसरण कर सकते हैं। ‘

 

* मेरा इनलाइन साइटेशन को हाइपरलिंक में परिवर्तन

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai

рд╡рд┐рдЬреНрдЮрд╛рдкрди рдкреНрд░рдХрдЯреАрдХрд░рдг: Unite.AI рд╕рдЯреАрдХ рдЬрд╛рдирдХрд╛рд░реА рдФрд░ рд╕рдорд╛рдЪрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрдареЛрд░ рд╕рдВрдкрд╛рджрдХреАрдп рдорд╛рдирдХреЛрдВ рдХреЗ рдкреНрд░рддрд┐ рдкреНрд░рддрд┐рдмрджреНрдз рд╣реИред рдЬрдм рдЖрдк рдЙрди рдЙрддреНрдкрд╛рджреЛрдВ рдХреЗ рд▓рд┐рдВрдХ рдкрд░ рдХреНрд▓рд┐рдХ рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдирдХреА рд╣рдордиреЗ рд╕рдореАрдХреНрд╖рд╛ рдХреА рд╣реИ, рддреЛ рд╣рдореЗрдВ рдореБрдЖрд╡рдЬрд╛ рдорд┐рд▓ рд╕рдХрддрд╛ рд╣реИред