Anderson का एंगल

वर्तमान एआई प्रथाएं एक नए पीढ़ी के कॉपीराइट ट्रोल्स को सक्षम कर सकती हैं

प्रकाशित 5 नवंबर 2021

अपडेट किया गया 24 मई 2026

Martin Anderson

हुआवे और अकादमिक जगत के बीच एक नए शोध सहयोग से पता चलता है कि कृत्रिम बुद्धिमत्ता और मशीन लर्निंग में वर्तमान में सबसे महत्वपूर्ण अनुसंधान का एक बड़ा हिस्सा व्यावसायिक रूप से प्रमुख होने के तुरंत बाद मुकदमेबाजी के लिए खुला हो सकता है, क्योंकि उन्हें संभव बनाने वाले डेटासेट सार्वजनिक डोमेन से प्राप्त डेटा की मूल शर्तों का सम्मान नहीं करते हुए अमान्य लाइसेंस के साथ वितरित किए जा रहे हैं।

वास्तव में, इसके दो लगभग अनिवार्य संभावित परिणाम हैं: जो बहुत सफल, व्यावसायिक एआई अल्गोरिदम ज्ञात हैं जिन्होंने ऐसे डेटासेट का उपयोग किया है, वे भविष्य में अवसरवादी पेटेंट ट्रोल्स के लक्ष्य बन सकते हैं जिनके कॉपीराइट का सम्मान नहीं किया गया था जब उनका डेटा स्क्रैप किया गया था; और संगठन और व्यक्ति इन्हीं कानूनी कमजोरियों का उपयोग मशीन लर्निंग प्रौद्योगिकियों के तैनाती या प्रसार का विरोध करने के लिए कर सकते हैं जिन्हें वे आपत्तिजनक मानते हैं।

इस कागज़ का शीर्षक क्या मैं व्यावसायिक एआई सॉफ़्टवेयर बनाने के लिए सार्वजनिक रूप से उपलब्ध डेटासेट का उपयोग कर सकता हूँ? सबसे अधिक संभावना नहीं है, और यह हुआवे कनाडा और हुआवे चीन, साथ ही यॉर्क विश्वविद्यालय यूके और विक्टोरिया विश्वविद्यालय कनाडा के बीच एक सहयोग है।

पांच में से छह (लोकप्रिय) ओपन सोर्स डेटासेट कानूनी रूप से उपयोग योग्य नहीं

अनुसंधान के लिए, लेखकों ने विभागों से हुआवे में उन लोकप्रिय ओपन सोर्स डेटासेट का चयन करने के लिए कहा जिन्हें वे व्यावसायिक परियोजनाओं में शोषण करना चाहेंगे, और प्रतिक्रियाओं से छह सबसे अधिक अनुरोधित डेटासेट चुने: सीआईएफएआर-10 ( 80 मिलियन छोटी छवियों डेटासेट का एक उपसेट, जो ‘अपमानजनक शब्दों’ और ‘अपमानजनक छवियों’ के लिए वापस ले लिया गया था, हालांकि इसके व्युत्पन्न प्रसारित होते रहते हैं); इमेजनेट; सिटीस्केप्स (जिसमें मूल रूप से उत्पन्न सामग्री शामिल है); एफएफएचक्यू; वीजीएफेस2, और एमएससीओसीओ.

चयनित डेटासेट की कानूनी उपयोगिता का विश्लेषण करने के लिए, लेखकों ने प्रत्येक सेट के लिए लाइसेंस की श्रृंखला को वापस करने के लिए एक नई पाइपलाइन विकसित की, हालांकि उन्हें अक्सर वेब आर्काइव कैप्चर में लाइसेंस का पता लगाने के लिए मजबूर होना पड़ा जो अब समाप्त हो चुके डोमेन से, और कुछ मामलों में उन्हें निकटतम उपलब्ध जानकारी से लाइसेंस की स्थिति का ‘अनुमान’ लगाना पड़ा।

लेखकों द्वारा विकसित प्रोवेनेंस-ट्रेसिंग सिस्टम के लिए आर्किटेक्चर। स्रोत: https://arxiv.org/pdf/2111.02374.pdf

लेखकों ने पाया कि छह डेटासेट में से पांच के लाइसेंस ‘कम से कम एक व्यावसायिक उपयोग संदर्भ में जोखिम से जुड़े हैं’:

‘[हम] देखते हैं कि एमएस कोको को छोड़कर, अध्ययन किए गए लाइसेंस किसी भी अभ्यासी को डेटा पर प्रशिक्षित एआई मॉडल को व्यावसायिक बनाने या यहां तक कि प्रशिक्षित एआई मॉडल के आउटपुट का उपयोग करने का अधिकार नहीं देते हैं। ऐसा परिणाम वास्तव में उन्हें इन डेटासेट पर पूर्व-प्रशिक्षित मॉडल का भी उपयोग करने से रोकता है। सार्वजनिक रूप से उपलब्ध डेटासेट और उन पर पूर्व-प्रशिक्षित एआई मॉडल व्यावसायिक रूप से व्यापक रूप से उपयोग किए जा रहे हैं।’ *

लेखकों ने आगे उल्लेख किया कि छह अध्ययन किए गए डेटासेट में से तीन व्यावसायिक उत्पादों में लाइसेंस उल्लंघन का परिणाम भी दे सकते हैं यदि डेटासेट संशोधित किया जाता है, क्योंकि केवल एमएस-सीओसीओ में संशोधन की अनुमति देता है। हालांकि डेटा ऑगमेंटेशन और प्रभावशाली डेटासेट के उपसेट और सुपरसेट एक सामान्य अभ्यास हैं।

सीआईएफएआर-10 के मामले में, मूल संकलकों ने किसी भी पारंपरिक लाइसेंस का निर्माण नहीं किया, केवल यह आवश्यकता है कि परियोजनाएं जो डेटासेट का उपयोग करती हैं मूल पेपर का हवाला दें जो डेटासेट की रिलीज़ के साथ आया था, जो डेटा की कानूनी स्थिति को स्थापित करने में एक और बाधा प्रस्तुत करता है।

इसके अलावा, केवल सिटीस्केप्स डेटासेट में मूल रूप से उत्पन्न सामग्री शामिल है, न कि नेटवर्क स्रोतों से ‘संकलित’ (स्क्रैप की गई) सामग्री, जबकि सीआईएफएआर-10 और इमेजनेट कई स्रोतों का उपयोग करते हैं, जिनमें से प्रत्येक को कॉपीराइट तंत्र (या यहां तक कि एक अर्थपूर्ण अस्वीकरण) स्थापित करने के लिए जांचा और वापस जाना होगा।

कोई रास्ता नहीं

व्यावसायिक एआई कंपनियां कॉपीराइट सामग्री का उपयोग करके प्रशिक्षित एआई अल्गोरिदम वाले उत्पादों के आसपास मुकदमेबाजी से बचने के लिए तीन कारकों पर निर्भर लगती हैं। इनमें से कोई भी भरोसेमंद दीर्घकालिक सुरक्षा प्रदान नहीं करता है:

1: लैसेज़ फ़ेयर नेशनल लॉ
हालांकि दुनिया भर की सरकारें डेटा-स्क्रैपिंग के आसपास कानूनों को आराम देने के लिए मजबूर हैं ताकि वे प्रदर्शनकारी एआई (जो वास्तविक दुनिया के डेटा की बड़ी मात्रा पर निर्भर करता है, जिसके लिए नियमित कॉपीराइट अनुपालन और लाइसेंसिंग अवास्तविक होगा) की दौड़ में पिछड़ने से बच सकें, केवल संयुक्त राज्य अमेरिका में फेयर यूज़ डॉक्ट्रिन के तहत पूर्ण प्रतिरक्षा प्रदान करता है – एक नीति जो 2015 में अथॉर्स गिल्ड वी. गूगल, इंक. के निष्कर्ष के साथ अनुमोदित की गई थी, जिसने पुष्टि की कि खोज दिग्गज अपने गूगल बुक्स परियोजना के लिए कॉपीराइट सामग्री को मुफ्त में निगल सकता है बिना उल्लंघन का आरोप लगाए।

यदि फेयर यूज़ डॉक्ट्रिन नीति कभी भी बदलती है (यानी, एक और महत्वपूर्ण मामले के जवाब में जिसमें पर्याप्त शक्तिशाली संगठन या निगम शामिल हैं), तो यह संभवतः एक अप्रिय राज्य माना जाएगा वर्तमान कॉपीराइट-उल्लंघन डेटाबेस का शोषण करने के संबंध में; लेकिन चालू उपयोग और उन प्रणालियों के विकास की सुरक्षा नहीं करेगा जो कॉपीराइट सामग्री के बिना अनुमति के साथ सक्षम हुए थे।

यह फेयर यूज़ डॉक्ट्रिन की वर्तमान सुरक्षा को बहुत अस्थायी आधार पर रखता है, और संभावित रूप से उस स्थिति में आवश्यक बना सकता है कि स्थापित, व्यावसायिक एआई अल्गोरिदम को बंद करना होगा जो कॉपीराइट सामग्री द्वारा सक्षम किए गए थे – यहां तक कि उन मामलों में जहां मॉडल के वज़न अब केवल अनुमत सामग्री से संबंधित हैं, लेकिन अवैध रूप से कॉपी की गई सामग्री पर प्रशिक्षित किए गए थे।

संयुक्त राज्य अमेरिका के बाहर, जैसा कि लेखक नए कागज़ में उल्लेख करते हैं, नीतियां आम तौर पर कम उदार हैं। यूके और कनाडा केवल गैर-व्यावसायिक उद्देश्यों के लिए कॉपीराइट डेटा के उपयोग को प्रतिरक्षित करते हैं, जबकि यूरोपीय संघ का टेक्स्ट और डेटा माइनिंग लॉ (जिसे हाल के प्रस्तावों द्वारा पूरी तरह से ओवरराइड नहीं किया गया है एआई के लिए अधिक औपचारिक नियमन) भी एआई प्रणालियों के लिए व्यावसायिक शोषण को बाहर करता है जो मूल डेटा की कॉपीराइट आवश्यकताओं का अनुपालन नहीं करती हैं।

इन व्यवस्थाओं का अर्थ है कि एक संगठन दूसरों के डेटा का उपयोग करके बहुत कुछ हासिल कर सकता है, लेकिन उस बिंदु तक नहीं जहां वे इसका मोनेटाइजेशन करना शुरू कर देते हैं। उस स्तर पर, उत्पाद या तो कानूनी रूप से उजागर हो जाएगा, या मूल डेटा के सैकड़ों कॉपीराइट धारकों के साथ व्यवस्था करनी होगी, जिनमें से कई अब इंटरनेट की बदलती प्रकृति के कारण अनुसरण करने योग्य नहीं हैं – एक असंभव और महंगा प्रस्ताव।

2: केवाट एम्प्टोर
उन मामलों में जहां उल्लंघन करने वाले संगठन दोष को स्थगित करने की उम्मीद करते हैं, नए कागज़ में यह भी观察 किया गया है कि सबसे लोकप्रिय ओपन सोर्स डेटासेट के लाइसेंस में से कई स्वयं को कॉपीराइट दुरुपयोग के किसी भी दावे के खिलाफ स्वयं को मुक्त करने की मांग करते हैं:

‘उदाहरण के लिए, इमेजनेट के लाइसेंस में यह आवश्यक है कि अभ्यासी इमेजनेट टीम को डेटासेट के उपयोग से उत्पन्न होने वाले किसी भी दावे के खिलाफ मुक्त करने के लिए बाध्य हों। एफएफएचक्यू, वीजीएफेस2 और एमएस कोको डेटासेट की आवश्यकता है कि यदि डेटासेट वितरित या संशोधित किया जाता है, तो इसे उसी लाइसेंस के तहत प्रस्तुत किया जाना चाहिए।’

प्रभावी रूप से, यह उन लोगों को मजबूर करता है जो फॉस डेटासेट का उपयोग करते हैं कि वे कॉपीराइट सामग्री का उपयोग करने के लिए दोष को अवशोषित करें (हालांकि यह आवश्यक रूप से मूल संकलकों की सुरक्षा नहीं करता है जहां वर्तमान ‘सुरक्षित बंदरगाह’ जलवायु समझौता है)।

3: अस्पष्टता के माध्यम से प्रतिरक्षा
मशीन लर्निंग समुदाय की सहयोगी प्रकृति यह सुनिश्चित करती है कि कॉर्पोरेट गुप्तता का उपयोग उन अल्गोरिदम की उपस्थिति को छिपाने के लिए किया जा सके जिन्होंने कॉपीराइट-उल्लंघन डेटासेट से लाभान्वित किया है। दीर्घकालिक व्यावसायिक परियोजनाएं अक्सर खुले फॉस परिवेश में शुरू होती हैं जहां डेटासेट का उपयोग एक मामले की रिकॉर्ड है, जीएचबी और अन्य सार्वजनिक रूप से सुलभ मंचों पर, या जहां परियोजना के मूल को प्रिंट या पीयर-रिव्यूड पेपर्स में प्रकाशित किया गया है।

यहां तक कि जहां यह मामला नहीं है, मॉडल इनवर्जन तेजी से सक्षम है डेटासेट की विशिष्ट विशेषताओं (या यहां तक कि स्पष्ट रूप से कुछ स्रोत सामग्री को आउटपुट करने) को प्रकट करने के लिए, या तो स्वयं में प्रमाण प्रदान करना या कॉपीराइट उल्लंघन का संदेह पैदा करने के लिए पर्याप्त है ताकि न्यायालय-आदेशित पहुंच को अल्गोरिदम के विकास के इतिहास और उपयोग किए गए डेटासेट के विवरण तक अनुमति मिल सके।

निष्कर्ष

कागज़ एक अनधिकृत और अनियमित कॉपीराइट सामग्री के उपयोग की एक अराजक और अनियमित प्रणाली को चित्रित करता है, और लाइसेंस श्रृंखला की एक श्रृंखला जो तर्कसंगत रूप से मूल डेटा के स्रोत तक वापस ले जाने पर, हजारों कॉपीराइट धारकों के साथ बातचीत की आवश्यकता होगी जिनका काम विभिन्न लाइसेंस शर्तों के तहत प्रस्तुत किया गया था, जिनमें से कई व्युत्पन्न व्यावसायिक कार्यों को प्रतिबंधित करते हैं।

लेखक निष्कर्ष निकालते हैं:

‘सार्वजनिक रूप से उपलब्ध डेटासेट का उपयोग व्यावसायिक एआई सॉफ़्टवेयर बनाने के लिए किया जा रहा है। ऐसा करने के लिए एक ही शर्त है कि सार्वजनिक रूप से उपलब्ध डेटासेट से जुड़ा लाइसेंस ऐसा करने का अधिकार देता है। हालांकि, सार्वजनिक रूप से उपलब्ध डेटासेट से जुड़े लाइसेंस में दिए गए अधिकारों और दायित्वों की पुष्टि करना आसान नहीं है। क्योंकि कभी-कभी लाइसेंस अस्पष्ट या संभावित रूप से अमान्य होता है।’

एक नए काम, लीगल डेटासेट बनाना शीर्षक से, सिंगापुर मैनेजमेंट यूनिवर्सिटी के सेंटर फॉर कंप्यूटेशनल लॉ से 2 नवंबर को जारी किया गया, भी हुआवे के कागज़ की सिफारिशों को दोहराता है कि डेटा वैज्ञानिकों को यह पहचानने की आवश्यकता है कि डेटा के ‘वाइल्ड वेस्ट’ युग का अंत आ रहा है, और अधिक कठोर आदतों और विधियों को अपनाने की सिफारिश करता है ताकि यह सुनिश्चित किया जा सके कि डेटासेट का उपयोग कानूनी परिणामों के लिए परियोजना को उजागर नहीं करता है क्योंकि संस्कृति समय के साथ बदलती है और मशीन लर्निंग क्षेत्र में वर्तमान वैश्विक शैक्षणिक गतिविधि व्यावसायिक रूप से निवेश पर रिटर्न चाहती है। लेखक观察 करता है*:

‘[कॉर्पस ऑफ लेजिस्लेशन] एमएल डेटासेट को प्रभावित करने वाला कानूनी ढांचा बढ़ने वाला है, जो चिंताओं के बीच है कि वर्तमान कानून पर्याप्त सुरक्षा प्रदान नहीं करते हैं। ड्राफ्ट एआईए [ईयू आर्टिफ़िशियल इंटेलिजेंस एक्ट], यदि और जब पारित किया जाएगा, तो एआई और डेटा शासन के परिदृश्य को काफी बदल देगा; अन्य क्षेत्राधिकार अपने स्वयं के अधिनियमों के साथ इसका अनुसरण कर सकते हैं। ‘

* मेरा इनलाइन साइटेशन को हाइपरलिंक में बदलना

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

वर्तमान एआई प्रथाएं एक नए पीढ़ी के कॉपीराइट ट्रोल्स को सक्षम कर सकती हैं

पांच में से छह (लोकप्रिय) ओपन सोर्स डेटासेट कानूनी रूप से उपयोग योग्य नहीं

कोई रास्ता नहीं

निष्कर्ष

और जानें