कृत्रिम बुद्धिमत्ता

प्लेगियारिज्म समस्या: कैसे जेनरेटिव एआई मॉडल कॉपीराइटेड कंटेंट को पुन: उत्पन्न करते हैं

प्रकाशित 9 जनवरी 2024

अपडेट किया गया 22 मई 2026

Aayush Mittal मित्तल

जेनरेटिव एआई में तेजी से प्रगति ने इस प्रौद्योगिकी की रचनात्मक क्षमता के बारे में उत्साह पैदा किया है। लेकिन ये शक्तिशाली मॉडल भी कॉपीराइटेड या प्लेगियारिज्ड कंटेंट को उचित अट्रिब्यूशन के बिना पुन: उत्पन्न करने के जोखिमों को लेकर चिंता पैदा करते हैं।

न्यूरल नेटवर्क्स कैसे प्रशिक्षण डेटा को अवशोषित करते हैं

आधुनिक एआई सिस्टम जैसे जीपीटी-3 को ट्रांसफर लर्निंग नामक एक प्रक्रिया के माध्यम से प्रशिक्षित किया जाता है। वे सार्वजनिक स्रोतों जैसे वेबसाइटों, पुस्तकों, शैक्षणिक पत्रों और अधिक से बड़े डेटासेट को निगल लेते हैं। उदाहरण के लिए, जीपीटी-3 के प्रशिक्षण डेटा में 570 गीगाबाइट पाठ शामिल था। प्रशिक्षण के दौरान, एआई इस विशाल डेटा पूल में पैटर्न और सांख्यिकीय संबंधों की तलाश करता है। यह शब्दों, वाक्यों, अनुच्छेदों, भाषा संरचना और अन्य विशेषताओं के बीच संबंधों को सीखता है।

यह एआई को एक दिए गए इनपुट या प्रॉम्प्ट के बाद आने वाली अनुक्रम की भविष्यवाणी करके नए सुसंगत पाठ या छवियों को उत्पन्न करने में सक्षम बनाता है। लेकिन इसका मतलब यह भी है कि ये मॉडल कॉपीराइट, अट्रिब्यूशन या प्लेगियारिज्म जोखिमों के बारे में चिंता किए बिना सामग्री को अवशोषित करते हैं। नतीजतन, जेनरेटिव एआई कॉपीराइटेड पाठ को अपने प्रशिक्षण निगम से बिना उद्धरण के पुन: उत्पन्न कर सकते हैं।

एआई प्लेगियारिज्म के प्रमुख उदाहरण

एआई प्लेगियारिज्म के चिंताएं 2020 के बाद से प्रमुखता से उभरी हैं जब जीपीटी को रिलीज़ किया गया था।

हाल के शोध से पता चलता है कि बड़े भाषा मॉडल (एलएलएम) जैसे जीपीटी-3 अपने प्रशिक्षण डेटा से बिना उद्धरण के व्यापक वेरबेटम पासेज को पुन: उत्पन्न कर सकते हैं (नासर एट अल, 2023; कार्लिनी एट अल, 2022)। उदाहरण के लिए, द न्यूयॉर्क टाइम्स द्वारा दायर एक मुकदमा में ओपनएआई सॉफ्टवेयर ने न्यूयॉर्क टाइम्स के लेखों को लगभग वेरबेटम उत्पन्न किया (द न्यूयॉर्क टाइम्स, 2023)।

इन निष्कर्षों से पता चलता है कि कुछ जेनरेटिव एआई सिस्टम अनचाहे प्लेगियारिज्ड आउटपुट उत्पन्न कर सकते हैं, जो कॉपीराइट उल्लंघन का जोखिम उठा सकते हैं। हालांकि, प्रचुरता अनिश्चित रहती है क्योंकि एलएलएम की ‘ब्लैक बॉक्स’ प्रकृति के कारण। द न्यूयॉर्क टाइम्स के मुकदमा में तर्क दिया गया है कि ऐसे आउटपुट उल्लंघन का गठन करते हैं, जो जेनरेटिव एआई विकास के लिए बड़े प्रभाव डाल सकते हैं। कुल मिलाकर, साक्ष्य बताते हैं कि प्लेगियारिज्म बड़े न्यूरल नेटवर्क मॉडल में एक अंतर्निहित समस्या है जिसके लिए सावधानी और सुरक्षा उपायों की आवश्यकता है।

इन मामलों से दो प्रमुख कारक सामने आते हैं जो एआई प्लेगियारिज्म जोखिमों को प्रभावित करते हैं:

मॉडल आकार – जीपीटी-3.5 जैसे बड़े मॉडल छोटे मॉडलों की तुलना में वेरबेटम पाठ पासेज को पुन: उत्पन्न करने के लिए अधिक प्रवण होते हैं। उनके बड़े प्रशिक्षण डेटासेट कॉपीराइटेड स्रोत सामग्री के संपर्क में वृद्धि करते हैं।
प्रशिक्षण डेटा – इंटरनेट डेटा या कॉपीराइटेड कार्यों (यहां तक कि लाइसेंस प्राप्त) पर प्रशिक्षित मॉडल उन मॉडलों की तुलना में अधिक प्लेगियारिज्म के लिए प्रवण होते हैं जो सावधानी से क्यूरेटेड डेटासेट पर प्रशिक्षित होते हैं।

हालांकि, प्लेगियारिज्ड आउटपुट की प्रचुरता को सीधे मापना चुनौतीपूर्ण है। न्यूरल नेटवर्क्स की ‘ब्लैक बॉक्स’ प्रकृति इस लिंक को पूरी तरह से ट्रेस करना मुश्किल बना देती है। दरें मॉडल आर्किटेक्चर, डेटासेट गुणवत्ता और प्रॉम्प्ट फॉर्मूलेशन पर बहुत अधिक निर्भर करती हैं। लेकिन ये मामले इस बात की पुष्टि करते हैं कि ऐसा एआई प्लेगियारिज्म निर्विवाद रूप से होता है, जिसके महत्वपूर्ण कानूनी और नैतिक निहितार्थ हैं।

उभरते प्लेगियारिज्म डिटेक्शन सिस्टम

इसके जवाब में, शोधकर्ताओं ने मॉडल द्वारा उत्पन्न पाठ और छवियों को मानव द्वारा बनाए गए सामग्री से स्वचालित रूप से अलग करने के लिए एआई सिस्टम का अन्वेषण शुरू किया है। उदाहरण के लिए, मिला के शोधकर्ताओं ने जेनफेस प्रस्तावित किया है जो एआई-लिखित पाठ के लिए विशिष्ट भाषाई पैटर्न का विश्लेषण करता है। स्टार्टअप एंथ्रोपिक ने भी अपने संवादात्मक एआई क्लाउड के लिए आंतरिक प्लेगियारिज्म डिटेक्शन क्षमता विकसित की है।

हालांकि, इन टूल्स में सीमाएं हैं। जीपीटी-3 जैसे मॉडलों के विशाल प्रशिक्षण डेटा के कारण प्लेगियारिज्ड पाठ के मूल स्रोतों को इंगित करना मुश्किल है, यदि असंभव नहीं है। जेनरेटिव मॉडलों के तेजी से विकास के साथ अधिक मजबूत तकनीकों की आवश्यकता होगी। तब तक, मैनुअल समीक्षा सार्वजनिक उपयोग से पहले संभावित रूप से प्लेगियारिज्ड या उल्लंघनकारी एआई आउटपुट को स्क्रीन करने के लिए आवश्यक बनी हुई है।

जेनरेटिव एआई प्लेगियारिज्म को कम करने के लिए सर्वोत्तम अभ्यास

एआई प्लेगियारिज्म जोखिमों को कम करने के लिए एआई डेवलपर्स और उपयोगकर्ताओं दोनों के लिए यहां कुछ सर्वोत्तम अभ्यास दिए गए हैं:

एआई डेवलपर्स के लिए:

प्रशिक्षण डेटा स्रोतों को सावधानी से जांचें ताकि कॉपीराइटेड या लाइसेंस प्राप्त सामग्री को उचित अनुमति के बिना शामिल न किया जाए।
डेटा प्रलेखन और प्रोवेनेंस ट्रैकिंग प्रक्रियाओं को विकसित करें। मेटाडेटा जैसे लाइसेंस, टैग, निर्माता, आदि रिकॉर्ड करें।
प्लेगियारिज्म डिटेक्शन टूल्स को लागू करें ताकि उच्च जोखिम वाली सामग्री को रिलीज से पहले फ्लैग किया जा सके।
पारदर्शिता रिपोर्ट प्रदान करें जो प्रशिक्षण डेटा स्रोतों, लाइसेंसिंग और एआई आउटपुट के मूल को विस्तार से बताएं जब चिंताएं उत्पन्न हों।
सामग्री निर्माताओं को प्रशिक्षण डेटासेट से आसानी से ऑप्ट-आउट करने दें। तakedowns या बहिष्कार अनुरोधों का तुरंत पालन करें।

जेनरेटिव एआई उपयोगकर्ताओं के लिए:

आउटपुट को सावधानी से जांचें ताकि किसी भी संभावित रूप से प्लेगियारिज्ड या बिना उद्धरण वाले पासेज को बड़े पैमाने पर तैनाती से पहले पहचाना जा सके।
एआई को पूरी तरह से स्वायत्त रचनात्मक प्रणाली के रूप में न मानें। मानव समीक्षकों को अंतिम सामग्री की जांच करने दें।
मानव निर्मित सामग्री में एआई सहायता को पूरी तरह से नए सामग्री बनाने के बजाय पसंद करें। मॉडलों का उपयोग परिभाषा या विचार उत्पन्न करने के लिए करें।
एआई प्रदाता की सेवा की शर्तों, सामग्री नीतियों और प्लेगियारिज्म सुरक्षा उपायों की जांच करें قبل उपयोग। अस्पष्ट मॉडल से बचें।
स्पष्ट रूप से उद्धृत करें यदि कोई कॉपीराइटेड सामग्री अंतिम आउटपुट में दिखाई देती है, इसके बावजूद सर्वोत्तम प्रयासों के बावजूद। एआई कार्य को पूरी तरह से मूल के रूप में प्रस्तुत न करें।
आउटपुट को निजी तौर पर या गोपनीय रूप से साझा करें जब तक कि प्लेगियारिज्म जोखिमों का और मूल्यांकन न किया जा सके और संबोधित किया जा सके।

सख्त प्रशिक्षण डेटा नियमन भी जेनरेटिव मॉडलों के प्रसार के साथ आवश्यक हो सकते हैं। इसमें निर्माताओं से डेटासेट में उनके काम को जोड़ने से पहले ऑप्ट-इन सहमति की आवश्यकता शामिल हो सकती है। हालांकि, दोनों डेवलपर्स और उपयोगकर्ताओं पर नैतिक एआई प्रथाओं को नियोजित करने की जिम्मेदारी है जो सामग्री निर्माताओं के अधिकारों का सम्मान करते हैं।

मिडजॉर्नी के वी6 अल्फा में प्लेगियारिज्म

सीमित प्रॉम्प्टिंग के बाद मिडजॉर्नी के वी6 मॉडल के कुछ शोधकर्ताओं ने कॉपीराइटेड फिल्मों, टीवी शो, और वीडियो गेम स्क्रीनशॉट के लगभग समान छवियां उत्पन्न कीं जो संभवतः इसके प्रशिक्षण डेटा में शामिल थीं।

मिडजॉर्नी द्वारा निर्मित छवियां जो प्रसिद्ध फिल्मों और वीडियो गेम्स के दृश्यों से मिलती-जुलती हैं

इन प्रयोगों से यह और पुष्टि होती है कि यहां तक कि राज्य-ऑफ-द-आर्ट विज़ुअल एआई सिस्टम भी संरक्षित सामग्री को बिना अनुमति के प्लेगियारिज्म कर सकते हैं यदि प्रशिक्षण डेटा का स्रोत अनियंत्रित रहता है। यह वाणिज्यिक रूप से जेनरेटिव मॉडलों को तैनात करने के लिए सावधानी और सुरक्षा उपायों की आवश्यकता को रेखांकित करता है ताकि उल्लंघन जोखिमों को सीमित किया जा सके।

कॉपीराइटेड सामग्री पर एआई कंपनियों की प्रतिक्रिया

मानव और एआई रचनात्मकता के बीच की रेखाएं धुंधली हो रही हैं, जो जटिल कॉपीराइट प्रश्न पैदा कर रही हैं। मानव और एआई इनपुट के संयोजन वाले कार्य केवल मानव द्वारा निष्पादित पहलुओं में कॉपीराइट योग्य हो सकते हैं।

हाल ही में, यूएस कॉपीराइट ऑफिस ने एक एआई-मानव ग्राफिक उपन्यास के अधिकांश पहलुओं को कॉपीराइट से वंचित कर दिया, इसे गैर-मानव घोषित किया। यह एआई प्रणालियों को ‘लेखकता’ से बाहर करने वाले मार्गदर्शन भी जारी किए। संघीय अदालतों ने एक एआई कला कॉपीराइट मामले में इस रुख की पुष्टि की।

इस बीच, मुकदमे जेनरेटिव एआई उल्लंघन का आरोप लगाते हैं, जैसे कि गेटी वी। स्टेबिलिटी एआई और कलाकारों वी। मिडजॉर्नी/स्टेबिलिटी एआई। लेकिन एआई ‘लेखकों’ के बिना, कुछ सवाल करते हैं कि क्या उल्लंघन दावे लागू होते हैं।

इसके जवाब में, मेटा, गूगल, माइक्रोसॉफ्ट और एप्पल जैसी प्रमुख एआई कंपनियों ने तर्क दिया कि उन्हें एआई मॉडलों को प्रशिक्षित करने के लिए कॉपीराइटेड डेटा पर लाइसेंस या रॉयल्टी का भुगतान करने की आवश्यकता नहीं है।

यहां मुख्य एआई कंपनियों से कॉपीराइटेड सामग्री के बारे में संभावित नए अमेरिकी कॉपीराइट नियमों के जवाब में तर्कों का सारांश दिया गया है:

मेटा तर्क देता है कि लाइसेंसिंग को लागू करना अभी उल्लंघन का कारण बनेगा और कॉपीराइट धारकों को बहुत कम लाभ प्रदान करेगा.

गूगल दावा करता है कि एआई प्रशिक्षण गैर-उल्लंघनकारी कार्यों के समान है, जैसे कि एक पुस्तक पढ़ना (गूगल, 2022).

माइक्रोसॉफ्ट चेतावनी देता है कि कॉपीराइट कानून में बदलाव छोटे एआई डेवलपर्स को नुकसान पहुंचा सकता है.

एप्पल चाहता है मानव विकासकर्ताओं द्वारा नियंत्रित एआई-जनित कोड को कॉपीराइट करने की अनुमति दें।

कुल मिलाकर, अधिकांश कंपनियां नए लाइसेंसिंग मांगों का विरोध करती हैं और एआई प्रणालियों द्वारा संरक्षित कार्यों को बिना उद्धरण के पुन: उत्पन्न करने के बारे में चिंताओं को कम आंकती हैं। हालांकि, यह रुख विवादास्पद है जब हाल के एआई कॉपीराइट मुकदमों और बहसों को देखते हैं।

जिम्मेदार जेनरेटिव एआई नवाचार के लिए मार्ग

जैसे ही ये शक्तिशाली जेनरेटिव मॉडल आगे बढ़ते हैं, प्लेगियारिज्म जोखिमों को बंद करना मुख्यधारा के स्वीकृति के लिए महत्वपूर्ण है। एक बहुस्तरीय दृष्टिकोण की आवश्यकता है:

प्रशिक्षण डेटा पारदर्शिता, लाइसेंसिंग और निर्माता सहमति के आसपास नीति सुधार।
प्लेगियारिज्म डिटेक्शन प्रौद्योगिकियों और डेवलपर्स द्वारा आंतरिक शासन को मजबूत करना।
उपयोगकर्ताओं में जोखिमों और नैतिक एआई सिद्धांतों के पालन के बारे में बढ़ी हुई जागरूकता।
एआई कॉपीराइट मुद्दों के आसपास स्पष्ट कानूनी पूर्वाधिकार और मामला कानून।

सही सुरक्षा उपायों के साथ, एआई-सहायता प्राप्त रचनात्मकता नैतिक रूप से पनप सकती है। लेकिन अनियंत्रित प्लेगियारिज्म जोखिम सार्वजनिक विश्वास को महत्वपूर्ण रूप से कमजोर कर सकते हैं। इस समस्या का सीधे सामना करना जेनरेटिव एआई की विशाल रचनात्मक क्षमता को साकार करने और साथ ही साथ रचनाकारों के अधिकारों का सम्मान करने के लिए आवश्यक है। इस संतुलन को प्राप्त करने के लिए न्यूरल नेटवर्क्स के स्वभाव में निर्मित प्लेगियारिज्म अंधकार का सामना करना आवश्यक है। लेकिन ऐसा करने से यह सुनिश्चित होगा कि ये शक्तिशाली मॉडल मानव प्रतिभा को बढ़ाने के बजाय कमजोर न करें।

Aayush Mittal, मित्तल

मैं पिछले पांच वर्षों से मशीन लर्निंग और डीप लर्निंग की दुनिया में खुद को डूबो रहा हूं। मेरा जुनून और विशेषज्ञता ने मुझे 50 से अधिक विविध सॉफ्टवेयर इंजीनियरिंग परियोजनाओं में योगदान देने के लिए प्रेरित किया है, जिनमें से अधिकांश में एआई/एमएल पर विशेष ध्यान केंद्रित किया गया है। मेरी जारी जिज्ञासा ने मुझे प्राकृतिक भाषा प्रसंस्करण की ओर आकर्षित किया है, जिस क्षेत्र को मैं आगे अन्वेषण करने के लिए उत्सुक हूं।