рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдкреНрд▓реЗрдЧрд┐рдпрд╛рд░рд┐рдЬреНрдо рд╕рдорд╕реНрдпрд╛: рдХреИрд╕реЗ рдЬреЗрдирд░реЗрдЯрд┐рд╡ рдПрдЖрдИ рдореЙрдбрд▓ рдХреЙрдкреАрд░рд╛рдЗрдЯреЗрдб рдХрдВрдЯреЗрдВрдЯ рдХреЛ рдкреБрди: рдЙрддреНрдкрдиреНрди рдХрд░рддреЗ рд╣реИрдВ

mm
plagiarism-in-AI

जेनरेटिव एआई में तेजी से प्रगति ने इस प्रौद्योगिकी की रचनात्मक क्षमता के बारे में उत्साह पैदा किया है। लेकिन ये शक्तिशाली मॉडल भी कॉपीराइटेड या प्लेगियारिज्ड कंटेंट को उचित अट्रिब्यूशन के बिना पुन: उत्पन्न करने के जोखिमों को लेकर चिंता पैदा करते हैं।

न्यूरल नेटवर्क्स कैसे प्रशिक्षण डेटा को अवशोषित करते हैं

आधुनिक एआई सिस्टम जैसे जीपीटी-3 को ट्रांसफर लर्निंग नामक एक प्रक्रिया के माध्यम से प्रशिक्षित किया जाता है। वे सार्वजनिक स्रोतों जैसे वेबसाइटों, पुस्तकों, शैक्षणिक पत्रों और अधिक से बड़े डेटासेट को निगल लेते हैं। उदाहरण के लिए, जीपीटी-3 के प्रशिक्षण डेटा में 570 गीगाबाइट पाठ शामिल था। प्रशिक्षण के दौरान, एआई इस विशाल डेटा पूल में पैटर्न और सांख्यिकीय संबंधों की तलाश करता है। यह शब्दों, वाक्यों, अनुच्छेदों, भाषा संरचना और अन्य विशेषताओं के बीच संबंधों को सीखता है।

यह एआई को एक दिए गए इनपुट या प्रॉम्प्ट के बाद आने वाली अनुक्रम की भविष्यवाणी करके नए सुसंगत पाठ या छवियों को उत्पन्न करने में सक्षम बनाता है। लेकिन इसका मतलब यह भी है कि ये मॉडल कॉपीराइट, अट्रिब्यूशन या प्लेगियारिज्म जोखिमों के बारे में चिंता किए बिना सामग्री को अवशोषित करते हैं। नतीजतन, जेनरेटिव एआई कॉपीराइटेड पाठ को अपने प्रशिक्षण निगम से बिना उद्धरण के पुन: उत्पन्न कर सकते हैं।

एआई प्लेगियारिज्म के प्रमुख उदाहरण

एआई प्लेगियारिज्म के चिंताएं 2020 के बाद से प्रमुखता से उभरी हैं जब जीपीटी को रिलीज़ किया गया था।

हाल के शोध से पता चलता है कि बड़े भाषा मॉडल (एलएलएम) जैसे जीपीटी-3 अपने प्रशिक्षण डेटा से बिना उद्धरण के व्यापक वेरबेटम पासेज को पुन: उत्पन्न कर सकते हैं (नासर एट अल, 2023; कार्लिनी एट अल, 2022)। उदाहरण के लिए, द न्यूयॉर्क टाइम्स द्वारा दायर एक मुकदमा में ओपनएआई सॉफ्टवेयर ने न्यूयॉर्क टाइम्स के लेखों को लगभग वेरबेटम उत्पन्न किया (द न्यूयॉर्क टाइम्स, 2023)।

इन निष्कर्षों से पता चलता है कि कुछ जेनरेटिव एआई सिस्टम अनचाहे प्लेगियारिज्ड आउटपुट उत्पन्न कर सकते हैं, जो कॉपीराइट उल्लंघन का जोखिम उठा सकते हैं। हालांकि, प्रचुरता अनिश्चित रहती है क्योंकि एलएलएम की ‘ब्लैक बॉक्स’ प्रकृति के कारण। द न्यूयॉर्क टाइम्स के मुकदमा में तर्क दिया गया है कि ऐसे आउटपुट उल्लंघन का गठन करते हैं, जो जेनरेटिव एआई विकास के लिए बड़े प्रभाव डाल सकते हैं। कुल मिलाकर, साक्ष्य बताते हैं कि प्लेगियारिज्म बड़े न्यूरल नेटवर्क मॉडल में एक अंतर्निहित समस्या है जिसके लिए सावधानी और सुरक्षा उपायों की आवश्यकता है।

इन मामलों से दो प्रमुख कारक सामने आते हैं जो एआई प्लेगियारिज्म जोखिमों को प्रभावित करते हैं:

  1. मॉडल आकार – जीपीटी-3.5 जैसे बड़े मॉडल छोटे मॉडलों की तुलना में वेरबेटम पाठ पासेज को पुन: उत्पन्न करने के लिए अधिक प्रवण होते हैं। उनके बड़े प्रशिक्षण डेटासेट कॉपीराइटेड स्रोत सामग्री के संपर्क में वृद्धि करते हैं।
  2. प्रशिक्षण डेटा – इंटरनेट डेटा या कॉपीराइटेड कार्यों (यहां तक कि लाइसेंस प्राप्त) पर प्रशिक्षित मॉडल उन मॉडलों की तुलना में अधिक प्लेगियारिज्म के लिए प्रवण होते हैं जो सावधानी से क्यूरेटेड डेटासेट पर प्रशिक्षित होते हैं।

हालांकि, प्लेगियारिज्ड आउटपुट की प्रचुरता को सीधे मापना चुनौतीपूर्ण है। न्यूरल नेटवर्क्स की ‘ब्लैक बॉक्स’ प्रकृति इस लिंक को पूरी तरह से ट्रेस करना मुश्किल बना देती है। दरें मॉडल आर्किटेक्चर, डेटासेट गुणवत्ता और प्रॉम्प्ट फॉर्मूलेशन पर बहुत अधिक निर्भर करती हैं। लेकिन ये मामले इस बात की पुष्टि करते हैं कि ऐसा एआई प्लेगियारिज्म निर्विवाद रूप से होता है, जिसके महत्वपूर्ण कानूनी और नैतिक निहितार्थ हैं।

उभरते प्लेगियारिज्म डिटेक्शन सिस्टम

इसके जवाब में, शोधकर्ताओं ने मॉडल द्वारा उत्पन्न पाठ और छवियों को मानव द्वारा बनाए गए सामग्री से स्वचालित रूप से अलग करने के लिए एआई सिस्टम का अन्वेषण शुरू किया है। उदाहरण के लिए, मिला के शोधकर्ताओं ने जेनफेस प्रस्तावित किया है जो एआई-लिखित पाठ के लिए विशिष्ट भाषाई पैटर्न का विश्लेषण करता है। स्टार्टअप एंथ्रोपिक ने भी अपने संवादात्मक एआई क्लाउड के लिए आंतरिक प्लेगियारिज्म डिटेक्शन क्षमता विकसित की है।

हालांकि, इन टूल्स में सीमाएं हैं। जीपीटी-3 जैसे मॉडलों के विशाल प्रशिक्षण डेटा के कारण प्लेगियारिज्ड पाठ के मूल स्रोतों को इंगित करना मुश्किल है, यदि असंभव नहीं है। जेनरेटिव मॉडलों के तेजी से विकास के साथ अधिक मजबूत तकनीकों की आवश्यकता होगी। तब तक, मैनुअल समीक्षा सार्वजनिक उपयोग से पहले संभावित रूप से प्लेगियारिज्ड या उल्लंघनकारी एआई आउटपुट को स्क्रीन करने के लिए आवश्यक बनी हुई है।

जेनरेटिव एआई प्लेगियारिज्म को कम करने के लिए सर्वोत्तम अभ्यास

एआई प्लेगियारिज्म जोखिमों को कम करने के लिए एआई डेवलपर्स और उपयोगकर्ताओं दोनों के लिए यहां कुछ सर्वोत्तम अभ्यास दिए गए हैं:

एआई डेवलपर्स के लिए:

  • प्रशिक्षण डेटा स्रोतों को सावधानी से जांचें ताकि कॉपीराइटेड या लाइसेंस प्राप्त सामग्री को उचित अनुमति के बिना शामिल न किया जाए।
  • डेटा प्रलेखन और प्रोवेनेंस ट्रैकिंग प्रक्रियाओं को विकसित करें। मेटाडेटा जैसे लाइसेंस, टैग, निर्माता, आदि रिकॉर्ड करें।
  • प्लेगियारिज्म डिटेक्शन टूल्स को लागू करें ताकि उच्च जोखिम वाली सामग्री को रिलीज से पहले फ्लैग किया जा सके।
  • पारदर्शिता रिपोर्ट प्रदान करें जो प्रशिक्षण डेटा स्रोतों, लाइसेंसिंग और एआई आउटपुट के मूल को विस्तार से बताएं जब चिंताएं उत्पन्न हों।
  • सामग्री निर्माताओं को प्रशिक्षण डेटासेट से आसानी से ऑप्ट-आउट करने दें। तakedowns या बहिष्कार अनुरोधों का तुरंत पालन करें।

जेनरेटिव एआई उपयोगकर्ताओं के लिए:

  • आउटपुट को सावधानी से जांचें ताकि किसी भी संभावित रूप से प्लेगियारिज्ड या बिना उद्धरण वाले पासेज को बड़े पैमाने पर तैनाती से पहले पहचाना जा सके।
  • एआई को पूरी तरह से स्वायत्त रचनात्मक प्रणाली के रूप में न मानें। मानव समीक्षकों को अंतिम सामग्री की जांच करने दें।
  • मानव निर्मित सामग्री में एआई सहायता को पूरी तरह से नए सामग्री बनाने के बजाय पसंद करें। मॉडलों का उपयोग परिभाषा या विचार उत्पन्न करने के लिए करें।
  • एआई प्रदाता की सेवा की शर्तों, सामग्री नीतियों और प्लेगियारिज्म सुरक्षा उपायों की जांच करें قبل उपयोग। अस्पष्ट मॉडल से बचें।
  • स्पष्ट रूप से उद्धृत करें यदि कोई कॉपीराइटेड सामग्री अंतिम आउटपुट में दिखाई देती है, इसके बावजूद सर्वोत्तम प्रयासों के बावजूद। एआई कार्य को पूरी तरह से मूल के रूप में प्रस्तुत न करें।
  • आउटपुट को निजी तौर पर या गोपनीय रूप से साझा करें जब तक कि प्लेगियारिज्म जोखिमों का और मूल्यांकन न किया जा सके और संबोधित किया जा सके।

सख्त प्रशिक्षण डेटा नियमन भी जेनरेटिव मॉडलों के प्रसार के साथ आवश्यक हो सकते हैं। इसमें निर्माताओं से डेटासेट में उनके काम को जोड़ने से पहले ऑप्ट-इन सहमति की आवश्यकता शामिल हो सकती है। हालांकि, दोनों डेवलपर्स और उपयोगकर्ताओं पर नैतिक एआई प्रथाओं को नियोजित करने की जिम्मेदारी है जो सामग्री निर्माताओं के अधिकारों का सम्मान करते हैं।

मिडजॉर्नी के वी6 अल्फा में प्लेगियारिज्म

सीमित प्रॉम्प्टिंग के बाद मिडजॉर्नी के वी6 मॉडल के कुछ शोधकर्ताओं ने कॉपीराइटेड फिल्मों, टीवी शो, और वीडियो गेम स्क्रीनशॉट के लगभग समान छवियां उत्पन्न कीं जो संभवतः इसके प्रशिक्षण डेटा में शामिल थीं।

рдорд┐рдбрдЬреЙрд░реНрдиреА рджреНрд╡рд╛рд░рд╛ рдирд┐рд░реНрдорд┐рдд рдЫрд╡рд┐рдпрд╛рдВ рдЬреЛ рдкреНрд░рд╕рд┐рджреНрдз рдлрд┐рд▓реНрдореЛрдВ рдФрд░ рд╡реАрдбрд┐рдпреЛ рдЧреЗрдореНрд╕ рдХреЗ рджреГрд╢реНрдпреЛрдВ рд╕реЗ рдорд┐рд▓рддреА-рдЬреБрд▓рддреА рд╣реИрдВ

मिडजॉर्नी द्वारा निर्मित छवियां जो प्रसिद्ध फिल्मों और वीडियो गेम्स के दृश्यों से मिलती-जुलती हैं

इन प्रयोगों से यह और पुष्टि होती है कि यहां तक कि राज्य-ऑफ-द-आर्ट विज़ुअल एआई सिस्टम भी संरक्षित सामग्री को बिना अनुमति के प्लेगियारिज्म कर सकते हैं यदि प्रशिक्षण डेटा का स्रोत अनियंत्रित रहता है। यह वाणिज्यिक रूप से जेनरेटिव मॉडलों को तैनात करने के लिए सावधानी और सुरक्षा उपायों की आवश्यकता को रेखांकित करता है ताकि उल्लंघन जोखिमों को सीमित किया जा सके।

कॉपीराइटेड सामग्री पर एआई कंपनियों की प्रतिक्रिया

मानव और एआई रचनात्मकता के बीच की रेखाएं धुंधली हो रही हैं, जो जटिल कॉपीराइट प्रश्न पैदा कर रही हैं। मानव और एआई इनपुट के संयोजन वाले कार्य केवल मानव द्वारा निष्पादित पहलुओं में कॉपीराइट योग्य हो सकते हैं।

हाल ही में, यूएस कॉपीराइट ऑफिस ने एक एआई-मानव ग्राफिक उपन्यास के अधिकांश पहलुओं को कॉपीराइट से वंचित कर दिया, इसे गैर-मानव घोषित किया। यह एआई प्रणालियों को ‘लेखकता’ से बाहर करने वाले मार्गदर्शन भी जारी किए। संघीय अदालतों ने एक एआई कला कॉपीराइट मामले में इस रुख की पुष्टि की।

इस बीच, मुकदमे जेनरेटिव एआई उल्लंघन का आरोप लगाते हैं, जैसे कि गेटी वी। स्टेबिलिटी एआई और कलाकारों वी। मिडजॉर्नी/स्टेबिलिटी एआई। लेकिन एआई ‘लेखकों’ के बिना, कुछ सवाल करते हैं कि क्या उल्लंघन दावे लागू होते हैं।

इसके जवाब में, मेटा, गूगल, माइक्रोसॉफ्ट और एप्पल जैसी प्रमुख एआई कंपनियों ने तर्क दिया कि उन्हें एआई मॉडलों को प्रशिक्षित करने के लिए कॉपीराइटेड डेटा पर लाइसेंस या रॉयल्टी का भुगतान करने की आवश्यकता नहीं है।

यहां मुख्य एआई कंपनियों से कॉपीराइटेड सामग्री के बारे में संभावित नए अमेरिकी कॉपीराइट नियमों के जवाब में तर्कों का सारांश दिया गया है:

मेटा तर्क देता है कि लाइसेंसिंग को लागू करना अभी उल्लंघन का कारण बनेगा और कॉपीराइट धारकों को बहुत कम लाभ प्रदान करेगा.

गूगल दावा करता है कि एआई प्रशिक्षण गैर-उल्लंघनकारी कार्यों के समान है, जैसे कि एक पुस्तक पढ़ना (गूगल, 2022).

माइक्रोसॉफ्ट चेतावनी देता है कि कॉपीराइट कानून में बदलाव छोटे एआई डेवलपर्स को नुकसान पहुंचा सकता है.

एप्पल चाहता है मानव विकासकर्ताओं द्वारा नियंत्रित एआई-जनित कोड को कॉपीराइट करने की अनुमति दें।

कुल मिलाकर, अधिकांश कंपनियां नए लाइसेंसिंग मांगों का विरोध करती हैं और एआई प्रणालियों द्वारा संरक्षित कार्यों को बिना उद्धरण के पुन: उत्पन्न करने के बारे में चिंताओं को कम आंकती हैं। हालांकि, यह रुख विवादास्पद है जब हाल के एआई कॉपीराइट मुकदमों और बहसों को देखते हैं।

जिम्मेदार जेनरेटिव एआई नवाचार के लिए मार्ग

जैसे ही ये शक्तिशाली जेनरेटिव मॉडल आगे बढ़ते हैं, प्लेगियारिज्म जोखिमों को बंद करना मुख्यधारा के स्वीकृति के लिए महत्वपूर्ण है। एक बहुस्तरीय दृष्टिकोण की आवश्यकता है:

  • प्रशिक्षण डेटा पारदर्शिता, लाइसेंसिंग और निर्माता सहमति के आसपास नीति सुधार।
  • प्लेगियारिज्म डिटेक्शन प्रौद्योगिकियों और डेवलपर्स द्वारा आंतरिक शासन को मजबूत करना।
  • उपयोगकर्ताओं में जोखिमों और नैतिक एआई सिद्धांतों के पालन के बारे में बढ़ी हुई जागरूकता।
  • एआई कॉपीराइट मुद्दों के आसपास स्पष्ट कानूनी पूर्वाधिकार और मामला कानून।

सही सुरक्षा उपायों के साथ, एआई-सहायता प्राप्त रचनात्मकता नैतिक रूप से पनप सकती है। लेकिन अनियंत्रित प्लेगियारिज्म जोखिम सार्वजनिक विश्वास को महत्वपूर्ण रूप से कमजोर कर सकते हैं। इस समस्या का सीधे सामना करना जेनरेटिव एआई की विशाल रचनात्मक क्षमता को साकार करने और साथ ही साथ रचनाकारों के अधिकारों का सम्मान करने के लिए आवश्यक है। इस संतुलन को प्राप्त करने के लिए न्यूरल नेटवर्क्स के स्वभाव में निर्मित प्लेगियारिज्म अंधकार का सामना करना आवश्यक है। लेकिन ऐसा करने से यह सुनिश्चित होगा कि ये शक्तिशाली मॉडल मानव प्रतिभा को बढ़ाने के बजाय कमजोर न करें।

рдореИрдВ рдкрд┐рдЫрд▓реЗ рдкрд╛рдВрдЪ рд╡рд░реНрд╖реЛрдВ рд╕реЗ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рдХреА рджреБрдирд┐рдпрд╛ рдореЗрдВ рдЦреБрдж рдХреЛ рдбреВрдмреЛ рд░рд╣рд╛ рд╣реВрдВред рдореЗрд░рд╛ рдЬреБрдиреВрди рдФрд░ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдиреЗ рдореБрдЭреЗ 50 рд╕реЗ рдЕрдзрд┐рдХ рд╡рд┐рд╡рд┐рдз рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдЗрдВрдЬреАрдирд┐рдпрд░рд┐рдВрдЧ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдореЗрдВ рдпреЛрдЧрджрд╛рди рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдкреНрд░реЗрд░рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдЬрд┐рдирдореЗрдВ рд╕реЗ рдЕрдзрд┐рдХрд╛рдВрд╢ рдореЗрдВ рдПрдЖрдИ/рдПрдордПрд▓ рдкрд░ рд╡рд┐рд╢реЗрд╖ рдзреНрдпрд╛рди рдХреЗрдВрджреНрд░рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рдореЗрд░реА рдЬрд╛рд░реА рдЬрд┐рдЬреНрдЮрд╛рд╕рд╛ рдиреЗ рдореБрдЭреЗ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдХреА рдУрд░ рдЖрдХрд░реНрд╖рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдЬрд┐рд╕ рдХреНрд╖реЗрддреНрд░ рдХреЛ рдореИрдВ рдЖрдЧреЗ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрддреНрд╕реБрдХ рд╣реВрдВред