Connect with us

рдСрдЯреЛрдореЗрдЯрд┐рдВрдЧ рдХреЙрдкреАрд░рд╛рдЗрдЯ рд╕реБрд░рдХреНрд╖рд╛ рдПрдЖрдИ-рдЬрдирд░реЗрдЯреЗрдб рдЫрд╡рд┐рдпреЛрдВ рдореЗрдВ

Anderson рдХрд╛ рдПрдВрдЧрд▓

рдСрдЯреЛрдореЗрдЯрд┐рдВрдЧ рдХреЙрдкреАрд░рд╛рдЗрдЯ рд╕реБрд░рдХреНрд╖рд╛ рдПрдЖрдИ-рдЬрдирд░реЗрдЯреЗрдб рдЫрд╡рд┐рдпреЛрдВ рдореЗрдВ

mm
ChatGPT-4o: ' 1792x1024px image of a Front view of a British high court tribunal composed of three robots in judicial wigs. They are all examining an 8x10 photograph, but we cannot see what the photograph is, because its back is towards us. HQ, cinematic still'

जैसा कि पिछले हफ्ते चर्चा की गई, यहां तक कि लोकप्रिय जनरेटिव एआई सिस्टम के पीछे के मूल फाउंडेशन मॉडल भी कॉपीराइट-उल्लंघन सामग्री का उत्पादन कर सकते हैं, जो अपर्याप्त या विकृत क्यूरेशन के कारण होता है, साथ ही प्रशिक्षण डेटा में एक ही छवि के कई संस्करणों की उपस्थिति के कारण, जो ओवरफिटिंग की ओर ले जाती है, और पहचानने योग्य पुनरुत्पादन की संभावना को बढ़ाती है।

जनरेटिव एआई स्पेस पर हावी होने के प्रयासों के बावजूद, और आईपी उल्लंघन को रोकने के लिए बढ़ते दबाव के बावजूद, मिडजॉर्नी और ओपनएआई के डीएलएल-ई जैसे प्रमुख प्लेटफ़ॉर्म अभी भी चुनौतियों का सामना करते हैं अनजाने में कॉपीराइट सामग्री के पुनरुत्पादन को रोकने में।

рдЬрдирд░реЗрдЯрд┐рд╡ рд╕рд┐рд╕реНрдЯрдо рдХреА рдХреНрд╖рдорддрд╛ рдХреЙрдкреАрд░рд╛рдЗрдЯ рдбреЗрдЯрд╛ рдХреЛ рдкреБрди: рдЙрддреНрдкрдиреНрди рдХрд░рдиреЗ рдХреА рдХреНрд╖рдорддрд╛ рдореАрдбрд┐рдпрд╛ рдореЗрдВ рдирд┐рдпрдорд┐рдд рд░реВрдк рд╕реЗ рд╕рд╛рдордиреЗ рдЖрддреА рд╣реИред

जनरेटिव सिस्टम की क्षमता कॉपीराइट डेटा को पुन: उत्पन्न करने की क्षमता मीडिया में नियमित रूप से सामने आती है।

नए मॉडल के उभरने के साथ, और चीनी मॉडल प्रमुखता हासिल करते हैं, फाउंडेशन मॉडल में कॉपीराइट सामग्री का दमन एक कठिन परिदृश्य है; वास्तव में, बाजार के नेता ओपनएआई ने पिछले साल घोषणा की कि यह ‘असंभव’ है कि कॉपीराइट सामग्री के बिना प्रभावी और उपयोगी मॉडल बनाए जाएं।

प्राथमिक कला

अनजाने में कॉपीराइट सामग्री के उत्पादन के संबंध में, शोध दृश्य एक समान चुनौती का सामना करता है जैसा कि स्रोत डेटा में पोर्न और अन्य एनएसएफडब्ल्यू सामग्री के समावेश के लिए होता है: एक को ज्ञान का लाभ चाहिए (अर्थात, मानव शरीर रचना विज्ञान को सही करना, जो ऐतिहासिक रूप से हमेशा नग्न अध्ययन पर आधारित रहा है) बिना इसका दुरुपयोग किए।

इसी तरह, मॉडल निर्माता कॉपीराइट सामग्री के विशाल दायरे का लाभ चाहते हैं जो हाइपरस्केल सेट जैसे एलएआईओएन में अपना रास्ता बनाते हैं, बिना मॉडल को वास्तव में आईपी का उल्लंघन करने की क्षमता विकसित किए।

कॉपीजज

मानव निर्णय एक दुर्लभ और महंगा संसाधन है, दोनों डेटासेट के क्यूरेशन में और पोस्ट-प्रोसेसिंग फिल्टर और ‘सुरक्षा’-आधारित सिस्टम बनाने में, जो सुनिश्चित करते हैं कि आईपी-लॉक्ड सामग्री को मिडजॉर्नी और चैटजीपीटी जैसे एपीआई-आधारित पोर्टल के उपयोगकर्ताओं को वितरित नहीं किया जाता है।

इसलिए, स्विट्जरलैंड, सोनी एआई और चीन के बीच एक नए शैक्षणिक सहयोग में कॉपीजज – एक स्वचालित विधि प्रदान की जा रही है जो चैटजीपीटी आधारित ‘न्यायाधीशों’ के लगातार समूहों को निर्देशित कर सकती है जो कॉपीराइट उल्लंघन के संकेतों के लिए इनपुट की जांच कर सकते हैं।

рдХреЙрдкреАрдЬрдЬ рд╡рд┐рднрд┐рдиреНрди рдЖрдИрдкреА-рдлреНрд░рд┐рдВрдЬрд┐рдВрдЧ рдПрдЖрдИ рдкреАрдврд╝рд┐рдпреЛрдВ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рддрд╛ рд╣реИред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2502.15278

कॉपीजज विभिन्न आईपी-फ्रिंजिंग एआई पीढ़ियों का मूल्यांकन करता है। स्रोत: https://arxiv.org/pdf/2502.15278

कॉपीजज प्रभावी रूप से एक स्वचालित फ्रेमवर्क प्रदान करता है जो बड़े दृष्टि-भाषा मॉडल (एलवीएलएम) का लाभ उठाता है ताकि कॉपीराइट छवियों और पाठ-से-छवि प्रसार मॉडल द्वारा उत्पादित छवियों के बीच महत्वपूर्ण समानता का निर्धारण किया जा सके।

рдХреЙрдкреАрдЬрдЬ рджреГрд╖реНрдЯрд┐рдХреЛрдг рдкреБрдирд░рд╛рд╡реГрддреНрддрд┐ рд╕реАрдЦрдиреЗ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдХреЙрдкреАрд░рд╛рдЗрдЯ-рдЙрд▓реНрд▓рдВрдШрди рдкреНрд░реЗрд░рд┐рдд рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдкреНрд░реЛрдореНрдкреНрдЯреНрд╕ рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд░рддрд╛ рд╣реИ, рдФрд░ рдлрд┐рд░ рдРрд╕реЗ рдкреНрд░реЛрдореНрдкреНрдЯреНрд╕ рд╕реЗ рдЬрд╛рдирдХрд╛рд░реА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдирдП рдкреНрд░реЛрдореНрдкреНрдЯреНрд╕ рдмрдирд╛рддрд╛ рд╣реИ рдЬреЛ рдХреЙрдкреАрд░рд╛рдЗрдЯ рдЫрд╡рд┐рдпреЛрдВ рдХреЛ рдЙрддреНрдкрдиреНрди рдХрд░рдиреЗ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдХрдо рд╣реЛрддреА рд╣реИред

कॉपीजज दृष्टिकोण पुनरावृत्ति सीखने और अन्य दृष्टिकोणों का उपयोग करके कॉपीराइट-उल्लंघन प्रेरित करने वाले प्रोम्प्ट्स को अनुकूलित करने के लिए करता है, और फिर ऐसे प्रोम्प्ट्स से जानकारी का उपयोग करके नए प्रोम्प्ट्स बनाता है जो कॉपीराइट छवियों को उत्पन्न करने की संभावना कम होती है।

हालांकि यह एक नई दृष्टिकोण नहीं है, यह उपयोगकर्ताओं को विकसित करने से रोकने में कुछ हद तक मदद करता है बैकडोर-अクセस प्रतिबंधित पीढ़ियों में, प्रयोग के माध्यम से।

एक हालिया शोषण (जो विकसितकर्ताओं द्वारा बंद कर दिया गया है) ने उपयोगकर्ताओं को क्लिंग जनरेटिव एआई प्लेटफ़ॉर्म पर अश्लील सामग्री उत्पन्न करने की अनुमति दी क्योंकि उन्होंने एक प्रमुख क्रॉस या क्रूसिफिक्स को छवि में शामिल किया था जो एक छवि से वीडियो कार्य प्रवाह में अपलोड की गई थी।

<img class=" wp-image-212910" src="https://www.unite.ai/wp-content/uploads/2025/02/kling-cross.jpg" alt="क्लिंग डेवलपर्स द्वारा 2024 के अंत में पैच किए गए लूपहोल में, उपयोगकर्ता प्रणाली को अश्लील वीडियो उत्पन्न करने के लिए मजबूर कर सकते थे क्योंकि वे वीडियो की शुरुआत में एक क्रॉस या क्रूसिफिक्स की मांग करते थे। हालांकि इस अब-निष्क्रिय हैक के पीछे तर्क के बारे में कोई स्पष्टीकरण नहीं दिया गया है, किसी को यह कल्पना करनी चाहिए कि यह स्वीकार्य धार्मिक ईसाई (पुरुष) नग्नता को क्रूसिफिकेशन के चित्रण में अनुमति देने के लिए डिज़ाइन किया गया था; और क्रॉस छवि को बुलाने से व्यापक अश्लील आउटपुट 'अनलॉक' हो जाता है; लेकिन हमें कभी पता नहीं चलेगा! स्रोत: डिस्कॉर्ड

ऐसे उदाहरण ऑनलाइन जनरेटिव सिस्टम में प्रोम्प्ट सैनिटाइजेशन की आवश्यकता पर जोर देते हैं, खासकर जब मशीन अनलर्निंग में फाउंडेशन मॉडल को ही बदल दिया जाता है ताकि प्रतिबंधित अवधारणाओं को हटाया जा सके, जो अंतिम मॉडल के उपयोगिता पर अप्रत्याशित प्रभाव डाल सकता है।

कम रادिकल समाधानों की तलाश में, कॉपीजज सिस्टम मानव-आधारित कानूनी निर्णयों की नकल करता है जो कि छवियों को मुख्य तत्वों जैसे कि रचना और रंग में तोड़ने के लिए एआई का उपयोग करता है, गैर-कॉपीराइट योग्य भागों को फिल्टर करने के लिए, और शेष की तुलना करने के लिए। यह छवि पीढ़ी को संशोधित करने में मदद करने के लिए प्रोम्प्ट्स को समायोजित करने के लिए एआई-संचालित विधि भी शामिल करता है, जो कॉपीराइट मुद्दों को रोकने में मदद करता है जबकि रचनात्मक सामग्री को बनाए रखता है।

प्रायोगिक परिणाम, लेखकों का दावा है, कॉपीजज की समानता को राज्य-оф-द-आर्ट दृष्टिकोणों के साथ प्रदर्शित करते हैं और संकेत देते हैं कि प्रणाली पूर्व कार्यों की तुलना में बेहतर सामान्यीकरण और व्याख्या प्रदर्शित करती है।

नई कागज़ का शीर्षक कॉपीजज: स्वचालित कॉपीराइट उल्लंघन पहचान और शमन पाठ-से-छवि प्रसार मॉडल में है, और यह पांच शोधकर्ताओं से आता है जो ईपीएफएल, सोनी एआई और चीन के वेस्टलेक विश्वविद्यालय में हैं।

विधि

हालांकि कॉपीजज जीपीटी का उपयोग स्वचालित न्यायाधीशों की रोलिंग ट्रिब्यूनल बनाने के लिए करता है, लेखकों का जोर है कि प्रणाली ओपनएआई के उत्पाद के लिए अनुकूलित नहीं है, और कि एलवीएलएम (बड़े दृष्टि-भाषा मॉडल) के विकल्प का कोई भी संख्या इसके बजाय उपयोग की जा सकती है।

पहले उदाहरण में, लेखकों का स抽-filtration-तुलना फ्रेमवर्क स्रोत छवियों को उनके घटक भागों में विभाजित करने के लिए आवश्यक है, जैसा कि नीचे दिए गए स्कीमा के बाएं हिस्से में दिखाया गया है:

рдХреЙрдкреАрдЬрдЬ рдХрд╛рд░реНрдп рдкреНрд░рд╡рд╛рд╣ рдХреЗ рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдЪрд░рдг рдХреЗ рд▓рд┐рдП рдЕрд╡рдзрд╛рд░рдгрд╛рддреНрдордХ рд╕реНрдХреАрдорд╛ред

कॉपीजज कार्य प्रवाह के प्रारंभिक चरण के लिए अवधारणात्मक स्कीमा।

निचले बाएं कोने में, हम एक फिल्टर एजेंट को छवि खंडों को तोड़ने के प्रयास में देखते हैं ताकि वे उन विशेषताओं की पहचान कर सकें जो एक कॉपीराइट कार्य में संयोजन में मूल निवासी हो सकती हैं, लेकिन जो स्वयं में बहुत ही सामान्य होने के कारण उल्लंघन के रूप में योग्य नहीं होंगे।

इसके बाद, कई एलवीएलएम का उपयोग फिल्टर्ड तत्वों का मूल्यांकन करने के लिए किया जाता है – एक दृष्टिकोण जो पapers जैसे 2023 CSAIL प्रस्ताव भाषा मॉडल में तथ्यात्मकता और तर्कसंगतता में सुधार करने के लिए बहु-एजेंट वाद-विवाद में प्रभावी साबित हुआ है, और चैटइवल सहित विविध अन्य, नए कागज़ में स्वीकार किए गए।

डेटा और परीक्षण

कॉपीजज का परीक्षण करने के लिए, विभिन्न डेटासेट का उपयोग किया गया, जिसमें डी-रेप शामिल है, जिसमें वास्तविक और नकली छवि जोड़े शामिल हैं जिन्हें मानव द्वारा 0-5 रेटिंग पर अंकित किया गया है।

рд╣рдЧрд┐рдВрдЧ рдлреЗрд╕ рдкрд░ рдбреА-рд░реЗрдк рдбреЗрдЯрд╛рд╕реЗрдЯ рдХрд╛ рдЕрдиреНрд╡реЗрд╖рдгред рдпрд╣ рд╕рдВрдЧреНрд░рд╣ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдФрд░ рдЙрддреНрдкрдиреНрди рдЫрд╡рд┐рдпреЛрдВ рдХреЛ рдЬреЛрдбрд╝рддрд╛ рд╣реИред рд╕реНрд░реЛрдд: https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/

हगिंग फेस पर डी-रेप डेटासेट का अन्वेषण। यह संग्रह वास्तविक और उत्पन्न छवियों को जोड़ता है। स्रोत: https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/

कॉपीजज स्कीमा ने डी-रेप छवियों को 4 या अधिक के रूप में उल्लंघन उदाहरणों के रूप में माना, जबकि शेष को गैर-आईपी-प्रासंगिक के रूप में रखा गया। डेटासेट में 4000 आधिकारिक छवियों का उपयोग परीक्षण छवियों के लिए किया गया था। इसके अलावा, शोधकर्ताओं ने विकिपीडिया से 10 प्रसिद्ध कार्टून पात्रों के लिए छवियों का चयन और क्यूरेट किया।

तीन प्रसार-आधारित वास्तुकला जो संभावित रूप से उल्लंघन छवियों का उत्पादन करने के लिए उपयोग की गई थीं स्टेबल डिफ्यूजन वी2; कांडिंस्की2-2; और स्टेबल डिफ्यूजन एक्सएल। लेखकों ने प्रत्येक मॉडल से एक उल्लंघन छवि और एक गैर-उल्लंघन छवि का मैनुअल रूप से चयन किया, 60 सकारात्मक और 60 नकारात्मक नमूनों पर पहुंच गया।

निष्कर्ष

हालांकि अध्ययन एक आशाजनक दृष्टिकोण प्रस्तुत करता है कि एआई-जनरेटेड छवियों में कॉपीराइट सुरक्षा कैसे की जाए, बड़े दृष्टि-भाषा मॉडल (एलवीएलएम) पर उल्लंघन का पता लगाने के लिए निर्भरता पूर्वाग्रह और संगति के बारे में चिंताएं उठा सकती है, क्योंकि एआई-संचालित निर्णय हमेशा कानूनी मानकों के साथ संरेखित नहीं हो सकते हैं।

शायद सबसे महत्वपूर्ण बात यह है कि परियोजना यह भी मानती है कि कॉपीराइट प्रवर्तन स्वचालित किया जा सकता है, हालांकि वास्तविक दुनिया के कानूनी निर्णय अक्सर विषयगत और संदर्भ-आधारित कारकों को शामिल करते हैं जिन्हें एआई व्याख्या करने के लिए संघर्ष कर सकता है।

वास्तविक दुनिया में, एआई के आउटपुट के आसपास कानूनी सहमति के स्वचालन की संभावना इस काम में संबोधित क्षेत्र से परे और इस समय से बहुत दूर एक विवादास्पद मुद्दा बनी रहने की संभावना है।

 

सोमवार, 24 फरवरी, 2025 को पहली बार प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai

рд╡рд┐рдЬреНрдЮрд╛рдкрди рдкреНрд░рдХрдЯреАрдХрд░рдг: Unite.AI рд╕рдЯреАрдХ рдЬрд╛рдирдХрд╛рд░реА рдФрд░ рд╕рдорд╛рдЪрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрдареЛрд░ рд╕рдВрдкрд╛рджрдХреАрдп рдорд╛рдирдХреЛрдВ рдХреЗ рдкреНрд░рддрд┐ рдкреНрд░рддрд┐рдмрджреНрдз рд╣реИред рдЬрдм рдЖрдк рдЙрди рдЙрддреНрдкрд╛рджреЛрдВ рдХреЗ рд▓рд┐рдВрдХ рдкрд░ рдХреНрд▓рд┐рдХ рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдирдХреА рд╣рдордиреЗ рд╕рдореАрдХреНрд╖рд╛ рдХреА рд╣реИ, рддреЛ рд╣рдореЗрдВ рдореБрдЖрд╡рдЬрд╛ рдорд┐рд▓ рд╕рдХрддрд╛ рд╣реИред