рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдкрд╣рдЪрд╛рди рд╕рд┐рдВрдереЗрдЯрд┐рдХ рдбреЗрдЯрд╛рд╕реЗрдЯ рд╕реЗ рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрдд рдХреА рдЬрд╛ рд╕рдХрддреА рд╣реИрдВ

यदि 2022 ने उस पल को चिह्नित किया जब जनरेटिव एआई की विघटनकारी क्षमता ने पहली बार व्यापक सार्वजनिक ध्यान आकर्षित किया, तो 2024 वह वर्ष रहा है जब इसके अंतर्निहित डेटा की वैधता के बारे में प्रश्न व्यवसायों के लिए केंद्र स्तर पर आ गए हैं जो इसकी शक्ति का दोहन करने के लिए उत्सुक हैं।
संयुक्त राज्य अमेरिका का न्यायसंगत उपयोग सिद्धांत, साथ ही साथ शोध क्षेत्रों को अन्वेषण करने की अनुमति देने वाले अंतर्निहित शोध लाइसेंस ने जनरेटिव एआई को बढ़ावा देने के लिए व्यावसायिक और शैक्षिक अनुसंधान क्षेत्रों को अनुमति दी है, जो बढ़ते प्लेगियारिज़म के प्रमाण के कारण अस्थिर हो गया है। इसके परिणामस्वरूप, अमेरिका ने इस समय के लिए अनुमति नहीं दी है एआई-जनरेटेड सामग्री को कॉपीराइट किया जा सकता है।
इन मामलों का निपटारा अभी भी दूर है, और जल्द ही हल होने की संभावना नहीं है; 2023 में, बढ़ती मीडिया और सार्वजनिक चिंता के कारण, एआई-जनरेटेड आउटपुट की कानूनी स्थिति के बारे में, अमेरिकी कॉपीराइट कार्यालय ने इस पहलू पर एक वर्षों-लंबी जांच शुरू की, पहले खंड (डिजिटल प्रतिकृतियों के संबंध में) को जुलाई 2024 में प्रकाशित किया।
इस बीच, व्यवसायिक हितों को यह संभावना से निराश किया जाता है कि वे महंगे मॉडल जो वे शोषण करना चाहते हैं उन्हें कानूनी परिणामों के लिए उजागर कर सकते हैं जब निश्चित कानून और परिभाषाएं अंततः उभरेंगी।
महंगी अल्पकालिक समाधान यह है कि जनरेटिव मॉडल को डेटा पर प्रशिक्षित किया जाए जिसे कंपनियों को शोषण करने का अधिकार है। एडोबी का टेक्स्ट-टू-इमेज (और अब टेक्स्ट-टू-वीडियो) फायरफ्लाई आर्किटेक्चर मुख्य रूप से इसके फोटोलिया स्टॉक इमेज डेटासेट की खरीद से संचालित होता है, पूरक कॉपीराइट-एक्सपायर्ड सार्वजनिक डोमेन डेटा का उपयोग करके। 同 समय, स्टॉक फोटो सप्लायर जैसे गेटी और शटरस्टॉक ने पूंजीकरण किया है अपने लाइसेंस्ड डेटा के नए मूल्य पर, जेनएआई सिस्टम विकसित करने के लिए लाइसेंस्ड सामग्री या डील की बढ़ती संख्या के साथ।
सिंथेटिक समाधान
चूंकि एक एआई मॉडल के प्रशिक्षित लेटेंट स्पेस से कॉपीराइटेड डेटा को हटाना समस्याओं से भरा हुआ है, इस क्षेत्र में गलतियां कंपनियों के लिए बहुत महंगी हो सकती हैं जो मशीन लर्निंग का उपयोग करके उपभोक्ता और व्यवसायिक समाधानों के साथ प्रयोग कर रहे हैं।
एक विकल्प, और बहुत सस्ता समाधान कंप्यूटर विजन सिस्टम (और भी लार्ज लैंग्वेज मॉडल, या एलएलएम) के लिए सिंथेटिक डेटा का उपयोग है, जहां डेटासेट लक्ष्य डोमेन (जैसे कि चेहरे, बिल्ली, चर्च, या यहां तक कि एक अधिक सामान्य डेटासेट) के यादृच्छिक रूप से उत्पन्न उदाहरणों से बना होता है।
साइट्स जैसे thispersondoesnotexist.com ने पहले ही यह विचार लोकप्रिय बना दिया है कि ‘गैर-वास्तविक’ लोगों की वास्तविक दिखने वाली तस्वीरें सिंथेटिक की जा सकती हैं (इस मामले में, जनरेटिव एडवर्सेरियल नेटवर्क, या जीएएन के माध्यम से) वास्तविक दुनिया में मौजूद लोगों से कोई संबंध नहीं रखते हैं।
इसलिए, यदि आप एक चेहरा पहचान प्रणाली या एक जनरेटिव सिस्टम को ऐसे अमूर्त और गैर-वास्तविक उदाहरणों पर प्रशिक्षित करते हैं, तो आप सिद्धांत रूप में एक एआई मॉडल के लिए फोटोरियलिस्टिक मानक की उत्पादकता प्राप्त कर सकते हैं без यह विचार करने की आवश्यकता है कि डेटा कानूनी रूप से उपयोगी है या नहीं।
संतुलन कार्य
समस्या यह है कि सिंथेटिक डेटा उत्पन्न करने वाले सिस्टम स्वयं वास्तविक डेटा पर प्रशिक्षित होते हैं। यदि उस डेटा के निशान सिंथेटिक डेटा में फैल जाते हैं, तो यह संभावित रूप से प्रतिबंधित या अन्यथा अनधिकृत सामग्री के शोषण के लिए साक्ष्य प्रदान करता है मौद्रिक लाभ के लिए।
इससे बचने के लिए, और वास्तव में ‘यादृच्छिक’ इमेजरी उत्पन्न करने के लिए, ऐसे मॉडलों को यह सुनिश्चित करने की आवश्यकता है कि वे अच्छी तरह से सामान्यीकृत हैं। सामान्यीकरण एक प्रशिक्षित एआई मॉडल की क्षमता का माप है उच्च-स्तरीय अवधारणाओं (जैसे ‘चेहरा’, ‘पुरुष’, या ‘‘महिला’) को समझने के लिए बिना वास्तविक प्रशिक्षण डेटा की प्रतिलिपि बनाने के लिए।
दुर्भाग्य से, यह प्रशिक्षित प्रणालियों के लिए विस्तृत विवरण (ग्रैन्युलर डिटेल) उत्पन्न करना या पहचानना मुश्किल हो सकता है, जब तक कि यह एक डेटासेट पर बहुत व्यापक रूप से प्रशिक्षित नहीं हो जाता। यह प्रणाली को मेमोराइजेशन के जोखिम के लिए उजागर करता है: वास्तविक प्रशिक्षण डेटा के उदाहरणों को कुछ हद तक पुनरुत्पादित करने की प्रवृत्ति।
चेहरा प्रकट
यह हमें स्विट्जरलैंड से एक दिलचस्प नए शोध पत्र में ले जाता है, जो दावा करता है कि यह पहला है जो सिंथेटिक डेटासेट से मूल, वास्तविक छवियों को पुनर्प्राप्त करने का प्रदर्शन करता है जो सिद्धांत रूप में पूरी तरह से यादृच्छिक होना चाहिए:

मूल (वास्तविक) छवियों के साथ प्रशिक्षण डेटा से रिसाव वाले उदाहरण चेहरे की छवियां। ऊपरी पंक्ति में, हम मूल (वास्तविक) छवियों को देखते हैं; नीचे की पंक्ति में, हम यादृच्छिक रूप से उत्पन्न छवियों को देखते हैं, जो वास्तविक छवियों के साथ काफी मेल खाती हैं। स्रोत: https://arxiv.org/pdf/2410.24015
परिणाम, लेखकों का तर्क है, यह दर्शाते हैं कि ‘सिंथेटिक’ जनरेटर वास्तव में अपने प्रशिक्षण डेटा बिंदुओं को बहुत सारे में स्मरण किया है, विस्तृतता की खोज में। वे यह भी दर्शाते हैं कि सिंथेटिक डेटा पर निर्भर करने वाली प्रणालियां जो एआई उत्पादकों को कानूनी परिणामों से बचाने के लिए हैं, इस संबंध में बहुत अविश्वसनीय हो सकती हैं।
शोधकर्ताओं ने छह राज्य-ऑफ-द-आर्ट सिंथेटिक डेटासेट पर एक व्यापक अध्ययन किया, जिसमें दिखाया गया कि सभी मामलों में, मूल (संभावित रूप से कॉपीराइटेड या संरक्षित) डेटा पुनर्प्राप्त किया जा सकता है। वे टिप्पणी करते हैं:
‘हमारे प्रयोग यह प्रदर्शित करते हैं कि राज्य-ऑफ-द-आर्ट सिंथेटिक चेहरा पहचान डेटासेट में नमूने होते हैं जो उनके जनरेटर मॉडल के प्रशिक्षण डेटा में नमूनों के बहुत करीब होते हैं। कुछ मामलों में, सिंथेटिक नमूने मूल छवि में छोटे परिवर्तन होते हैं, हालांकि, हम कुछ मामलों में भी देख सकते हैं कि उत्पन्न नमूने में अधिक परिवर्तन (जैसे कि अलग पोज, प्रकाश स्थिति, आदि) होते हैं जबकि पहचान संरक्षित होती है। ‘
‘यह सुझाव देता है कि जनरेटर मॉडल प्रशिक्षण डेटा से पहचान संबंधी जानकारी सीख रहे हैं और स्मरण कर रहे हैं और समान पहचान उत्पन्न कर सकते हैं। यह गोपनीयता-संवेदनशील कार्यों जैसे कि जैवमेट्रिक्स और चेहरा पहचान में सिंथेटिक डेटा के अनुप्रयोग के बारे में महत्वपूर्ण चिंताएं पैदा करता है।’
पत्र शीर्षक है सिंथेटिक चेहरे का पर्दाफाश: कैसे सिंथेटिक डेटासेट वास्तविक पहचान को उजागर कर सकते हैं, और मार्टिग्नी में इडियाप रिसर्च इंस्टीट्यूट, लॉज़ेन में École Polytechnique Fédérale de Lausanne (EPFL), और लॉज़ेन में Université de Lausanne (UNIL) से दो शोधकर्ताओं से आता है।
विधि, डेटा और परिणाम
अध्ययन में स्मरण किए गए चेहरे मेंबरशिप इन्फरेंस अटैक द्वारा प्रकट किए गए थे। हालांकि यह अवधारणा जटिल लगती है, यह काफी स्वयं-व्याख्यात्मक है: इस संदर्भ में, सदस्यता का अनुमान लगाना प्रणाली से प्रश्न पूछने की प्रक्रिया को संदर्भित करता है जब तक कि यह डेटा का खुलासा नहीं करता जो या तो डेटा को खोज रहा है या महत्वपूर्ण रूप से इसके समान है।

अध्ययन से अनुमानित डेटा स्रोतों के आगे के उदाहरण। इस मामले में, स्रोत सिंथेटिक छवियां DCFace डेटासेट से हैं।












