Connect with us

рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдкрд╣рдЪрд╛рди рд╕рд┐рдВрдереЗрдЯрд┐рдХ рдбреЗрдЯрд╛рд╕реЗрдЯ рд╕реЗ рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрдд рдХреА рдЬрд╛ рд╕рдХрддреА рд╣реИрдВ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдкрд╣рдЪрд╛рди рд╕рд┐рдВрдереЗрдЯрд┐рдХ рдбреЗрдЯрд╛рд╕реЗрдЯ рд╕реЗ рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрдд рдХреА рдЬрд╛ рд╕рдХрддреА рд╣реИрдВ

mm
Sample comparison images from the paper 'Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities', including original images (top), and inferred images (bottom).

यदि 2022 ने उस पल को चिह्नित किया जब जनरेटिव एआई की विघटनकारी क्षमता ने पहली बार व्यापक सार्वजनिक ध्यान आकर्षित किया, तो 2024 वह वर्ष रहा है जब इसके अंतर्निहित डेटा की वैधता के बारे में प्रश्न व्यवसायों के लिए केंद्र स्तर पर आ गए हैं जो इसकी शक्ति का दोहन करने के लिए उत्सुक हैं।

संयुक्त राज्य अमेरिका का न्यायसंगत उपयोग सिद्धांत, साथ ही साथ शोध क्षेत्रों को अन्वेषण करने की अनुमति देने वाले अंतर्निहित शोध लाइसेंस ने जनरेटिव एआई को बढ़ावा देने के लिए व्यावसायिक और शैक्षिक अनुसंधान क्षेत्रों को अनुमति दी है, जो बढ़ते प्लेगियारिज़म के प्रमाण के कारण अस्थिर हो गया है। इसके परिणामस्वरूप, अमेरिका ने इस समय के लिए अनुमति नहीं दी है एआई-जनरेटेड सामग्री को कॉपीराइट किया जा सकता है।

इन मामलों का निपटारा अभी भी दूर है, और जल्द ही हल होने की संभावना नहीं है; 2023 में, बढ़ती मीडिया और सार्वजनिक चिंता के कारण, एआई-जनरेटेड आउटपुट की कानूनी स्थिति के बारे में, अमेरिकी कॉपीराइट कार्यालय ने इस पहलू पर एक वर्षों-लंबी जांच शुरू की, पहले खंड (डिजिटल प्रतिकृतियों के संबंध में) को जुलाई 2024 में प्रकाशित किया।

इस बीच, व्यवसायिक हितों को यह संभावना से निराश किया जाता है कि वे महंगे मॉडल जो वे शोषण करना चाहते हैं उन्हें कानूनी परिणामों के लिए उजागर कर सकते हैं जब निश्चित कानून और परिभाषाएं अंततः उभरेंगी।

महंगी अल्पकालिक समाधान यह है कि जनरेटिव मॉडल को डेटा पर प्रशिक्षित किया जाए जिसे कंपनियों को शोषण करने का अधिकार है। एडोबी का टेक्स्ट-टू-इमेज (और अब टेक्स्ट-टू-वीडियो) फायरफ्लाई आर्किटेक्चर मुख्य रूप से इसके फोटोलिया स्टॉक इमेज डेटासेट की खरीद से संचालित होता है, पूरक कॉपीराइट-एक्सपायर्ड सार्वजनिक डोमेन डेटा का उपयोग करके। 同 समय, स्टॉक फोटो सप्लायर जैसे गेटी और शटरस्टॉक ने पूंजीकरण किया है अपने लाइसेंस्ड डेटा के नए मूल्य पर, जेनएआई सिस्टम विकसित करने के लिए लाइसेंस्ड सामग्री या डील की बढ़ती संख्या के साथ।

सिंथेटिक समाधान

चूंकि एक एआई मॉडल के प्रशिक्षित लेटेंट स्पेस से कॉपीराइटेड डेटा को हटाना समस्याओं से भरा हुआ है, इस क्षेत्र में गलतियां कंपनियों के लिए बहुत महंगी हो सकती हैं जो मशीन लर्निंग का उपयोग करके उपभोक्ता और व्यवसायिक समाधानों के साथ प्रयोग कर रहे हैं।

एक विकल्प, और बहुत सस्ता समाधान कंप्यूटर विजन सिस्टम (और भी लार्ज लैंग्वेज मॉडल, या एलएलएम) के लिए सिंथेटिक डेटा का उपयोग है, जहां डेटासेट लक्ष्य डोमेन (जैसे कि चेहरे, बिल्ली, चर्च, या यहां तक कि एक अधिक सामान्य डेटासेट) के यादृच्छिक रूप से उत्पन्न उदाहरणों से बना होता है।

साइट्स जैसे thispersondoesnotexist.com ने पहले ही यह विचार लोकप्रिय बना दिया है कि ‘गैर-वास्तविक’ लोगों की वास्तविक दिखने वाली तस्वीरें सिंथेटिक की जा सकती हैं (इस मामले में, जनरेटिव एडवर्सेरियल नेटवर्क, या जीएएन के माध्यम से) वास्तविक दुनिया में मौजूद लोगों से कोई संबंध नहीं रखते हैं।

इसलिए, यदि आप एक चेहरा पहचान प्रणाली या एक जनरेटिव सिस्टम को ऐसे अमूर्त और गैर-वास्तविक उदाहरणों पर प्रशिक्षित करते हैं, तो आप सिद्धांत रूप में एक एआई मॉडल के लिए फोटोरियलिस्टिक मानक की उत्पादकता प्राप्त कर सकते हैं без यह विचार करने की आवश्यकता है कि डेटा कानूनी रूप से उपयोगी है या नहीं।

संतुलन कार्य

समस्या यह है कि सिंथेटिक डेटा उत्पन्न करने वाले सिस्टम स्वयं वास्तविक डेटा पर प्रशिक्षित होते हैं। यदि उस डेटा के निशान सिंथेटिक डेटा में फैल जाते हैं, तो यह संभावित रूप से प्रतिबंधित या अन्यथा अनधिकृत सामग्री के शोषण के लिए साक्ष्य प्रदान करता है मौद्रिक लाभ के लिए।

इससे बचने के लिए, और वास्तव में ‘यादृच्छिक’ इमेजरी उत्पन्न करने के लिए, ऐसे मॉडलों को यह सुनिश्चित करने की आवश्यकता है कि वे अच्छी तरह से सामान्यीकृत हैं। सामान्यीकरण एक प्रशिक्षित एआई मॉडल की क्षमता का माप है उच्च-स्तरीय अवधारणाओं (जैसे ‘चेहरा’, ‘पुरुष’, या ‘‘महिला’) को समझने के लिए बिना वास्तविक प्रशिक्षण डेटा की प्रतिलिपि बनाने के लिए।

दुर्भाग्य से, यह प्रशिक्षित प्रणालियों के लिए विस्तृत विवरण (ग्रैन्युलर डिटेल) उत्पन्न करना या पहचानना मुश्किल हो सकता है, जब तक कि यह एक डेटासेट पर बहुत व्यापक रूप से प्रशिक्षित नहीं हो जाता। यह प्रणाली को मेमोराइजेशन के जोखिम के लिए उजागर करता है: वास्तविक प्रशिक्षण डेटा के उदाहरणों को कुछ हद तक पुनरुत्पादित करने की प्रवृत्ति।

चेहरा प्रकट

यह हमें स्विट्जरलैंड से एक दिलचस्प नए शोध पत्र में ले जाता है, जो दावा करता है कि यह पहला है जो सिंथेटिक डेटासेट से मूल, वास्तविक छवियों को पुनर्प्राप्त करने का प्रदर्शन करता है जो सिद्धांत रूप में पूरी तरह से यादृच्छिक होना चाहिए:

рдореВрд▓ (рд╡рд╛рд╕реНрддрд╡рд┐рдХ) рдЫрд╡рд┐рдпреЛрдВ рдХреЗ рд╕рд╛рде рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рд╕реЗ рд░рд┐рд╕рд╛рд╡ рд╡рд╛рд▓реЗ рдЙрджрд╛рд╣рд░рдг рдЪреЗрд╣рд░реЗ рдХреА рдЫрд╡рд┐рдпрд╛рдВред рдКрдкрд░реА рдкрдВрдХреНрддрд┐ рдореЗрдВ, рд╣рдо рдореВрд▓ (рд╡рд╛рд╕реНрддрд╡рд┐рдХ) рдЫрд╡рд┐рдпреЛрдВ рдХреЛ рджреЗрдЦрддреЗ рд╣реИрдВ; рдиреАрдЪреЗ рдХреА рдкрдВрдХреНрддрд┐ рдореЗрдВ, рд╣рдо рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рд░реВрдк рд╕реЗ рдЙрддреНрдкрдиреНрди рдЫрд╡рд┐рдпреЛрдВ рдХреЛ рджреЗрдЦрддреЗ рд╣реИрдВ, рдЬреЛ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдЫрд╡рд┐рдпреЛрдВ рдХреЗ рд╕рд╛рде рдХрд╛рдлреА рдореЗрд▓ рдЦрд╛рддреА рд╣реИрдВред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2410.24015

मूल (वास्तविक) छवियों के साथ प्रशिक्षण डेटा से रिसाव वाले उदाहरण चेहरे की छवियां। ऊपरी पंक्ति में, हम मूल (वास्तविक) छवियों को देखते हैं; नीचे की पंक्ति में, हम यादृच्छिक रूप से उत्पन्न छवियों को देखते हैं, जो वास्तविक छवियों के साथ काफी मेल खाती हैं। स्रोत: https://arxiv.org/pdf/2410.24015

परिणाम, लेखकों का तर्क है, यह दर्शाते हैं कि ‘सिंथेटिक’ जनरेटर वास्तव में अपने प्रशिक्षण डेटा बिंदुओं को बहुत सारे में स्मरण किया है, विस्तृतता की खोज में। वे यह भी दर्शाते हैं कि सिंथेटिक डेटा पर निर्भर करने वाली प्रणालियां जो एआई उत्पादकों को कानूनी परिणामों से बचाने के लिए हैं, इस संबंध में बहुत अविश्वसनीय हो सकती हैं।

शोधकर्ताओं ने छह राज्य-ऑफ-द-आर्ट सिंथेटिक डेटासेट पर एक व्यापक अध्ययन किया, जिसमें दिखाया गया कि सभी मामलों में, मूल (संभावित रूप से कॉपीराइटेड या संरक्षित) डेटा पुनर्प्राप्त किया जा सकता है। वे टिप्पणी करते हैं:

‘हमारे प्रयोग यह प्रदर्शित करते हैं कि राज्य-ऑफ-द-आर्ट सिंथेटिक चेहरा पहचान डेटासेट में नमूने होते हैं जो उनके जनरेटर मॉडल के प्रशिक्षण डेटा में नमूनों के बहुत करीब होते हैं। कुछ मामलों में, सिंथेटिक नमूने मूल छवि में छोटे परिवर्तन होते हैं, हालांकि, हम कुछ मामलों में भी देख सकते हैं कि उत्पन्न नमूने में अधिक परिवर्तन (जैसे कि अलग पोज, प्रकाश स्थिति, आदि) होते हैं जबकि पहचान संरक्षित होती है। ‘

‘यह सुझाव देता है कि जनरेटर मॉडल प्रशिक्षण डेटा से पहचान संबंधी जानकारी सीख रहे हैं और स्मरण कर रहे हैं और समान पहचान उत्पन्न कर सकते हैं। यह गोपनीयता-संवेदनशील कार्यों जैसे कि जैवमेट्रिक्स और चेहरा पहचान में सिंथेटिक डेटा के अनुप्रयोग के बारे में महत्वपूर्ण चिंताएं पैदा करता है।’

पत्र शीर्षक है सिंथेटिक चेहरे का पर्दाफाश: कैसे सिंथेटिक डेटासेट वास्तविक पहचान को उजागर कर सकते हैं, और मार्टिग्नी में इडियाप रिसर्च इंस्टीट्यूट, लॉज़ेन में École Polytechnique Fédérale de Lausanne (EPFL), और लॉज़ेन में Université de Lausanne (UNIL) से दो शोधकर्ताओं से आता है।

विधि, डेटा और परिणाम

अध्ययन में स्मरण किए गए चेहरे मेंबरशिप इन्फरेंस अटैक द्वारा प्रकट किए गए थे। हालांकि यह अवधारणा जटिल लगती है, यह काफी स्वयं-व्याख्यात्मक है: इस संदर्भ में, सदस्यता का अनुमान लगाना प्रणाली से प्रश्न पूछने की प्रक्रिया को संदर्भित करता है जब तक कि यह डेटा का खुलासा नहीं करता जो या तो डेटा को खोज रहा है या महत्वपूर्ण रूप से इसके समान है।

рдЕрдзреНрдпрдпрди рд╕реЗ рдЕрдиреБрдорд╛рдирд┐рдд рдбреЗрдЯрд╛ рд╕реНрд░реЛрддреЛрдВ рдХреЗ рдЖрдЧреЗ рдХреЗ рдЙрджрд╛рд╣рд░рдгред рдЗрд╕ рдорд╛рдорд▓реЗ рдореЗрдВ, рд╕реНрд░реЛрдд рд╕рд┐рдВрдереЗрдЯрд┐рдХ рдЫрд╡рд┐рдпрд╛рдВ DCFace рдбреЗрдЯрд╛рд╕реЗрдЯ рд╕реЗ рд╣реИрдВред

अध्ययन से अनुमानित डेटा स्रोतों के आगे के उदाहरण। इस मामले में, स्रोत सिंथेटिक छवियां DCFace डेटासेट से हैं।


рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai

рд╡рд┐рдЬреНрдЮрд╛рдкрди рдкреНрд░рдХрдЯреАрдХрд░рдг: Unite.AI рд╕рдЯреАрдХ рдЬрд╛рдирдХрд╛рд░реА рдФрд░ рд╕рдорд╛рдЪрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрдареЛрд░ рд╕рдВрдкрд╛рджрдХреАрдп рдорд╛рдирдХреЛрдВ рдХреЗ рдкреНрд░рддрд┐ рдкреНрд░рддрд┐рдмрджреНрдз рд╣реИред рдЬрдм рдЖрдк рдЙрди рдЙрддреНрдкрд╛рджреЛрдВ рдХреЗ рд▓рд┐рдВрдХ рдкрд░ рдХреНрд▓рд┐рдХ рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдирдХреА рд╣рдордиреЗ рд╕рдореАрдХреНрд╖рд╛ рдХреА рд╣реИ, рддреЛ рд╣рдореЗрдВ рдореБрдЖрд╡рдЬрд╛ рдорд┐рд▓ рд╕рдХрддрд╛ рд╣реИред