कृत्रिम बुद्धिमत्ता

वास्तविक पहचान सिंथेटिक डेटासेट से पुनर्प्राप्त की जा सकती हैं

Published November 6, 2024

Updated April 27, 2026

Martin Anderson

Sample comparison images from the paper 'Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities', including original images (top), and inferred images (bottom).

यदि 2022 ने उस पल को चिह्नित किया जब जनरेटिव एआई की विघटनकारी क्षमता ने पहली बार व्यापक सार्वजनिक ध्यान आकर्षित किया, तो 2024 वह वर्ष रहा है जब इसके अंतर्निहित डेटा की वैधता के बारे में प्रश्न व्यवसायों के लिए केंद्र स्तर पर आ गए हैं जो इसकी शक्ति का दोहन करने के लिए उत्सुक हैं।

संयुक्त राज्य अमेरिका का न्यायसंगत उपयोग सिद्धांत, साथ ही साथ शोध क्षेत्रों को अन्वेषण करने की अनुमति देने वाले अंतर्निहित शोध लाइसेंस ने जनरेटिव एआई को बढ़ावा देने के लिए व्यावसायिक और शैक्षिक अनुसंधान क्षेत्रों को अनुमति दी है, जो बढ़ते प्लेगियारिज़म के प्रमाण के कारण अस्थिर हो गया है। इसके परिणामस्वरूप, अमेरिका ने इस समय के लिए अनुमति नहीं दी है एआई-जनरेटेड सामग्री को कॉपीराइट किया जा सकता है।

इन मामलों का निपटारा अभी भी दूर है, और जल्द ही हल होने की संभावना नहीं है; 2023 में, बढ़ती मीडिया और सार्वजनिक चिंता के कारण, एआई-जनरेटेड आउटपुट की कानूनी स्थिति के बारे में, अमेरिकी कॉपीराइट कार्यालय ने इस पहलू पर एक वर्षों-लंबी जांच शुरू की, पहले खंड (डिजिटल प्रतिकृतियों के संबंध में) को जुलाई 2024 में प्रकाशित किया।

इस बीच, व्यवसायिक हितों को यह संभावना से निराश किया जाता है कि वे महंगे मॉडल जो वे शोषण करना चाहते हैं उन्हें कानूनी परिणामों के लिए उजागर कर सकते हैं जब निश्चित कानून और परिभाषाएं अंततः उभरेंगी।

महंगी अल्पकालिक समाधान यह है कि जनरेटिव मॉडल को डेटा पर प्रशिक्षित किया जाए जिसे कंपनियों को शोषण करने का अधिकार है। एडोबी का टेक्स्ट-टू-इमेज (और अब टेक्स्ट-टू-वीडियो) फायरफ्लाई आर्किटेक्चर मुख्य रूप से इसके फोटोलिया स्टॉक इमेज डेटासेट की खरीद से संचालित होता है, पूरक कॉपीराइट-एक्सपायर्ड सार्वजनिक डोमेन डेटा का उपयोग करके। 同 समय, स्टॉक फोटो सप्लायर जैसे गेटी और शटरस्टॉक ने पूंजीकरण किया है अपने लाइसेंस्ड डेटा के नए मूल्य पर, जेनएआई सिस्टम विकसित करने के लिए लाइसेंस्ड सामग्री या डील की बढ़ती संख्या के साथ।

सिंथेटिक समाधान

चूंकि एक एआई मॉडल के प्रशिक्षित लेटेंट स्पेस से कॉपीराइटेड डेटा को हटाना समस्याओं से भरा हुआ है, इस क्षेत्र में गलतियां कंपनियों के लिए बहुत महंगी हो सकती हैं जो मशीन लर्निंग का उपयोग करके उपभोक्ता और व्यवसायिक समाधानों के साथ प्रयोग कर रहे हैं।

एक विकल्प, और बहुत सस्ता समाधान कंप्यूटर विजन सिस्टम (और भी लार्ज लैंग्वेज मॉडल, या एलएलएम) के लिए सिंथेटिक डेटा का उपयोग है, जहां डेटासेट लक्ष्य डोमेन (जैसे कि चेहरे, बिल्ली, चर्च, या यहां तक कि एक अधिक सामान्य डेटासेट) के यादृच्छिक रूप से उत्पन्न उदाहरणों से बना होता है।

साइट्स जैसे thispersondoesnotexist.com ने पहले ही यह विचार लोकप्रिय बना दिया है कि ‘गैर-वास्तविक’ लोगों की वास्तविक दिखने वाली तस्वीरें सिंथेटिक की जा सकती हैं (इस मामले में, जनरेटिव एडवर्सेरियल नेटवर्क, या जीएएन के माध्यम से) वास्तविक दुनिया में मौजूद लोगों से कोई संबंध नहीं रखते हैं।

इसलिए, यदि आप एक चेहरा पहचान प्रणाली या एक जनरेटिव सिस्टम को ऐसे अमूर्त और गैर-वास्तविक उदाहरणों पर प्रशिक्षित करते हैं, तो आप सिद्धांत रूप में एक एआई मॉडल के लिए फोटोरियलिस्टिक मानक की उत्पादकता प्राप्त कर सकते हैं без यह विचार करने की आवश्यकता है कि डेटा कानूनी रूप से उपयोगी है या नहीं।

संतुलन कार्य

समस्या यह है कि सिंथेटिक डेटा उत्पन्न करने वाले सिस्टम स्वयं वास्तविक डेटा पर प्रशिक्षित होते हैं। यदि उस डेटा के निशान सिंथेटिक डेटा में फैल जाते हैं, तो यह संभावित रूप से प्रतिबंधित या अन्यथा अनधिकृत सामग्री के शोषण के लिए साक्ष्य प्रदान करता है मौद्रिक लाभ के लिए।

इससे बचने के लिए, और वास्तव में ‘यादृच्छिक’ इमेजरी उत्पन्न करने के लिए, ऐसे मॉडलों को यह सुनिश्चित करने की आवश्यकता है कि वे अच्छी तरह से सामान्यीकृत हैं। सामान्यीकरण एक प्रशिक्षित एआई मॉडल की क्षमता का माप है उच्च-स्तरीय अवधारणाओं (जैसे ‘चेहरा’, ‘पुरुष’, या ‘‘महिला’) को समझने के लिए बिना वास्तविक प्रशिक्षण डेटा की प्रतिलिपि बनाने के लिए।

दुर्भाग्य से, यह प्रशिक्षित प्रणालियों के लिए विस्तृत विवरण (ग्रैन्युलर डिटेल) उत्पन्न करना या पहचानना मुश्किल हो सकता है, जब तक कि यह एक डेटासेट पर बहुत व्यापक रूप से प्रशिक्षित नहीं हो जाता। यह प्रणाली को मेमोराइजेशन के जोखिम के लिए उजागर करता है: वास्तविक प्रशिक्षण डेटा के उदाहरणों को कुछ हद तक पुनरुत्पादित करने की प्रवृत्ति।

चेहरा प्रकट

यह हमें स्विट्जरलैंड से एक दिलचस्प नए शोध पत्र में ले जाता है, जो दावा करता है कि यह पहला है जो सिंथेटिक डेटासेट से मूल, वास्तविक छवियों को पुनर्प्राप्त करने का प्रदर्शन करता है जो सिद्धांत रूप में पूरी तरह से यादृच्छिक होना चाहिए:

मूल (वास्तविक) छवियों के साथ प्रशिक्षण डेटा से रिसाव वाले उदाहरण चेहरे की छवियां। ऊपरी पंक्ति में, हम मूल (वास्तविक) छवियों को देखते हैं; नीचे की पंक्ति में, हम यादृच्छिक रूप से उत्पन्न छवियों को देखते हैं, जो वास्तविक छवियों के साथ काफी मेल खाती हैं। स्रोत: https://arxiv.org/pdf/2410.24015

परिणाम, लेखकों का तर्क है, यह दर्शाते हैं कि ‘सिंथेटिक’ जनरेटर वास्तव में अपने प्रशिक्षण डेटा बिंदुओं को बहुत सारे में स्मरण किया है, विस्तृतता की खोज में। वे यह भी दर्शाते हैं कि सिंथेटिक डेटा पर निर्भर करने वाली प्रणालियां जो एआई उत्पादकों को कानूनी परिणामों से बचाने के लिए हैं, इस संबंध में बहुत अविश्वसनीय हो सकती हैं।

शोधकर्ताओं ने छह राज्य-ऑफ-द-आर्ट सिंथेटिक डेटासेट पर एक व्यापक अध्ययन किया, जिसमें दिखाया गया कि सभी मामलों में, मूल (संभावित रूप से कॉपीराइटेड या संरक्षित) डेटा पुनर्प्राप्त किया जा सकता है। वे टिप्पणी करते हैं:

‘हमारे प्रयोग यह प्रदर्शित करते हैं कि राज्य-ऑफ-द-आर्ट सिंथेटिक चेहरा पहचान डेटासेट में नमूने होते हैं जो उनके जनरेटर मॉडल के प्रशिक्षण डेटा में नमूनों के बहुत करीब होते हैं। कुछ मामलों में, सिंथेटिक नमूने मूल छवि में छोटे परिवर्तन होते हैं, हालांकि, हम कुछ मामलों में भी देख सकते हैं कि उत्पन्न नमूने में अधिक परिवर्तन (जैसे कि अलग पोज, प्रकाश स्थिति, आदि) होते हैं जबकि पहचान संरक्षित होती है। ‘

‘यह सुझाव देता है कि जनरेटर मॉडल प्रशिक्षण डेटा से पहचान संबंधी जानकारी सीख रहे हैं और स्मरण कर रहे हैं और समान पहचान उत्पन्न कर सकते हैं। यह गोपनीयता-संवेदनशील कार्यों जैसे कि जैवमेट्रिक्स और चेहरा पहचान में सिंथेटिक डेटा के अनुप्रयोग के बारे में महत्वपूर्ण चिंताएं पैदा करता है।’

पत्र शीर्षक है सिंथेटिक चेहरे का पर्दाफाश: कैसे सिंथेटिक डेटासेट वास्तविक पहचान को उजागर कर सकते हैं, और मार्टिग्नी में इडियाप रिसर्च इंस्टीट्यूट, लॉज़ेन में École Polytechnique Fédérale de Lausanne (EPFL), और लॉज़ेन में Université de Lausanne (UNIL) से दो शोधकर्ताओं से आता है।

विधि, डेटा और परिणाम

अध्ययन में स्मरण किए गए चेहरे मेंबरशिप इन्फरेंस अटैक द्वारा प्रकट किए गए थे। हालांकि यह अवधारणा जटिल लगती है, यह काफी स्वयं-व्याख्यात्मक है: इस संदर्भ में, सदस्यता का अनुमान लगाना प्रणाली से प्रश्न पूछने की प्रक्रिया को संदर्भित करता है जब तक कि यह डेटा का खुलासा नहीं करता जो या तो डेटा को खोज रहा है या महत्वपूर्ण रूप से इसके समान है।

अध्ययन से अनुमानित डेटा स्रोतों के आगे के उदाहरण। इस मामले में, स्रोत सिंथेटिक छवियां DCFace डेटासेट से हैं।

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai