कृत्रिम बुद्धिमत्ता

वास्तविक पहचानें सिंथेटिक डेटासेट से पुनर्प्राप्त की जा सकती हैं

Published November 6, 2024

Updated March 6, 2026

Martin Anderson

Sample comparison images from the paper 'Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities', including original images (top), and inferred images (bottom).

यदि 2022 वह क्षण था जब जनरेटिव AI की विघटनकारी क्षमता ने पहली बार व्यापक सार्वजनिक ध्यान आकर्षित किया, तो 2024 वह वर्ष रहा है जब इसके अंतर्निहित डेटा की वैधता के सवालों ने उन व्यवसायों के लिए केंद्र स्तर पर जगह बनाई है जो इसकी शक्ति का उपयोग करने के लिए उत्सुक हैं।

संयुक्त राज्य अमेरिका का फेयर यूज सिद्धांत, साथ ही वह अंतर्निहित विद्वतापूर्ण लाइसेंस जिसने लंबे समय तक शैक्षणिक और वाणिज्यिक शोध क्षेत्रों को जनरेटिव AI का अन्वेषण करने की अनुमति दी थी, तेजी से अस्थिर होता गया क्योंकि साहित्यिक चोरी के बढ़ते सबूत सामने आए। इसके बाद, अमेरिका ने, फिलहाल के लिए, AI-जनित सामग्री को कॉपीराइट से वंचित कर दिया है।

ये मामले निपटे से बहुत दूर हैं, और निकट भविष्य में हल होने से भी दूर हैं; 2023 में, AI-जनित आउटपुट की कानूनी स्थिति के बारे में बढ़ती मीडिया और सार्वजनिक चिंता के कारण भी, अमेरिकी कॉपीराइट कार्यालय ने जनरेटिव AI के इस पहलू की जांच के लिए एक बहु-वर्षीय जांच शुरू की, जिसका पहला खंड (डिजिटल प्रतिकृतियों से संबंधित) जुलाई 2024 में प्रकाशित किया।

इस बीच, व्यावसायिक हित इस संभावना से निराश रहते हैं कि वे महंगे मॉडल जिनका वे शोषण करना चाहते हैं, उन्हें कानूनी परिणामों के लिए उजागर कर सकते हैं जब अंतिम विधान और परिभाषाएं अंततः सामने आएंगी।

महंगा अल्पकालिक समाधान यह रहा है कि जनरेटिव मॉडल को उन डेटा पर प्रशिक्षित करके वैध बनाया जाए जिनका उपयोग करने का कंपनियों को अधिकार है। Adobe का टेक्स्ट-टू-इमेज (और अब टेक्स्ट-टू-वीडियो) Firefly आर्किटेक्चर मुख्य रूप से 2014 में Fotolia स्टॉक इमेज डेटासेट की उसकी खरीद से संचालित होता है, जिसे कॉपीराइट-समाप्त सार्वजनिक डोमेन डेटा* के उपयोग से पूरक किया गया है। साथ ही, Getty और Shutterstock जैसी स्थापित स्टॉक फोटो आपूर्तिकर्ताओं ने अपने लाइसेंस प्राप्त डेटा के नए मूल्य पर पूंजीकृत किया है, जिसमें सामग्री को लाइसेंस देने या फिर अपने स्वयं के IP-अनुपालन वाले GenAI सिस्टम विकसित करने के लिए बढ़ती संख्या में सौदे शामिल हैं।

सिंथेटिक समाधान

चूंकि AI मॉडल के प्रशिक्षित लेटेंट स्पेस से कॉपीराइटेड डेटा को हटाना समस्याओं से भरा है, इस क्षेत्र में गलतियां उन कंपनियों के लिए संभावित रूप से बहुत महंगी साबित हो सकती हैं जो मशीन लर्निंग का उपयोग करने वाले उपभोक्ता और व्यावसायिक समाधानों के साथ प्रयोग कर रही हैं।

कंप्यूटर विजन सिस्टम (और बड़े भाषा मॉडल, या LLM) के लिए एक वैकल्पिक, और बहुत सस्ता समाधान सिंथेटिक डेटा का उपयोग है, जहां डेटासेट लक्ष्य डोमेन (जैसे चेहरे, बिल्लियाँ, चर्च, या यहां तक कि एक अधिक सामान्यीकृत डेटासेट) के यादृच्छिक रूप से उत्पन्न उदाहरणों से बना होता है।

thispersondoesnotexist.com जैसी साइटों ने बहुत पहले ही यह विचार लोकप्रिय कर दिया था कि ‘गैर-वास्तविक’ लोगों की प्रामाणिक दिखने वाली तस्वीरें संश्लेषित की जा सकती हैं (उस विशेष मामले में, जनरेटिव एडवरसैरियल नेटवर्क, या GAN के माध्यम से) बिना वास्तविक दुनिया में मौजूद लोगों से कोई संबंध रखे।

इसलिए, यदि आप ऐसे अमूर्त और गैर-वास्तविक उदाहरणों पर एक फेशियल रिकग्निशन सिस्टम या एक जनरेटिव सिस्टम को प्रशिक्षित करते हैं, तो आप सिद्धांत रूप में डेटा के कानूनी रूप से उपयोग योग्य होने पर विचार किए बिना ही AI मॉडल के लिए फोटोरियलिस्टिक मानक की उत्पादकता प्राप्त कर सकते हैं।

संतुलन कार्य

समस्या यह है कि जो सिस्टम सिंथेटिक डेटा उत्पन्न करते हैं, वे स्वयं वास्तविक डेटा पर प्रशिक्षित होते हैं। यदि उस डेटा के निशान सिंथेटिक डेटा में रिसाव कर जाते हैं, तो यह संभावित रूप से सबूत प्रदान करता है कि प्रतिबंधित या अन्यथा अनधिकृत सामग्री का आर्थिक लाभ के लिए शोषण किया गया है।

इससे बचने के लिए, और वास्तव में ‘यादृच्छिक’ इमेजरी उत्पन्न करने के लिए, ऐसे मॉडलों को यह सुनिश्चित करने की आवश्यकता होती है कि वे अच्छी तरह से सामान्यीकृत हैं। सामान्यीकरण एक प्रशिक्षित AI मॉडल की उस क्षमता का माप है जो उच्च-स्तरीय अवधारणाओं (जैसे ‘चेहरा’, ‘पुरुष’, या ‘महिला’) को आंतरिक रूप से समझने में सक्षम हो, बिना वास्तविक प्रशिक्षण डेटा की प्रतिकृति बनाए।

दुर्भाग्य से, प्रशिक्षित सिस्टम के लिए सूक्ष्म विवरण उत्पन्न करना (या पहचानना) मुश्किल हो सकता है जब तक कि वह किसी डेटासेट पर काफी व्यापक रूप से प्रशिक्षण न ले। यह सिस्टम को याद रखने के जोखिम के लिए उजागर करता है: कुछ हद तक, वास्तविक प्रशिक्षण डेटा के उदाहरणों को पुन: उत्पन्न करने की प्रवृत्ति।

इसे अधिक शिथिल लर्निंग रेट निर्धारित करके, या प्रशिक्षण को एक ऐसे चरण में समाप्त करके कम किया जा सकता है जहां मूल अवधारणाएं अभी भी लचीली हैं और किसी विशिष्ट डेटा बिंदु (जैसे किसी व्यक्ति की एक विशिष्ट छवि, चेहरे के डेटासेट के मामले में) से जुड़ी नहीं हैं।

हालांकि, इन दोनों उपचारों के परिणामस्वरूप कम सूक्ष्म विवरण वाले मॉडल बनने की संभावना है, क्योंकि सिस्टम को लक्ष्य डोमेन की ‘मूल बातें’ से आगे बढ़ने और विशिष्टताओं तक पहुंचने का मौका नहीं मिला।

इसलिए, वैज्ञानिक साहित्य में, आम तौर पर बहुत उच्च लर्निंग रेट और व्यापक प्रशिक्षण अनुसूचियां लागू की जाती हैं। जबकि शोधकर्ता आमतौर पर अंतिम मॉडल में व्यापक प्रयोज्यता और सूक्ष्मता के बीच समझौता करने का प्रयास करते हैं, यहां तक कि थोड़े से ‘याद किए गए’ सिस्टम भी अक्सर खुद को अच्छी तरह से सामान्यीकृत के रूप में गलत तरीके से प्रस्तुत कर सकते हैं – यहां तक कि प्रारंभिक परीक्षणों में भी।

चेहरा प्रकट

यह हमें स्विट्जरलैंड से एक दिलचस्प नए पेपर तक ले जाता है, जो यह प्रदर्शित करने का दावा करता है कि सिंथेटिक डेटा को शक्ति प्रदान करने वाली मूल, वास्तविक छवियों को उत्पन्न छवियों से पुनर्प्राप्त किया जा सकता है जो सिद्धांत रूप में, पूरी तरह से यादृच्छिक होनी चाहिए:

Example face images leaked from training data. In the row above, we see the original (real) images; in the row below, we see images generated at random, which accord significantly with the real images. Source: https://arxiv.org/pdf/2410.24015

प्रशिक्षण डेटा से लीक हुई उदाहरण चेहरे की छवियां। ऊपरी पंक्ति में, हम मूल (वास्तविक) छवियां देखते हैं; नीचे की पंक्ति में, हम यादृच्छिक रूप से उत्पन्न छवियां देखते हैं, जो वास्तविक छवियों के साथ महत्वपूर्ण रूप से मेल खाती हैं। Source: https://arxiv.org/pdf/2410.24015

लेखकों का तर्क है कि परिणाम इंगित करते हैं कि ‘सिंथेटिक’ जनरेटरों ने अधिक सूक्ष्मता की खोज में वास्तव में प्रशिक्षण डेटा बिंदुओं के बहुत से हिस्सों को याद कर लिया है। वे यह भी इंगित करते हैं कि सिंथेटिक डेटा पर निर्भर रहने वाले सिस्टम जो AI उत्पादकों को कानूनी परिणामों से बचाने के लिए हैं, इस संबंध में बहुत अविश्वसनीय हो सकते हैं।

शोधकर्ताओं ने छह अत्याधुनिक सिंथेटिक डेटासेट पर एक व्यापक अध्ययन किया, यह प्रदर्शित करते हुए कि सभी मामलों में, मूल (संभावित रूप से कॉपीराइट या संरक्षित) डेटा को पुनर्प्राप्त किया जा सकता है। वे टिप्पणी करते हैं:

‘हमारे प्रयोग प्रदर्शित करते हैं कि अत्याधुनिक सिंथेटिक फेशियल रिकग्निशन डेटासेट में ऐसे नमूने शामिल हैं जो उनके जनरेटर मॉडल के प्रशिक्षण डेटा के नमूनों के बहुत करीब हैं। कुछ मामलों में सिंथेटिक नमूनों में मूल छवि में छोटे बदलाव हो

Martin Anderson

लेखक मशीन लर्निंग पर, मानव छवि संश्लेषण में डोमेन विशेषज्ञ। Metaphysic.ai में पूर्व अनुसंधान सामग्री प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai