कृत्रिम बुद्धिमत्ता
वास्तविक पहचानें सिंथेटिक डेटासेट से पुनर्प्राप्त की जा सकती हैं

यदि 2022 वह क्षण था जब जनरेटिव AI की विघटनकारी क्षमता ने पहली बार व्यापक सार्वजनिक ध्यान आकर्षित किया, तो 2024 वह वर्ष रहा है जब इसके अंतर्निहित डेटा की वैधता के सवालों ने उन व्यवसायों के लिए केंद्र स्तर पर जगह बनाई है जो इसकी शक्ति का उपयोग करने के लिए उत्सुक हैं।
संयुक्त राज्य अमेरिका का फेयर यूज सिद्धांत, साथ ही वह अंतर्निहित विद्वतापूर्ण लाइसेंस जिसने लंबे समय तक शैक्षणिक और वाणिज्यिक शोध क्षेत्रों को जनरेटिव AI का अन्वेषण करने की अनुमति दी थी, तेजी से अस्थिर होता गया क्योंकि साहित्यिक चोरी के बढ़ते सबूत सामने आए। इसके बाद, अमेरिका ने, फिलहाल के लिए, AI-जनित सामग्री को कॉपीराइट से वंचित कर दिया है।
ये मामले निपटे से बहुत दूर हैं, और निकट भविष्य में हल होने से भी दूर हैं; 2023 में, AI-जनित आउटपुट की कानूनी स्थिति के बारे में बढ़ती मीडिया और सार्वजनिक चिंता के कारण भी, अमेरिकी कॉपीराइट कार्यालय ने जनरेटिव AI के इस पहलू की जांच के लिए एक बहु-वर्षीय जांच शुरू की, जिसका पहला खंड (डिजिटल प्रतिकृतियों से संबंधित) जुलाई 2024 में प्रकाशित किया।
इस बीच, व्यावसायिक हित इस संभावना से निराश रहते हैं कि वे महंगे मॉडल जिनका वे शोषण करना चाहते हैं, उन्हें कानूनी परिणामों के लिए उजागर कर सकते हैं जब अंतिम विधान और परिभाषाएं अंततः सामने आएंगी।
महंगा अल्पकालिक समाधान यह रहा है कि जनरेटिव मॉडल को उन डेटा पर प्रशिक्षित करके वैध बनाया जाए जिनका उपयोग करने का कंपनियों को अधिकार है। Adobe का टेक्स्ट-टू-इमेज (और अब टेक्स्ट-टू-वीडियो) Firefly आर्किटेक्चर मुख्य रूप से 2014 में Fotolia स्टॉक इमेज डेटासेट की उसकी खरीद से संचालित होता है, जिसे कॉपीराइट-समाप्त सार्वजनिक डोमेन डेटा* के उपयोग से पूरक किया गया है। साथ ही, Getty और Shutterstock जैसी स्थापित स्टॉक फोटो आपूर्तिकर्ताओं ने अपने लाइसेंस प्राप्त डेटा के नए मूल्य पर पूंजीकृत किया है, जिसमें सामग्री को लाइसेंस देने या फिर अपने स्वयं के IP-अनुपालन वाले GenAI सिस्टम विकसित करने के लिए बढ़ती संख्या में सौदे शामिल हैं।
सिंथेटिक समाधान
चूंकि AI मॉडल के प्रशिक्षित लेटेंट स्पेस से कॉपीराइटेड डेटा को हटाना समस्याओं से भरा है, इस क्षेत्र में गलतियां उन कंपनियों के लिए संभावित रूप से बहुत महंगी साबित हो सकती हैं जो मशीन लर्निंग का उपयोग करने वाले उपभोक्ता और व्यावसायिक समाधानों के साथ प्रयोग कर रही हैं।
कंप्यूटर विजन सिस्टम (और बड़े भाषा मॉडल, या LLM) के लिए एक वैकल्पिक, और बहुत सस्ता समाधान सिंथेटिक डेटा का उपयोग है, जहां डेटासेट लक्ष्य डोमेन (जैसे चेहरे, बिल्लियाँ, चर्च, या यहां तक कि एक अधिक सामान्यीकृत डेटासेट) के यादृच्छिक रूप से उत्पन्न उदाहरणों से बना होता है।
thispersondoesnotexist.com जैसी साइटों ने बहुत पहले ही यह विचार लोकप्रिय कर दिया था कि ‘गैर-वास्तविक’ लोगों की प्रामाणिक दिखने वाली तस्वीरें संश्लेषित की जा सकती हैं (उस विशेष मामले में, जनरेटिव एडवरसैरियल नेटवर्क, या GAN के माध्यम से) बिना वास्तविक दुनिया में मौजूद लोगों से कोई संबंध रखे।
इसलिए, यदि आप ऐसे अमूर्त और गैर-वास्तविक उदाहरणों पर एक फेशियल रिकग्निशन सिस्टम या एक जनरेटिव सिस्टम को प्रशिक्षित करते हैं, तो आप सिद्धांत रूप में डेटा के कानूनी रूप से उपयोग योग्य होने पर विचार किए बिना ही AI मॉडल के लिए फोटोरियलिस्टिक मानक की उत्पादकता प्राप्त कर सकते हैं।
संतुलन कार्य
समस्या यह है कि जो सिस्टम सिंथेटिक डेटा उत्पन्न करते हैं, वे स्वयं वास्तविक डेटा पर प्रशिक्षित होते हैं। यदि उस डेटा के निशान सिंथेटिक डेटा में रिसाव कर जाते हैं, तो यह संभावित रूप से सबूत प्रदान करता है कि प्रतिबंधित या अन्यथा अनधिकृत सामग्री का आर्थिक लाभ के लिए शोषण किया गया है।
इससे बचने के लिए, और वास्तव में ‘यादृच्छिक’ इमेजरी उत्पन्न करने के लिए, ऐसे मॉडलों को यह सुनिश्चित करने की आवश्यकता होती है कि वे अच्छी तरह से सामान्यीकृत हैं। सामान्यीकरण एक प्रशिक्षित AI मॉडल की उस क्षमता का माप है जो उच्च-स्तरीय अवधारणाओं (जैसे ‘चेहरा’, ‘पुरुष’, या ‘महिला’) को आंतरिक रूप से समझने में सक्षम हो, बिना वास्तविक प्रशिक्षण डेटा की प्रतिकृति बनाए।
दुर्भाग्य से, प्रशिक्षित सिस्टम के लिए सूक्ष्म विवरण उत्पन्न करना (या पहचानना) मुश्किल हो सकता है जब तक कि वह किसी डेटासेट पर काफी व्यापक रूप से प्रशिक्षण न ले। यह सिस्टम को याद रखने के जोखिम के लिए उजागर करता है: कुछ हद तक, वास्तविक प्रशिक्षण डेटा के उदाहरणों को पुन: उत्पन्न करने की प्रवृत्ति।
इसे अधिक शिथिल लर्निंग रेट निर्धारित करके, या प्रशिक्षण को एक ऐसे चरण में समाप्त करके कम किया जा सकता है जहां मूल अवधारणाएं अभी भी लचीली हैं और किसी विशिष्ट डेटा बिंदु (जैसे किसी व्यक्ति की एक विशिष्ट छवि, चेहरे के डेटासेट के मामले में) से जुड़ी नहीं हैं।
हालांकि, इन दोनों उपचारों के परिणामस्वरूप कम सूक्ष्म विवरण वाले मॉडल बनने की संभावना है, क्योंकि सिस्टम को लक्ष्य डोमेन की ‘मूल बातें’ से आगे बढ़ने और विशिष्टताओं तक पहुंचने का मौका नहीं मिला।
इसलिए, वैज्ञानिक साहित्य में, आम तौर पर बहुत उच्च लर्निंग रेट और व्यापक प्रशिक्षण अनुसूचियां लागू की जाती हैं। जबकि शोधकर्ता आमतौर पर अंतिम मॉडल में व्यापक प्रयोज्यता और सूक्ष्मता के बीच समझौता करने का प्रयास करते हैं, यहां तक कि थोड़े से ‘याद किए गए’ सिस्टम भी अक्सर खुद को अच्छी तरह से सामान्यीकृत के रूप में गलत तरीके से प्रस्तुत कर सकते हैं – यहां तक कि प्रारंभिक परीक्षणों में भी।
चेहरा प्रकट
यह हमें स्विट्जरलैंड से एक दिलचस्प नए पेपर तक ले जाता है, जो यह प्रदर्शित करने का दावा करता है कि सिंथेटिक डेटा को शक्ति प्रदान करने वाली मूल, वास्तविक छवियों को उत्पन्न छवियों से पुनर्प्राप्त किया जा सकता है जो सिद्धांत रूप में, पूरी तरह से यादृच्छिक होनी चाहिए:

प्रशिक्षण डेटा से लीक हुई उदाहरण चेहरे की छवियां। ऊपरी पंक्ति में, हम मूल (वास्तविक) छवियां देखते हैं; नीचे की पंक्ति में, हम यादृच्छिक रूप से उत्पन्न छवियां देखते हैं, जो वास्तविक छवियों के साथ महत्वपूर्ण रूप से मेल खाती हैं। Source: https://arxiv.org/pdf/2410.24015
लेखकों का तर्क है कि परिणाम इंगित करते हैं कि ‘सिंथेटिक’ जनरेटरों ने अधिक सूक्ष्मता की खोज में वास्तव में प्रशिक्षण डेटा बिंदुओं के बहुत से हिस्सों को याद कर लिया है। वे यह भी इंगित करते हैं कि सिंथेटिक डेटा पर निर्भर रहने वाले सिस्टम जो AI उत्पादकों को कानूनी परिणामों से बचाने के लिए हैं, इस संबंध में बहुत अविश्वसनीय हो सकते हैं।
शोधकर्ताओं ने छह अत्याधुनिक सिंथेटिक डेटासेट पर एक व्यापक अध्ययन किया, यह प्रदर्शित करते हुए कि सभी मामलों में, मूल (संभावित रूप से कॉपीराइट या संरक्षित) डेटा को पुनर्प्राप्त किया जा सकता है। वे टिप्पणी करते हैं:
‘हमारे प्रयोग प्रदर्शित करते हैं कि अत्याधुनिक सिंथेटिक फेशियल रिकग्निशन डेटासेट में ऐसे नमूने शामिल हैं जो उनके जनरेटर मॉडल के प्रशिक्षण डेटा के नमूनों के बहुत करीब हैं। कुछ मामलों में सिंथेटिक नमूनों में मूल छवि में छोटे बदलाव हो












