कृत्रिम बुद्धिमत्ता

जीएन के लेटेंट स्पेस को मैप करने का अनपेक्षित लाभ

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

एआई द्वारा उत्पन्न छवियों की गुणवत्ता और विश्वासयोग्यता में सुधार करने का प्रयास करते हुए, चीन और ऑस्ट्रेलिया के शोधकर्ताओं के एक समूह ने अनजाने में एक जेनरेटिव एडवर्सेरियल नेटवर्क (जीएन) के लेटेंट स्पेस को इंटरैक्टिव रूप से नियंत्रित करने का एक तरीका खोज निकाला है – छवि सिंथेसिस तकनीकों के नए युग के पीछे गणनात्मक मैट्रिक्स जो फिल्मों, गेमिंग, सोशल मीडिया और मनोरंजन और शोध में कई अन्य क्षेत्रों को क्रांतिकारी बनाने वाले हैं।

उनकी खोज, परियोजना के केंद्रीय लक्ष्य का एक उप उत्पाद, एक उपयोगकर्ता को एक माउस के साथ एक जीएन के लेटेंट स्पेस का पता लगाने की अनुमति देता है, जैसे कि एक वीडियो के माध्यम से स्क्रिबिंग करना या एक पुस्तक के माध्यम से पत्तियां बदलना।

शोधकर्ताओं के साथी वीडियो (लेख के अंत में एम्बेड देखें) का एक अंश। ध्यान दें कि उपयोगकर्ता एक ‘ग्रैब’ कर्सर (शीर्ष बाएं) के साथ परिवर्तनों को मैनिपुलेट कर रहा है। स्रोत: https://www.youtube.com/watch?v=k7sG4XY5rIc

यह विधि ‘हीट मैप्स’ का उपयोग करती है ताकि यह संकेत दिया जा सके कि छवि के कौन से क्षेत्र में सुधार की आवश्यकता है क्योंकि जीएन एक ही डेटासेट को हजारों (या सैकड़ों हजारों) बार चलता है। हीट मैप्स का उद्देश्य छवि की गुणवत्ता में सुधार करना है ताकि जीएन को बताया जा सके कि यह गलत हो रहा है, ताकि इसका अगला प्रयास बेहतर हो; लेकिन, संयोग से, यह एक ‘मानचित्र’ भी प्रदान करता है जो पूरे लेटेंट स्पेस का पता लगा सकता है जिसे माउस को घुमाकर देखा जा सकता है।

स्पेशियल विज़ुअल अटेंशन जो ग्रेडकैम के माध्यम से जोर दिया गया है, जो उज्ज्वल रंगों को लागू करके ध्यान देने योग्य क्षेत्रों को इंगित करता है। स्रोत: https://arxiv.org/pdf/2112.00718.pdf

लेख का शीर्षक जीएन इक्विलिब्रियम में स्पेशियल अवेयरनेस बढ़ाकर सुधार है, और यह चीनी विश्वविद्यालय हांगकांग और ऑस्ट्रेलियाई राष्ट्रीय विश्वविद्यालय के शोधकर्ताओं से है। लेख के अलावा, वीडियो और अन्य सामग्री परियोजना पृष्ठ पर पाई जा सकती है।

काम अभी भी प्रारंभिक है, और वर्तमान में कम रिज़ॉल्यूशन इमेजरी (256×256) तक सीमित है, लेकिन यह एक प्रूफ ऑफ कॉन्सेप्ट है जो जीएन के लेटेंट स्पेस के ‘ब्लैक बॉक्स’ को तोड़ने का वादा करता है, और यह तब आता है जब कई शोध परियोजनाएं अधिक नियंत्रण प्राप्त करने के लिए छवि सिंथेसिस पर हमला कर रही हैं।

हालांकि ऐसी छवियां आकर्षक हैं (और आप लेख के अंत में एम्बेड किए गए वीडियो में अधिक देख सकते हैं), जो शायद अधिक महत्वपूर्ण है वह यह है कि परियोजना ने एक तरीका खोजा है जिससे छवि की गुणवत्ता में सुधार किया जा सकता है, और संभावित रूप से इसे तेजी से करने के लिए, जीएन को बताकर कि यह गलत हो रहा है जहां यह प्रशिक्षण के दौरान गलत हो रहा है।

लेकिन, जैसा कि एडवर्सेरियल इंगित करता है, एक जीएन एक एकल इकाई नहीं है, बल्कि एक असमान संघर्ष है जो अधिकार और श्रम के बीच है। जीएन में सुधार के लिए शोधकर्ताओं ने क्या हासिल किया है, इसको समझने के लिए, आइए देखें कि यह युद्ध अब तक कैसे चल रहा है।

जेनरेटर की दयनीय स्थिति

अगर आपने कभी यह सोचा है कि कुछ नए कपड़े जो आपने खरीदे थे किसी शोषित देश में एक स्वेटशॉप में बनाए गए थे, या आपके पास एक बॉस या क्लाइंट था जो आपको ‘इसे फिर से करो!’ कहता था बिना यह बताए कि आपके पिछले प्रयास में क्या गलत था, तो जेनरेटर के लिए थोड़ा सा दया करें जो जीएन का हिस्सा है।

जेनरेटर वह कार्यकर्ता है जो पिछले पांच या छह वर्षों से आपको जीएन की मदद से फोटोरियलिस्टिक लोगों को बनाने में, पुराने वीडियो गेम्स को 4के रिज़ॉल्यूशन में अपस्केल करने में, और सदी पुराने फुटेज को पूर्ण रंगीन एचडी आउटपुट में 60एफपीएस पर बदलने में मदद कर रहा है, इसके अलावा अन्य कई आश्चर्यजनक एआई नवाचारों में भी मदद कर रहा है।

अवास्तविक लोगों के फोटोरियलिस्टिक चेहरे बनाने से लेकर पुराने फुटेज को बहाल करने और आर्काइव वीडियो गेम्स को पुनर्जीवित करने तक, जीएन पिछले कुछ वर्षों में व्यस्त रहा है।

जेनरेटर प्रशिक्षण डेटा के माध्यम से चलता है, एक-एक फोटो के साथ, दिनों या सप्ताहों तक, जब तक कि यह वास्तविक फोटो की तुलना में उतनी ही आकर्षक छवियां बनाने में सक्षम नहीं हो जाता है।

तो जेनरेटर को कैसे पता चलता है कि यह प्रगति कर रहा है, प्रत्येक बार जब यह अपने पिछले प्रयास से बेहतर छवि बनाने का प्रयास करता है?

जेनरेटर के पास एक नरक से बॉस है।

डिस्क्रिमिनेटर की निर्मम अस्पष्टता

डिस्क्रिमिनेटर का काम जेनरेटर को बताना है कि यह पर्याप्त रूप से अच्छा नहीं है, और इसे फिर से करो। डिस्क्रिमिनेटर जेनरेटर को क्या गलत था इसके बारे में नहीं बताता है; यह केवल एक निजी नज़र डालता है, उत्पन्न छवि की तुलना स्रोत छवियों (फिर से निजी तौर पर) से करता है, और छवि को एक स्कोर देता है।

स्कोर कभी पर्याप्त नहीं है। डिस्क्रिमिनेटर तब तक ‘इसे फिर से करो’ नहीं कहेगा जब तक कि शोध वैज्ञानिक इसे बंद नहीं कर देते (जब वे निर्णय लेते हैं कि अतिरिक्त प्रशिक्षण आउटपुट में सुधार नहीं करेगा).

इस तरह, किसी भी निर्माणकारी आलोचना के अभाव में, और केवल एक स्कोर के साथ जिसका मैट्रिक एक रहस्य है, जेनरेटर को यादृच्छिक रूप से अनुमान लगाना होगा कि छवि के कौन से हिस्से या पहलू एक उच्च स्कोर का कारण बनते हैं ताकि यह अपने अगले प्रयास में उन क्षेत्रों पर ध्यान केंद्रित कर सके, और उन हिस्सों को नहीं फेंके जो उच्च स्कोर प्राप्त करते हैं।

डिस्क्रिमिनेटर के रूप में ट्यूटर और मेंटर

नई अनुसंधान द्वारा प्रदान की गई नवाचार मूल रूप से यह है कि डिस्क्रिमिनेटर अब जेनरेटर को कौन से हिस्से छवि असंतोषजनक थे इंगित करता है, ताकि जेनरेटर अपने अगले प्रयास में उन क्षेत्रों पर ध्यान केंद्रित कर सके, और उन खंडों को नहीं फेंके जो उच्च स्कोर प्राप्त करते हैं। संबंध का स्वरूप संघर्ष से सहयोगी में बदल गया है।

डिस्क्रिमिनेटर और जेनरेटर के बीच ज्ञान के अंतर को दूर करने के लिए, शोधकर्ताओं ने जेनरेटर के अगले प्रयास के लिए एक दृश्य प्रतिक्रिया सहायता के रूप में डिस्क्रिमिनेटर के अंतर्दृष्टि को формूलेट करने में सक्षम एक तंत्र के रूप में ग्रेडकैम का उपयोग किया।

नई ‘संतुलन’ प्रशिक्षण विधि को इकगान कहा जाता है। अधिकतम पुनरुत्पादन के लिए, शोधकर्ताओं ने मौजूदा तकनीकों और विधियों को डिफ़ॉल्ट सेटिंग्स पर शामिल किया, जिसमें स्टाइलगैन2 आर्किटेक्चर का उपयोग शामिल है।

इकगान की आर्किटेक्चर। जेनरेटर का स्पेशियल एन्कोडिंग डिस्क्रिमिनेटर की स्पेशियल अवेयरनेस के साथ संरेखित है, स्पेशियल हीटमैप्स (पिछली छवि देखें) के यादृच्छिक नमूनों को स्पेशियल एन्कोडिंग लेयर (एसईएल) के माध्यम से जेनरेटर में एन्कोड किया जाता है। ग्रेडकैम वह तंत्र है जिसके द्वारा डिस्क्रिमिनेटर के ध्यान मानचित्र जेनरेटर के लिए उपलब्ध होते हैं।

ग्रेडकैम हीटमैप्स (ऊपर देखें) का उत्पादन करता है जो डिस्क्रिमिनेटर की आलोचना को प्रतिबिंबित करता है, और इसे जेनरेटर के लिए उपलब्ध कराता है।

एक बार मॉडल प्रशिक्षित हो जाने के बाद, मैपिंग इस सहयोगी प्रक्रिया के एक अवशेष के रूप में रहता है, लेकिन इसे अंतिम लेटेंट कोड का पता लगाने के लिए इंटरैक्टिव तरीके से भी उपयोग किया जा सकता है जैसा कि शोधकर्ताओं के परियोजना वीडियो में प्रदर्शित किया गया है (नीचे देखें)।

इकगान

परियोजना में एलएसयूएन कैट और चर्च डेटासेट्स सहित कई लोकप्रिय डेटासेट्स का उपयोग किया गया था, साथ ही एफएफएचक्यू डेटासेट। नीचे दिए गए वीडियो में इकगान का उपयोग करके चेहरे और बिल्ली के हेरफेर के उदाहरण भी दिखाए गए हैं।

सभी छवियों को प्रशिक्षण से पहले 256×256 तक कम कर दिया गया था। मॉडल को 8 जीपीयू पर 64 के बैच आकार पर प्रशिक्षित किया गया था जब तक कि डिस्क्रिमिनेटर को 25 मिलियन से अधिक छवियों के साथ उजागर नहीं किया गया था।

फ्रेचेट इन्सेप्शन दूरी (एफआईडी) के साथ चुनिंदा नमूनों पर परिणामों का परीक्षण करते हुए, लेखकों ने एक मीट्रिक स्थापित किया जिसे डिसइक्विलिब्रियम इंडिकेटर (डीआई) कहा जाता है – डिस्क्रिमिनेटर द्वारा बनाए रखा जाने वाला ज्ञान लाभ की डिग्री, जेनरेटर के साथ, जिसका उद्देश्य उस अंतर को कम करना है।

तीन डेटासेट पर प्रशिक्षित, नई मीट्रिक ने स्पेशियल अवेयरनेस को जेनरेटर में एन्कोड करने के बाद एक उपयोगी गिरावट दिखाई, जिसमें दोनों एफआईडी और डीआई द्वारा सुधारित संतुलन का प्रदर्शन किया गया।

शोधकर्ता निष्कर्ष निकालते हैं:

‘हमें आशा है कि यह काम जीएन संतुलन को पुनः देखने और छवि सिंथेसिस की गुणवत्ता में सुधार करने के लिए नए तरीकों को विकसित करने के लिए अधिक काम करने के लिए प्रेरित करेगा। हम इस मुद्दे पर भविष्य के काम में अधिक सैद्धांतिक जांच करेंगे।’

और जारी रखते हैं:

‘गुणात्मक परिणाम दिखाते हैं कि हमारी विधि सफलतापूर्वक [जेनरेटर] को विशिष्ट क्षेत्रों पर ध्यान केंद्रित करने के लिए मजबूर करती है। विभिन्न डेटासेट पर प्रयोग यह पुष्टि करते हैं कि हमारी विधि जीएन प्रशिक्षण में असंतुलन को कम करती है और काफी हद तक छवि सिंथेसिस की समग्र गुणवत्ता में सुधार करती है। परिणामी मॉडल स्पेशियल अवेयरनेस के साथ आउटपुट छवि के इंटरैक्टिव मैनिपुलेशन को भी सक्षम बनाता है।’

नीचे दिए गए वीडियो पर एक नज़र डालें ताकि परियोजना के बारे में अधिक जानकारी मिल सके और जीएन के लेटेंट स्पेस के इंटरैक्टिव और गतिशील अन्वेषण के और उदाहरण देखे जा सकें।

सुबह 11:12 4 दिसंबर 2021 – ग्रेडकैम के लिए सुधारा गया यूआरएल और आसपास के संदर्भ को साफ किया गया।

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai