Connect with us

рдЬреАрдПрди рдХреЗ рд▓реЗрдЯреЗрдВрдЯ рд╕реНрдкреЗрд╕ рдХреЛ рдореИрдк рдХрд░рдиреЗ рдХрд╛ рдЕрдирдкреЗрдХреНрд╖рд┐рдд рд▓рд╛рдн

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдЬреАрдПрди рдХреЗ рд▓реЗрдЯреЗрдВрдЯ рд╕реНрдкреЗрд╕ рдХреЛ рдореИрдк рдХрд░рдиреЗ рдХрд╛ рдЕрдирдкреЗрдХреНрд╖рд┐рдд рд▓рд╛рдн

mm

एआई द्वारा उत्पन्न छवियों की गुणवत्ता और विश्वासयोग्यता में सुधार करने का प्रयास करते हुए, चीन और ऑस्ट्रेलिया के शोधकर्ताओं के एक समूह ने अनजाने में एक जेनरेटिव एडवर्सेरियल नेटवर्क (जीएन) के लेटेंट स्पेस को इंटरैक्टिव रूप से नियंत्रित करने का एक तरीका खोज निकाला है – छवि सिंथेसिस तकनीकों के नए युग के पीछे गणनात्मक मैट्रिक्स जो फिल्मों, गेमिंग, सोशल मीडिया और मनोरंजन और शोध में कई अन्य क्षेत्रों को क्रांतिकारी बनाने वाले हैं।

उनकी खोज, परियोजना के केंद्रीय लक्ष्य का एक उप उत्पाद, एक उपयोगकर्ता को एक माउस के साथ एक जीएन के लेटेंट स्पेस का पता लगाने की अनुमति देता है, जैसे कि एक वीडियो के माध्यम से स्क्रिबिंग करना या एक पुस्तक के माध्यम से पत्तियां बदलना।

शोधकर्ताओं के साथी वीडियो (लेख के अंत में एम्बेड देखें) का एक अंश। ध्यान दें कि उपयोगकर्ता एक 'ग्रैब' कर्सर (शीर्ष बाएं) के साथ परिवर्तनों को मैनिपुलेट कर रहा है।

शोधकर्ताओं के साथी वीडियो (लेख के अंत में एम्बेड देखें) का एक अंश। ध्यान दें कि उपयोगकर्ता एक ‘ग्रैब’ कर्सर (शीर्ष बाएं) के साथ परिवर्तनों को मैनिपुलेट कर रहा है। स्रोत: https://www.youtube.com/watch?v=k7sG4XY5rIc

यह विधि ‘हीट मैप्स’ का उपयोग करती है ताकि यह संकेत दिया जा सके कि छवि के कौन से क्षेत्र में सुधार की आवश्यकता है क्योंकि जीएन एक ही डेटासेट को हजारों (या सैकड़ों हजारों) बार चलता है। हीट मैप्स का उद्देश्य छवि की गुणवत्ता में सुधार करना है ताकि जीएन को बताया जा सके कि यह गलत हो रहा है, ताकि इसका अगला प्रयास बेहतर हो; लेकिन, संयोग से, यह एक ‘मानचित्र’ भी प्रदान करता है जो पूरे लेटेंट स्पेस का पता लगा सकता है जिसे माउस को घुमाकर देखा जा सकता है।

рд╕реНрдкреЗрд╢рд┐рдпрд▓ рд╡рд┐рдЬрд╝реБрдЕрд▓ рдЕрдЯреЗрдВрд╢рди рдЬреЛ рдЧреНрд░реЗрдбрдХреИрдо рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЬреЛрд░ рджрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ, рдЬреЛ рдЙрдЬреНрдЬреНрд╡рд▓ рд░рдВрдЧреЛрдВ рдХреЛ рд▓рд╛рдЧреВ рдХрд░рдХреЗ рдзреНрдпрд╛рди рджреЗрдиреЗ рдпреЛрдЧреНрдп рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рдЗрдВрдЧрд┐рдд рдХрд░рддрд╛ рд╣реИред

स्पेशियल विज़ुअल अटेंशन जो ग्रेडकैम के माध्यम से जोर दिया गया है, जो उज्ज्वल रंगों को लागू करके ध्यान देने योग्य क्षेत्रों को इंगित करता है। स्रोत: https://arxiv.org/pdf/2112.00718.pdf

लेख का शीर्षक जीएन इक्विलिब्रियम में स्पेशियल अवेयरनेस बढ़ाकर सुधार है, और यह चीनी विश्वविद्यालय हांगकांग और ऑस्ट्रेलियाई राष्ट्रीय विश्वविद्यालय के शोधकर्ताओं से है। लेख के अलावा, वीडियो और अन्य सामग्री परियोजना पृष्ठ पर पाई जा सकती है।

काम अभी भी प्रारंभिक है, और वर्तमान में कम रिज़ॉल्यूशन इमेजरी (256×256) तक सीमित है, लेकिन यह एक प्रूफ ऑफ कॉन्सेप्ट है जो जीएन के लेटेंट स्पेस के ‘ब्लैक बॉक्स’ को तोड़ने का वादा करता है, और यह तब आता है जब कई शोध परियोजनाएं अधिक नियंत्रण प्राप्त करने के लिए छवि सिंथेसिस पर हमला कर रही हैं।

हालांकि ऐसी छवियां आकर्षक हैं (और आप लेख के अंत में एम्बेड किए गए वीडियो में अधिक देख सकते हैं), जो शायद अधिक महत्वपूर्ण है वह यह है कि परियोजना ने एक तरीका खोजा है जिससे छवि की गुणवत्ता में सुधार किया जा सकता है, और संभावित रूप से इसे तेजी से करने के लिए, जीएन को बताकर कि यह गलत हो रहा है जहां यह प्रशिक्षण के दौरान गलत हो रहा है।

लेकिन, जैसा कि एडवर्सेरियल इंगित करता है, एक जीएन एक एकल इकाई नहीं है, बल्कि एक असमान संघर्ष है जो अधिकार और श्रम के बीच है। जीएन में सुधार के लिए शोधकर्ताओं ने क्या हासिल किया है, इसको समझने के लिए, आइए देखें कि यह युद्ध अब तक कैसे चल रहा है।

जेनरेटर की दयनीय स्थिति

अगर आपने कभी यह सोचा है कि कुछ नए कपड़े जो आपने खरीदे थे किसी शोषित देश में एक स्वेटशॉप में बनाए गए थे, या आपके पास एक बॉस या क्लाइंट था जो आपको ‘इसे फिर से करो!’ कहता था बिना यह बताए कि आपके पिछले प्रयास में क्या गलत था, तो जेनरेटर के लिए थोड़ा सा दया करें जो जीएन का हिस्सा है।

जेनरेटर वह कार्यकर्ता है जो पिछले पांच या छह वर्षों से आपको जीएन की मदद से फोटोरियलिस्टिक लोगों को बनाने में, पुराने वीडियो गेम्स को 4के रिज़ॉल्यूशन में अपस्केल करने में, और सदी पुराने फुटेज को पूर्ण रंगीन एचडी आउटपुट में 60एफपीएस पर बदलने में मदद कर रहा है, इसके अलावा अन्य कई आश्चर्यजनक एआई नवाचारों में भी मदद कर रहा है।

рдЕрд╡рд╛рд╕реНрддрд╡рд┐рдХ рд▓реЛрдЧреЛрдВ рдХреЗ рдлреЛрдЯреЛрд░рд┐рдпрд▓рд┐рд╕реНрдЯрд┐рдХ рдЪреЗрд╣рд░реЗ рдмрдирд╛рдиреЗ рд╕реЗ рд▓реЗрдХрд░ рдкреБрд░рд╛рдиреЗ рдлреБрдЯреЗрдЬ рдХреЛ рдмрд╣рд╛рд▓ рдХрд░рдиреЗ рдФрд░ рдЖрд░реНрдХрд╛рдЗрд╡ рд╡реАрдбрд┐рдпреЛ рдЧреЗрдореНрд╕ рдХреЛ рдкреБрдирд░реНрдЬреАрд╡рд┐рдд рдХрд░рдиреЗ рддрдХ, рдЬреАрдПрди рдкрд┐рдЫрд▓реЗ рдХреБрдЫ рд╡рд░реНрд╖реЛрдВ рдореЗрдВ рд╡реНрдпрд╕реНрдд рд░рд╣рд╛ рд╣реИред

अवास्तविक लोगों के फोटोरियलिस्टिक चेहरे बनाने से लेकर पुराने फुटेज को बहाल करने और आर्काइव वीडियो गेम्स को पुनर्जीवित करने तक, जीएन पिछले कुछ वर्षों में व्यस्त रहा है।

जेनरेटर प्रशिक्षण डेटा के माध्यम से चलता है, एक-एक फोटो के साथ, दिनों या सप्ताहों तक, जब तक कि यह वास्तविक फोटो की तुलना में उतनी ही आकर्षक छवियां बनाने में सक्षम नहीं हो जाता है।

तो जेनरेटर को कैसे पता चलता है कि यह प्रगति कर रहा है, प्रत्येक बार जब यह अपने पिछले प्रयास से बेहतर छवि बनाने का प्रयास करता है?

जेनरेटर के पास एक नरक से बॉस है।

डिस्क्रिमिनेटर की निर्मम अस्पष्टता

डिस्क्रिमिनेटर का काम जेनरेटर को बताना है कि यह पर्याप्त रूप से अच्छा नहीं है, और इसे फिर से करो। डिस्क्रिमिनेटर जेनरेटर को क्या गलत था इसके बारे में नहीं बताता है; यह केवल एक निजी नज़र डालता है, उत्पन्न छवि की तुलना स्रोत छवियों (फिर से निजी तौर पर) से करता है, और छवि को एक स्कोर देता है।

स्कोर कभी पर्याप्त नहीं है। डिस्क्रिमिनेटर तब तक ‘इसे फिर से करो’ नहीं कहेगा जब तक कि शोध वैज्ञानिक इसे बंद नहीं कर देते (जब वे निर्णय लेते हैं कि अतिरिक्त प्रशिक्षण आउटपुट में सुधार नहीं करेगा).

इस तरह, किसी भी निर्माणकारी आलोचना के अभाव में, और केवल एक स्कोर के साथ जिसका मैट्रिक एक रहस्य है, जेनरेटर को यादृच्छिक रूप से अनुमान लगाना होगा कि छवि के कौन से हिस्से या पहलू एक उच्च स्कोर का कारण बनते हैं ताकि यह अपने अगले प्रयास में उन क्षेत्रों पर ध्यान केंद्रित कर सके, और उन हिस्सों को नहीं फेंके जो उच्च स्कोर प्राप्त करते हैं।

डिस्क्रिमिनेटर के रूप में ट्यूटर और मेंटर

नई अनुसंधान द्वारा प्रदान की गई नवाचार मूल रूप से यह है कि डिस्क्रिमिनेटर अब जेनरेटर को कौन से हिस्से छवि असंतोषजनक थे इंगित करता है, ताकि जेनरेटर अपने अगले प्रयास में उन क्षेत्रों पर ध्यान केंद्रित कर सके, और उन खंडों को नहीं फेंके जो उच्च स्कोर प्राप्त करते हैं। संबंध का स्वरूप संघर्ष से सहयोगी में बदल गया है।

डिस्क्रिमिनेटर और जेनरेटर के बीच ज्ञान के अंतर को दूर करने के लिए, शोधकर्ताओं ने जेनरेटर के अगले प्रयास के लिए एक दृश्य प्रतिक्रिया सहायता के रूप में डिस्क्रिमिनेटर के अंतर्दृष्टि को формूलेट करने में सक्षम एक तंत्र के रूप में ग्रेडकैम का उपयोग किया।

नई ‘संतुलन’ प्रशिक्षण विधि को इकगान कहा जाता है। अधिकतम पुनरुत्पादन के लिए, शोधकर्ताओं ने मौजूदा तकनीकों और विधियों को डिफ़ॉल्ट सेटिंग्स पर शामिल किया, जिसमें स्टाइलगैन2 आर्किटेक्चर का उपयोग शामिल है।

рдЗрдХрдЧрд╛рди рдХреА рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ред рдЬреЗрдирд░реЗрдЯрд░ рдХрд╛ рд╕реНрдкреЗрд╢рд┐рдпрд▓ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдбрд┐рд╕реНрдХреНрд░рд┐рдорд┐рдиреЗрдЯрд░ рдХреА рд╕реНрдкреЗрд╢рд┐рдпрд▓ рдЕрд╡реЗрдпрд░рдиреЗрд╕ рдХреЗ рд╕рд╛рде рд╕рдВрд░реЗрдЦрд┐рдд рд╣реИ, рд╕реНрдкреЗрд╢рд┐рдпрд▓ рд╣реАрдЯрдореИрдкреНрд╕ (рдкрд┐рдЫрд▓реА рдЫрд╡рд┐ рджреЗрдЦреЗрдВ) рдХреЗ рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рдирдореВрдиреЛрдВ рдХреЛ рд╕реНрдкреЗрд╢рд┐рдпрд▓ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рд▓реЗрдпрд░ (рдПрд╕рдИрдПрд▓) рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЬреЗрдирд░реЗрдЯрд░ рдореЗрдВ рдПрдиреНрдХреЛрдб рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдЧреНрд░реЗрдбрдХреИрдо рд╡рд╣ рддрдВрддреНрд░ рд╣реИ рдЬрд┐рд╕рдХреЗ рджреНрд╡рд╛рд░рд╛ рдбрд┐рд╕реНрдХреНрд░рд┐рдорд┐рдиреЗрдЯрд░ рдХреЗ рдзреНрдпрд╛рди рдорд╛рдирдЪрд┐рддреНрд░ рдЬреЗрдирд░реЗрдЯрд░ рдХреЗ рд▓рд┐рдП рдЙрдкрд▓рдмреНрдз рд╣реЛрддреЗ рд╣реИрдВред

इकगान की आर्किटेक्चर। जेनरेटर का स्पेशियल एन्कोडिंग डिस्क्रिमिनेटर की स्पेशियल अवेयरनेस के साथ संरेखित है, स्पेशियल हीटमैप्स (पिछली छवि देखें) के यादृच्छिक नमूनों को स्पेशियल एन्कोडिंग लेयर (एसईएल) के माध्यम से जेनरेटर में एन्कोड किया जाता है। ग्रेडकैम वह तंत्र है जिसके द्वारा डिस्क्रिमिनेटर के ध्यान मानचित्र जेनरेटर के लिए उपलब्ध होते हैं।

ग्रेडकैम हीटमैप्स (ऊपर देखें) का उत्पादन करता है जो डिस्क्रिमिनेटर की आलोचना को प्रतिबिंबित करता है, और इसे जेनरेटर के लिए उपलब्ध कराता है।

एक बार मॉडल प्रशिक्षित हो जाने के बाद, मैपिंग इस सहयोगी प्रक्रिया के एक अवशेष के रूप में रहता है, लेकिन इसे अंतिम लेटेंट कोड का पता लगाने के लिए इंटरैक्टिव तरीके से भी उपयोग किया जा सकता है जैसा कि शोधकर्ताओं के परियोजना वीडियो में प्रदर्शित किया गया है (नीचे देखें)।

इकगान

परियोजना में एलएसयूएन कैट और चर्च डेटासेट्स सहित कई लोकप्रिय डेटासेट्स का उपयोग किया गया था, साथ ही एफएफएचक्यू डेटासेट। नीचे दिए गए वीडियो में इकगान का उपयोग करके चेहरे और बिल्ली के हेरफेर के उदाहरण भी दिखाए गए हैं।

सभी छवियों को प्रशिक्षण से पहले 256×256 तक कम कर दिया गया था। मॉडल को 8 जीपीयू पर 64 के बैच आकार पर प्रशिक्षित किया गया था जब तक कि डिस्क्रिमिनेटर को 25 मिलियन से अधिक छवियों के साथ उजागर नहीं किया गया था।

फ्रेचेट इन्सेप्शन दूरी (एफआईडी) के साथ चुनिंदा नमूनों पर परिणामों का परीक्षण करते हुए, लेखकों ने एक मीट्रिक स्थापित किया जिसे डिसइक्विलिब्रियम इंडिकेटर (डीआई) कहा जाता है – डिस्क्रिमिनेटर द्वारा बनाए रखा जाने वाला ज्ञान लाभ की डिग्री, जेनरेटर के साथ, जिसका उद्देश्य उस अंतर को कम करना है।

तीन डेटासेट पर प्रशिक्षित, नई मीट्रिक ने स्पेशियल अवेयरनेस को जेनरेटर में एन्कोड करने के बाद एक उपयोगी गिरावट दिखाई, जिसमें दोनों एफआईडी और डीआई द्वारा सुधारित संतुलन का प्रदर्शन किया गया।

शोधकर्ता निष्कर्ष निकालते हैं:

‘हमें आशा है कि यह काम जीएन संतुलन को पुनः देखने और छवि सिंथेसिस की गुणवत्ता में सुधार करने के लिए नए तरीकों को विकसित करने के लिए अधिक काम करने के लिए प्रेरित करेगा। हम इस मुद्दे पर भविष्य के काम में अधिक सैद्धांतिक जांच करेंगे।’

और जारी रखते हैं:

‘गुणात्मक परिणाम दिखाते हैं कि हमारी विधि सफलतापूर्वक [जेनरेटर] को विशिष्ट क्षेत्रों पर ध्यान केंद्रित करने के लिए मजबूर करती है। विभिन्न डेटासेट पर प्रयोग यह पुष्टि करते हैं कि हमारी विधि जीएन प्रशिक्षण में असंतुलन को कम करती है और काफी हद तक छवि सिंथेसिस की समग्र गुणवत्ता में सुधार करती है। परिणामी मॉडल स्पेशियल अवेयरनेस के साथ आउटपुट छवि के इंटरैक्टिव मैनिपुलेशन को भी सक्षम बनाता है।’

नीचे दिए गए वीडियो पर एक नज़र डालें ताकि परियोजना के बारे में अधिक जानकारी मिल सके और जीएन के लेटेंट स्पेस के इंटरैक्टिव और गतिशील अन्वेषण के और उदाहरण देखे जा सकें।

 

 

सुबह 11:12 4 दिसंबर 2021 – ग्रेडकैम के लिए सुधारा गया यूआरएल और आसपास के संदर्भ को साफ किया गया।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai