рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдЫрд╡рд┐ рд╕рдВрд╢реНрд▓реЗрд╖рдг рдХреНрд╖реЗрддреНрд░ рдиреЗ рдПрдХ рджреЛрд╖рдкреВрд░реНрдг рдореАрдЯреНрд░рд┐рдХ рдХреЛ рдЕрдкрдирд╛рдпрд╛ рд╣реИ, рд╢реЛрдз рдХрд╛ рджрд╛рд╡рд╛ рд╣реИ

2021 छवि संश्लेषण क्षेत्र में अभूतपूर्व प्रगति और प्रकाशन की तेज़ गति का वर्ष रहा है, जिसमें नए नवाचारों और तकनीकों में सुधार की एक धारा प्रदान की गई है जो न्यूरल रेंडरिंग, डीपफेक्स और कई नवीन दृष्टिकोणों के माध्यम से मानव व्यक्तित्व को पुन: उत्पन्न करने में सक्षम हैं।
हालांकि, जर्मनी के शोधकर्ता अब दावा करते हैं कि सिंथेटिक छवियों की वास्तविकता का स्वचालित रूप से न्याय करने के लिए उपयोग किया जाने वाला मानक घातक रूप से दोषपूर्ण है; और दुनिया भर के सैकड़ों, यहां तक कि हजारों शोधकर्ता जो मानव-आधारित परिणाम मूल्यांकन की लागत को कम करने के लिए इसका उपयोग करते हैं, वे एक अंधे मार्ग पर जा रहे हैं।
मानक, फ्रेचेट इन्सेप्शन दूरी (एफआईडी) को मानव मानकों के अनुसार छवियों का मूल्यांकन करने में असफल होने के लिए, शोधकर्ताओं ने अपने स्वयं के जीएनएएन को तैनात किया, जो एफआईडी (अब एक सामान्य मीट्रिक) के लिए अनुकूलित है। उन्होंने पाया कि एफआईडी अपने स्वयं के जुनून का पालन कर रहा है, जो छवि संश्लेषण के लिए इसके बहुत अलग उद्देश्य के साथ अंतर्निहित कोड पर आधारित है, और यह नियमित रूप से एक ‘मानव’ मानक के विवेक को प्राप्त करने में विफल रहता है:

एफआईडी स्कोर (निचला बेहतर है) विभिन्न मॉडलों द्वारा उत्पन्न छवियों के लिए मानक डेटासेट और वास्तुकला का उपयोग किया गया है। शोधकर्ता नए पत्र में प्रश्न उठाते हैं ‘क्या आप इन रैंकिंग से सहमत होंगे?’। स्रोत: https://openreview.net/pdf?id=mLG96UpmbYz
इसके अलावा इसका दावा है कि एफआईडी अपने इरादित कार्य के लिए उपयुक्त नहीं है, पत्र यह भी सुझाव देता है कि ‘स्पष्ट’ उपचार, जैसे कि इसके आंतरिक इंजन को प्रतिस्पर्धी इंजनों के साथ बदलना, केवल एक सेट के पूर्वाग्रह को दूसरे के साथ बदल देगा। लेखक सुझाव देते हैं कि अब यह नए शोध पहलों पर निर्भर करता है कि वे सिंथेटिक रूप से उत्पन्न फोटो में ‘प्रामाणिकता’ का मूल्यांकन करने के लिए बेहतर मीट्रिक विकसित करें।
पत्र का शीर्षक फ्रेचेट इन्सेप्शन दूरी में आंतरिक पूर्वाग्रह है, और यह मैक्स प्लैंक इंस्टीट्यूट फॉर इन्फॉर्मेटिक्स में स्टीफन जंग से आता है सारलैंड, और मार्ग्रेट क्यूपर, विज़ुअल कंप्यूटिंग के प्रोफेसर यूनिवर्सिटी ऑफ साइगेन।
छवि संश्लेषण के लिए एक स्कोरिंग सिस्टम की खोज
जैसा कि नए शोध में उल्लेख किया गया है, जीएनएएन और एनकोडर/डिकोडर वास्तुकला जैसे छवि संश्लेषण फ्रेमवर्क में प्रगति इन फ्रेमवर्क के परिणामों को मूल्यांकन करने के तरीकों से आगे निकल गई है। मानव मूल्यांकन के अलावा, इन प्रणालियों के परिणाम महंगा होने के कारण स्केल करना मुश्किल है, और एक सांख्यिकीय और पुन: उत्पादक मूल्यांकन विधि प्रदान नहीं करता है।
इसलिए, कई मीट्रिक फ्रेमवर्क सामने आए हैं, जिनमें इन्सेप्शन स्कोर (आईएस) शामिल है, जो 2016 के पत्र जीएनएएन के लिए सुधार तकनीक में शामिल है, जो जीएनएएन आविष्कारक द्वारा सह-लिखित है, इयान गुडफेलो。
2018 में आईएस स्कोर को एक व्यापक रूप से लागू मीट्रिक के रूप में अस्वीकार करने से जीएनएएन छवि संश्लेषण समुदाय में एफआईडी को व्यापक रूप से अपनाया गया। हालांकि, आईएस की तरह, एफआईडी भी गूगल के इन्सेप्शन वी3 इमेज क्लासिफिकेशन नेटवर्क (आईवी3) पर आधारित है।
नए पत्र के लेखकों का तर्क है कि फ्रेचेट इन्सेप्शन दूरी आईवी3 में हानिकारक पूर्वाग्रह को बढ़ावा देती है, जिससे छवि गुणवत्ता का अनिश्चित वर्गीकरण होता है।
चूंकि एफआईडी को एक मशीन लर्निंग फ्रेमवर्क में एक विवेचक (एक निर्मित ‘न्यायाधीश’ जो तय करता है कि जीएनएएन अच्छा प्रदर्शन कर रहा है या ‘फिर से कोशिश’ करनी चाहिए) के रूप में शामिल किया जा सकता है, इसलिए यह मानव द्वारा छवियों का मूल्यांकन करते समय लागू मानकों का सटीक प्रतिनिधित्व करने की आवश्यकता है।
फ्रेचेट इन्सेप्शन दूरी
एफआईडी जीएनएएन (या समान कार्यक्षमता) मॉडल बनाने के लिए उपयोग किए जाने वाले प्रशिक्षण डेटासेट में विशेषताओं के वितरण की तुलना करता है, और उस प्रणाली के परिणामों के साथ।
इसलिए, यदि एक जीएनएएन फ्रेमवर्क 10,000 छवियों (उदाहरण के लिए, सेलिब्रिटी) पर प्रशिक्षित किया जाता है, तो एफआईडी मूल (वास्तविक) छवियों की तुलना जीएनएएन द्वारा उत्पन्न नकली छवियों से करता है। एफआईडी स्कोर जितना कम होगा, जीएनएएन ‘फोटोरियलिस्टिक’ छवियों के करीब पहुंच गया है, एफआईडी के मानदंडों के अनुसार।

पत्र से, एफएचक्यू64, एनवीडिया के बहुत लोकप्रिय एफएचक्यू डेटासेट के एक सबसेट पर प्रशिक्षित जीएनएएन के परिणाम। यहां, हालांकि एफआईडी स्कोर 5.38 का एक अच्छा निम्न है, परिणाम एक औसत मानव के लिए संतोषजनक या आश्वस्त नहीं हैं।
समस्या, लेखकों का तर्क है, यह है कि इन्सेप्शन वी3, जिसके अनुमान फ्रेचेट इन्सेप्शन दूरी को शक्ति प्रदान करते हैं, सही स्थानों पर नहीं देख रहे हैं – कम से कम, छवि संश्लेषण के कार्य को ध्यान में रखते हुए नहीं।
इन्सेप्शन वी3 को इमेजनेट वस्तु पहचान चुनौती पर प्रशिक्षित किया जाता है, जो कि हाल के वर्षों में छवि संश्लेषण के उद्देश्यों के विकास के साथ तर्कसंगत रूप से विरोधाभासी हो सकता है। आईवी3 डेटा ऑगमेंटेशन द्वारा मॉडल की मजबूती का परीक्षण करता है: यह छवियों को यादृच्छिक रूप से फ्लिप करता है, उन्हें 8-100% के बीच एक यादृच्छिक स्केल में फिट करता है, पहलू अनुपात (3/4 से 4/3 के बीच) को बदलता है, और यादृच्छिक रूप से रंग विकृतियों को चमक, संतृप्ति और कंट्रास्ट से संबंधित करता है।
जर्मनी स्थित शोधकर्ताओं ने पाया है कि आईवी3 के पास किनारों और बनावट के आधार पर विशेषताओं को निकालने की प्रवृत्ति है, न कि रंग और तीव्रता जानकारी जो सिंथेटिक छवियों के लिए प्रामाणिकता के अधिक अर्थपूर्ण सूचक होंगे; और इसका मूल उद्देश्य वस्तु पता लगाने के लिए अनुपयुक्त कार्य के लिए अनुचित रूप से जब्त किया गया है। लेखकों का तर्क है*:
‘[इन्सेप्शन वी3] किनारों और बनावट पर आधारित विशेषताओं को निकालने की प्रवृत्ति है, न कि रंग और तीव्रता जानकारी की। यह इसके ऑगमेंटेशन पाइपलाइन के साथ संरेखित है जो रंग विकृतियों को पेश करता है, लेकिन उच्च आवृत्ति जानकारी को संरक्षित रखता है (गॉसियन ब्लर जैसे के विपरीत)।
‘परिणामस्वरूप, एफआईडी इस पूर्वाग्रह को विरासत में मिलता है। जब रैंकिंग मीट्रिक के रूप में उपयोग किया जाता है, तो बनावट को अच्छी तरह से पुन: उत्पन्न करने वाले जनरेटिव मॉडल रंग वितरण को अच्छी तरह से पुन: उत्पन्न करने वाले मॉडल की तुलना में पसंद किए जा सकते हैं.’
डेटा और विधि
अपने अनुमान का परीक्षण करने के लिए, लेखकों ने दो जीएनएएन वास्तुकला, डीसीजीएन और एसएनजीएन, को एनवीडिया के एफएचक्यू मानव चेहरा डेटासेट पर प्रशिक्षित किया, जिसे 642 छवि रिज़ॉल्यूशन में डाउनसैंपल किया गया था, जिसे डेरिव्ड डेटासेट एफएचक्यू64 कहा जाता है।
तीन जीएनएएन प्रशिक्षण प्रक्रियाओं का पीछा किया गया था: जीएनएएन जी+डी, एक मानक विवेचक-आधारित नेटवर्क; जीएनएएन एफआईडी|जी+डी, जहां एफआईडी एक अतिरिक्त विवेचक के रूप में कार्य करता है; और जीएनएएन एफआईडी|जी, जहां जीएनएएन पूरी तरह से रोलिंग एफआईडी स्कोर द्वारा संचालित होता है।
तकनीकी रूप से, लेखकों का तर्क है कि एफआईडी हानि प्रशिक्षण को स्थिर करना चाहिए, और संभावित रूप से甚至 पूरी तरह से प्रतिस्थापित कर सकता है विवेचक (जैसा कि #3, जीएनएएन एफआईडी|जी में है), जबकि मानव-संतोषजनक परिणामों का उत्पादन करता है।
व्यवहार में, परिणाम काफी अलग हैं, जिसमें – लेखकों का अनुमान है – एफआईडी सहायता प्राप्त मॉडल गलत मीट्रिक पर ‘ओवरफिटिंग’ कर रहे हैं। शोधकर्ता ध्यान देते हैं:
‘हमें लगता है कि जनरेटर प्रशिक्षण डेटा वितरण से मेल खाने के लिए अनुपयुक्त विशेषताओं का उत्पादन करना सीखता है। यह अवलोकन [जीएनएएन एफआईडी|जी] में अधिक गंभीर हो जाता है। यहां, हम देखते हैं कि गायब विवेचक स्थानिक रूप से असंगत विशेषता वितरण की ओर ले जाता है। उदाहरण के लिए [एसएनजीएन एफआईडी|जी] मुख्य रूप से एकल आंखें जोड़ता है और चेहरे की विशेषताओं को एक भयावह तरीके से संरेखित करता है।’
लेखक निष्कर्ष निकालते हैं*:
‘जबकि मानव अनnotators निश्चित रूप से एसएनजीएन डी+जी के द्वारा उत्पन्न छवियों को एसएनजीएन एफआईडी|जी (डेटा विश्वास्यता के मामले में कला की तुलना में) पर पसंद करेंगे, हम देखते हैं कि यह एफआईडी द्वारा परिलक्षित नहीं है। इसलिए, एफआईडी मानव धारणा के साथ संरेखित नहीं है।
‘हम तर्क देते हैं कि छवि वर्गीकरण नेटवर्क द्वारा प्रदान की गई विवेचक विशेषताएं एक अर्थपूर्ण मीट्रिक के आधार के लिए पर्याप्त नहीं हैं। ‘
कोई आसान विकल्प नहीं
लेखकों ने यह भी पाया कि इन्सेप्शन वी3 को एक समान इंजन के साथ बदलने से समस्या का समाधान नहीं हुआ। इन्सेप्शन वी3 को ‘विभिन्न वर्गीकरण नेटवर्क के व्यापक चयन’ के साथ प्रतिस्थापित करने, जिन्हें इमेजनेट-सी के खिलाफ परीक्षण किया गया था (इमेजनेट का एक उपसेट जो छवि संश्लेषण फ्रेमवर्क से उत्पन्न छवियों में सामान्य रूप से उत्पन्न होने वाली भ्रष्टाचार और विकृतियों को बेंचमार्क करने के लिए डिज़ाइन किया गया है), शोधकर्ता अपने परिणामों में काफी सुधार नहीं कर सके:
‘इन्सेप्शन वी3 में मौजूद पूर्वाग्रह अन्य वर्गीकरण नेटवर्क में भी व्यापक रूप से मौजूद हैं। इसके अलावा, हम देखते हैं कि विभिन्न नेटवर्क भ्रष्टाचार प्रकार के बीच अलग-अलग रैंकिंग उत्पन्न करेंगे।’
लेखक पत्र के साथ समाप्त होते हैं कि आशा है कि जारी शोध एक ‘मानव-संरेखित और पूर्वाग्रह-मुक्त मीट्रिक’ विकसित करेगा जो छवि जनरेटर वास्तुकला के लिए एक न्यायसंगत रैंक प्रदान करने में सक्षम होगा।
* लेखकों का जोर।
पहली बार 2oth दिसंबर 2021, 1pm जीएमटी+2 पर प्रकाशित।











