Connect with us

рдЫрд╡рд┐ рд╕рдВрд╢реНрд▓реЗрд╖рдг рдХреНрд╖реЗрддреНрд░ рдиреЗ рдПрдХ рджреЛрд╖рдкреВрд░реНрдг рдореАрдЯреНрд░рд┐рдХ рдХреЛ рдЕрдкрдирд╛рдпрд╛ рд╣реИ, рд╢реЛрдз рдХрд╛ рджрд╛рд╡рд╛ рд╣реИ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдЫрд╡рд┐ рд╕рдВрд╢реНрд▓реЗрд╖рдг рдХреНрд╖реЗрддреНрд░ рдиреЗ рдПрдХ рджреЛрд╖рдкреВрд░реНрдг рдореАрдЯреНрд░рд┐рдХ рдХреЛ рдЕрдкрдирд╛рдпрд╛ рд╣реИ, рд╢реЛрдз рдХрд╛ рджрд╛рд╡рд╛ рд╣реИ

mm

2021 छवि संश्लेषण क्षेत्र में अभूतपूर्व प्रगति और प्रकाशन की तेज़ गति का वर्ष रहा है, जिसमें नए नवाचारों और तकनीकों में सुधार की एक धारा प्रदान की गई है जो न्यूरल रेंडरिंग, डीपफेक्स और कई नवीन दृष्टिकोणों के माध्यम से मानव व्यक्तित्व को पुन: उत्पन्न करने में सक्षम हैं।

हालांकि, जर्मनी के शोधकर्ता अब दावा करते हैं कि सिंथेटिक छवियों की वास्तविकता का स्वचालित रूप से न्याय करने के लिए उपयोग किया जाने वाला मानक घातक रूप से दोषपूर्ण है; और दुनिया भर के सैकड़ों, यहां तक कि हजारों शोधकर्ता जो मानव-आधारित परिणाम मूल्यांकन की लागत को कम करने के लिए इसका उपयोग करते हैं, वे एक अंधे मार्ग पर जा रहे हैं।

मानक, फ्रेचेट इन्सेप्शन दूरी (एफआईडी) को मानव मानकों के अनुसार छवियों का मूल्यांकन करने में असफल होने के लिए, शोधकर्ताओं ने अपने स्वयं के जीएनएएन को तैनात किया, जो एफआईडी (अब एक सामान्य मीट्रिक) के लिए अनुकूलित है। उन्होंने पाया कि एफआईडी अपने स्वयं के जुनून का पालन कर रहा है, जो छवि संश्लेषण के लिए इसके बहुत अलग उद्देश्य के साथ अंतर्निहित कोड पर आधारित है, और यह नियमित रूप से एक ‘मानव’ मानक के विवेक को प्राप्त करने में विफल रहता है:

рдПрдлрдЖрдИрдбреА рд╕реНрдХреЛрд░ (рдирд┐рдЪрд▓рд╛ рдмреЗрд╣рддрд░ рд╣реИ) рд╡рд┐рднрд┐рдиреНрди рдореЙрдбрд▓реЛрдВ рджреНрд╡рд╛рд░рд╛ рдЙрддреНрдкрдиреНрди рдЫрд╡рд┐рдпреЛрдВ рдХреЗ рд▓рд┐рдП рдорд╛рдирдХ рдбреЗрдЯрд╛рд╕реЗрдЯ рдФрд░ рд╡рд╛рд╕реНрддреБрдХрд▓рд╛ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рд╢реЛрдзрдХрд░реНрддрд╛ рдирдП рдкрддреНрд░ рдореЗрдВ рдкреНрд░рд╢реНрди рдЙрдард╛рддреЗ рд╣реИрдВ 'рдХреНрдпрд╛ рдЖрдк рдЗрди рд░реИрдВрдХрд┐рдВрдЧ рд╕реЗ рд╕рд╣рдордд рд╣реЛрдВрдЧреЗ?'ред рд╕реНрд░реЛрдд: https://openreview.net/pdf?id=mLG96UpmbYz

एफआईडी स्कोर (निचला बेहतर है) विभिन्न मॉडलों द्वारा उत्पन्न छवियों के लिए मानक डेटासेट और वास्तुकला का उपयोग किया गया है। शोधकर्ता नए पत्र में प्रश्न उठाते हैं ‘क्या आप इन रैंकिंग से सहमत होंगे?’। स्रोत: https://openreview.net/pdf?id=mLG96UpmbYz

इसके अलावा इसका दावा है कि एफआईडी अपने इरादित कार्य के लिए उपयुक्त नहीं है, पत्र यह भी सुझाव देता है कि ‘स्पष्ट’ उपचार, जैसे कि इसके आंतरिक इंजन को प्रतिस्पर्धी इंजनों के साथ बदलना, केवल एक सेट के पूर्वाग्रह को दूसरे के साथ बदल देगा। लेखक सुझाव देते हैं कि अब यह नए शोध पहलों पर निर्भर करता है कि वे सिंथेटिक रूप से उत्पन्न फोटो में ‘प्रामाणिकता’ का मूल्यांकन करने के लिए बेहतर मीट्रिक विकसित करें।

पत्र का शीर्षक फ्रेचेट इन्सेप्शन दूरी में आंतरिक पूर्वाग्रह है, और यह मैक्स प्लैंक इंस्टीट्यूट फॉर इन्फॉर्मेटिक्स में स्टीफन जंग से आता है सारलैंड, और मार्ग्रेट क्यूपर, विज़ुअल कंप्यूटिंग के प्रोफेसर यूनिवर्सिटी ऑफ साइगेन।

छवि संश्लेषण के लिए एक स्कोरिंग सिस्टम की खोज

जैसा कि नए शोध में उल्लेख किया गया है, जीएनएएन और एनकोडर/डिकोडर वास्तुकला जैसे छवि संश्लेषण फ्रेमवर्क में प्रगति इन फ्रेमवर्क के परिणामों को मूल्यांकन करने के तरीकों से आगे निकल गई है। मानव मूल्यांकन के अलावा, इन प्रणालियों के परिणाम महंगा होने के कारण स्केल करना मुश्किल है, और एक सांख्यिकीय और पुन: उत्पादक मूल्यांकन विधि प्रदान नहीं करता है।

इसलिए, कई मीट्रिक फ्रेमवर्क सामने आए हैं, जिनमें इन्सेप्शन स्कोर (आईएस) शामिल है, जो 2016 के पत्र जीएनएएन के लिए सुधार तकनीक में शामिल है, जो जीएनएएन आविष्कारक द्वारा सह-लिखित है, इयान गुडफेलो。

2018 में आईएस स्कोर को एक व्यापक रूप से लागू मीट्रिक के रूप में अस्वीकार करने से जीएनएएन छवि संश्लेषण समुदाय में एफआईडी को व्यापक रूप से अपनाया गया। हालांकि, आईएस की तरह, एफआईडी भी गूगल के इन्सेप्शन वी3 इमेज क्लासिफिकेशन नेटवर्क (आईवी3) पर आधारित है।

नए पत्र के लेखकों का तर्क है कि फ्रेचेट इन्सेप्शन दूरी आईवी3 में हानिकारक पूर्वाग्रह को बढ़ावा देती है, जिससे छवि गुणवत्ता का अनिश्चित वर्गीकरण होता है।

चूंकि एफआईडी को एक मशीन लर्निंग फ्रेमवर्क में एक विवेचक (एक निर्मित ‘न्यायाधीश’ जो तय करता है कि जीएनएएन अच्छा प्रदर्शन कर रहा है या ‘फिर से कोशिश’ करनी चाहिए) के रूप में शामिल किया जा सकता है, इसलिए यह मानव द्वारा छवियों का मूल्यांकन करते समय लागू मानकों का सटीक प्रतिनिधित्व करने की आवश्यकता है।

फ्रेचेट इन्सेप्शन दूरी

एफआईडी जीएनएएन (या समान कार्यक्षमता) मॉडल बनाने के लिए उपयोग किए जाने वाले प्रशिक्षण डेटासेट में विशेषताओं के वितरण की तुलना करता है, और उस प्रणाली के परिणामों के साथ।

इसलिए, यदि एक जीएनएएन फ्रेमवर्क 10,000 छवियों (उदाहरण के लिए, सेलिब्रिटी) पर प्रशिक्षित किया जाता है, तो एफआईडी मूल (वास्तविक) छवियों की तुलना जीएनएएन द्वारा उत्पन्न नकली छवियों से करता है। एफआईडी स्कोर जितना कम होगा, जीएनएएन ‘फोटोरियलिस्टिक’ छवियों के करीब पहुंच गया है, एफआईडी के मानदंडों के अनुसार।

рдкрддреНрд░ рд╕реЗ, рдПрдлрдПрдЪрдХреНрдпреВ64, рдПрдирд╡реАрдбрд┐рдпрд╛ рдХреЗ рдмрд╣реБрдд рд▓реЛрдХрдкреНрд░рд┐рдп рдПрдлрдПрдЪрдХреНрдпреВ рдбреЗрдЯрд╛рд╕реЗрдЯ рдХреЗ рдПрдХ рд╕рдмрд╕реЗрдЯ рдкрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдЬреАрдПрдирдПрдПрди рдХреЗ рдкрд░рд┐рдгрд╛рдоред рдпрд╣рд╛рдВ, рд╣рд╛рд▓рд╛рдВрдХрд┐ рдПрдлрдЖрдИрдбреА рд╕реНрдХреЛрд░ 5.38 рдХрд╛ рдПрдХ рдЕрдЪреНрдЫрд╛ рдирд┐рдореНрди рд╣реИ, рдкрд░рд┐рдгрд╛рдо рдПрдХ рдФрд╕рдд рдорд╛рдирд╡ рдХреЗ рд▓рд┐рдП рд╕рдВрддреЛрд╖рдЬрдирдХ рдпрд╛ рдЖрд╢реНрд╡рд╕реНрдд рдирд╣реАрдВ рд╣реИрдВред

पत्र से, एफएचक्यू64, एनवीडिया के बहुत लोकप्रिय एफएचक्यू डेटासेट के एक सबसेट पर प्रशिक्षित जीएनएएन के परिणाम। यहां, हालांकि एफआईडी स्कोर 5.38 का एक अच्छा निम्न है, परिणाम एक औसत मानव के लिए संतोषजनक या आश्वस्त नहीं हैं।

समस्या, लेखकों का तर्क है, यह है कि इन्सेप्शन वी3, जिसके अनुमान फ्रेचेट इन्सेप्शन दूरी को शक्ति प्रदान करते हैं, सही स्थानों पर नहीं देख रहे हैं – कम से कम, छवि संश्लेषण के कार्य को ध्यान में रखते हुए नहीं।

इन्सेप्शन वी3 को इमेजनेट वस्तु पहचान चुनौती पर प्रशिक्षित किया जाता है, जो कि हाल के वर्षों में छवि संश्लेषण के उद्देश्यों के विकास के साथ तर्कसंगत रूप से विरोधाभासी हो सकता है। आईवी3 डेटा ऑगमेंटेशन द्वारा मॉडल की मजबूती का परीक्षण करता है: यह छवियों को यादृच्छिक रूप से फ्लिप करता है, उन्हें 8-100% के बीच एक यादृच्छिक स्केल में फिट करता है, पहलू अनुपात (3/4 से 4/3 के बीच) को बदलता है, और यादृच्छिक रूप से रंग विकृतियों को चमक, संतृप्ति और कंट्रास्ट से संबंधित करता है।

जर्मनी स्थित शोधकर्ताओं ने पाया है कि आईवी3 के पास किनारों और बनावट के आधार पर विशेषताओं को निकालने की प्रवृत्ति है, न कि रंग और तीव्रता जानकारी जो सिंथेटिक छवियों के लिए प्रामाणिकता के अधिक अर्थपूर्ण सूचक होंगे; और इसका मूल उद्देश्य वस्तु पता लगाने के लिए अनुपयुक्त कार्य के लिए अनुचित रूप से जब्त किया गया है। लेखकों का तर्क है*:

‘[इन्सेप्शन वी3] किनारों और बनावट पर आधारित विशेषताओं को निकालने की प्रवृत्ति है, न कि रंग और तीव्रता जानकारी की। यह इसके ऑगमेंटेशन पाइपलाइन के साथ संरेखित है जो रंग विकृतियों को पेश करता है, लेकिन उच्च आवृत्ति जानकारी को संरक्षित रखता है (गॉसियन ब्लर जैसे के विपरीत)।

‘परिणामस्वरूप, एफआईडी इस पूर्वाग्रह को विरासत में मिलता है। जब रैंकिंग मीट्रिक के रूप में उपयोग किया जाता है, तो बनावट को अच्छी तरह से पुन: उत्पन्न करने वाले जनरेटिव मॉडल रंग वितरण को अच्छी तरह से पुन: उत्पन्न करने वाले मॉडल की तुलना में पसंद किए जा सकते हैं.’

डेटा और विधि

अपने अनुमान का परीक्षण करने के लिए, लेखकों ने दो जीएनएएन वास्तुकला, डीसीजीएन और एसएनजीएन, को एनवीडिया के एफएचक्यू मानव चेहरा डेटासेट पर प्रशिक्षित किया, जिसे 642 छवि रिज़ॉल्यूशन में डाउनसैंपल किया गया था, जिसे डेरिव्ड डेटासेट एफएचक्यू64 कहा जाता है।

तीन जीएनएएन प्रशिक्षण प्रक्रियाओं का पीछा किया गया था: जीएनएएन जी+डी, एक मानक विवेचक-आधारित नेटवर्क; जीएनएएन एफआईडी|जी+डी, जहां एफआईडी एक अतिरिक्त विवेचक के रूप में कार्य करता है; और जीएनएएन एफआईडी|जी, जहां जीएनएएन पूरी तरह से रोलिंग एफआईडी स्कोर द्वारा संचालित होता है।

तकनीकी रूप से, लेखकों का तर्क है कि एफआईडी हानि प्रशिक्षण को स्थिर करना चाहिए, और संभावित रूप से甚至 पूरी तरह से प्रतिस्थापित कर सकता है विवेचक (जैसा कि #3, जीएनएएन एफआईडी|जी में है), जबकि मानव-संतोषजनक परिणामों का उत्पादन करता है।

व्यवहार में, परिणाम काफी अलग हैं, जिसमें – लेखकों का अनुमान है – एफआईडी सहायता प्राप्त मॉडल गलत मीट्रिक पर ‘ओवरफिटिंग’ कर रहे हैं। शोधकर्ता ध्यान देते हैं:

‘हमें लगता है कि जनरेटर प्रशिक्षण डेटा वितरण से मेल खाने के लिए अनुपयुक्त विशेषताओं का उत्पादन करना सीखता है। यह अवलोकन [जीएनएएन एफआईडी|जी] में अधिक गंभीर हो जाता है। यहां, हम देखते हैं कि गायब विवेचक स्थानिक रूप से असंगत विशेषता वितरण की ओर ले जाता है। उदाहरण के लिए [एसएनजीएन एफआईडी|जी] मुख्य रूप से एकल आंखें जोड़ता है और चेहरे की विशेषताओं को एक भयावह तरीके से संरेखित करता है।’

рдПрд╕рдПрдирдЬреАрдПрди рдПрдлрдЖрдИрдбреА|рдЬреА рджреНрд╡рд╛рд░рд╛ рдЙрддреНрдкрдиреНрди рдЪреЗрд╣рд░реЛрдВ рдХреЗ рдЙрджрд╛рд╣рд░рдгред

एसएनजीएन एफआईडी|जी द्वारा उत्पन्न चेहरों के उदाहरण।

लेखक निष्कर्ष निकालते हैं*:

‘जबकि मानव अनnotators निश्चित रूप से एसएनजीएन डी+जी के द्वारा उत्पन्न छवियों को एसएनजीएन एफआईडी|जी (डेटा विश्वास्यता के मामले में कला की तुलना में) पर पसंद करेंगे, हम देखते हैं कि यह एफआईडी द्वारा परिलक्षित नहीं है। इसलिए, एफआईडी मानव धारणा के साथ संरेखित नहीं है

‘हम तर्क देते हैं कि छवि वर्गीकरण नेटवर्क द्वारा प्रदान की गई विवेचक विशेषताएं एक अर्थपूर्ण मीट्रिक के आधार के लिए पर्याप्त नहीं हैं। ‘

कोई आसान विकल्प नहीं

लेखकों ने यह भी पाया कि इन्सेप्शन वी3 को एक समान इंजन के साथ बदलने से समस्या का समाधान नहीं हुआ। इन्सेप्शन वी3 को ‘विभिन्न वर्गीकरण नेटवर्क के व्यापक चयन’ के साथ प्रतिस्थापित करने, जिन्हें इमेजनेट-सी के खिलाफ परीक्षण किया गया था (इमेजनेट का एक उपसेट जो छवि संश्लेषण फ्रेमवर्क से उत्पन्न छवियों में सामान्य रूप से उत्पन्न होने वाली भ्रष्टाचार और विकृतियों को बेंचमार्क करने के लिए डिज़ाइन किया गया है), शोधकर्ता अपने परिणामों में काफी सुधार नहीं कर सके:

इन्सेप्शन वी3 में मौजूद पूर्वाग्रह अन्य वर्गीकरण नेटवर्क में भी व्यापक रूप से मौजूद हैं। इसके अलावा, हम देखते हैं कि विभिन्न नेटवर्क भ्रष्टाचार प्रकार के बीच अलग-अलग रैंकिंग उत्पन्न करेंगे।’

लेखक पत्र के साथ समाप्त होते हैं कि आशा है कि जारी शोध एक ‘मानव-संरेखित और पूर्वाग्रह-मुक्त मीट्रिक’ विकसित करेगा जो छवि जनरेटर वास्तुकला के लिए एक न्यायसंगत रैंक प्रदान करने में सक्षम होगा।

 

* लेखकों का जोर।

पहली बार 2oth दिसंबर 2021, 1pm जीएमटी+2 पर प्रकाशित।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai

рд╡рд┐рдЬреНрдЮрд╛рдкрди рдкреНрд░рдХрдЯреАрдХрд░рдг: Unite.AI рд╕рдЯреАрдХ рдЬрд╛рдирдХрд╛рд░реА рдФрд░ рд╕рдорд╛рдЪрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрдареЛрд░ рд╕рдВрдкрд╛рджрдХреАрдп рдорд╛рдирдХреЛрдВ рдХреЗ рдкреНрд░рддрд┐ рдкреНрд░рддрд┐рдмрджреНрдз рд╣реИред рдЬрдм рдЖрдк рдЙрди рдЙрддреНрдкрд╛рджреЛрдВ рдХреЗ рд▓рд┐рдВрдХ рдкрд░ рдХреНрд▓рд┐рдХ рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдирдХреА рд╣рдордиреЗ рд╕рдореАрдХреНрд╖рд╛ рдХреА рд╣реИ, рддреЛ рд╣рдореЗрдВ рдореБрдЖрд╡рдЬрд╛ рдорд┐рд▓ рд╕рдХрддрд╛ рд╣реИред