कृत्रिम बुद्धिमत्ता

छवि संश्लेषण क्षेत्र ने एक दोषपूर्ण मीट्रिक को अपनाया है, शोध का दावा है

Published December 20, 2021

Updated April 28, 2026

Martin Anderson

2021 छवि संश्लेषण क्षेत्र में अभूतपूर्व प्रगति और प्रकाशन की तेज़ गति का वर्ष रहा है, जिसमें नए नवाचारों और तकनीकों में सुधार की एक धारा प्रदान की गई है जो न्यूरल रेंडरिंग, डीपफेक्स और कई नवीन दृष्टिकोणों के माध्यम से मानव व्यक्तित्व को पुन: उत्पन्न करने में सक्षम हैं।

हालांकि, जर्मनी के शोधकर्ता अब दावा करते हैं कि सिंथेटिक छवियों की वास्तविकता का स्वचालित रूप से न्याय करने के लिए उपयोग किया जाने वाला मानक घातक रूप से दोषपूर्ण है; और दुनिया भर के सैकड़ों, यहां तक कि हजारों शोधकर्ता जो मानव-आधारित परिणाम मूल्यांकन की लागत को कम करने के लिए इसका उपयोग करते हैं, वे एक अंधे मार्ग पर जा रहे हैं।

मानक, फ्रेचेट इन्सेप्शन दूरी (एफआईडी) को मानव मानकों के अनुसार छवियों का मूल्यांकन करने में असफल होने के लिए, शोधकर्ताओं ने अपने स्वयं के जीएनएएन को तैनात किया, जो एफआईडी (अब एक सामान्य मीट्रिक) के लिए अनुकूलित है। उन्होंने पाया कि एफआईडी अपने स्वयं के जुनून का पालन कर रहा है, जो छवि संश्लेषण के लिए इसके बहुत अलग उद्देश्य के साथ अंतर्निहित कोड पर आधारित है, और यह नियमित रूप से एक ‘मानव’ मानक के विवेक को प्राप्त करने में विफल रहता है:

एफआईडी स्कोर (निचला बेहतर है) विभिन्न मॉडलों द्वारा उत्पन्न छवियों के लिए मानक डेटासेट और वास्तुकला का उपयोग किया गया है। शोधकर्ता नए पत्र में प्रश्न उठाते हैं ‘क्या आप इन रैंकिंग से सहमत होंगे?’। स्रोत: https://openreview.net/pdf?id=mLG96UpmbYz

इसके अलावा इसका दावा है कि एफआईडी अपने इरादित कार्य के लिए उपयुक्त नहीं है, पत्र यह भी सुझाव देता है कि ‘स्पष्ट’ उपचार, जैसे कि इसके आंतरिक इंजन को प्रतिस्पर्धी इंजनों के साथ बदलना, केवल एक सेट के पूर्वाग्रह को दूसरे के साथ बदल देगा। लेखक सुझाव देते हैं कि अब यह नए शोध पहलों पर निर्भर करता है कि वे सिंथेटिक रूप से उत्पन्न फोटो में ‘प्रामाणिकता’ का मूल्यांकन करने के लिए बेहतर मीट्रिक विकसित करें।

पत्र का शीर्षक फ्रेचेट इन्सेप्शन दूरी में आंतरिक पूर्वाग्रह है, और यह मैक्स प्लैंक इंस्टीट्यूट फॉर इन्फॉर्मेटिक्स में स्टीफन जंग से आता है सारलैंड, और मार्ग्रेट क्यूपर, विज़ुअल कंप्यूटिंग के प्रोफेसर यूनिवर्सिटी ऑफ साइगेन।

छवि संश्लेषण के लिए एक स्कोरिंग सिस्टम की खोज

जैसा कि नए शोध में उल्लेख किया गया है, जीएनएएन और एनकोडर/डिकोडर वास्तुकला जैसे छवि संश्लेषण फ्रेमवर्क में प्रगति इन फ्रेमवर्क के परिणामों को मूल्यांकन करने के तरीकों से आगे निकल गई है। मानव मूल्यांकन के अलावा, इन प्रणालियों के परिणाम महंगा होने के कारण स्केल करना मुश्किल है, और एक सांख्यिकीय और पुन: उत्पादक मूल्यांकन विधि प्रदान नहीं करता है।

इसलिए, कई मीट्रिक फ्रेमवर्क सामने आए हैं, जिनमें इन्सेप्शन स्कोर (आईएस) शामिल है, जो 2016 के पत्र जीएनएएन के लिए सुधार तकनीक में शामिल है, जो जीएनएएन आविष्कारक द्वारा सह-लिखित है, इयान गुडफेलो。

2018 में आईएस स्कोर को एक व्यापक रूप से लागू मीट्रिक के रूप में अस्वीकार करने से जीएनएएन छवि संश्लेषण समुदाय में एफआईडी को व्यापक रूप से अपनाया गया। हालांकि, आईएस की तरह, एफआईडी भी गूगल के इन्सेप्शन वी3 इमेज क्लासिफिकेशन नेटवर्क (आईवी3) पर आधारित है।

नए पत्र के लेखकों का तर्क है कि फ्रेचेट इन्सेप्शन दूरी आईवी3 में हानिकारक पूर्वाग्रह को बढ़ावा देती है, जिससे छवि गुणवत्ता का अनिश्चित वर्गीकरण होता है।

चूंकि एफआईडी को एक मशीन लर्निंग फ्रेमवर्क में एक विवेचक (एक निर्मित ‘न्यायाधीश’ जो तय करता है कि जीएनएएन अच्छा प्रदर्शन कर रहा है या ‘फिर से कोशिश’ करनी चाहिए) के रूप में शामिल किया जा सकता है, इसलिए यह मानव द्वारा छवियों का मूल्यांकन करते समय लागू मानकों का सटीक प्रतिनिधित्व करने की आवश्यकता है।

फ्रेचेट इन्सेप्शन दूरी

एफआईडी जीएनएएन (या समान कार्यक्षमता) मॉडल बनाने के लिए उपयोग किए जाने वाले प्रशिक्षण डेटासेट में विशेषताओं के वितरण की तुलना करता है, और उस प्रणाली के परिणामों के साथ।

इसलिए, यदि एक जीएनएएन फ्रेमवर्क 10,000 छवियों (उदाहरण के लिए, सेलिब्रिटी) पर प्रशिक्षित किया जाता है, तो एफआईडी मूल (वास्तविक) छवियों की तुलना जीएनएएन द्वारा उत्पन्न नकली छवियों से करता है। एफआईडी स्कोर जितना कम होगा, जीएनएएन ‘फोटोरियलिस्टिक’ छवियों के करीब पहुंच गया है, एफआईडी के मानदंडों के अनुसार।

पत्र से, एफएचक्यू64, एनवीडिया के बहुत लोकप्रिय एफएचक्यू डेटासेट के एक सबसेट पर प्रशिक्षित जीएनएएन के परिणाम। यहां, हालांकि एफआईडी स्कोर 5.38 का एक अच्छा निम्न है, परिणाम एक औसत मानव के लिए संतोषजनक या आश्वस्त नहीं हैं।

समस्या, लेखकों का तर्क है, यह है कि इन्सेप्शन वी3, जिसके अनुमान फ्रेचेट इन्सेप्शन दूरी को शक्ति प्रदान करते हैं, सही स्थानों पर नहीं देख रहे हैं – कम से कम, छवि संश्लेषण के कार्य को ध्यान में रखते हुए नहीं।

इन्सेप्शन वी3 को इमेजनेट वस्तु पहचान चुनौती पर प्रशिक्षित किया जाता है, जो कि हाल के वर्षों में छवि संश्लेषण के उद्देश्यों के विकास के साथ तर्कसंगत रूप से विरोधाभासी हो सकता है। आईवी3 डेटा ऑगमेंटेशन द्वारा मॉडल की मजबूती का परीक्षण करता है: यह छवियों को यादृच्छिक रूप से फ्लिप करता है, उन्हें 8-100% के बीच एक यादृच्छिक स्केल में फिट करता है, पहलू अनुपात (3/4 से 4/3 के बीच) को बदलता है, और यादृच्छिक रूप से रंग विकृतियों को चमक, संतृप्ति और कंट्रास्ट से संबंधित करता है।

जर्मनी स्थित शोधकर्ताओं ने पाया है कि आईवी3 के पास किनारों और बनावट के आधार पर विशेषताओं को निकालने की प्रवृत्ति है, न कि रंग और तीव्रता जानकारी जो सिंथेटिक छवियों के लिए प्रामाणिकता के अधिक अर्थपूर्ण सूचक होंगे; और इसका मूल उद्देश्य वस्तु पता लगाने के लिए अनुपयुक्त कार्य के लिए अनुचित रूप से जब्त किया गया है। लेखकों का तर्क है*:

‘[इन्सेप्शन वी3] किनारों और बनावट पर आधारित विशेषताओं को निकालने की प्रवृत्ति है, न कि रंग और तीव्रता जानकारी की। यह इसके ऑगमेंटेशन पाइपलाइन के साथ संरेखित है जो रंग विकृतियों को पेश करता है, लेकिन उच्च आवृत्ति जानकारी को संरक्षित रखता है (गॉसियन ब्लर जैसे के विपरीत)।

‘परिणामस्वरूप, एफआईडी इस पूर्वाग्रह को विरासत में मिलता है। जब रैंकिंग मीट्रिक के रूप में उपयोग किया जाता है, तो बनावट को अच्छी तरह से पुन: उत्पन्न करने वाले जनरेटिव मॉडल रंग वितरण को अच्छी तरह से पुन: उत्पन्न करने वाले मॉडल की तुलना में पसंद किए जा सकते हैं.’

डेटा और विधि

अपने अनुमान का परीक्षण करने के लिए, लेखकों ने दो जीएनएएन वास्तुकला, डीसीजीएन और एसएनजीएन, को एनवीडिया के एफएचक्यू मानव चेहरा डेटासेट पर प्रशिक्षित किया, जिसे 64² छवि रिज़ॉल्यूशन में डाउनसैंपल किया गया था, जिसे डेरिव्ड डेटासेट एफएचक्यू64 कहा जाता है।

तीन जीएनएएन प्रशिक्षण प्रक्रियाओं का पीछा किया गया था: जीएनएएन जी+डी, एक मानक विवेचक-आधारित नेटवर्क; जीएनएएन एफआईडी|जी+डी, जहां एफआईडी एक अतिरिक्त विवेचक के रूप में कार्य करता है; और जीएनएएन एफआईडी|जी, जहां जीएनएएन पूरी तरह से रोलिंग एफआईडी स्कोर द्वारा संचालित होता है।

तकनीकी रूप से, लेखकों का तर्क है कि एफआईडी हानि प्रशिक्षण को स्थिर करना चाहिए, और संभावित रूप से甚至 पूरी तरह से प्रतिस्थापित कर सकता है विवेचक (जैसा कि #3, जीएनएएन एफआईडी|जी में है), जबकि मानव-संतोषजनक परिणामों का उत्पादन करता है।

व्यवहार में, परिणाम काफी अलग हैं, जिसमें – लेखकों का अनुमान है – एफआईडी सहायता प्राप्त मॉडल गलत मीट्रिक पर ‘ओवरफिटिंग’ कर रहे हैं। शोधकर्ता ध्यान देते हैं:

‘हमें लगता है कि जनरेटर प्रशिक्षण डेटा वितरण से मेल खाने के लिए अनुपयुक्त विशेषताओं का उत्पादन करना सीखता है। यह अवलोकन [जीएनएएन एफआईडी|जी] में अधिक गंभीर हो जाता है। यहां, हम देखते हैं कि गायब विवेचक स्थानिक रूप से असंगत विशेषता वितरण की ओर ले जाता है। उदाहरण के लिए [एसएनजीएन एफआईडी|जी] मुख्य रूप से एकल आंखें जोड़ता है और चेहरे की विशेषताओं को एक भयावह तरीके से संरेखित करता है।’

एसएनजीएन एफआईडी|जी द्वारा उत्पन्न चेहरों के उदाहरण।

लेखक निष्कर्ष निकालते हैं*:

‘जबकि मानव अनnotators निश्चित रूप से एसएनजीएन डी+जी के द्वारा उत्पन्न छवियों को एसएनजीएन एफआईडी|जी (डेटा विश्वास्यता के मामले में कला की तुलना में) पर पसंद करेंगे, हम देखते हैं कि यह एफआईडी द्वारा परिलक्षित नहीं है। इसलिए, एफआईडी मानव धारणा के साथ संरेखित नहीं है।

‘हम तर्क देते हैं कि छवि वर्गीकरण नेटवर्क द्वारा प्रदान की गई विवेचक विशेषताएं एक अर्थपूर्ण मीट्रिक के आधार के लिए पर्याप्त नहीं हैं। ‘

कोई आसान विकल्प नहीं

लेखकों ने यह भी पाया कि इन्सेप्शन वी3 को एक समान इंजन के साथ बदलने से समस्या का समाधान नहीं हुआ। इन्सेप्शन वी3 को ‘विभिन्न वर्गीकरण नेटवर्क के व्यापक चयन’ के साथ प्रतिस्थापित करने, जिन्हें इमेजनेट-सी के खिलाफ परीक्षण किया गया था (इमेजनेट का एक उपसेट जो छवि संश्लेषण फ्रेमवर्क से उत्पन्न छवियों में सामान्य रूप से उत्पन्न होने वाली भ्रष्टाचार और विकृतियों को बेंचमार्क करने के लिए डिज़ाइन किया गया है), शोधकर्ता अपने परिणामों में काफी सुधार नहीं कर सके:

‘इन्सेप्शन वी3 में मौजूद पूर्वाग्रह अन्य वर्गीकरण नेटवर्क में भी व्यापक रूप से मौजूद हैं। इसके अलावा, हम देखते हैं कि विभिन्न नेटवर्क भ्रष्टाचार प्रकार के बीच अलग-अलग रैंकिंग उत्पन्न करेंगे।’

लेखक पत्र के साथ समाप्त होते हैं कि आशा है कि जारी शोध एक ‘मानव-संरेखित और पूर्वाग्रह-मुक्त मीट्रिक’ विकसित करेगा जो छवि जनरेटर वास्तुकला के लिए एक न्यायसंगत रैंक प्रदान करने में सक्षम होगा।

* लेखकों का जोर।

पहली बार 2oth दिसंबर 2021, 1pm जीएमटी+2 पर प्रकाशित।

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

छवि संश्लेषण क्षेत्र ने एक दोषपूर्ण मीट्रिक को अपनाया है, शोध का दावा है

छवि संश्लेषण के लिए एक स्कोरिंग सिस्टम की खोज

फ्रेचेट इन्सेप्शन दूरी

डेटा और विधि

कोई आसान विकल्प नहीं

You may like