Connect with us

рдорд╛рдирд╡ рд╢рд░реАрд░ рдХреЗ рдкреНрд░рдХрд╛рд░ рдХреЛ рдПрдЖрдИ рдХреЗ рд╕рд╛рде рдкреБрдирдГ рдЖрдХрд╛рд░ рджреЗрдирд╛

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдорд╛рдирд╡ рд╢рд░реАрд░ рдХреЗ рдкреНрд░рдХрд╛рд░ рдХреЛ рдПрдЖрдИ рдХреЗ рд╕рд╛рде рдкреБрдирдГ рдЖрдХрд╛рд░ рджреЗрдирд╛

mm

चीन से एक नए शोध सहयोग ने मानव शरीर को छवियों में पुनः आकार देने का एक नया तरीका पेश किया है, जिसमें एक समन्वित जुड़वां न्यूरल एनकोडर नेटवर्क का उपयोग किया जाता है, जो एक पैरामेट्रिक मॉडल द्वारा निर्देशित होता है, जो एक अंतिम उपयोगकर्ता को वजन, ऊंचाई और शरीर के अनुपात को एक इंटरएक्टिव जीयूआई में संशोधित करने की अनुमति देता है।

рдкреИрд░рд╛рдореЗрдЯреНрд░рд┐рдХ рдореЙрдбреНрдпреВрд▓реЗрд╢рди рдСрдл рдмреЙрдбреА рд╢реЗрдк, рдЬрд┐рд╕рдореЗрдВ рддреАрди рдЙрдкрд▓рдмреНрдз рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреЛ рдмрджрд▓рдиреЗ рд╡рд╛рд▓реЗ рд╕реНрд▓рд╛рдЗрдбрд░ рд╣реИрдВред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2203.10496.pdf

पैरामेट्रिक मॉड्यूलेशन ऑफ बॉडी शेप, जिसमें तीन उपलब्ध विशेषताओं को बदलने वाले स्लाइडर हैं। स्रोत: https://arxiv.org/pdf/2203.10496.pdf

यह काम एक हालिया समान परियोजना से कई सुधार प्रदान करता है, जो अलीबाबा से है, जिसमें यह ऊंचाई और शरीर के अनुपात के साथ-साथ वजन को भी परिवर्तित कर सकता है, और इसमें ‘इनपेंटिंग’ के लिए एक समर्पित न्यूरल नेटवर्क है जो ‘पतले’ शरीर की छवियों द्वारा खुले हुए पृष्ठभूमि को प्रकट कर सकता है। यह एक प्रसिद्ध पूर्व पैरामेट्रिक विधि को भी बेहतर बनाता है जो शरीर को पुनः आकार देने के लिए है, जिसमें परिवर्तन के निर्माण के दौरान मानव हस्तक्षेप की आवश्यकता को हटा दिया जाता है।

इसे न्यूरलरेशेपर नाम दिया गया है, इस नए आर्किटेक्चर में एक पैरामेट्रिक 3डी मानव टेम्पलेट को एक स्रोत छवि में फिट किया जाता है, और फिर टेम्पलेट में विकृतियों का उपयोग मूल छवि को नए पैरामीटर में अनुकूलित करने के लिए किया जाता है।

इस प्रणाली में कपड़े पहने हुए और अर्ध-वस्त्रित (जैसे कि समुद्र तट के परिधान) आंकड़ों पर शरीर के परिवर्तन को संभालने की क्षमता है।

इस प्रकार के परिवर्तन वर्तमान में फैशन एआई अनुसंधान क्षेत्र में तीव्र रुचि के विषय हैं, जिसने स्टाइलजीएन/साइकलगैन-आधारित और सामान्य न्यूरल नेटवर्क प्लेटफ़ॉर्म की एक संख्या का उत्पादन किया है जो वर्चुअल ट्राई-ऑन के लिए हैं, जो एक उपयोगकर्ता-प्रस्तुत छवि के शरीर के आकार और प्रकार के अनुसार उपलब्ध कपड़ों की वस्तुओं को अनुकूलित कर सकते हैं, या अन्यथा दृश्य संगति में मदद कर सकते हैं।

सिंगल-इमेज ह्यूमन-बॉडी रीशेपिंग विद डीप न्यूरल नेटवर्क्स नामक पेपर झेजियांग विश्वविद्यालय के शोधकर्ताओं और हांगकांग सिटी विश्वविद्यालय के स्कूल ऑफ क्रिएटिव मीडिया से है।

एसएमपीएल फिटिंग

न्यूरलरेशेपर मैक्स प्लैंक इंस्टीट्यूट फॉर इंटेलिजेंट सिस्टम्स और प्रसिद्ध वीएफएक्स हाउस इंडस्ट्रियल लाइट एंड मैजिक द्वारा 2015 में विकसित स्किन्ड मल्टी-पर्सन लीनियर मॉडल (एसएमपीएल) का उपयोग करता है।

рдПрд╕рдПрдордкреАрдПрд▓ рдкреИрд░рд╛рдореЗрдЯреНрд░рд┐рдХ рдорд╛рдирд╡ рдкреНрд▓реИрдВрдХ/рдЖрдИрдПрд▓рдПрдо рд╕рд╣рдпреЛрдЧ рд╕реЗред рд╕реНрд░реЛрдд: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

एसएमपीएल पैरामेट्रिक मानव प्लैंक/आईएलएम सहयोग से। स्रोत: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

प्रक्रिया के पहले चरण में, एक एसएमपीएल मॉडल को एक स्रोत छवि से उत्पन्न किया जाता है जिसमें शरीर के परिवर्तन किए जाने हैं। एसएमपीएल मॉडल को छवि में अनुकूलित करने की प्रक्रिया 2018 में जर्मनी और यूएस में विश्वविद्यालयों द्वारा प्रस्तावित ह्यूमन मेश रिकवरी (एचएमआर) विधि के तरीके का अनुसरण करती है।

विकृति के तीन पैरामीटर (वजन, ऊंचाई, शरीर का अनुपात) इस चरण में गणना की जाती है, साथ ही कैमरा पैरामीटर जैसे फोकल लंबाई का भी ध्यान रखा जाता है। 2डी कीपॉइंट और उत्पन्न सिल्हूट संरेखण विकृति के लिए 2डी सिल्हूट के रूप में एक बंदी प्रदान करते हैं, जो एक अतिरिक्त अनुकूलन उपाय है जो सीमा की सटीकता को बढ़ाता है और आगे की पाइपलाइन में पृष्ठभूमि को भरने की अनुमति देता है।

рдПрд╕рдПрдордкреАрдПрд▓ рдлрд┐рдЯрд┐рдВрдЧ рдХреЗ рдЪрд░рдг: рдмрд╛рдПрдВ, рд╕реНрд░реЛрдд рдЫрд╡рд┐; рджреВрд╕рд░рд╛ рдмрд╛рдПрдВ, 2016 рдореЗрдВ рдореИрдХреНрд╕ рдкреНрд▓реИрдВрдХ рдЗрдВрд╕реНрдЯреАрдЯреНрдпреВрдЯ рдлреЙрд░ рдЗрдВрдЯреЗрд▓рд┐рдЬреЗрдВрдЯ рд╕рд┐рд╕реНрдЯрдореНрд╕ рджреНрд╡рд╛рд░рд╛ рдирд┐рд░реНрджреЗрд╢рд┐рдд рдЕрдиреБрд╕рдВрдзрд╛рди рдореЗрдВ рд░реВрдкрд░реЗрдЦрд╛ рдХреЗ рдкрд░рд┐рдгрд╛рдо; рддреАрд╕рд░рд╛ рдмрд╛рдПрдВ, рдкреВрд░реНрд╡-рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдореЙрдбрд▓ рд╕реЗ рд╕реАрдзреЗ рдЕрдиреБрдорд╛рди рдкрд░рд┐рдгрд╛рдо; рджреВрд╕рд░рд╛ рджрд╛рдПрдВ, 2рдбреА рдХреАрдкреЙрдЗрдВрдЯ рдХреЗ рдЕрдиреБрдХреВрд▓рди рдХреЗ рдкрд░рд┐рдгрд╛рдо; рдФрд░ рдЕрдВрдд рдореЗрдВ, рджрд╛рдПрдВ, рд╕рд┐рд▓реНрд╣реВрдЯ рдЕрдиреБрдХреВрд▓рди рдХреЗ рдмрд╛рдж рдкреВрд░реНрдг рдлрд┐рдЯ (рдКрдкрд░ рджреЗрдЦреЗрдВ)ред

एसएमपीएल फिटिंग के चरण: बाएं, स्रोत छवि; दूसरा बाएं, 2016 में मैक्स प्लैंक इंस्टीट्यूट फॉर इंटेलिजेंट सिस्टम्स द्वारा निर्देशित अनुसंधान में रूपरेखा के परिणाम; तीसरा बाएं, पूर्व-प्रशिक्षित मॉडल से सीधे अनुमान परिणाम; दूसरा दाएं, 2डी कीपॉइंट के अनुकूलन के परिणाम; और अंत में, दाएं, सिल्हूट अनुकूलन के बाद पूर्ण फिट (ऊपर देखें)।

3डी विकृति को तब आर्किटेक्चर के छवि स्थान में परियोजना किया जाता है ताकि एक घने वार्पिंग फील्ड को परिभाषित किया जा सके जो विकृति को परिभाषित करेगा। यह प्रक्रिया लगभग 30 सेकंड प्रति छवि लेती है।

न्यूरलरेशेपर आर्किटेक्चर

न्यूरलरेशेपर दो न्यूरल नेटवर्क को एक साथ चलाता है: एक फोरग्राउंड एनकोडर जो परिवर्तित शरीर के आकार को उत्पन्न करता है, और एक बैकग्राउंड एनकोडर जो ‘डी-ओक्लूडेड’ पृष्ठभूमि क्षेत्रों (जैसे कि एक शरीर को पतला करने के मामले में – नीचे दी गई छवि देखें) को भरने पर केंद्रित होता है।

यू-नेट-शैली के फ्रेमवर्क में दो एनकोडर्स के सुविधाओं के आउटपुट को एकजुट एनकोडर में पास करने से पहले एकत्रित किया जाता है, जो अंततः दो इनपुट से एक नई छवि का उत्पादन करता है। आर्किटेक्चर में एक नवीन वार्प-निर्देशित तंत्र है जो एकीकरण को सक्षम बनाता है।

प्रशिक्षण और प्रयोग

न्यूरलरेशेपर पाइटोर्च में एक एकल एनवीडिया 1080टीआई जीपीयू पर 11जीबी वीआरएएम के साथ लागू किया गया है। नेटवर्क को 100 युगों के लिए एडम ऑप्टिमाइज़र के तहत प्रशिक्षित किया गया था, जिसमें जनरेटर को 0.0001 के लक्ष्य नुकसान और विवेचक को 0.0004 के लक्ष्य नुकसान के साथ सेट किया गया था। प्रशिक्षण एक प्रोप्राइटरी आउटडोर डेटासेट (सीओसीओ, एमपीआईआई, और एलएसपी से ड्रॉ किया गया) पर 8 के बैच आकार के लिए हुआ, और डीपफैशन डेटासेट पर 2 के लिए।

рдмрд╛рдПрдВ, рдореВрд▓ рдЫрд╡рд┐рдпрд╛рдВ, рджрд╛рдПрдВ, рдиреНрдпреВрд░рд▓рд░реЗрд╢реЗрдкрд░ рдХрд╛ рдкреБрдирдГ рдЕрдиреБрдкрд╛рддрд┐рдд рдЖрдЙрдЯрдкреБрдЯред

बाएं, मूल छवियां, दाएं, न्यूरलरेशेपर का पुनः अनुपातित आउटपुट।

नीचे डीपफैशन डेटासेट से कुछ उदाहरण हैं जो न्यूरलरेशेपर के लिए प्रशिक्षित किए गए हैं, जिसमें मूल छवियां हमेशा बाएं हैं।

तीन नियंत्रित विशेषताएं अलग-अलग हैं और अलग-अलग रूप से लागू की जा सकती हैं।

आउटडोर डेटासेट पर परिवर्तन अधिक चुनौतीपूर्ण हैं, क्योंकि वे अक्सर जटिल पृष्ठभूमि को भरने और स्पष्ट रूप से परिवर्तित शरीर के प्रकार को परिभाषित करने की आवश्यकता होती है:

पैरामेट्रिक आवश्यकता

जैसा कि पेपर में देखा गया है, इस प्रकार के एक ही छवि परिवर्तन एक खराब तरीके से तैयार किया गया समस्या है जो छवि संश्लेषण में है। कई परिवर्तनशील जीएन और एनकोडर फ्रेमवर्क जोड़े गए छवियों का उपयोग कर सकते हैं (जैसे कि विविध परियोजनाएं जो स्केच>फोटो और फोटो>स्केच परिवर्तन को प्रभावित करने के लिए डिज़ाइन की गई हैं)।

हालांकि, इस मामले में, यह एक ही लोगों को विभिन्न शारीरिक कॉन्फ़िगरेशन में दिखाने वाली छवि जोड़े की आवश्यकता होगी, जैसे कि आहार या प्लास्टिक सर्जरी विज्ञापनों में ‘पहले और बाद’ की छवियां – डेटा जो प्राप्त करना या उत्पन्न करना मुश्किल है।

वैकल्पिक रूप से, परिवर्तनशील जीएन नेटवर्क अधिक विविध डेटा पर प्रशिक्षित हो सकते हैं और परिवर्तन को लागू करने के लिए स्रोत (मूल छवि लेटेंट कोड) और वांछित वर्ग (इस मामले में ‘मोटा’, ‘पतला’, ‘लंबा’, आदि) के बीच लेटेंट दिशा की तलाश कर सकते हैं। हालांकि, यह दृष्टिकोण अभी भी शरीर को पुनः आकार देने के उद्देश्यों के लिए बहुत सीमित है।

न्यूरल रेडियंस फील्ड्स (नेर्फ) दृष्टिकोण पूर्ण-शरीर सिमुलेशन में अधिक उन्नत हैं, लेकिन वे अभी भी दृश्य-विशिष्ट और संसाधन-गहन हैं, जिसमें वर्तमान में शरीर के प्रकार को न्यूरलरेशेपर और पूर्व परियोजनाओं की तरह सूक्ष्म तरीके से संपादित करने की बहुत सीमित क्षमता है (इसके अलावा पूरे शरीर को उसके पर्यावरण के सापेक्ष नीचे की ओर स्केल करना)।

जीएन का लेटेंट स्पेस कठिन है; वीएई अभी भी पूर्ण-शरीर प्रजनन की जटिलताओं को संबोधित नहीं करते हैं; और नेर्फ की क्षमता मानव शरीर को लगातार और वास्तविक रूप से पुनः आकार देने की अभी भी नवजात है। इसलिए, ‘पारंपरिक’ सीजीआई तरीकों जैसे एसएमपीएल को शामिल करना मानव छवि संश्लेषण अनुसंधान क्षेत्र में जारी रखने के लिए तैयार लगता है, जो विशेषताओं, वर्गों और लेटेंट कोड को नियंत्रित और समेकित करने के लिए एक तरीके के रूप में है जिनके पैरामीटर और शोषण अभी भी इन उभरती प्रौद्योगिकियों में पूरी तरह से समझे नहीं गए हैं।

 

पहली बार 31 मार्च 2022 को प्रकाशित किया गया।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai