कृत्रिम बुद्धिमत्ता

मानव शरीर के प्रकार को एआई के साथ पुनः आकार देना

Published March 31, 2022

Updated April 28, 2026

Martin Anderson

चीन से एक नए शोध सहयोग ने मानव शरीर को छवियों में पुनः आकार देने का एक नया तरीका पेश किया है, जिसमें एक समन्वित जुड़वां न्यूरल एनकोडर नेटवर्क का उपयोग किया जाता है, जो एक पैरामेट्रिक मॉडल द्वारा निर्देशित होता है, जो एक अंतिम उपयोगकर्ता को वजन, ऊंचाई और शरीर के अनुपात को एक इंटरएक्टिव जीयूआई में संशोधित करने की अनुमति देता है।

पैरामेट्रिक मॉड्यूलेशन ऑफ बॉडी शेप, जिसमें तीन उपलब्ध विशेषताओं को बदलने वाले स्लाइडर हैं। स्रोत: https://arxiv.org/pdf/2203.10496.pdf

यह काम एक हालिया समान परियोजना से कई सुधार प्रदान करता है, जो अलीबाबा से है, जिसमें यह ऊंचाई और शरीर के अनुपात के साथ-साथ वजन को भी परिवर्तित कर सकता है, और इसमें ‘इनपेंटिंग’ के लिए एक समर्पित न्यूरल नेटवर्क है जो ‘पतले’ शरीर की छवियों द्वारा खुले हुए पृष्ठभूमि को प्रकट कर सकता है। यह एक प्रसिद्ध पूर्व पैरामेट्रिक विधि को भी बेहतर बनाता है जो शरीर को पुनः आकार देने के लिए है, जिसमें परिवर्तन के निर्माण के दौरान मानव हस्तक्षेप की आवश्यकता को हटा दिया जाता है।

इसे न्यूरलरेशेपर नाम दिया गया है, इस नए आर्किटेक्चर में एक पैरामेट्रिक 3डी मानव टेम्पलेट को एक स्रोत छवि में फिट किया जाता है, और फिर टेम्पलेट में विकृतियों का उपयोग मूल छवि को नए पैरामीटर में अनुकूलित करने के लिए किया जाता है।

इस प्रणाली में कपड़े पहने हुए और अर्ध-वस्त्रित (जैसे कि समुद्र तट के परिधान) आंकड़ों पर शरीर के परिवर्तन को संभालने की क्षमता है।

इस प्रकार के परिवर्तन वर्तमान में फैशन एआई अनुसंधान क्षेत्र में तीव्र रुचि के विषय हैं, जिसने स्टाइलजीएन/साइकलगैन-आधारित और सामान्य न्यूरल नेटवर्क प्लेटफ़ॉर्म की एक संख्या का उत्पादन किया है जो वर्चुअल ट्राई-ऑन के लिए हैं, जो एक उपयोगकर्ता-प्रस्तुत छवि के शरीर के आकार और प्रकार के अनुसार उपलब्ध कपड़ों की वस्तुओं को अनुकूलित कर सकते हैं, या अन्यथा दृश्य संगति में मदद कर सकते हैं।

सिंगल-इमेज ह्यूमन-बॉडी रीशेपिंग विद डीप न्यूरल नेटवर्क्स नामक पेपर झेजियांग विश्वविद्यालय के शोधकर्ताओं और हांगकांग सिटी विश्वविद्यालय के स्कूल ऑफ क्रिएटिव मीडिया से है।

एसएमपीएल फिटिंग

न्यूरलरेशेपर मैक्स प्लैंक इंस्टीट्यूट फॉर इंटेलिजेंट सिस्टम्स और प्रसिद्ध वीएफएक्स हाउस इंडस्ट्रियल लाइट एंड मैजिक द्वारा 2015 में विकसित स्किन्ड मल्टी-पर्सन लीनियर मॉडल (एसएमपीएल) का उपयोग करता है।

एसएमपीएल पैरामेट्रिक मानव प्लैंक/आईएलएम सहयोग से। स्रोत: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

प्रक्रिया के पहले चरण में, एक एसएमपीएल मॉडल को एक स्रोत छवि से उत्पन्न किया जाता है जिसमें शरीर के परिवर्तन किए जाने हैं। एसएमपीएल मॉडल को छवि में अनुकूलित करने की प्रक्रिया 2018 में जर्मनी और यूएस में विश्वविद्यालयों द्वारा प्रस्तावित ह्यूमन मेश रिकवरी (एचएमआर) विधि के तरीके का अनुसरण करती है।

विकृति के तीन पैरामीटर (वजन, ऊंचाई, शरीर का अनुपात) इस चरण में गणना की जाती है, साथ ही कैमरा पैरामीटर जैसे फोकल लंबाई का भी ध्यान रखा जाता है। 2डी कीपॉइंट और उत्पन्न सिल्हूट संरेखण विकृति के लिए 2डी सिल्हूट के रूप में एक बंदी प्रदान करते हैं, जो एक अतिरिक्त अनुकूलन उपाय है जो सीमा की सटीकता को बढ़ाता है और आगे की पाइपलाइन में पृष्ठभूमि को भरने की अनुमति देता है।

एसएमपीएल फिटिंग के चरण: बाएं, स्रोत छवि; दूसरा बाएं, 2016 में मैक्स प्लैंक इंस्टीट्यूट फॉर इंटेलिजेंट सिस्टम्स द्वारा निर्देशित अनुसंधान में रूपरेखा के परिणाम; तीसरा बाएं, पूर्व-प्रशिक्षित मॉडल से सीधे अनुमान परिणाम; दूसरा दाएं, 2डी कीपॉइंट के अनुकूलन के परिणाम; और अंत में, दाएं, सिल्हूट अनुकूलन के बाद पूर्ण फिट (ऊपर देखें)।

3डी विकृति को तब आर्किटेक्चर के छवि स्थान में परियोजना किया जाता है ताकि एक घने वार्पिंग फील्ड को परिभाषित किया जा सके जो विकृति को परिभाषित करेगा। यह प्रक्रिया लगभग 30 सेकंड प्रति छवि लेती है।

न्यूरलरेशेपर आर्किटेक्चर

न्यूरलरेशेपर दो न्यूरल नेटवर्क को एक साथ चलाता है: एक फोरग्राउंड एनकोडर जो परिवर्तित शरीर के आकार को उत्पन्न करता है, और एक बैकग्राउंड एनकोडर जो ‘डी-ओक्लूडेड’ पृष्ठभूमि क्षेत्रों (जैसे कि एक शरीर को पतला करने के मामले में – नीचे दी गई छवि देखें) को भरने पर केंद्रित होता है।

यू-नेट-शैली के फ्रेमवर्क में दो एनकोडर्स के सुविधाओं के आउटपुट को एकजुट एनकोडर में पास करने से पहले एकत्रित किया जाता है, जो अंततः दो इनपुट से एक नई छवि का उत्पादन करता है। आर्किटेक्चर में एक नवीन वार्प-निर्देशित तंत्र है जो एकीकरण को सक्षम बनाता है।

प्रशिक्षण और प्रयोग

न्यूरलरेशेपर पाइटोर्च में एक एकल एनवीडिया 1080टीआई जीपीयू पर 11जीबी वीआरएएम के साथ लागू किया गया है। नेटवर्क को 100 युगों के लिए एडम ऑप्टिमाइज़र के तहत प्रशिक्षित किया गया था, जिसमें जनरेटर को 0.0001 के लक्ष्य नुकसान और विवेचक को 0.0004 के लक्ष्य नुकसान के साथ सेट किया गया था। प्रशिक्षण एक प्रोप्राइटरी आउटडोर डेटासेट (सीओसीओ, एमपीआईआई, और एलएसपी से ड्रॉ किया गया) पर 8 के बैच आकार के लिए हुआ, और डीपफैशन डेटासेट पर 2 के लिए।

बाएं, मूल छवियां, दाएं, न्यूरलरेशेपर का पुनः अनुपातित आउटपुट।

नीचे डीपफैशन डेटासेट से कुछ उदाहरण हैं जो न्यूरलरेशेपर के लिए प्रशिक्षित किए गए हैं, जिसमें मूल छवियां हमेशा बाएं हैं।

तीन नियंत्रित विशेषताएं अलग-अलग हैं और अलग-अलग रूप से लागू की जा सकती हैं।

आउटडोर डेटासेट पर परिवर्तन अधिक चुनौतीपूर्ण हैं, क्योंकि वे अक्सर जटिल पृष्ठभूमि को भरने और स्पष्ट रूप से परिवर्तित शरीर के प्रकार को परिभाषित करने की आवश्यकता होती है:

पैरामेट्रिक आवश्यकता

जैसा कि पेपर में देखा गया है, इस प्रकार के एक ही छवि परिवर्तन एक खराब तरीके से तैयार किया गया समस्या है जो छवि संश्लेषण में है। कई परिवर्तनशील जीएन और एनकोडर फ्रेमवर्क जोड़े गए छवियों का उपयोग कर सकते हैं (जैसे कि विविध परियोजनाएं जो स्केच>फोटो और फोटो>स्केच परिवर्तन को प्रभावित करने के लिए डिज़ाइन की गई हैं)।

हालांकि, इस मामले में, यह एक ही लोगों को विभिन्न शारीरिक कॉन्फ़िगरेशन में दिखाने वाली छवि जोड़े की आवश्यकता होगी, जैसे कि आहार या प्लास्टिक सर्जरी विज्ञापनों में ‘पहले और बाद’ की छवियां – डेटा जो प्राप्त करना या उत्पन्न करना मुश्किल है।

वैकल्पिक रूप से, परिवर्तनशील जीएन नेटवर्क अधिक विविध डेटा पर प्रशिक्षित हो सकते हैं और परिवर्तन को लागू करने के लिए स्रोत (मूल छवि लेटेंट कोड) और वांछित वर्ग (इस मामले में ‘मोटा’, ‘पतला’, ‘लंबा’, आदि) के बीच लेटेंट दिशा की तलाश कर सकते हैं। हालांकि, यह दृष्टिकोण अभी भी शरीर को पुनः आकार देने के उद्देश्यों के लिए बहुत सीमित है।

न्यूरल रेडियंस फील्ड्स (नेर्फ) दृष्टिकोण पूर्ण-शरीर सिमुलेशन में अधिक उन्नत हैं, लेकिन वे अभी भी दृश्य-विशिष्ट और संसाधन-गहन हैं, जिसमें वर्तमान में शरीर के प्रकार को न्यूरलरेशेपर और पूर्व परियोजनाओं की तरह सूक्ष्म तरीके से संपादित करने की बहुत सीमित क्षमता है (इसके अलावा पूरे शरीर को उसके पर्यावरण के सापेक्ष नीचे की ओर स्केल करना)।

जीएन का लेटेंट स्पेस कठिन है; वीएई अभी भी पूर्ण-शरीर प्रजनन की जटिलताओं को संबोधित नहीं करते हैं; और नेर्फ की क्षमता मानव शरीर को लगातार और वास्तविक रूप से पुनः आकार देने की अभी भी नवजात है। इसलिए, ‘पारंपरिक’ सीजीआई तरीकों जैसे एसएमपीएल को शामिल करना मानव छवि संश्लेषण अनुसंधान क्षेत्र में जारी रखने के लिए तैयार लगता है, जो विशेषताओं, वर्गों और लेटेंट कोड को नियंत्रित और समेकित करने के लिए एक तरीके के रूप में है जिनके पैरामीटर और शोषण अभी भी इन उभरती प्रौद्योगिकियों में पूरी तरह से समझे नहीं गए हैं।

पहली बार 31 मार्च 2022 को प्रकाशित किया गया।

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai