рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ ‘рдмреИрдб рд╣реЗрдпрд░ рдбреЗрдЬ’ рдХреЛ рд╕рдВрднрд╛рд▓рдирд╛

रोमन मूर्तियों के स्वर्ण युग से लेकर, मानव बालों को चित्रित करना एक कांटेदार चुनौती रही है। औसत मानव सिर में 100,000 तंतु होते हैं, जिनके रंग के अनुसार परिवर्तनशील अपवर्तन सूचकांक होते हैं, और एक निश्चित लंबाई से परे, यह तरीकों से हिलेगा और पुनः बनेगा जो केवल जटिल भौतिकी मॉडल द्वारा अनुकरण किया जा सकता है – अब तक, केवल ‘पारंपरिक’ सीजीआई पद्धतियों के माध्यम से लागू किया जा सकता है।

2017 में डिज़नी द्वारा किए गए शोध से, एक भौतिकी आधारित मॉडल एक सीजीआई वर्कफ्लो में एक तरल बाल शैली में वास्तविक गति लागू करने का प्रयास करता है। स्रोत: https://www.youtube.com/watch?v=-6iF3mufDW0
समस्या को आधुनिक लोकप्रिय डीपफेक्स तरीकों द्वारा खराब तरीके से संबोधित किया जाता है। कुछ वर्षों से, अग्रणी पैकेज DeepFaceLab में एक ‘पूरा सिर’ मॉडल है जो केवल कठोर प्रतिनिधित्व को पकड़ सकता है लघु (आम तौर पर पुरुष) बाल, और हाल ही में डीएफएल स्थिर साथी FaceSwap (दोनों पैकेज 2017 डीपफेक्स स्रोत कोड से व्युत्पन्न हैं) ने BiseNet सेमांटिक सेगमेंटेशन मॉडल का एक कार्यान्वयन प्रदान किया है, जिससे उपयोगकर्ता को डीपफेक आउटपुट में कान और बाल शामिल करने की अनुमति मिलती है।
यहां तक कि बहुत छोटे बालों वाले बालों को चित्रित करते समय, परिणाम आमतौर पर गुणवत्ता में बहुत सीमित होते हैं, जिसमें पूरे सिर फुटेज पर ओवरले दिखाई देते हैं, न कि इसे एकीकृत करते हैं।
GAN बाल
मानव सिमुलेशन के दो प्रमुख प्रतिस्पर्धी दृष्टिकोण न्यूरल रेडिएंस फील्ड्स (NeRF) हैं, जो एक दृश्य को कई दृष्टिकोण से पकड़ सकते हैं और इन दृष्टिकोणों का एक 3डी प्रतिनिधित्व एक अन्वेषणीय न्यूरल नेटवर्क में समाहित कर सकते हैं; और जेनरेटिव एडवर्सेरियल नेटवर्क (GANs), जो मानव इमेज सिंथेसिस के संदर्भ में अधिक उन्नत हैं (न्यूरफ के 2020 में उभरने के कारण नहीं)।
न्यूरफ की अनुमानित 3डी ज्यामिति समझ इसे एक दृश्य को बहुत विश्वास और निरंतरता के साथ पुनः बनाने में सक्षम बनाती है, भले ही यह वर्तमान में भौतिकी मॉडल को लागू करने के लिए बहुत कम या कोई संभावना नहीं है – और वास्तव में, किसी भी प्रकार के परिवर्तन के लिए बहुत सीमित संभावना है जो कैमरा दृष्टिकोण को बदलने से संबंधित नहीं है। वर्तमान में, न्यूरफ में मानव बालों की गति को पुनः बनाने में बहुत सीमित क्षमता है।
न्यूरफ के समकक्ष जीएएन-आधारित दृष्टिकोण एक लगभग घातक नुकसान से शुरू होता है, क्योंकि न्यूरफ के विपरीत, एक जीएएन का लेटेंट स्पेस में 3डी जानकारी की समझ नहीं है। इसलिए 3डी जागरूक जीएएन चेहरे की छवि सिंथेसिस हाल के वर्षों में छवि पीढ़ी अनुसंधान में एक गर्म पीछा बन गई है, जिसमें 2019 का InterFaceGAN एक प्रमुख सफलता है।
हालांकि, यहां तक कि InterFaceGAN के प्रदर्शित और चेरी-पिक्ड परिणाम भी दिखाते हैं कि न्यूरल बाल स्थिरता अभी भी एक कठिन चुनौती है संभावित वीएफएक्स वर्कफ्लो के लिए:

InterFaceGAN से ‘सिज़लिंग’ बाल एक मुद्रा परिवर्तन में। स्रोत: https://www.youtube.com/watch?v=uoftpl3Bj6w
जैसा कि यह अधिक स्पष्ट होता जा रहा है कि लेटेंट स्पेस के माध्यम से हेरफेर के माध्यम से सुसंगत दृश्य पीढ़ी अल्केमी-जैसी पीछा हो सकती है, बढ़ती संख्या में पत्र सामने आ रहे हैं जो सीजीआई-आधारित 3डी जानकारी को एक जीएएन वर्कफ्लो में एक स्थिरकारी और सामान्यीकरण प्रतिबंध के रूप में शामिल करते हैं।
सीजीआई तत्व मध्यवर्ती 3डी प्रिमिटिव्स द्वारा प्रतिनिधित्व किया जा सकता है जैसे कि स्किन्ड मल्टी-पर्सन लीनियर मॉडल (SMPL), या न्यूरफ के समान 3डी अनुमान तकनीकों को अपनाकर, जहां ज्यामिति स्रोत छवियों या वीडियो से मूल्यांकन की जाती है।
इस प्रकार के एक नए कार्य, इस सप्ताह जारी, मल्टी-व्यू कंसिस्टेंट जेनरेटिव एडवर्सेरियल नेटवर्क फॉर 3डी-अवेयर इमेज सिंथेसिस (MVCGAN) है, जो ReLER, AAII, सिडनी प्रौद्योगिकी विश्वविद्यालय, अलीबाबा समूह के DAMO अकादमी, और जेजियांग विश्वविद्यालय के बीच एक सहयोग है।

MVCGAN द्वारा सीईएलईबीए-एचक्यू डेटासेट से व्युत्पन्न छवियों पर उत्पन्न संभावित और मजबूत नए चेहरे की मुद्राएं। स्रोत: https://arxiv.org/pdf/2204.06307.pdf
MVCGAN में एक जेनरेटिव रेडिएंस फील्ड नेटवर्क (GRAF) शामिल है जो एक जेनरेटिव एडवर्सेरियल नेटवर्क में ज्यामितीय प्रतिबंध प्रदान करने में सक्षम है, संभावित रूप से इसी तरह के जीएएन-आधारित दृष्टिकोण की सबसे प्रामाणिक मुद्रा क्षमता प्राप्त करता है।
हालांकि, MVCGAN के पूरक सामग्री से पता चलता है कि बाल आयतन, विस्थापन, स्थिति और व्यवहार स्थिरता प्राप्त करना एक समस्या है जो बाहरी रूप से लगाए गए 3डी ज्यामिति पर आधारित प्रतिबंधों के माध्यम से आसानी से संबोधित नहीं की जा सकती है।

लेखन के समय जारी नहीं की गई पूरक सामग्री से, हम देखते हैं कि जबकि MVCGAN से चेहरे की मुद्रा सिंथेसिस वर्तमान राज्य के कला पर एक उल्लेखनीय प्रगति का प्रतिनिधित्व करती है, समयिक बाल स्थिरता अभी भी एक समस्या है।
चूंकि ‘सीधे’ सीजीआई वर्कफ्लो अभी भी समयिक बाल पुनर्निर्माण को एक चुनौती पाते हैं, इसलिए कोई कारण नहीं है कि परंपरागत ज्यामिति-आधारित दृष्टिकोण इस प्रकार के समयिक बाल सिंथेसिस को लेटेंट स्पेस में लाने जा रहे हैं।
कन्वोल्यूशनल न्यूरल नेटवर्क के साथ बाल को स्थिर करना
हालांकि, स्वीडन में चाल्मर्स इंस्टीट्यूट ऑफ टेक्नोलॉजी के तीन शोधकर्ताओं द्वारा एक आगामी पत्र न्यूरल बाल सिमुलेशन में एक अतिरिक्त प्रगति प्रदान कर सकता है।

बाएं, सीएनएन-स्थिरित बाल प्रतिनिधित्व, दाएं, मूल सत्य। लेख के अंत में एम्बेडेड वीडियो के लिए बेहतर रिज़ॉल्यूशन और अतिरिक्त उदाहरण देखें। स्रोत: https://www.youtube.com/watch?v=AvnJkwCmsT4
शीर्षक रियल-टाइम हेयर फिल्टरिंग विद कन्वोल्यूशनल न्यूरल नेटवर्क वाला यह पत्र मई के शुरू में i3D सिम्पोजियम के लिए प्रकाशित किया जाएगा।
प्रणाली में एक ऑटोएनकोडर-आधारित नेटवर्क शामिल है जो वास्तविक समय में बाल संकल्प का मूल्यांकन करने में सक्षम है, जिसमें स्व-छाया और बाल मोटाई को ध्यान में रखते हुए, ओपनजीएल ज्यामिति द्वारा बीजित एक सीमित संख्या में स्टोकास्टिक नमूनों के आधार पर।
दृष्टिकोण एक सीमित संख्या में नमूनों को स्टोकास्टिक पारदर्शिता के साथ रेंडर करता है और फिर मूल छवि को पुनर्निर्माण करने के लिए एक U-नेट को प्रशिक्षित करता है।

MVCGAN के तहत, एक सीएनएन स्टोकास्टिक रूप से नमूनाकृत रंग कारकों, हाइलाइट्स, टैंजेंट्स, गहराई और अल्फा को फिल्टर करता है, संश्लेषित परिणामों को एक संयुक्त छवि में इकट्ठा करता है।
नेटवर्क पाइटोर्च पर प्रशिक्षित है, जो छह से बारह घंटे की अवधि में समाप्त होता है, जो नेटवर्क की मात्रा और इनपुट विशेषताओं की संख्या पर निर्भर करता है। प्रशिक्षित पैरामीटर (वज़न) तब वास्तविक समय कार्यान्वयन में उपयोग किए जाते हैं।
प्रशिक्षण डेटा को सीधे और तरंगदार बाल शैलियों के लिए कई सौ छवियों को रेंडर करके उत्पन्न किया जाता है, जिसमें यादृच्छिक दूरी और मुद्राएं होती हैं, साथ ही विविध प्रकाश स्थितियां भी होती हैं।

विभिन्न प्रशिक्षण इनपुट के उदाहरण।
बाल पारदर्शिता को स्टोकास्टिक पारदर्शिता के साथ रेंडर की गई छवियों से औसतन नमूनों से मापा जाता है। मूल उच्च-रिज़ॉल्यूशन डेटा को नेटवर्क और हार्डवेयर सीमाओं को समायोजित करने के लिए डाउनसैंपल किया जाता है, और बाद में एक ऑटोएनकोडर वर्कफ्लो में अपसैंपल किया जाता है।
वास्तविक समय अनुमान अनुप्रयोग (जो प्रशिक्षित मॉडल से व्युत्पन्न अल्गोरिथ्म का लाभ उठाता है) एनवीडिया सीयूडीए के साथ सीयूडीएनएन और ओपनजीएल का मिश्रण का उपयोग करता है। प्रारंभिक इनपुट विशेषताएं ओपनजीएल मल्टीसैंपल्ड रंग बफर में डंप की जाती हैं, और परिणाम सीयूडीएनएन टेंसर में स्थानांतरित किया जाता है trước प्रसंस्करण सीएनएन में। वे टेंसर फिर एक ‘लाइव’ ओपनजीएल टेक्सचर में कॉपी किए जाते हैं जो अंतिम छवि में लगाया जाता है।
वास्तविक समय प्रणाली एक एनवीडिया आरटीएक्स 2080 पर काम करती है, 1024×1024 पिक्सेल का रिज़ॉल्यूशन उत्पन्न करती है।
चूंकि बाल रंग मान अंतिम मानों में पूरी तरह से अलग हो जाते हैं जो नेटवर्क द्वारा प्राप्त किए जाते हैं, बाल रंग बदलना एक सरल कार्य है, हालांकि ग्रेडिएंट और धारियों जैसे प्रभाव अभी भी एक भविष्य की चुनौती हैं।

लेखकों ने पत्र के मूल्यांकन में उपयोग किए गए कोड को गिटलैब पर जारी किया है। नीचे एमवीसीजीएन के लिए पूरक वीडियो देखें।
निष्कर्ष
एक ऑटोएनकोडर या जीएएन के लेटेंट स्पेस को नेविगेट करना अभी भी अधिक नाव चलाने जैसा है niż सटीक ड्राइविंग। केवल इस बहुत ही हाल के अवधि में हम 3डी ज्यामिति जैसे ‘सimpler’ ज्यामिति के चेहरे की मुद्रा पीढ़ी के लिए विश्वसनीय परिणाम देखना शुरू कर रहे हैं, जैसे न्यूरफ, जीएएन, और गैर-डीपफेक (2017) ऑटोएनकोडर फ्रेमवर्क।
मानव बालों की महत्वपूर्ण वास्तुकला, साथ ही साथ भौतिकी मॉडल और अन्य विशेषताओं को शामिल करने की आवश्यकता जो वर्तमान छवि सिंथेसिस दृष्टिकोण के लिए कोई प्रावधान नहीं है, यह दर्शाता है कि बाल सिंथेसिस सामान्य चेहरे सिंथेसिस का एक एकीकृत घटक बने रहने की संभावना नहीं है, लेकिन यह एक समर्पित और अलग नेटवर्क की आवश्यकता होगी – भले ही ऐसे नेटवर्क अंततः व्यापक और अधिक जटिल चेहरे सिंथेसिस फ्रेमवर्क में शामिल हो जाएं।
15 अप्रैल 2022 को पहली बार प्रकाशित।











