Connect with us

рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ ‘рдмреИрдб рд╣реЗрдпрд░ рдбреЗрдЬ’ рдХреЛ рд╕рдВрднрд╛рд▓рдирд╛

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ ‘рдмреИрдб рд╣реЗрдпрд░ рдбреЗрдЬ’ рдХреЛ рд╕рдВрднрд╛рд▓рдирд╛

mm

रोमन मूर्तियों के स्वर्ण युग से लेकर, मानव बालों को चित्रित करना एक कांटेदार चुनौती रही है। औसत मानव सिर में 100,000 तंतु होते हैं, जिनके रंग के अनुसार परिवर्तनशील अपवर्तन सूचकांक होते हैं, और एक निश्चित लंबाई से परे, यह तरीकों से हिलेगा और पुनः बनेगा जो केवल जटिल भौतिकी मॉडल द्वारा अनुकरण किया जा सकता है – अब तक, केवल ‘पारंपरिक’ सीजीआई पद्धतियों के माध्यम से लागू किया जा सकता है।

2017 में डिज़नी द्वारा किए गए शोध से, एक भौतिकी आधारित मॉडल एक सीजीआई वर्कफ्लो में एक तरल बाल शैली में वास्तविक गति लागू करने का प्रयास करता है। स्रोत: https://www.youtube.com/watch?v=-6iF3mufDW0

2017 में डिज़नी द्वारा किए गए शोध से, एक भौतिकी आधारित मॉडल एक सीजीआई वर्कफ्लो में एक तरल बाल शैली में वास्तविक गति लागू करने का प्रयास करता है। स्रोत: https://www.youtube.com/watch?v=-6iF3mufDW0

समस्या को आधुनिक लोकप्रिय डीपफेक्स तरीकों द्वारा खराब तरीके से संबोधित किया जाता है। कुछ वर्षों से, अग्रणी पैकेज DeepFaceLab में एक ‘पूरा सिर’ मॉडल है जो केवल कठोर प्रतिनिधित्व को पकड़ सकता है लघु (आम तौर पर पुरुष) बाल, और हाल ही में डीएफएल स्थिर साथी FaceSwap (दोनों पैकेज 2017 डीपफेक्स स्रोत कोड से व्युत्पन्न हैं) ने BiseNet सेमांटिक सेगमेंटेशन मॉडल का एक कार्यान्वयन प्रदान किया है, जिससे उपयोगकर्ता को डीपफेक आउटपुट में कान और बाल शामिल करने की अनुमति मिलती है।

यहां तक कि बहुत छोटे बालों वाले बालों को चित्रित करते समय, परिणाम आमतौर पर गुणवत्ता में बहुत सीमित होते हैं, जिसमें पूरे सिर फुटेज पर ओवरले दिखाई देते हैं, न कि इसे एकीकृत करते हैं।

GAN बाल

मानव सिमुलेशन के दो प्रमुख प्रतिस्पर्धी दृष्टिकोण न्यूरल रेडिएंस फील्ड्स (NeRF) हैं, जो एक दृश्य को कई दृष्टिकोण से पकड़ सकते हैं और इन दृष्टिकोणों का एक 3डी प्रतिनिधित्व एक अन्वेषणीय न्यूरल नेटवर्क में समाहित कर सकते हैं; और जेनरेटिव एडवर्सेरियल नेटवर्क (GANs), जो मानव इमेज सिंथेसिस के संदर्भ में अधिक उन्नत हैं (न्यूरफ के 2020 में उभरने के कारण नहीं)।

न्यूरफ की अनुमानित 3डी ज्यामिति समझ इसे एक दृश्य को बहुत विश्वास और निरंतरता के साथ पुनः बनाने में सक्षम बनाती है, भले ही यह वर्तमान में भौतिकी मॉडल को लागू करने के लिए बहुत कम या कोई संभावना नहीं है – और वास्तव में, किसी भी प्रकार के परिवर्तन के लिए बहुत सीमित संभावना है जो कैमरा दृष्टिकोण को बदलने से संबंधित नहीं है। वर्तमान में, न्यूरफ में मानव बालों की गति को पुनः बनाने में बहुत सीमित क्षमता है।

न्यूरफ के समकक्ष जीएएन-आधारित दृष्टिकोण एक लगभग घातक नुकसान से शुरू होता है, क्योंकि न्यूरफ के विपरीत, एक जीएएन का लेटेंट स्पेस में 3डी जानकारी की समझ नहीं है। इसलिए 3डी जागरूक जीएएन चेहरे की छवि सिंथेसिस हाल के वर्षों में छवि पीढ़ी अनुसंधान में एक गर्म पीछा बन गई है, जिसमें 2019 का InterFaceGAN एक प्रमुख सफलता है।

हालांकि, यहां तक कि InterFaceGAN के प्रदर्शित और चेरी-पिक्ड परिणाम भी दिखाते हैं कि न्यूरल बाल स्थिरता अभी भी एक कठिन चुनौती है संभावित वीएफएक्स वर्कफ्लो के लिए:

InterFaceGAN से 'सिज़लिंग' बाल एक मुद्रा परिवर्तन में। स्रोत: https://www.youtube.com/watch?v=uoftpl3Bj6w

InterFaceGAN से ‘सिज़लिंग’ बाल एक मुद्रा परिवर्तन में। स्रोत: https://www.youtube.com/watch?v=uoftpl3Bj6w

जैसा कि यह अधिक स्पष्ट होता जा रहा है कि लेटेंट स्पेस के माध्यम से हेरफेर के माध्यम से सुसंगत दृश्य पीढ़ी अल्केमी-जैसी पीछा हो सकती है, बढ़ती संख्या में पत्र सामने आ रहे हैं जो सीजीआई-आधारित 3डी जानकारी को एक जीएएन वर्कफ्लो में एक स्थिरकारी और सामान्यीकरण प्रतिबंध के रूप में शामिल करते हैं।

सीजीआई तत्व मध्यवर्ती 3डी प्रिमिटिव्स द्वारा प्रतिनिधित्व किया जा सकता है जैसे कि स्किन्ड मल्टी-पर्सन लीनियर मॉडल (SMPL), या न्यूरफ के समान 3डी अनुमान तकनीकों को अपनाकर, जहां ज्यामिति स्रोत छवियों या वीडियो से मूल्यांकन की जाती है।

इस प्रकार के एक नए कार्य, इस सप्ताह जारी, मल्टी-व्यू कंसिस्टेंट जेनरेटिव एडवर्सेरियल नेटवर्क फॉर 3डी-अवेयर इमेज सिंथेसिस (MVCGAN) है, जो ReLER, AAII, सिडनी प्रौद्योगिकी विश्वविद्यालय, अलीबाबा समूह के DAMO अकादमी, और जेजियांग विश्वविद्यालय के बीच एक सहयोग है।

MVCGAN рджреНрд╡рд╛рд░рд╛ рд╕реАрдИрдПрд▓рдИрдмреАрдП-рдПрдЪрдХреНрдпреВ рдбреЗрдЯрд╛рд╕реЗрдЯ рд╕реЗ рд╡реНрдпреБрддреНрдкрдиреНрди рдЫрд╡рд┐рдпреЛрдВ рдкрд░ рдЙрддреНрдкрдиреНрди рд╕рдВрднрд╛рд╡рд┐рдд рдФрд░ рдордЬрдмреВрдд рдирдП рдЪреЗрд╣рд░реЗ рдХреА рдореБрджреНрд░рд╛рдПрдВред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2204.06307.pdf

MVCGAN द्वारा सीईएलईबीए-एचक्यू डेटासेट से व्युत्पन्न छवियों पर उत्पन्न संभावित और मजबूत नए चेहरे की मुद्राएं। स्रोत: https://arxiv.org/pdf/2204.06307.pdf

MVCGAN में एक जेनरेटिव रेडिएंस फील्ड नेटवर्क (GRAF) शामिल है जो एक जेनरेटिव एडवर्सेरियल नेटवर्क में ज्यामितीय प्रतिबंध प्रदान करने में सक्षम है, संभावित रूप से इसी तरह के जीएएन-आधारित दृष्टिकोण की सबसे प्रामाणिक मुद्रा क्षमता प्राप्त करता है।

MVCGAN рдФрд░ рдкреВрд░реНрд╡рд╡рд░реНрддреА рд╡рд┐рдзрд┐рдпреЛрдВ GRAF, GIRAFFE, рдФрд░ pi-GAN рдХреЗ рдмреАрдЪ рддреБрд▓рдирд╛ред

MVCGAN और पूर्ववर्ती विधियों GRAF, GIRAFFE, और pi-GAN के बीच तुलना।

हालांकि, MVCGAN के पूरक सामग्री से पता चलता है कि बाल आयतन, विस्थापन, स्थिति और व्यवहार स्थिरता प्राप्त करना एक समस्या है जो बाहरी रूप से लगाए गए 3डी ज्यामिति पर आधारित प्रतिबंधों के माध्यम से आसानी से संबोधित नहीं की जा सकती है।

लेखन के समय जारी नहीं की गई पूरक सामग्री से, हम देखते हैं कि जबकि MVCGAN से चेहरे की मुद्रा सिंथेसिस वर्तमान राज्य के कला पर एक उल्लेखनीय प्रगति का प्रतिनिधित्व करती है, समयिक बाल स्थिरता अभी भी एक समस्या है।

लेखन के समय जारी नहीं की गई पूरक सामग्री से, हम देखते हैं कि जबकि MVCGAN से चेहरे की मुद्रा सिंथेसिस वर्तमान राज्य के कला पर एक उल्लेखनीय प्रगति का प्रतिनिधित्व करती है, समयिक बाल स्थिरता अभी भी एक समस्या है।

चूंकि ‘सीधे’ सीजीआई वर्कफ्लो अभी भी समयिक बाल पुनर्निर्माण को एक चुनौती पाते हैं, इसलिए कोई कारण नहीं है कि परंपरागत ज्यामिति-आधारित दृष्टिकोण इस प्रकार के समयिक बाल सिंथेसिस को लेटेंट स्पेस में लाने जा रहे हैं।

कन्वोल्यूशनल न्यूरल नेटवर्क के साथ बाल को स्थिर करना

हालांकि, स्वीडन में चाल्मर्स इंस्टीट्यूट ऑफ टेक्नोलॉजी के तीन शोधकर्ताओं द्वारा एक आगामी पत्र न्यूरल बाल सिमुलेशन में एक अतिरिक्त प्रगति प्रदान कर सकता है।

बाएं, सीएनएन-स्थिरित बाल प्रतिनिधित्व, दाएं, मूल सत्य। लेख के अंत में एम्बेडेड वीडियो के लिए बेहतर रिज़ॉल्यूशन और अतिरिक्त उदाहरण देखें। स्रोत: https://www.youtube.com/watch?v=AvnJkwCmsT4

बाएं, सीएनएन-स्थिरित बाल प्रतिनिधित्व, दाएं, मूल सत्य। लेख के अंत में एम्बेडेड वीडियो के लिए बेहतर रिज़ॉल्यूशन और अतिरिक्त उदाहरण देखें। स्रोत: https://www.youtube.com/watch?v=AvnJkwCmsT4

शीर्षक रियल-टाइम हेयर फिल्टरिंग विद कन्वोल्यूशनल न्यूरल नेटवर्क वाला यह पत्र मई के शुरू में i3D सिम्पोजियम के लिए प्रकाशित किया जाएगा।

प्रणाली में एक ऑटोएनकोडर-आधारित नेटवर्क शामिल है जो वास्तविक समय में बाल संकल्प का मूल्यांकन करने में सक्षम है, जिसमें स्व-छाया और बाल मोटाई को ध्यान में रखते हुए, ओपनजीएल ज्यामिति द्वारा बीजित एक सीमित संख्या में स्टोकास्टिक नमूनों के आधार पर।

दृष्टिकोण एक सीमित संख्या में नमूनों को स्टोकास्टिक पारदर्शिता के साथ रेंडर करता है और फिर मूल छवि को पुनर्निर्माण करने के लिए एक U-नेट को प्रशिक्षित करता है।

MVCGAN рдХреЗ рддрд╣рдд, рдПрдХ рд╕реАрдПрдирдПрди рд╕реНрдЯреЛрдХрд╛рд╕реНрдЯрд┐рдХ рд░реВрдк рд╕реЗ рдирдореВрдирд╛рдХреГрдд рд░рдВрдЧ рдХрд╛рд░рдХреЛрдВ, рд╣рд╛рдЗрд▓рд╛рдЗрдЯреНрд╕, рдЯреИрдВрдЬреЗрдВрдЯреНрд╕, рдЧрд╣рд░рд╛рдИ рдФрд░ рдЕрд▓реНрдлрд╛ рдХреЛ рдлрд┐рд▓реНрдЯрд░ рдХрд░рддрд╛ рд╣реИ, рд╕рдВрд╢реНрд▓реЗрд╖рд┐рдд рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреЛ рдПрдХ рд╕рдВрдпреБрдХреНрдд рдЫрд╡рд┐ рдореЗрдВ рдЗрдХрдЯреНрдард╛ рдХрд░рддрд╛ рд╣реИред

MVCGAN के तहत, एक सीएनएन स्टोकास्टिक रूप से नमूनाकृत रंग कारकों, हाइलाइट्स, टैंजेंट्स, गहराई और अल्फा को फिल्टर करता है, संश्लेषित परिणामों को एक संयुक्त छवि में इकट्ठा करता है।

नेटवर्क पाइटोर्च पर प्रशिक्षित है, जो छह से बारह घंटे की अवधि में समाप्त होता है, जो नेटवर्क की मात्रा और इनपुट विशेषताओं की संख्या पर निर्भर करता है। प्रशिक्षित पैरामीटर (वज़न) तब वास्तविक समय कार्यान्वयन में उपयोग किए जाते हैं।

प्रशिक्षण डेटा को सीधे और तरंगदार बाल शैलियों के लिए कई सौ छवियों को रेंडर करके उत्पन्न किया जाता है, जिसमें यादृच्छिक दूरी और मुद्राएं होती हैं, साथ ही विविध प्रकाश स्थितियां भी होती हैं।

рд╡рд┐рднрд┐рдиреНрди рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдЗрдирдкреБрдЯ рдХреЗ рдЙрджрд╛рд╣рд░рдгред

विभिन्न प्रशिक्षण इनपुट के उदाहरण।

बाल पारदर्शिता को स्टोकास्टिक पारदर्शिता के साथ रेंडर की गई छवियों से औसतन नमूनों से मापा जाता है। मूल उच्च-रिज़ॉल्यूशन डेटा को नेटवर्क और हार्डवेयर सीमाओं को समायोजित करने के लिए डाउनसैंपल किया जाता है, और बाद में एक ऑटोएनकोडर वर्कफ्लो में अपसैंपल किया जाता है।

वास्तविक समय अनुमान अनुप्रयोग (जो प्रशिक्षित मॉडल से व्युत्पन्न अल्गोरिथ्म का लाभ उठाता है) एनवीडिया सीयूडीए के साथ सीयूडीएनएन और ओपनजीएल का मिश्रण का उपयोग करता है। प्रारंभिक इनपुट विशेषताएं ओपनजीएल मल्टीसैंपल्ड रंग बफर में डंप की जाती हैं, और परिणाम सीयूडीएनएन टेंसर में स्थानांतरित किया जाता है trước प्रसंस्करण सीएनएन में। वे टेंसर फिर एक ‘लाइव’ ओपनजीएल टेक्सचर में कॉपी किए जाते हैं जो अंतिम छवि में लगाया जाता है।

वास्तविक समय प्रणाली एक एनवीडिया आरटीएक्स 2080 पर काम करती है, 1024×1024 पिक्सेल का रिज़ॉल्यूशन उत्पन्न करती है।

चूंकि बाल रंग मान अंतिम मानों में पूरी तरह से अलग हो जाते हैं जो नेटवर्क द्वारा प्राप्त किए जाते हैं, बाल रंग बदलना एक सरल कार्य है, हालांकि ग्रेडिएंट और धारियों जैसे प्रभाव अभी भी एक भविष्य की चुनौती हैं।

लेखकों ने पत्र के मूल्यांकन में उपयोग किए गए कोड को गिटलैब पर जारी किया है। नीचे एमवीसीजीएन के लिए पूरक वीडियो देखें।

निष्कर्ष

एक ऑटोएनकोडर या जीएएन के लेटेंट स्पेस को नेविगेट करना अभी भी अधिक नाव चलाने जैसा है niż सटीक ड्राइविंग। केवल इस बहुत ही हाल के अवधि में हम 3डी ज्यामिति जैसे ‘सimpler’ ज्यामिति के चेहरे की मुद्रा पीढ़ी के लिए विश्वसनीय परिणाम देखना शुरू कर रहे हैं, जैसे न्यूरफ, जीएएन, और गैर-डीपफेक (2017) ऑटोएनकोडर फ्रेमवर्क।

मानव बालों की महत्वपूर्ण वास्तुकला, साथ ही साथ भौतिकी मॉडल और अन्य विशेषताओं को शामिल करने की आवश्यकता जो वर्तमान छवि सिंथेसिस दृष्टिकोण के लिए कोई प्रावधान नहीं है, यह दर्शाता है कि बाल सिंथेसिस सामान्य चेहरे सिंथेसिस का एक एकीकृत घटक बने रहने की संभावना नहीं है, लेकिन यह एक समर्पित और अलग नेटवर्क की आवश्यकता होगी – भले ही ऐसे नेटवर्क अंततः व्यापक और अधिक जटिल चेहरे सिंथेसिस फ्रेमवर्क में शामिल हो जाएं।

 

15 अप्रैल 2022 को पहली बार प्रकाशित।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai

рд╡рд┐рдЬреНрдЮрд╛рдкрди рдкреНрд░рдХрдЯреАрдХрд░рдг: Unite.AI рд╕рдЯреАрдХ рдЬрд╛рдирдХрд╛рд░реА рдФрд░ рд╕рдорд╛рдЪрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрдареЛрд░ рд╕рдВрдкрд╛рджрдХреАрдп рдорд╛рдирдХреЛрдВ рдХреЗ рдкреНрд░рддрд┐ рдкреНрд░рддрд┐рдмрджреНрдз рд╣реИред рдЬрдм рдЖрдк рдЙрди рдЙрддреНрдкрд╛рджреЛрдВ рдХреЗ рд▓рд┐рдВрдХ рдкрд░ рдХреНрд▓рд┐рдХ рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдирдХреА рд╣рдордиреЗ рд╕рдореАрдХреНрд╖рд╛ рдХреА рд╣реИ, рддреЛ рд╣рдореЗрдВ рдореБрдЖрд╡рдЬрд╛ рдорд┐рд▓ рд╕рдХрддрд╛ рд╣реИред