कृत्रिम बुद्धिमत्ता

मानव इमेज सिंथेसिस में ‘बैड हेयर डेज’ को संभालना

Published April 15, 2022

Updated April 28, 2026

Martin Anderson

रोमन मूर्तियों के स्वर्ण युग से लेकर, मानव बालों को चित्रित करना एक कांटेदार चुनौती रही है। औसत मानव सिर में 100,000 तंतु होते हैं, जिनके रंग के अनुसार परिवर्तनशील अपवर्तन सूचकांक होते हैं, और एक निश्चित लंबाई से परे, यह तरीकों से हिलेगा और पुनः बनेगा जो केवल जटिल भौतिकी मॉडल द्वारा अनुकरण किया जा सकता है – अब तक, केवल ‘पारंपरिक’ सीजीआई पद्धतियों के माध्यम से लागू किया जा सकता है।

2017 में डिज़नी द्वारा किए गए शोध से, एक भौतिकी आधारित मॉडल एक सीजीआई वर्कफ्लो में एक तरल बाल शैली में वास्तविक गति लागू करने का प्रयास करता है। स्रोत: https://www.youtube.com/watch?v=-6iF3mufDW0

समस्या को आधुनिक लोकप्रिय डीपफेक्स तरीकों द्वारा खराब तरीके से संबोधित किया जाता है। कुछ वर्षों से, अग्रणी पैकेज DeepFaceLab में एक ‘पूरा सिर’ मॉडल है जो केवल कठोर प्रतिनिधित्व को पकड़ सकता है लघु (आम तौर पर पुरुष) बाल, और हाल ही में डीएफएल स्थिर साथी FaceSwap (दोनों पैकेज 2017 डीपफेक्स स्रोत कोड से व्युत्पन्न हैं) ने BiseNet सेमांटिक सेगमेंटेशन मॉडल का एक कार्यान्वयन प्रदान किया है, जिससे उपयोगकर्ता को डीपफेक आउटपुट में कान और बाल शामिल करने की अनुमति मिलती है।

यहां तक कि बहुत छोटे बालों वाले बालों को चित्रित करते समय, परिणाम आमतौर पर गुणवत्ता में बहुत सीमित होते हैं, जिसमें पूरे सिर फुटेज पर ओवरले दिखाई देते हैं, न कि इसे एकीकृत करते हैं।

GAN बाल

मानव सिमुलेशन के दो प्रमुख प्रतिस्पर्धी दृष्टिकोण न्यूरल रेडिएंस फील्ड्स (NeRF) हैं, जो एक दृश्य को कई दृष्टिकोण से पकड़ सकते हैं और इन दृष्टिकोणों का एक 3डी प्रतिनिधित्व एक अन्वेषणीय न्यूरल नेटवर्क में समाहित कर सकते हैं; और जेनरेटिव एडवर्सेरियल नेटवर्क (GANs), जो मानव इमेज सिंथेसिस के संदर्भ में अधिक उन्नत हैं (न्यूरफ के 2020 में उभरने के कारण नहीं)।

न्यूरफ की अनुमानित 3डी ज्यामिति समझ इसे एक दृश्य को बहुत विश्वास और निरंतरता के साथ पुनः बनाने में सक्षम बनाती है, भले ही यह वर्तमान में भौतिकी मॉडल को लागू करने के लिए बहुत कम या कोई संभावना नहीं है – और वास्तव में, किसी भी प्रकार के परिवर्तन के लिए बहुत सीमित संभावना है जो कैमरा दृष्टिकोण को बदलने से संबंधित नहीं है। वर्तमान में, न्यूरफ में मानव बालों की गति को पुनः बनाने में बहुत सीमित क्षमता है।

न्यूरफ के समकक्ष जीएएन-आधारित दृष्टिकोण एक लगभग घातक नुकसान से शुरू होता है, क्योंकि न्यूरफ के विपरीत, एक जीएएन का लेटेंट स्पेस में 3डी जानकारी की समझ नहीं है। इसलिए 3डी जागरूक जीएएन चेहरे की छवि सिंथेसिस हाल के वर्षों में छवि पीढ़ी अनुसंधान में एक गर्म पीछा बन गई है, जिसमें 2019 का InterFaceGAN एक प्रमुख सफलता है।

हालांकि, यहां तक कि InterFaceGAN के प्रदर्शित और चेरी-पिक्ड परिणाम भी दिखाते हैं कि न्यूरल बाल स्थिरता अभी भी एक कठिन चुनौती है संभावित वीएफएक्स वर्कफ्लो के लिए:

InterFaceGAN से ‘सिज़लिंग’ बाल एक मुद्रा परिवर्तन में। स्रोत: https://www.youtube.com/watch?v=uoftpl3Bj6w

जैसा कि यह अधिक स्पष्ट होता जा रहा है कि लेटेंट स्पेस के माध्यम से हेरफेर के माध्यम से सुसंगत दृश्य पीढ़ी अल्केमी-जैसी पीछा हो सकती है, बढ़ती संख्या में पत्र सामने आ रहे हैं जो सीजीआई-आधारित 3डी जानकारी को एक जीएएन वर्कफ्लो में एक स्थिरकारी और सामान्यीकरण प्रतिबंध के रूप में शामिल करते हैं।

सीजीआई तत्व मध्यवर्ती 3डी प्रिमिटिव्स द्वारा प्रतिनिधित्व किया जा सकता है जैसे कि स्किन्ड मल्टी-पर्सन लीनियर मॉडल (SMPL), या न्यूरफ के समान 3डी अनुमान तकनीकों को अपनाकर, जहां ज्यामिति स्रोत छवियों या वीडियो से मूल्यांकन की जाती है।

इस प्रकार के एक नए कार्य, इस सप्ताह जारी, मल्टी-व्यू कंसिस्टेंट जेनरेटिव एडवर्सेरियल नेटवर्क फॉर 3डी-अवेयर इमेज सिंथेसिस (MVCGAN) है, जो ReLER, AAII, सिडनी प्रौद्योगिकी विश्वविद्यालय, अलीबाबा समूह के DAMO अकादमी, और जेजियांग विश्वविद्यालय के बीच एक सहयोग है।

MVCGAN द्वारा सीईएलईबीए-एचक्यू डेटासेट से व्युत्पन्न छवियों पर उत्पन्न संभावित और मजबूत नए चेहरे की मुद्राएं। स्रोत: https://arxiv.org/pdf/2204.06307.pdf

MVCGAN में एक जेनरेटिव रेडिएंस फील्ड नेटवर्क (GRAF) शामिल है जो एक जेनरेटिव एडवर्सेरियल नेटवर्क में ज्यामितीय प्रतिबंध प्रदान करने में सक्षम है, संभावित रूप से इसी तरह के जीएएन-आधारित दृष्टिकोण की सबसे प्रामाणिक मुद्रा क्षमता प्राप्त करता है।

MVCGAN और पूर्ववर्ती विधियों GRAF, GIRAFFE, और pi-GAN के बीच तुलना।

हालांकि, MVCGAN के पूरक सामग्री से पता चलता है कि बाल आयतन, विस्थापन, स्थिति और व्यवहार स्थिरता प्राप्त करना एक समस्या है जो बाहरी रूप से लगाए गए 3डी ज्यामिति पर आधारित प्रतिबंधों के माध्यम से आसानी से संबोधित नहीं की जा सकती है।

लेखन के समय जारी नहीं की गई पूरक सामग्री से, हम देखते हैं कि जबकि MVCGAN से चेहरे की मुद्रा सिंथेसिस वर्तमान राज्य के कला पर एक उल्लेखनीय प्रगति का प्रतिनिधित्व करती है, समयिक बाल स्थिरता अभी भी एक समस्या है।

चूंकि ‘सीधे’ सीजीआई वर्कफ्लो अभी भी समयिक बाल पुनर्निर्माण को एक चुनौती पाते हैं, इसलिए कोई कारण नहीं है कि परंपरागत ज्यामिति-आधारित दृष्टिकोण इस प्रकार के समयिक बाल सिंथेसिस को लेटेंट स्पेस में लाने जा रहे हैं।

कन्वोल्यूशनल न्यूरल नेटवर्क के साथ बाल को स्थिर करना

हालांकि, स्वीडन में चाल्मर्स इंस्टीट्यूट ऑफ टेक्नोलॉजी के तीन शोधकर्ताओं द्वारा एक आगामी पत्र न्यूरल बाल सिमुलेशन में एक अतिरिक्त प्रगति प्रदान कर सकता है।

बाएं, सीएनएन-स्थिरित बाल प्रतिनिधित्व, दाएं, मूल सत्य। लेख के अंत में एम्बेडेड वीडियो के लिए बेहतर रिज़ॉल्यूशन और अतिरिक्त उदाहरण देखें। स्रोत: https://www.youtube.com/watch?v=AvnJkwCmsT4

शीर्षक रियल-टाइम हेयर फिल्टरिंग विद कन्वोल्यूशनल न्यूरल नेटवर्क वाला यह पत्र मई के शुरू में i3D सिम्पोजियम के लिए प्रकाशित किया जाएगा।

प्रणाली में एक ऑटोएनकोडर-आधारित नेटवर्क शामिल है जो वास्तविक समय में बाल संकल्प का मूल्यांकन करने में सक्षम है, जिसमें स्व-छाया और बाल मोटाई को ध्यान में रखते हुए, ओपनजीएल ज्यामिति द्वारा बीजित एक सीमित संख्या में स्टोकास्टिक नमूनों के आधार पर।

दृष्टिकोण एक सीमित संख्या में नमूनों को स्टोकास्टिक पारदर्शिता के साथ रेंडर करता है और फिर मूल छवि को पुनर्निर्माण करने के लिए एक U-नेट को प्रशिक्षित करता है।

MVCGAN के तहत, एक सीएनएन स्टोकास्टिक रूप से नमूनाकृत रंग कारकों, हाइलाइट्स, टैंजेंट्स, गहराई और अल्फा को फिल्टर करता है, संश्लेषित परिणामों को एक संयुक्त छवि में इकट्ठा करता है।

नेटवर्क पाइटोर्च पर प्रशिक्षित है, जो छह से बारह घंटे की अवधि में समाप्त होता है, जो नेटवर्क की मात्रा और इनपुट विशेषताओं की संख्या पर निर्भर करता है। प्रशिक्षित पैरामीटर (वज़न) तब वास्तविक समय कार्यान्वयन में उपयोग किए जाते हैं।

प्रशिक्षण डेटा को सीधे और तरंगदार बाल शैलियों के लिए कई सौ छवियों को रेंडर करके उत्पन्न किया जाता है, जिसमें यादृच्छिक दूरी और मुद्राएं होती हैं, साथ ही विविध प्रकाश स्थितियां भी होती हैं।

विभिन्न प्रशिक्षण इनपुट के उदाहरण।

बाल पारदर्शिता को स्टोकास्टिक पारदर्शिता के साथ रेंडर की गई छवियों से औसतन नमूनों से मापा जाता है। मूल उच्च-रिज़ॉल्यूशन डेटा को नेटवर्क और हार्डवेयर सीमाओं को समायोजित करने के लिए डाउनसैंपल किया जाता है, और बाद में एक ऑटोएनकोडर वर्कफ्लो में अपसैंपल किया जाता है।

वास्तविक समय अनुमान अनुप्रयोग (जो प्रशिक्षित मॉडल से व्युत्पन्न अल्गोरिथ्म का लाभ उठाता है) एनवीडिया सीयूडीए के साथ सीयूडीएनएन और ओपनजीएल का मिश्रण का उपयोग करता है। प्रारंभिक इनपुट विशेषताएं ओपनजीएल मल्टीसैंपल्ड रंग बफर में डंप की जाती हैं, और परिणाम सीयूडीएनएन टेंसर में स्थानांतरित किया जाता है trước प्रसंस्करण सीएनएन में। वे टेंसर फिर एक ‘लाइव’ ओपनजीएल टेक्सचर में कॉपी किए जाते हैं जो अंतिम छवि में लगाया जाता है।

वास्तविक समय प्रणाली एक एनवीडिया आरटीएक्स 2080 पर काम करती है, 1024×1024 पिक्सेल का रिज़ॉल्यूशन उत्पन्न करती है।

चूंकि बाल रंग मान अंतिम मानों में पूरी तरह से अलग हो जाते हैं जो नेटवर्क द्वारा प्राप्त किए जाते हैं, बाल रंग बदलना एक सरल कार्य है, हालांकि ग्रेडिएंट और धारियों जैसे प्रभाव अभी भी एक भविष्य की चुनौती हैं।

लेखकों ने पत्र के मूल्यांकन में उपयोग किए गए कोड को गिटलैब पर जारी किया है। नीचे एमवीसीजीएन के लिए पूरक वीडियो देखें।

निष्कर्ष

एक ऑटोएनकोडर या जीएएन के लेटेंट स्पेस को नेविगेट करना अभी भी अधिक नाव चलाने जैसा है niż सटीक ड्राइविंग। केवल इस बहुत ही हाल के अवधि में हम 3डी ज्यामिति जैसे ‘सimpler’ ज्यामिति के चेहरे की मुद्रा पीढ़ी के लिए विश्वसनीय परिणाम देखना शुरू कर रहे हैं, जैसे न्यूरफ, जीएएन, और गैर-डीपफेक (2017) ऑटोएनकोडर फ्रेमवर्क।

मानव बालों की महत्वपूर्ण वास्तुकला, साथ ही साथ भौतिकी मॉडल और अन्य विशेषताओं को शामिल करने की आवश्यकता जो वर्तमान छवि सिंथेसिस दृष्टिकोण के लिए कोई प्रावधान नहीं है, यह दर्शाता है कि बाल सिंथेसिस सामान्य चेहरे सिंथेसिस का एक एकीकृत घटक बने रहने की संभावना नहीं है, लेकिन यह एक समर्पित और अलग नेटवर्क की आवश्यकता होगी – भले ही ऐसे नेटवर्क अंततः व्यापक और अधिक जटिल चेहरे सिंथेसिस फ्रेमवर्क में शामिल हो जाएं।

15 अप्रैल 2022 को पहली बार प्रकाशित।

Related Topics:deepfake DeepFakes feature GAN GANs image synthesis research

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

मानव इमेज सिंथेसिस में ‘बैड हेयर डेज’ को संभालना

GAN बाल

कन्वोल्यूशनल न्यूरल नेटवर्क के साथ बाल को स्थिर करना

निष्कर्ष

You may like