कृत्रिम बुद्धिमत्ता

डिज़नी सीजीआई को न्यूरल रेंडरिंग के साथ मिलाता है ताकि ‘अनकैनी वैली’ को संबोधित किया जा सके

Published November 30, 2021

Updated April 28, 2026

Martin Anderson

डिज़नी के एआई अनुसंधान प्रभाग ने फिल्म-गुणवत्ता वाले चेहरे के अनुकरण के लिए एक हाइब्रिड विधि विकसित की है, जो चेहरे के न्यूरल रेंडरिंग की ताकत को सीजीआई-आधारित दृष्टिकोण की निरंतरता के साथ जोड़ती है।

पENDING पेपर का शीर्षक रेंडरिंग विद स्टाइल: ट्रेडिशनल और न्यूरल अप्रोचेस को हाई क्वालिटी फेस रेंडरिंग के लिए जोड़ना है, और इसे डिज़नी रिसर्च यूट्यूब चैनल (इस लेख के अंत में एम्बेडेड) पर एक नया 10 मिनट का वीडियो में पूर्वावलोकन किया गया है।

मेशेस को न्यूरल फेशियल रेंडर्स के साथ जोड़ा गया। वीडियो में बेहतर विवरण और गुणवत्ता के लिए लेख के अंत में एम्बेडेड वीडियो देखें। स्रोत: https://www.youtube.com/watch?v=k-RKSGbWLng (अब https://www.youtube.com/watch?v=TwpLqTmvqVk से बदल दिया गया है)

जैसा कि वीडियो में उल्लेख किया गया है, चेहरे का न्यूरल रेंडरिंग (包括 डीपफेक्स) आंखों और मुंह के अंदरूनी हिस्सों को सीजीआई की तुलना में अधिक वास्तविक बना सकता है, जबकि सीजीआई-चालित चेहरे के टेक्सचर अधिक निरंतर और सिनेमा-स्तर के वीएफएक्स आउटपुट के लिए उपयुक्त होते हैं।

इसलिए, डिज़नी एनवीडिया के स्टाइलगैन2 न्यूरल जनरेटर को चेहरे की आसपास की विशेषताओं और ‘जीवन-महत्वपूर्ण’ तत्वों जैसे आंखों को संभालने दे रहा है, जबकि सीजीआई फेशियल स्किन और संबंधित तत्वों को आउटपुट में सुपरइम्पोज़ कर रहा है।

वीडियो (लेख के अंत में देखें) से डिज़नी के हाइब्रिड दृष्टिकोण की वास्तुकला अवधारणा, जहां एक पुराने स्कूल के सीजीआई मेश, जैसे कि रोग वन (2016) के लिए ‘युवा’ कैरी फिशर और दिवंगत पीटर कुशिंग को पुनर्निर्माण करने के लिए उपयोग किया जाता है, को न्यूरल-रेंडरेड फेस एनवायरनमेंट में एकीकृत किया जाता है।[/em>

वीडियो में एक सूक्ष्म संदर्भ दिया गया है कि दिवंगत ब्रिटिश स्टार वार्स अभिनेता पीटर कुशिंग के सीजीआई पुनर्निर्माण की अस्वाभाविकता और ‘अनकैनी वैली’ प्रभाव की अक्सर आलोचना की जाती है रोग वन (2016) में, स्वीकार करते हुए:

‘[अब भी] लोगों द्वारा आसानी से कब्जा और रेंडर किए जाने वाले और अंतिम फोटोरियलिस्टिक डिजिटल डबल्स के बीच एक बड़ा अंतर है, जिसमें बाल, आंखें और मुंह के अंदरूनी हिस्से शामिल हैं। इस अंतर को बंद करने के लिए, यह आमतौर पर कुशल कलाकारों से बहुत सारा मैनुअल काम लेता है।’

वास्तव में, यहां तक कि सबसे आधुनिक चेहरे कैप्चर सिस्टम भी आंखों, मुंह के अंदरूनी हिस्सों या बालों को पुनर्निर्माण करने का प्रयास नहीं करते हैं, जो ऐसी तकनीकों में प्रामाणिकता (आंखें) या समय स्थिरता (बाल) के मुद्दों से ग्रस्त हैं।

वीडियो वीएफएक्स कलाकारों को एक典型 आधुनिक चेहरे कैप्चर सत्र के बाद क्या मिलेगा, इसका प्रदर्शन करता है। आंखें, बाल, फेशियल हेयर, और मुंह के अंदरूनी हिस्से सभी को उत्पादन पाइपलाइन में अलग-अलग टीमों द्वारा संभाला जाना होगा, साथ ही टेक्सचरिंग और लाइटिंग।[/em>

इल्युमिनेशन कंट्रोल

हाइब्रिड दृष्टिकोण रिलाइटिंग के साथ भी एक लाभ है – चेहरे के न्यूरल रेंडरिंग के लिए एक उल्लेखनीय चुनौती, क्योंकि सीजीआई स्किन सुपरइम्पोज़िशन को अधिक आसानी से रिलिट किया जा सकता है।

सीजीआई/न्यूरल दृष्टिकोण का एक एनिमेटेड संस्करण।[/em>

अधिक चुनौतीपूर्ण वातावरण में, जैसे कि बाहरी शूट, शोधकर्ताओं ने एक प्रकार के डेमिलिटराइज्ड ज़ोन के आसपास इनपेंटिंग की एक विधि विकसित की है जो व्यक्ति को ‘निर्मित’ किया जा रहा है।

एक ब्लैक मार्जिन का उत्पादन किया जाता है ताकि एक ‘कैनवास’ को बाहरी भागों की पहचान के लिए इनपेंटिंग और सीजीआई स्किन को संयुक्त सीजीआई/न्यूरल आउटपुट में एकीकृत करने के लिए अनुमति दी जा सके।[/em>

वीडियो में उल्लेख किया गया है:

‘[न्यूरल रेंडर] पृष्ठभूमि प्रतिबंध के साथ पूरी तरह से मेल नहीं खाता है। – यह केवल एक गाइड के रूप में है, क्योंकि वास्तविक मानव घटकों जैसे बाल, आंखें और दांत को अनुकूलित करना मुख्य लक्ष्य है। अधिक चुनौतीपूर्ण है कि परिवर्तित परिवेश प्रकाश व्यवस्था के साथ एक सुसंगत पहचान बनाए रखने का प्रयास करें।’

न्यूरल रेंडर्स से सीजीआई मेशेस बनाना

शोध टीम ने एक वेरिएशनल ऑटोएनकोडर भी विकसित किया है जो एक बड़े 3डी फेस इमेज डेटाबेस पर प्रशिक्षित है, और दावा करता है कि यह ग्राउंड ट्रुथ डेटा से ‘रैंडम लेकिन प्लॉजिबल’ 3डी फेस मेशेस उत्पन्न कर सकता है।

इस शोध को पार करने के लिए सीमाएं हैं, जिनमें न्यूरल रेंडरिंग में बाल को समय स्थिर रखने में कठिनाई शामिल है, और वीडियो (नीचे देखें) में एक सीजीआई/न्यूरल चेहरे के चारों ओर एक सुसंगत पैन के साथ तेजी से परिवर्तित होने वाले बालों के कई उदाहरण दिखाता है।

न्यूरल वीडियो रेंडरिंग में समय स्थिरता एक बहुत व्यापक समस्या है जो केवल डिज़नी की नहीं है, और ऐसा लगता है कि इस प्रणाली के बाद के संस्करण हेयर ‘इन पोस्ट’ जोड़ने या हेयर जेनरेशन के लिए अन्य संभावित दृष्टिकोणों का उपयोग करने के लिए हो सकते हैं जो कि एक नोवेल न्यूरल दृष्टिकोण को अंततः हल करने की उम्मीद करते हैं।

डेटासेट जेनरेशन के लिए उपयोग

विधि को सिंथेटिक डेटा को जनरेट करने और फेशियल इमेज सेट लैंडस्केप को समृद्ध करने के संभावित तरीके के रूप में भी प्रस्तावित किया गया है, जो हाल के वर्षों में खतरनाक रूप से एकरूप हो गया है।

डिज़नी नई तकनीक को फेशियल इमेज डेटासेट को आबाद करने की कल्पना करता है।[/em>

‘[प्रत्येक] फोटोरियलिस्टिक परिणाम में एक अंतर्निहित भूगोल और उपस्थिति मैप होता है, जो ज्ञात प्रकाश व्यवस्था के साथ अज्ञात कैमरा दृष्टिकोण से रेंडर किया जाता है। यह ‘ग्राउंड ट्रुथ’ जानकारी डाउनस्ट्रीम अनुप्रयोगों जैसे मोनोक्युलर, 3डी फेस रिकंस्ट्रक्शन, फेशियल रिकग्निशन, या सीन समझ के लिए प्रशिक्षण के लिए महत्वपूर्ण हो सकती है। और इसलिए, प्रत्येक परिणाम रेंडर को एक डेटा नमूने के रूप में माना जा सकता है, और हम विभिन्न व्यक्तियों के कई संस्करण उत्पन्न कर सकते हैं। ‘

‘इसके अलावा, एक ही व्यक्ति को एक ही अभिव्यक्ति में एक ही दृष्टिकोण और प्रकाश व्यवस्था के साथ पुनर्निर्मित करने के लिए, हम अनुकूलन के दौरान रैंडमाइजेशन सीड को बदलकर फोटो-रियल रेंडर के यादृच्छिक संस्करण उत्पन्न कर सकते हैं।’

शोधकर्ता यह नोट करते हैं कि यह कॉन्फ़िगरेबल आउटपुट की विविधता फेशियल रिकग्निशन अनुप्रयोगों को प्रशिक्षित करने में उपयोगी हो सकती है, निष्कर्ष निकालते हुए:

‘[हमारा] तरीका चेहरे की त्वचा कैप्चर, मॉडलिंग और रेंडरिंग के लिए वर्तमान प्रौद्योगिकी का लाभ उठा सकता है, और स्वचालित रूप से पूरी तरह से फोटोरियलिस्टिक चेहरे के रेंडर बना सकता है जो वांछित पहचान, अभिव्यक्ति और दृश्य कॉन्फ़िगरेशन से मेल खाता है। यह दृष्टिकोण फिल्म और मनोरंजन के लिए चेहरे के रेंडरिंग के लिए अनुप्रयोग और मैनुअल कलाकारों को श्रम बचाने के लिए है, साथ ही गहरे शिक्षण के विभिन्न क्षेत्रों में डेटा जेनरेशन के लिए भी है।’

नई दृष्टिकोण के लिए एक गहरा देखो, आज जारी 10 मिनट का वीडियो देखें:

* मूल वीडियो लिंक को 8 घंटे बाद प्रकाशन के बाद एक अन्य समान वीडियो में बदल दिया गया था। मैंने सभी प्रासंगिक लिंक बदल दिए, क्योंकि मूल वीडियो का कोई निशान नहीं है।

8:24 जीएमटी+2 – वीडियो को बदल दिया गया, क्योंकि इसे डिज़नी रिसर्च यूट्यूब चैनल द्वारा कुछ कारणों से बदल दिया गया था।[/em]

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai