Artificial Intelligence

डीपफेक वर्तमान में भावनाओं की सूक्ष्मता क्यों व्यक्त नहीं कर सकता?

Updated on दिसम्बर 9/2022

बोबा फेट की पुस्तक - डिज़्नी

कल के एपिसोड 6 की शुरुआत स्टार वार्स स्पिन बोबा फेट की पुस्तक ऐसा लगता है कि प्रशंसकों की राय बंटी हुई है। सामान्य स्वीकृति प्राप्त होने के कारण, सामाजिक नेटवर्क पर एक व्यापक धारणा है कि उम्रदराज़ मार्क हैमिल का बेहतर मनोरंजन (चरित्र की तुलना में) पूर्व उपस्थिति के सीज़न 2 के फिनाले में मंडलोरियन 2020 में) इंडस्ट्रियल लाइट एंड मैजिक द्वारा शौकिया डीपफेक प्रैक्टिशनर शामूक को काम पर रखने का सीधा परिणाम है (जो ने अपने काम में मौलिक सुधार किया था ओपन सोर्स सॉफ़्टवेयर के साथ); और यह कि चरित्र का प्रतिपादन डीपफेक तकनीक का एक संयोजन होना चाहिए, जो शायद सीजीआई से व्यवस्थित हो।

फिलहाल इसकी सीमित पुष्टि है, हालांकि आईएलएम अनुबंधित एनडीए के अस्तित्व में आने के बाद से शमूक ने दुनिया को बहुत कम बताया है। बहरहाल, यह कार्य 2020 सीजीआई पर एक असाधारण सुधार है; अभिलेखीय कार्यों से प्राप्त डीपफेक मॉडल से जुड़ी कुछ 'चमक' प्रदर्शित करता है; और सामान्य तौर पर डीपफेक के लिए सर्वोत्तम वर्तमान दृश्य मानक के अनुरूप है।

प्रशंसकों की राय का दूसरा पहलू यह है कि 'यंग ल्यूक' के नए प्रयास में एक है खामियों का अलग सेट पिछले वाले की तुलना में. शायद सबसे अधिक स्पष्ट रूप से, नए स्काईवॉकर मनोरंजन की विशेषता वाले बहुत लंबे अनुक्रमों में अभिव्यक्ति और सूक्ष्म, उपयुक्त भावनाओं की कमी सीजीआई की तुलना में डीपफेक की अधिक विशिष्ट है; द वर्ज के पास है वर्णित la बोबा फीट के संदर्भ में अनुकरण 'मार्क हैमिल के 1983 के जमे हुए चेहरे का अलौकिक, खाली दृश्य'.

नए आईएलएम मनोरंजन के पीछे की प्रौद्योगिकियों के बावजूद, डीपफेक परिवर्तनों में भावनाओं की सूक्ष्मता के साथ एक बुनियादी समस्या है जिसे वास्तुकला में बदलाव या स्रोत प्रशिक्षण सामग्री में सुधार करके संबोधित करना मुश्किल है, और जो आम तौर पर वायरल होने वाले सावधान विकल्पों से बचा जाता है। लक्ष्य वीडियो का चयन करते समय डीपफेकर्स ऐसा करते हैं।

चेहरे के संरेखण की सीमाएँ

सबसे अधिक उपयोग की जाने वाली दो डीपफेक FOSS रिपॉजिटरी हैं डीपफेसलैब (डीएफएल) और चेहरा बदलना, दोनों अनाम और से व्युत्पन्न हैं विवादास्पद 2017 स्रोत कोड, डीएफएल के साथ प्रचंड नेतृत्व वीएफएक्स उद्योग में, इसके सीमित साधन के बावजूद।

इनमें से प्रत्येक पैकेज को, प्रारंभ में, उन चेहरों से चेहरे के लैंडमार्क निकालने का काम सौंपा गया है जिन्हें वह स्रोत सामग्री (यानी वीडियो और/या स्थिर छवियों के फ्रेम) से पहचानने में सक्षम है।

एड्रियन बुलैट का फेशियल एलाइनमेंट नेटवर्क (FAN) आधिकारिक रिपॉजिटरी से क्रियान्वित है। स्रोत: https://github.com/1adrianb/face-ignment

आधिकारिक रिपॉजिटरी से फेशियल एलाइनमेंट नेटवर्क (FAN) सक्रिय है। स्रोत: https://github.com/1adrianb/face-ignment

डीएफएल और फेसस्वैप दोनों इसका उपयोग करते हैं चेहरे का संरेखण नेटवर्क (फैन) पुस्तकालय। FAN निकाले गए चेहरों के लिए 2D और 3D (ऊपर छवि देखें) लैंडमार्क बना सकता है। 3डी स्थलचिह्न चरम प्रोफ़ाइल और अपेक्षाकृत तीव्र कोणों तक, चेहरे के कथित अभिविन्यास का व्यापक हिसाब ले सकते हैं।

हालाँकि, यह स्पष्ट है कि ये पिक्सेल के प्रबंधन और मूल्यांकन के लिए बहुत ही प्रारंभिक दिशानिर्देश हैं:

फेसस्वैप फोरम से, चेहरे की रेखाओं के लिए उपलब्ध स्थलों का एक मोटा संकेतक। स्रोत: https://forum.faceswap.dev/viewtopic.php?f=25&t=27

चेहरे की सबसे बुनियादी रेखाओं की अनुमति है: आंखें चौड़ी और बंद हो सकती हैं, जैसे कि जबड़ा, जबकि मुंह की बुनियादी संरचना (जैसे मुस्कुराना, चिल्लाना, आदि) का पता लगाया और अनुकूलित किया जा सकता है। कैमरे की नजर से चेहरा लगभग 200 डिग्री तक किसी भी दिशा में घूम सकता है।

इसके अलावा, ये उन तरीकों के लिए काफी कच्चे बाड़ हैं जो पिक्सेल इन सीमाओं के भीतर व्यवहार करेंगे, और पूरी डीपफेक प्रक्रिया में एकमात्र वास्तविक गणितीय और सटीक चेहरे के दिशानिर्देशों का प्रतिनिधित्व करते हैं। प्रशिक्षण प्रक्रिया स्वयं इन सीमाओं के भीतर या निकट पिक्सेल के निपटान के तरीके की तुलना करती है।

डीपफेसलैब में प्रशिक्षण। स्रोत: https://medium.com/geekculture/realistic-डीपफेक-विथ-डीपफेसलैब-530e90bd29f2

डीपफेसलैब में प्रशिक्षण। स्रोत: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

चूंकि चेहरे के उप-भागों (गालों की उभार और समतलता, उम्र बढ़ने के विवरण, डिम्पल इत्यादि) की टोपोलॉजी के लिए कोई प्रावधान नहीं है, इसलिए यह संभव भी नहीं है करने का प्रयास किसी स्रोत के बीच ऐसी 'सूक्ष्म' उप-विशेषताओं का मिलान करना ('वह चेहरा जिस पर आप लिखना चाहते हैं') और एक लक्ष्य ('वह चेहरा जिसमें आप चिपकाना चाहते हैं') पहचान।

सीमित डेटा के साथ काम चलाना

डीपफेक के प्रशिक्षण के प्रयोजनों के लिए दो पहचानों के बीच मिलान किया गया डेटा प्राप्त करना है आसान नहीं है. जितना अधिक असामान्य कोण आपको मिलान करने की आवश्यकता है, उतना अधिक आपको इस बात पर समझौता करना पड़ सकता है कि क्या पहचान ए और बी के बीच वह (दुर्लभ) कोण वास्तव में मेल खाता है या नहीं वही अभिव्यक्ति.

बंद करें, लेकिन बिल्कुल मेल नहीं खाता।

उपरोक्त उदाहरण में, दोनों पहचान स्वभाव में काफी समान हैं, लेकिन यह इतना करीब है कि यह डेटासेट एक सटीक मिलान प्राप्त कर सकता है।

स्पष्ट अंतर बने हुए हैं: कोण और लेंस बिल्कुल मेल नहीं खाते हैं, और न ही प्रकाश व्यवस्था; विषय बी के विपरीत, विषय ए की आंखें पूरी तरह से बंद नहीं हैं; विषय ए में छवि गुणवत्ता और संपीड़न बदतर है; और किसी तरह विषय बी ज्यादा लगता है खुश विषय ए से

लेकिन, आप जानते हैं, यह सब कुछ हमारे पास है, इसलिए हमें किसी भी तरह इस पर प्रशिक्षण लेना होगा।

क्योंकि यह A> अयोग्य यह या ओवरफ़िट यह।

अंडरफ़िट: यदि यह मिलान वास्तव में अल्पसंख्यक है (यानी मूल डेटासेट काफी बड़ा है, और अक्सर इन दो तस्वीरों की विशेषताओं को प्रदर्शित नहीं करता है), तो इसे अधिक 'लोकप्रिय' (यानी आसान/) की तुलना में बहुत अधिक प्रशिक्षण समय नहीं मिलेगा तटस्थ) युग्म। नतीजतन, प्रशिक्षित मॉडल से बने डीपफेक में इस कोण/अभिव्यक्ति को अच्छी तरह से प्रस्तुत नहीं किया जाएगा।

ओवरफ़िट: ऐसे दुर्लभ A> के लिए अल्प डेटा-मिलान से हताशा में जोड़ी को कई बार डुप्लिकेट करें डेटासेट में, ताकि इसे अंतिम मॉडल में एक फीचर बनने के लिए बेहतर मौका मिल सके। इससे ओवरफिटिंग को बढ़ावा मिलेगा, जहां मॉडल के साथ बनाए गए डीपफेक वीडियो की संभावना है बेमेल मिलानों को पांडित्यपूर्वक दोहराएँ यह दोनों तस्वीरों के बीच स्पष्ट है, जैसे कि आंखें किस हद तक बंद हैं, यह अलग-अलग है।

नीचे दी गई छवि में, हम देखते हैं कि व्लादिमीर पुतिन को केविन स्पेसी में स्वैप करने के लिए डीपफेसलैब में प्रशिक्षित किया जा रहा है। यहां प्रशिक्षण अपेक्षाकृत उन्नत है 160,000 पुनरावृत्तियों.

स्रोत: https://i.imgur.com/OdXHLhU.jpg

आकस्मिक पर्यवेक्षक यह तर्क दे सकता है कि पुतिन थोड़े अच्छे दिखते हैं, अधिक स्थान देने वाला इन परीक्षण-स्वैप में स्पेसी की तुलना में। आइए देखें कि एक ऑनलाइन भावना पहचान कार्यक्रम भावों में बेमेल का क्या परिणाम देता है:

स्रोत: https://www.noldus.com/facereader/measure-your-emotions

इस विशेष दैवज्ञ के अनुसार, जो डीएफएल और फेसस्वैप की तुलना में कहीं अधिक विस्तृत चेहरे की स्थलाकृति का विश्लेषण करता है, स्पेसी कम है नाराज, घृणा करनेवाला, तथा तिरस्कारपूर्ण इस जोड़ी में परिणामी पुतिन डीपफेक की तुलना में।

असमान अभिव्यक्तियाँ एक उलझे हुए पैकेज के हिस्से के रूप में आती हैं, क्योंकि लोकप्रिय डीपफेक अनुप्रयोगों में कच्चे पिक्सेल>पिक्सेल मैपिंग के अलावा, अभिव्यक्ति या भावनाओं को पंजीकृत करने या मिलान करने की कोई क्षमता नहीं होती है।

हमारे लिए, मतभेद बहुत बड़े हैं। हम सीखते हैं चेहरे के भाव पढ़ें हमारे प्रारंभिक वर्षों से एक बुनियादी जीवित रहने की तकनीक के रूप में, और सामाजिक एकीकरण और प्रगति, संभोग, और चल रहे खतरे के मूल्यांकन ढांचे के उद्देश्यों के लिए वयस्कता में इस कौशल पर भरोसा करना जारी रखा है। चूंकि हम सूक्ष्म-अभिव्यक्तियों के प्रति इतने संवेदनशील हैं, इसलिए डीपफेक प्रौद्योगिकियों को अंततः इसका हिसाब देना होगा।

आराम हराम हैं

हालाँकि डीपफेक क्रांति ने आधुनिक फिल्मों और टीवी में 'क्लासिक' फिल्म सितारों को शामिल करने का वादा किया है, लेकिन एआई समय में पीछे नहीं जा सकता है और अपने क्लासिक कार्यों को अधिक संगत परिभाषा और गुणवत्ता पर शूट नहीं कर सकता है, जो इस उपयोग के मामले में महत्वपूर्ण है।

इस धारणा पर (और हमारे उद्देश्यों के लिए, इससे कोई फर्क नहीं पड़ता कि यह गलत है) कि बोबा फीट हैमिल पुनर्निर्माण काफी हद तक एक प्रशिक्षित डीपफेक मॉडल का काम था, मॉडल के लिए डेटासेट को शो की टाइमलाइन के करीब की अवधि से फुटेज का फायदा उठाने की आवश्यकता होगी (यानी हैमिल के लिए उत्पादन के समय के आसपास लगभग तीस के दशक की शुरुआत में) जेडी की वापसी, 1981 83).

फिल्म थी शॉट ईस्टमैन कलर नेगेटिव 250टी 5293/7293 स्टॉक पर, एक 250एएसए इमल्शन जिसे उस समय मध्यम से महीन दाने वाला माना जाता था, लेकिन 1980 के दशक के अंत तक स्पष्टता, रंग सीमा और निष्ठा में इसे पार कर लिया गया था। यह अपने समय का भंडार है, और इसका संचालनात्मक दायरा भी है जेडी यहां तक कि इसके प्रमुख अभिनेताओं के लिए भी कुछ क्लोज़-अप उपलब्ध कराए गए, जिससे अनाज के मुद्दे और भी गंभीर हो गए, क्योंकि स्रोत चेहरे फ्रेम के केवल एक हिस्से पर कब्जा करते हैं।

रिटर्न ऑफ द जेडी (1983) में हैमिल के दृश्यों की एक श्रृंखला।

हैमिल के दृश्यों की एक श्रृंखला जेडी की वापसी (1983).

इसके अतिरिक्त, हैमिल की विशेषता वाले बहुत सारे वीएफएक्स-युक्त फुटेज को एक ऑप्टिकल प्रिंटर के माध्यम से चलाया गया होगा, जिससे फिल्म का आकार बढ़ जाएगा। हालाँकि, लुकासफिल्म अभिलेखागार तक पहुंच - जिसने संभवतः मुख्य नकारात्मक का अच्छी तरह से ध्यान रखा है और अतिरिक्त अप्रयुक्त कच्चे फुटेज के घंटों की पेशकश कर सकता है - इस मुद्दे को दूर कर सकता है।

कभी-कभी डीपफेक डेटासेट को बढ़ाने और विविधता लाने के लिए किसी अभिनेता के आउटपुट के कई वर्षों को कवर करना संभव होता है। हैमिल के मामले में, डीपफेकर्स उससे परेशान हैं उपस्थिति में परिवर्तन 1977 में एक कार दुर्घटना के बाद, और तथ्य यह है कि उन्होंने लगभग तुरंत ही एक प्रशंसित आवाज अभिनेता के रूप में अपना दूसरा करियर शुरू कर दिया था जेडी, जिससे स्रोत सामग्री अपेक्षाकृत दुर्लभ हो जाती है।

भावनाओं की सीमित सीमा?

यदि आपको दृश्यों को चबाने के लिए अपने डीपफेक अभिनेता की आवश्यकता है, तो आपको स्रोत फुटेज की आवश्यकता होगी जिसमें चेहरे के भावों की असामान्य रूप से विस्तृत श्रृंखला शामिल हो। ऐसा हो सकता है कि उपलब्ध आयु-अनुरूप फ़ुटेज में उनमें से कई अभिव्यक्तियाँ न हों।

उदाहरण के लिए, जब तक कहानी का आर्क चलता है जेडी की वापसी लगभग आते ही, हैमिल के चरित्र ने काफी हद तक अपनी भावनाओं पर काबू पा लिया था, यह विकास मूल फ्रैंचाइज़ी पौराणिक कथाओं का बिल्कुल केंद्र था। इसलिए यदि आप हैमिल डीपफेक मॉडल बनाते हैं जेडी डेटा, आपको फ्रैंचाइज़ में उनकी पिछली प्रविष्टियों की तुलना में भावनाओं की अधिक सीमित सीमा और असामान्य चेहरे की स्थिरता के साथ काम करना होगा, जिसकी मांग हैमिल की भूमिका ने उस समय की थी।

भले ही आप इस बात पर विचार करें कि इसमें कुछ क्षण हैं जेडी की वापसी जहां स्काईवॉकर चरित्र तनाव में है, और अभिव्यक्ति की एक बड़ी श्रृंखला के लिए सामग्री प्रदान कर सकता है, इन दृश्यों में चेहरे की सामग्री फिर भी क्षणभंगुर है और एक्शन दृश्यों की विशिष्ट गति धुंधली और तेज़ संपादन के अधीन है; इसलिए डेटा काफी असंतुलित है।

सामान्यीकरण: भावनाओं का विलय

अगर बोबा फीट स्काईवॉकर मनोरंजन वास्तव में एक डीपफेक है, कुछ तिमाहियों से इसके खिलाफ अभिव्यंजक रेंज की कमी पूरी तरह से सीमित स्रोत सामग्री के कारण नहीं होगी। डीपफेक की एनकोडर-डिकोडर प्रशिक्षण प्रक्रिया की तलाश है सामान्यीकृत मॉडल जो हजारों छवियों से केंद्रीय विशेषताओं को सफलतापूर्वक वितरित करता है, और कम से कम कर सकता है करने का प्रयास किसी ऐसे कोण को डीपफेक करने के लिए जो डेटासेट में गायब या दुर्लभ था।

यदि इस लचीलेपन के लिए नहीं, तो एक डीपफेक आर्किटेक्चर केवल अस्थायी अनुकूलन या संदर्भ पर विचार किए बिना, प्रति-फ्रेम के आधार पर बेस मॉर्फ को कॉपी और पेस्ट कर रहा होगा।

हालाँकि, इस बहुमुखी प्रतिभा के लिए दर्दनाक समझौता यह है कि अभिव्यक्ति की निष्ठा इस प्रक्रिया में हताहत होने की संभावना है, और कोई भी अभिव्यक्ति जो रहे 'सूक्ष्म' सही नहीं हो सकता. हम सभी अपने चेहरों को 100-पीस ऑर्केस्ट्रा की तरह बजाते हैं, और ऐसा करने के लिए अच्छी तरह से सुसज्जित हैं, जबकि डीपफेक सॉफ़्टवेयर में यकीनन कम से कम स्ट्रिंग अनुभाग गायब है।

भावों में प्रभाव की असमानता

चेहरे की हरकतें और हम पर उनका प्रभाव सभी चेहरों पर एक समान भाषा नहीं है; रोजर मूर की उभरी हुई भौहें सेठ रोगन पर कम परिष्कृत लग सकती हैं, जबकि मर्लिन मुनरो का मोहक आकर्षण अधिक नकारात्मक भावना में तब्दील हो सकता है यदि यह उस व्यक्ति पर गहरा प्रभाव डालता है जिसकी सबसे अधिक डेटा-उपलब्ध भूमिका 'क्रोधित' या 'अप्रभावित' है। (जैसे कि सात सीज़न में ऑब्रे प्लाज़ा का चरित्र पार्क और मनोरंजन).

इसलिए पिक्सेल>

यकीनन जिस चीज़ की आवश्यकता है वह एक डीपफेक फ्रेमवर्क है जो न केवल अभिव्यक्तियों को पहचान सकता है और भावनाओं का अनुमान लगा सकता है, बल्कि उच्च-स्तरीय अवधारणाओं को मूर्त रूप देने की क्षमता रखता है जैसे कि नाराज, मोहक, ऊब, थका हुआ, आदि, और मुंह या पलक के स्वभाव की जांच करने और उसकी नकल करने के बजाय, उन भावनाओं और उनकी संबंधित अभिव्यक्तियों को दो चेहरे-सेट पहचानों में से प्रत्येक में वर्गीकृत करना।

पहली बार 3 फरवरी 2022 को प्रकाशित। अपडेट किया गया 7:47 बजे ईईटी, गलत नाम एट्रिब्यूशन।