рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдЧрд╣рд░реЗ рдирдХрд▓реА рднрд╛рд╡рдирд╛рдУрдВ рдХрд╛ рдЙрджрдп

शोधकर्ताओं ने वीडियो में चेहरों पर मनमाने ढंग से नए भावनाओं को थोपने के लिए एक नई मशीन लर्निंग तकनीक विकसित की है, जो हाल ही में उभरे समाधानों को अपनाती है जो विदेशी भाषा डबिंग के लिए होंठ की गति को मिलाने के लिए मौजूदा प्रौद्योगिकियों का उपयोग करते हैं।
यह शोध नॉर्थईस्टर्न यूनिवर्सिटी एट बोस्टन और एमआईटी के मीडिया लैब के बीच एक समान सहयोग है, और इसका शीर्षक इनवर्टेबल फ्राउन्स: वीडियो-टू-वीडियो फेशियल भावना अनुवाद है। हालांकि शोधकर्ता स्वीकार करते हैं कि परिणामों की प्रारंभिक गुणवत्ता को आगे के शोध के माध्यम से विकसित किया जाना चाहिए, वे दावा करते हैं कि तकनीक, जिसे वेव2लिप-भावना कहा जाता है, पूर्ण-वीडियो अभिव्यक्ति संशोधन को सीधे संबोधित करने के लिए अपनी तरह की पहली है जो तंत्रिका नेटवर्क तकनीकों के माध्यम से है।
बेस कोड को गिटहब पर जारी किया गया है, हालांकि मॉडल चेकपॉइंट बाद में ओपन सोर्स रिपॉजिटरी में जोड़े जाएंगे, लेखकों का वादा है।

बाएं, स्रोत वीडियो का एक ‘दुखी’ फ्रेम। दाएं, एक ‘खुश’ फ्रेम। केंद्र में दो नवजात दृष्टिकोण हैं जो वैकल्पिक भावनाओं को संश्लेषित करने के लिए – शीर्ष पंक्ति: एक पूरी तरह से मास्केड चेहरा जहां अभिव्यक्ति की पूरी सतह को प्रतिस्थापित किया गया है; नीचे की पंक्ति: एक अधिक पारंपरिक वेव2लिप विधि, जो केवल चेहरे के निचले हिस्से को प्रतिस्थापित करती है। स्रोत: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf
एकल वीडियो के रूप में स्रोत डेटा
सिद्धांत रूप में, ऐसे हेरफेर अब पारंपरिक डीपफेक रिपॉजिटरी जैसे डीपफेसलैब या फेसस्वैप के माध्यम से प्राप्त किए जा सकते हैं। हालांकि, मानक कार्यप्रवाह में एक वैकल्पिक पहचान का उपयोग शामिल होगा जो ‘लक्ष्य’ पहचान के लिए, जैसे कि एक अभिनेता जो लक्ष्य की नकल करता है, जिसकी अपनी अभिव्यक्तियां दूसरे व्यक्ति में स्थानांतरित की जाएंगी, साथ ही साथ पूरे प्रदर्शन के साथ। इसके अलावा, डीपफेक वॉयस क्लोनिंग तकनीक आमतौर पर भ्रम को पूरा करने के लिए आवश्यक होगी।
इसके अलावा, वास्तव में लक्ष्य1>लक्ष्य1 की अभिव्यक्ति को एकमात्र स्रोत वीडियो में इन लोकप्रिय फ्रेमवर्क के तहत बदलना चेहरे की संरेखण वेक्टर को बदलने के लिए शामिल होगा जिस तरह से ये संरचनाएं वर्तमान में सुविधा प्रदान नहीं करती हैं।

वेव2लिप-भावना मूल वीडियो ऑडियो संवाद के होंठ सिंक्रोनाइजेशन को बनाए रखते हुए संबंधित अभिव्यक्तियों को बदल देती है।
इसके बजाय, वेव2लिप-भावना प्रभावी रूप से एक वीडियो के एक हिस्से से भावना से संबंधित अभिव्यक्तियों को ‘कॉपी और पेस्ट’ करने का प्रयास करती है और उन्हें अन्य बिंदुओं पर प्रतिस्थापित करती है, जिसमें स्रोत डेटा की एक स्व-लगाई हुई किफायत है जो अंततः वीडियो में अभिव्यक्ति हेरफेर के लिए एक कम-प्रयास विधि प्रदान करने का इरादा रखती है।
ऑफलाइन मॉडल बाद में विकसित किए जा सकते हैं जो वक्ता के वैकल्पिक वीडियो पर प्रशिक्षित हों, जो किसी एक वीडियो में ‘पैलेट’ की आवश्यकता को समाप्त करते हैं जिसके साथ वीडियो को हेरफेर किया जा सकता है।
संभावित उद्देश्य
लेखक भावना संशोधन के लिए कई अनुप्रयोगों का सुझाव देते हैं, जिनमें पीटीएसडी और चेहरे की पक्षाघात से पीड़ित लोगों के लिए प्रभावों के लिए एक लाइव वीडियो फिल्टर शामिल है। पत्र में观察 किया गया है:
‘चेहरे की अभिव्यक्ति को रोकने वाले व्यक्तियों के साथ या बिना अपनी अभिव्यक्तियों को अपने सामाजिक परिस्थितियों के अनुसार बेहतर ढंग से फिट करने के लिए लाभान्वित हो सकते हैं। कोई व्यक्ति अपनी अभिव्यक्तियों को बदलना चाह सकता है जो उन्हें दिखाई दे रही हैं। वीडियो कॉन्फ्रेंस के दौरान वक्ता एक दूसरे पर चिल्ला रहे हो सकते हैं, लेकिन फिर भी अपने आदान-प्रदान की सामग्री को अप्रिय अभिव्यक्तियों के बिना इकट्ठा करना चाहते हैं। या एक फिल्म निर्देशक अभिनेता की अभिव्यक्तियों को बढ़ाना या कम करना चाह सकता है।’
चूंकि चेहरे की अभिव्यक्ति एक मुख्य और मूल संकेतक है, यहां तक कि जहां यह बोले जा रहे शब्दों के खिलाफ घिसने लगता है, अभिव्यक्ति को बदलने की क्षमता भी प्रदान करती है, एक हद तक, संचार को प्राप्त करने की क्षमता प्रदान करती है।
पिछला काम
भावना परिवर्तन में मशीन लर्निंग के हेरफेर में रुचि कम से कम 2012 से है, जब सहयोग ने एक विधि का प्रस्ताव किया था जो एक टेंसर-आधारित 3डी ज्यामिति पुनर्निर्माण दृष्टिकोण का उपयोग करके अभिव्यक्तियों को बदलने के लिए, जो श्रमसाध्य रूप से प्रत्येक फ्रेम पर एक सीजीआई मेश लगाने के लिए था लक्ष्य वीडियो पर परिवर्तन लाने के लिए।

2012 के एडोबी/फेसबुक शोध ने वीडियो फुटेज पर पारंपरिक, सीजीआई-चालित परिवर्तन लागू करके अभिव्यक्तियों को बदल दिया। अभिव्यक्तियां बढ़ाई या दबाई जा सकती थीं। स्रोत: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf
हालांकि परिणाम आशाजनक थे, तकनीक भारी थी और आवश्यक संसाधनों की मात्रा काफी अधिक थी। इस बिंदु पर, सीजीआई सीधे फीचर स्पेस और पिक्सेल हेरफेर के लिए कंप्यूटर विजन-आधारित दृष्टिकोण से बहुत आगे था।
नया पत्र सबसे अधिक एमईएडी से संबंधित है, एक डेटासेट और अभिव्यक्ति-पीढ़ी मॉडल जो 2020 में जारी किया गया था, जो ‘बात करने वाले सिर’ वीडियो उत्पन्न करने में सक्षम था, हालांकि सीधे वास्तविक स्रोत वीडियो को संशोधित करने के माध्यम से प्राप्त की जा सकने वाली जटिलता के स्तर के बिना।

सेंसटाइम रिसर्च, कार्नेगी मेलन और तीन चीनी विश्वविद्यालयों के बीच 2020 के सहयोग के साथ अभिव्यक्ति पीढ़ी। स्रोत: https://wywu.github.io/projects/MEAD/MEAD.html
2018 में एक और पत्र, GANimation: Anatomically-aware Facial Animation from a Single Image नामक एक यूएस/स्पेनिश शैक्षणिक अनुसंधान सहयोग के रूप में उभरा, और स्थिर छवियों में अभिव्यक्तियों को बढ़ाने या बदलने के लिए जनरेटिव एडवर्सेरियल नेटवर्क का उपयोग किया।

स्थिर छवियों में अभिव्यक्तियों को बदलने के लिए जीएनआईमेशन का उपयोग। स्रोत: https://arxiv.org/pdf/1807.09251.pdf
वेव2लिप-भावना
इसके बजाय, नया परियोजना वेव2लिप पर आधारित है, जिसने 2020 में प्रचार प्राप्त किया था जो एक संभावित विधि प्रदान करता है जो मूल वीडियो में दिखाई नहीं देने वाली नई बोली या गीत इनपुट के लिए होंठ की गति को पुन: सिंक्रोनाइज़ करने के लिए।
मूल वेव2लिप आर्किटेक्चर बीबीसी आर्काइव्स के बोले हुए वाक्यों के एक निगम पर प्रशिक्षित किया गया था। अभिव्यक्ति परिवर्तन के कार्य के लिए वेव2लिप को अनुकूलित करने के लिए, शोधकर्ताओं ने उपरोक्त एमईएडी डेटासेट पर आर्किटेक्चर को बारीक-ट्यून किया।
एमईएडी में 40 घंटे का वीडियो है जिसमें 60 अभिनेता एक ही वाक्य को पढ़कर विभिन्न चेहरे की अभिव्यक्तियां करते हैं। अभिनेता 15 अलग-अलग देशों से हैं और परियोजना (और व्युत्पन्न परियोजनाओं) को लागू और सामान्यीकृत अभिव्यक्ति संश्लेषण उत्पन्न करने में मदद करने के लिए अंतर्राष्ट्रीय विशेषताओं की एक श्रृंखला प्रदान करते हैं।
शोध के समय, एमईएडी ने केवल डेटासेट का पहला भाग जारी किया था, जिसमें 47 व्यक्तियों को ‘क्रोध’, ‘अपमान’, ‘भय’, ‘अवमानना’, ‘खुश’, ‘दुखी’ और ‘आश्चर्य’ जैसी अभिव्यक्तियां करते हुए दिखाया गया था। इस प्रारंभिक आउटिंग में, शोधकर्ताओं ने परियोजना के दायरे को ‘खुश’ और ‘दुखी’ जैसी भावनाओं को सुपरिम्पोज़ या बदलने तक सीमित कर दिया, क्योंकि वे सबसे आसानी से पहचाने जाने योग्य हैं।
विधि और परिणाम
मूल वेव2लिप आर्किटेक्चर केवल चेहरे के निचले खंड को प्रतिस्थापित करता है, जबकि वेव2लिप-भावना एक पूर्ण चेहरे की प्रतिस्थापन मास्क और अभिव्यक्ति संश्लेषण के साथ भी प्रयोग करता है। इसलिए, शोधकर्ताओं के लिए निर्मित-इन मूल्यांकन विधियों को संशोधित करना आवश्यक था, क्योंकि वे पूर्ण-चेहरे कॉन्फ़िगरेशन के लिए डिज़ाइन नहीं किए गए थे।
लेखक मूल ऑडियो इनपुट को बनाए रखने और होंठ की गति की निरंतरता को बनाए रखने के द्वारा मूल कोड में सुधार करते हैं।
जनरेटर तत्व में एक पहचान एनकोडर, भाषण एनकोडर और चेहरे डिकोडर शामिल हैं, जो पहले के काम के अनुसार हैं। भाषण तत्व को अतिरिक्त रूप से स्टैक्ड 2डी कनवोल्यूशनल के रूप में संस्कoded किया जाता है जो बाद में अपने संबंधित फ्रेम के साथ जुड़े होते हैं।
जनरेटिव तत्व के अलावा, संशोधित आर्किटेक्चर में तीन मुख्य भेदभावपूर्ण घटक हैं, जो होंठ सिंक्रोनाइजेशन, भावना उद्देश्य तत्व और एक द्वंद्वात्मक रूप से प्रशिक्षित दृश्य गुणवत्ता उद्देश्य की गुणवत्ता को लक्षित करते हैं।
पूर्ण चेहरे के पुनर्निर्माण के लिए, मूल वेव2लिप कार्य में कोई पूर्ववर्ती नहीं था, और इसलिए मॉडल को स्क्रैच से प्रशिक्षित किया गया था। निचले-चेहरे के प्रशिक्षण (आधे मास्क) के लिए, शोधकर्ताओं ने मूल वेव2लिप कोड में शामिल चेकपॉइंट से आगे बढ़े।
स्वचालित मूल्यांकन के अलावा, शोधकर्ताओं ने एक सेमी-ऑटोमेटेड सेवा प्लेटफ़ॉर्म द्वारा आपूर्ति की गई भीड़-सourced राय का उपयोग किया। कार्यकर्ताओं ने आउटपुट को होंठ सिंक्रोनाइजेशन और भावना सुपरिम्पोज़िशन दोनों के संदर्भ में उच्च दर्जा दिया, जबकि छवि गुणवत्ता के लिए केवल ‘मध्यम’ मूल्यांकन की सूचना दी।
लेखक सुझाव देते हैं कि उत्पन्न वीडियो गुणवत्ता में सुधार के अलावा, काम की भविष्य की पुनरावृत्ति एक व्यापक श्रृंखला में भावनाओं को शामिल कर सकती है, और कि काम को भविष्य में लेबल या स्वचालित रूप से अनुमानित स्रोत डेटा और डेटासेट पर भी लागू किया जा सकता है, जो अंततः एक प्रामाणिक प्रणाली की ओर ले जाता है जिसमें भावनाएं मूल स्रोत वीडियो के संबंध में उपयोगकर्ता की मर्जी से या अंततः विपरीत भावनाओं द्वारा प्रतिस्थापित की जा सकती हैं।












