Artificial Intelligence

गहरी भावनाओं की सुबह

Updated on दिसम्बर 9/2022

शोधकर्ताओं ने वीडियो में चेहरों पर मनमाने ढंग से नई भावनाओं को थोपने के लिए एक नई मशीन लर्निंग तकनीक विकसित की है, जो मौजूदा प्रौद्योगिकियों को अपना रही है जो हाल ही में विदेशी भाषा डबिंग के साथ होंठों की गतिविधियों के मिलान के समाधान के रूप में उभरी हैं।

यह शोध बोस्टन में नॉर्थईस्टर्न यूनिवर्सिटी और एमआईटी में मीडिया लैब के बीच एक समान सहयोग है, और इसका शीर्षक है इनवर्टेबल फ्रौन्स: वीडियो-टू-वीडियो फेशियल इमोशन ट्रांसलेशन. हालांकि शोधकर्ता मानते हैं कि परिणामों की प्रारंभिक गुणवत्ता को आगे के शोध के माध्यम से विकसित किया जाना चाहिए, उनका दावा है कि Wav2Lip-Emotion नामक तकनीक, तंत्रिका नेटवर्क तकनीकों के माध्यम से सीधे पूर्ण-वीडियो अभिव्यक्ति संशोधन को संबोधित करने वाली अपनी तरह की पहली है।

आधार कोड हो गया है रिहा GitHub पर, हालांकि मॉडल चौकियों को बाद में ओपन सोर्स रिपॉजिटरी में जोड़ा जाएगा, लेखक वादा करते हैं।

बाईं ओर, स्रोत वीडियो का एक 'दुखद' फ़्रेम। दाहिनी ओर, एक 'खुश' फ्रेम। केंद्र में वैकल्पिक भावनाओं को संश्लेषित करने के लिए दो नवजात दृष्टिकोण हैं - शीर्ष पंक्ति: एक पूरी तरह से नकाबपोश चेहरा जहां अभिव्यक्ति की संपूर्ण सतह को प्रतिस्थापित किया गया है; निचली पंक्ति: एक अधिक पारंपरिक Wav2Lip विधि, जो केवल चेहरे के निचले हिस्से को प्रतिस्थापित करती है। स्रोत: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

स्रोत डेटा के रूप में एकल वीडियो

सिद्धांत रूप में, इस तरह के हेरफेर अब पारंपरिक डीपफेक रिपॉजिटरी जैसे पूर्ण प्रशिक्षण के माध्यम से प्राप्त किए जा सकते हैं डीपफेसलैब या फेसस्वैप. हालाँकि, मानक वर्कफ़्लो में 'लक्ष्य' पहचान के लिए एक वैकल्पिक पहचान का उपयोग करना शामिल होगा, जैसे कि एक अभिनेता लक्ष्य का प्रतिरूपण करेगा, जिसकी अपनी अभिव्यक्तियाँ बाकी प्रदर्शन के साथ किसी अन्य व्यक्ति को हस्तांतरित की जाएंगी। इसके अतिरिक्त, भ्रम को पूरा करने के लिए डीपफेक वॉयस क्लोनिंग तकनीक आमतौर पर आवश्यक होगी।

इसके अलावा, वास्तव में की अभिव्यक्ति बदल रही है लक्ष्य1>लक्ष्य1 इन लोकप्रिय रूपरेखाओं के तहत एकमात्र स्रोत वीडियो में परिवर्तन शामिल होगा चेहरे का संरेखण वैक्टर इस तरह से कि ये आर्किटेक्चर वर्तमान में सुविधा प्रदान नहीं करते हैं।

Wav2Lip-इमोशन संबंधित अभिव्यक्तियों को परिवर्तित करते हुए मूल वीडियो ऑडियो संवाद के लिप सिंक्रोनाइज़ेशन को बनाए रखता है.

इसके बजाय, Wav2Lip-इमोशन प्रभावी ढंग से वीडियो के एक हिस्से से भावना-संबंधी अभिव्यक्तियों को 'कॉपी और पेस्ट' करने और उन्हें अन्य बिंदुओं में प्रतिस्थापित करने का प्रयास करता है, स्रोत डेटा की स्वयं-लगाई गई मितव्ययिता के साथ जिसका उद्देश्य अंततः कम-प्रयास विधि की पेशकश करना है अभिव्यक्ति हेरफेर.

ऑफ़लाइन मॉडल बाद में विकसित किए जा सकते हैं जिन्हें स्पीकर के वैकल्पिक वीडियो पर प्रशिक्षित किया जाता है, जिससे किसी एक वीडियो में अभिव्यक्ति राज्यों का 'पैलेट' शामिल करने की आवश्यकता समाप्त हो जाती है जिसके साथ वीडियो में हेरफेर किया जा सकता है।

संभावित उद्देश्य

लेखक अभिव्यक्ति संशोधन के लिए कई अनुप्रयोगों का सुझाव देते हैं, जिसमें PTSD और चेहरे के पक्षाघात से पीड़ित लोगों के प्रभावों की भरपाई के लिए एक लाइव वीडियो फ़िल्टर भी शामिल है। पेपर देखता है:

'चेहरे की भाव-भंगिमाओं के साथ या बिना बाधित चेहरे वाले व्यक्तियों को अपनी सामाजिक परिस्थितियों में बेहतर ढंग से फिट होने के लिए अपनी स्वयं की भाव-भंगिमाओं को समायोजित करने से लाभ हो सकता है। कोई उन्हें दिखाए गए वीडियो में भावों को बदलना चाह सकता है। वीडियो कॉन्फ्रेंस के दौरान वक्ता एक-दूसरे पर चिल्ला रहे होंगे, लेकिन फिर भी वे अप्रिय अभिव्यक्तियों के बिना अपने आदान-प्रदान में सामग्री एकत्र करना चाहते हैं। या फिर कोई फिल्म निर्देशक किसी अभिनेता की अभिव्यक्ति को बढ़ाना या कम करना चाहता हो।'

चूंकि चेहरे की अभिव्यक्ति एक है इरादे का मुख्य और मुख्य संकेतकयहां तक कि जहां यह बोले गए शब्दों के खिलाफ हो सकता है, अभिव्यक्ति को बदलने की क्षमता भी एक हद तक संचार को बदलने की क्षमता प्रदान करती है। प्राप्त.

काम से पहले

मशीन लर्निंग अभिव्यक्ति परिवर्तन में रुचि कम से कम 2012 तक चली गई, जब ए सहयोग एडोब, फेसबुक और रटगर्स यूनिवर्सिटी के बीच टेन्सर-आधारित 3डी ज्योमेट्री पुनर्निर्माण दृष्टिकोण का उपयोग करके अभिव्यक्तियों को बदलने की एक विधि प्रस्तावित की गई, जिसने परिवर्तन को प्रभावित करने के लिए लक्ष्य वीडियो के प्रत्येक फ्रेम पर बड़ी मेहनत से सीजीआई जाल लगाया।

2012 एडोब/फ़ेसबुक अनुसंधान ने वीडियो फ़ुटेज पर पारंपरिक, सीजीआई-संचालित परिवर्तनों को लागू करके अभिव्यक्तियों में हेरफेर किया। अभिव्यक्ति को बढ़ाया या दबाया जा सकता है। स्रोत: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

हालाँकि परिणाम आशाजनक थे, तकनीक बोझिल थी और आवश्यक संसाधन काफी थे। इस बिंदु पर, सीजीआई प्रत्यक्ष फीचर स्पेस और पिक्सेल हेरफेर के लिए कंप्यूटर विज़न-आधारित दृष्टिकोण से बहुत आगे था।

नए पेपर से अधिक निकटता से संबंधित है MEAD, एक डेटासेट और अभिव्यक्ति-पीढ़ी मॉडल जो 2020 में जारी किया गया था, जो 'टॉकिंग-हेड' वीडियो बनाने में सक्षम है, हालांकि परिष्कार के स्तर के बिना जो संभावित रूप से वास्तविक स्रोत वीडियो को सीधे संशोधित करके प्राप्त किया जा सकता है।

2020 के MEAD के साथ अभिव्यक्ति निर्माण, सेंसटाइम रिसर्च, कार्नेगी मेलॉन और तीन चीनी विश्वविद्यालयों के बीच एक सहयोग। स्रोत: https://wywu.github.io/projects/MEAD/MEAD.html

2018 में एक और पेपर, जिसका शीर्षक था गैनीमेशन: एक ही छवि से शारीरिक रूप से जागरूक चेहरे का एनीमेशन, यूएस/स्पेनिश अकादमिक अनुसंधान सहयोग के रूप में उभरा, और केवल स्थिर छवियों में अभिव्यक्ति को बढ़ाने या बदलने के लिए जेनरेटिव एडवरसैरियल नेटवर्क का उपयोग किया।

GANimation के साथ स्थिर छवियों में भाव बदलना। स्रोत: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-भावना

इसके बजाय, नया प्रोजेक्ट Wav2Lip पर आधारित है, जो प्रचार बटोरा 2020 में उपन्यास भाषण को समायोजित करने के लिए होंठ आंदोलन को फिर से सिंक करने के लिए एक संभावित विधि की पेशकश करके (या गाना) इनपुट जो मूल वीडियो में कभी प्रदर्शित नहीं हुआ।

मूल Wav2Lip आर्किटेक्चर बीबीसी अभिलेखागार से बोले गए वाक्यों के संग्रह पर प्रशिक्षित किया गया था। अभिव्यक्ति परिवर्तन के कार्य के लिए Wav2Lip को अनुकूलित करने के लिए, शोधकर्ताओं ने उपर्युक्त MEAD डेटासेट पर आर्किटेक्चर को 'फाइन ट्यून' किया।

MEAD में 40 घंटे का वीडियो है जिसमें 60 कलाकार एक ही वाक्य को पढ़ते हुए विभिन्न प्रकार के चेहरे के भाव प्रदर्शित करते हैं। अभिनेता 15 अलग-अलग देशों से हैं और लागू और अच्छी तरह से सामान्यीकृत अभिव्यक्ति संश्लेषण का उत्पादन करने के लिए परियोजना (और व्युत्पन्न परियोजनाओं) की मदद करने के उद्देश्य से कई अंतरराष्ट्रीय विशेषताओं की पेशकश करते हैं।

अनुसंधान के समय, एमईएडी ने डेटासेट का केवल पहला भाग जारी किया था, जिसमें 47 व्यक्तियों को 'क्रोधित', 'घृणा', 'भय', 'तिरस्कार', 'खुश', 'दुखद' और 'आश्चर्य' जैसे भाव प्रदर्शित किए गए थे। '. एक नए दृष्टिकोण की इस प्रारंभिक शुरुआत में, शोधकर्ताओं ने परियोजना के दायरे को 'खुश' और 'दुखद' कथित भावनाओं को सुपरइम्पोज़ करने या अन्यथा बदलने तक सीमित कर दिया, क्योंकि ये सबसे आसानी से पहचाने जाने वाले हैं।

विधि एवं परिणाम

मूल Wav2Lip आर्किटेक्चर केवल चेहरे के निचले हिस्से को प्रतिस्थापित करता है, जबकि Wav2Lip-Emotion पूर्ण चेहरे के प्रतिस्थापन मास्क और अभिव्यक्ति संश्लेषण के साथ भी प्रयोग करता है। इस प्रकार शोधकर्ताओं के लिए अंतर्निहित मूल्यांकन विधियों को अतिरिक्त रूप से संशोधित करना आवश्यक था, क्योंकि इन्हें पूर्ण-चेहरा कॉन्फ़िगरेशन के लिए डिज़ाइन नहीं किया गया था।

लेखक मूल ऑडियो इनपुट को बनाए रखते हुए, होठों की गति की निरंतरता को बनाए रखते हुए मूल कोड में सुधार करते हैं।

जनरेटर तत्व में पहले के काम के अनुसार एक पहचान एनकोडर, स्पीच एनकोडर और फेस डिकोडर की सुविधा है। भाषण तत्व को अतिरिक्त रूप से स्टैक्ड 2डी कनवल्शन के रूप में एन्कोड किया गया है जो बाद में उनके संबंधित फ्रेम/एस से जुड़ा हुआ है।

जनरेटिव तत्व के अलावा, संशोधित वास्तुकला में तीन मुख्य विभेदक घटक शामिल हैं, जो लिप सिंक्रोनाइज़ेशन की गुणवत्ता, एक भावना उद्देश्य तत्व और एक प्रतिकूल रूप से प्रशिक्षित दृश्य गुणवत्ता उद्देश्य को लक्षित करते हैं।

पूर्ण चेहरे के पुनर्निर्माण के लिए, मूल Wav2Lip कार्य में कोई मिसाल नहीं थी, और इसलिए मॉडल को स्क्रैच से प्रशिक्षित किया गया था। निचले चेहरे के प्रशिक्षण (आधे मुखौटे) के लिए, शोधकर्ता मूल Wav2Lip कोड में शामिल चौकियों से आगे बढ़े।

स्वचालित मूल्यांकन के अलावा, शोधकर्ताओं ने अर्ध-स्वचालित सेवा मंच द्वारा आपूर्ति की गई भीड़-स्रोत वाली राय का उपयोग किया। कर्मचारी आम तौर पर आरोपित भावनाओं को पहचानने के मामले में आउटपुट को उच्च रेटिंग देते हैं, जबकि छवि गुणवत्ता के लिए केवल 'मध्यम' मूल्यांकन की रिपोर्ट करते हैं।

लेखकों का सुझाव है कि, आगे के परिशोधन के साथ उत्पन्न वीडियो की गुणवत्ता में सुधार के अलावा, काम के भविष्य के पुनरावृत्तियों में भावनाओं की एक विस्तृत श्रृंखला शामिल हो सकती है, और यह कि काम को भविष्य में लेबल किए गए या स्वचालित रूप से अनुमानित स्रोत डेटा और डेटासेट पर समान रूप से लागू किया जा सकता है, जिससे अंततः अग्रणी हो सकता है। , एक प्रामाणिक प्रणाली के लिए जिसमें भावनाओं को उपयोगकर्ता की इच्छा के अनुसार ऊपर या नीचे डायल किया जा सकता है, या अंततः मूल स्रोत वीडियो के संबंध में विपरीत भावनाओं द्वारा प्रतिस्थापित किया जा सकता है।