ठूंठ द डॉन ऑफ डीपफेक्ड इमोशन्स - यूनाइट.एआई
हमसे जुडे

Artificial Intelligence

गहरी भावनाओं की सुबह

mm
Updated on

शोधकर्ताओं ने वीडियो में चेहरों पर मनमाने ढंग से नई भावनाओं को थोपने के लिए एक नई मशीन लर्निंग तकनीक विकसित की है, जो मौजूदा प्रौद्योगिकियों को अपना रही है जो हाल ही में विदेशी भाषा डबिंग के साथ होंठों की गतिविधियों के मिलान के समाधान के रूप में उभरी हैं।

यह शोध बोस्टन में नॉर्थईस्टर्न यूनिवर्सिटी और एमआईटी में मीडिया लैब के बीच एक समान सहयोग है, और इसका शीर्षक है इनवर्टेबल फ्रौन्स: वीडियो-टू-वीडियो फेशियल इमोशन ट्रांसलेशन. हालांकि शोधकर्ता मानते हैं कि परिणामों की प्रारंभिक गुणवत्ता को आगे के शोध के माध्यम से विकसित किया जाना चाहिए, उनका दावा है कि Wav2Lip-Emotion नामक तकनीक, तंत्रिका नेटवर्क तकनीकों के माध्यम से सीधे पूर्ण-वीडियो अभिव्यक्ति संशोधन को संबोधित करने वाली अपनी तरह की पहली है।

आधार कोड हो गया है रिहा GitHub पर, हालांकि मॉडल चौकियों को बाद में ओपन सोर्स रिपॉजिटरी में जोड़ा जाएगा, लेखक वादा करते हैं।

बाईं ओर, स्रोत वीडियो का एक 'दुखद' फ़्रेम। दाहिनी ओर, एक 'खुश' फ्रेम। केंद्र में वैकल्पिक भावनाओं को संश्लेषित करने के लिए दो नवजात दृष्टिकोण हैं - शीर्ष पंक्ति: एक पूरी तरह से नकाबपोश चेहरा जहां अभिव्यक्ति की संपूर्ण सतह को प्रतिस्थापित किया गया है; निचली पंक्ति: एक अधिक पारंपरिक Wav2Lip विधि, जो केवल चेहरे के निचले हिस्से को प्रतिस्थापित करती है। स्रोत: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

बाईं ओर, स्रोत वीडियो का एक 'दुखद' फ़्रेम। दाहिनी ओर, एक 'खुश' फ्रेम। केंद्र में वैकल्पिक भावनाओं को संश्लेषित करने के लिए दो नवजात दृष्टिकोण हैं - शीर्ष पंक्ति: एक पूरी तरह से नकाबपोश चेहरा जहां अभिव्यक्ति की संपूर्ण सतह को प्रतिस्थापित किया गया है; निचली पंक्ति: एक अधिक पारंपरिक Wav2Lip विधि, जो केवल चेहरे के निचले हिस्से को प्रतिस्थापित करती है। स्रोत: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

स्रोत डेटा के रूप में एकल वीडियो

सिद्धांत रूप में, इस तरह के हेरफेर अब पारंपरिक डीपफेक रिपॉजिटरी जैसे पूर्ण प्रशिक्षण के माध्यम से प्राप्त किए जा सकते हैं डीपफेसलैब या फेसस्वैप. हालाँकि, मानक वर्कफ़्लो में 'लक्ष्य' पहचान के लिए एक वैकल्पिक पहचान का उपयोग करना शामिल होगा, जैसे कि एक अभिनेता लक्ष्य का प्रतिरूपण करेगा, जिसकी अपनी अभिव्यक्तियाँ बाकी प्रदर्शन के साथ किसी अन्य व्यक्ति को हस्तांतरित की जाएंगी। इसके अतिरिक्त, भ्रम को पूरा करने के लिए डीपफेक वॉयस क्लोनिंग तकनीक आमतौर पर आवश्यक होगी।

इसके अलावा, वास्तव में की अभिव्यक्ति बदल रही है लक्ष्य1>लक्ष्य1 इन लोकप्रिय रूपरेखाओं के तहत एकमात्र स्रोत वीडियो में परिवर्तन शामिल होगा चेहरे का संरेखण वैक्टर इस तरह से कि ये आर्किटेक्चर वर्तमान में सुविधा प्रदान नहीं करते हैं।

Wav2Lip-इमोशन संबंधित अभिव्यक्तियों को परिवर्तित करते हुए मूल वीडियो ऑडियो संवाद के लिप सिंक्रोनाइज़ेशन को बनाए रखता है।

Wav2Lip-इमोशन संबंधित अभिव्यक्तियों को परिवर्तित करते हुए मूल वीडियो ऑडियो संवाद के लिप सिंक्रोनाइज़ेशन को बनाए रखता है.

इसके बजाय, Wav2Lip-इमोशन प्रभावी ढंग से वीडियो के एक हिस्से से भावना-संबंधी अभिव्यक्तियों को 'कॉपी और पेस्ट' करने और उन्हें अन्य बिंदुओं में प्रतिस्थापित करने का प्रयास करता है, स्रोत डेटा की स्वयं-लगाई गई मितव्ययिता के साथ जिसका उद्देश्य अंततः कम-प्रयास विधि की पेशकश करना है अभिव्यक्ति हेरफेर.

ऑफ़लाइन मॉडल बाद में विकसित किए जा सकते हैं जिन्हें स्पीकर के वैकल्पिक वीडियो पर प्रशिक्षित किया जाता है, जिससे किसी एक वीडियो में अभिव्यक्ति राज्यों का 'पैलेट' शामिल करने की आवश्यकता समाप्त हो जाती है जिसके साथ वीडियो में हेरफेर किया जा सकता है।

संभावित उद्देश्य

लेखक अभिव्यक्ति संशोधन के लिए कई अनुप्रयोगों का सुझाव देते हैं, जिसमें PTSD और चेहरे के पक्षाघात से पीड़ित लोगों के प्रभावों की भरपाई के लिए एक लाइव वीडियो फ़िल्टर भी शामिल है। पेपर देखता है:

'चेहरे की भाव-भंगिमाओं के साथ या बिना बाधित चेहरे वाले व्यक्तियों को अपनी सामाजिक परिस्थितियों में बेहतर ढंग से फिट होने के लिए अपनी स्वयं की भाव-भंगिमाओं को समायोजित करने से लाभ हो सकता है। कोई उन्हें दिखाए गए वीडियो में भावों को बदलना चाह सकता है। वीडियो कॉन्फ्रेंस के दौरान वक्ता एक-दूसरे पर चिल्ला रहे होंगे, लेकिन फिर भी वे अप्रिय अभिव्यक्तियों के बिना अपने आदान-प्रदान में सामग्री एकत्र करना चाहते हैं। या फिर कोई फिल्म निर्देशक किसी अभिनेता की अभिव्यक्ति को बढ़ाना या कम करना चाहता हो।'

चूंकि चेहरे की अभिव्यक्ति एक है इरादे का मुख्य और मुख्य संकेतकयहां तक ​​कि जहां यह बोले गए शब्दों के खिलाफ हो सकता है, अभिव्यक्ति को बदलने की क्षमता भी एक हद तक संचार को बदलने की क्षमता प्रदान करती है। प्राप्त.

काम से पहले

मशीन लर्निंग अभिव्यक्ति परिवर्तन में रुचि कम से कम 2012 तक चली गई, जब ए सहयोग एडोब, फेसबुक और रटगर्स यूनिवर्सिटी के बीच टेन्सर-आधारित 3डी ज्योमेट्री पुनर्निर्माण दृष्टिकोण का उपयोग करके अभिव्यक्तियों को बदलने की एक विधि प्रस्तावित की गई, जिसने परिवर्तन को प्रभावित करने के लिए लक्ष्य वीडियो के प्रत्येक फ्रेम पर बड़ी मेहनत से सीजीआई जाल लगाया।

2012 एडोब/फ़ेसबुक अनुसंधान ने वीडियो फ़ुटेज पर पारंपरिक, सीजीआई-संचालित परिवर्तनों को लागू करके अभिव्यक्तियों में हेरफेर किया। अभिव्यक्ति को बढ़ाया या दबाया जा सकता है। स्रोत: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

2012 एडोब/फ़ेसबुक अनुसंधान ने वीडियो फ़ुटेज पर पारंपरिक, सीजीआई-संचालित परिवर्तनों को लागू करके अभिव्यक्तियों में हेरफेर किया। अभिव्यक्ति को बढ़ाया या दबाया जा सकता है। स्रोत: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

हालाँकि परिणाम आशाजनक थे, तकनीक बोझिल थी और आवश्यक संसाधन काफी थे। इस बिंदु पर, सीजीआई प्रत्यक्ष फीचर स्पेस और पिक्सेल हेरफेर के लिए कंप्यूटर विज़न-आधारित दृष्टिकोण से बहुत आगे था।

नए पेपर से अधिक निकटता से संबंधित है MEAD, एक डेटासेट और अभिव्यक्ति-पीढ़ी मॉडल जो 2020 में जारी किया गया था, जो 'टॉकिंग-हेड' वीडियो बनाने में सक्षम है, हालांकि परिष्कार के स्तर के बिना जो संभावित रूप से वास्तविक स्रोत वीडियो को सीधे संशोधित करके प्राप्त किया जा सकता है।

2020 के MEAD के साथ अभिव्यक्ति निर्माण, सेंसटाइम रिसर्च, कार्नेगी मेलॉन और तीन चीनी विश्वविद्यालयों के बीच एक सहयोग। स्रोत: https://wywu.github.io/projects/MEAD/MEAD.html

2020 के MEAD के साथ अभिव्यक्ति निर्माण, सेंसटाइम रिसर्च, कार्नेगी मेलॉन और तीन चीनी विश्वविद्यालयों के बीच एक सहयोग। स्रोत: https://wywu.github.io/projects/MEAD/MEAD.html

2018 में एक और पेपर, जिसका शीर्षक था गैनीमेशन: एक ही छवि से शारीरिक रूप से जागरूक चेहरे का एनीमेशन, यूएस/स्पेनिश अकादमिक अनुसंधान सहयोग के रूप में उभरा, और केवल स्थिर छवियों में अभिव्यक्ति को बढ़ाने या बदलने के लिए जेनरेटिव एडवरसैरियल नेटवर्क का उपयोग किया।

GANimation के साथ स्थिर छवियों में भाव बदलना। स्रोत: https://arxiv.org/pdf/1807.09251.pdf

GANimation के साथ स्थिर छवियों में भाव बदलना। स्रोत: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-भावना

इसके बजाय, नया प्रोजेक्ट Wav2Lip पर आधारित है, जो प्रचार बटोरा 2020 में उपन्यास भाषण को समायोजित करने के लिए होंठ आंदोलन को फिर से सिंक करने के लिए एक संभावित विधि की पेशकश करके (या गाना) इनपुट जो मूल वीडियो में कभी प्रदर्शित नहीं हुआ।

मूल Wav2Lip आर्किटेक्चर बीबीसी अभिलेखागार से बोले गए वाक्यों के संग्रह पर प्रशिक्षित किया गया था। अभिव्यक्ति परिवर्तन के कार्य के लिए Wav2Lip को अनुकूलित करने के लिए, शोधकर्ताओं ने उपर्युक्त MEAD डेटासेट पर आर्किटेक्चर को 'फाइन ट्यून' किया।

MEAD में 40 घंटे का वीडियो है जिसमें 60 कलाकार एक ही वाक्य को पढ़ते हुए विभिन्न प्रकार के चेहरे के भाव प्रदर्शित करते हैं। अभिनेता 15 अलग-अलग देशों से हैं और लागू और अच्छी तरह से सामान्यीकृत अभिव्यक्ति संश्लेषण का उत्पादन करने के लिए परियोजना (और व्युत्पन्न परियोजनाओं) की मदद करने के उद्देश्य से कई अंतरराष्ट्रीय विशेषताओं की पेशकश करते हैं।

अनुसंधान के समय, एमईएडी ने डेटासेट का केवल पहला भाग जारी किया था, जिसमें 47 व्यक्तियों को 'क्रोधित', 'घृणा', 'भय', 'तिरस्कार', 'खुश', 'दुखद' और 'आश्चर्य' जैसे भाव प्रदर्शित किए गए थे। '. एक नए दृष्टिकोण की इस प्रारंभिक शुरुआत में, शोधकर्ताओं ने परियोजना के दायरे को 'खुश' और 'दुखद' कथित भावनाओं को सुपरइम्पोज़ करने या अन्यथा बदलने तक सीमित कर दिया, क्योंकि ये सबसे आसानी से पहचाने जाने वाले हैं।

विधि एवं परिणाम

मूल Wav2Lip आर्किटेक्चर केवल चेहरे के निचले हिस्से को प्रतिस्थापित करता है, जबकि Wav2Lip-Emotion पूर्ण चेहरे के प्रतिस्थापन मास्क और अभिव्यक्ति संश्लेषण के साथ भी प्रयोग करता है। इस प्रकार शोधकर्ताओं के लिए अंतर्निहित मूल्यांकन विधियों को अतिरिक्त रूप से संशोधित करना आवश्यक था, क्योंकि इन्हें पूर्ण-चेहरा कॉन्फ़िगरेशन के लिए डिज़ाइन नहीं किया गया था।

लेखक मूल ऑडियो इनपुट को बनाए रखते हुए, होठों की गति की निरंतरता को बनाए रखते हुए मूल कोड में सुधार करते हैं।

जनरेटर तत्व में पहले के काम के अनुसार एक पहचान एनकोडर, स्पीच एनकोडर और फेस डिकोडर की सुविधा है। भाषण तत्व को अतिरिक्त रूप से स्टैक्ड 2डी कनवल्शन के रूप में एन्कोड किया गया है जो बाद में उनके संबंधित फ्रेम/एस से जुड़ा हुआ है।

जनरेटिव तत्व के अलावा, संशोधित वास्तुकला में तीन मुख्य विभेदक घटक शामिल हैं, जो लिप सिंक्रोनाइज़ेशन की गुणवत्ता, एक भावना उद्देश्य तत्व और एक प्रतिकूल रूप से प्रशिक्षित दृश्य गुणवत्ता उद्देश्य को लक्षित करते हैं।

पूर्ण चेहरे के पुनर्निर्माण के लिए, मूल Wav2Lip कार्य में कोई मिसाल नहीं थी, और इसलिए मॉडल को स्क्रैच से प्रशिक्षित किया गया था। निचले चेहरे के प्रशिक्षण (आधे मुखौटे) के लिए, शोधकर्ता मूल Wav2Lip कोड में शामिल चौकियों से आगे बढ़े।

स्वचालित मूल्यांकन के अलावा, शोधकर्ताओं ने अर्ध-स्वचालित सेवा मंच द्वारा आपूर्ति की गई भीड़-स्रोत वाली राय का उपयोग किया। कर्मचारी आम तौर पर आरोपित भावनाओं को पहचानने के मामले में आउटपुट को उच्च रेटिंग देते हैं, जबकि छवि गुणवत्ता के लिए केवल 'मध्यम' मूल्यांकन की रिपोर्ट करते हैं।

लेखकों का सुझाव है कि, आगे के परिशोधन के साथ उत्पन्न वीडियो की गुणवत्ता में सुधार के अलावा, काम के भविष्य के पुनरावृत्तियों में भावनाओं की एक विस्तृत श्रृंखला शामिल हो सकती है, और यह कि काम को भविष्य में लेबल किए गए या स्वचालित रूप से अनुमानित स्रोत डेटा और डेटासेट पर समान रूप से लागू किया जा सकता है, जिससे अंततः अग्रणी हो सकता है। , एक प्रामाणिक प्रणाली के लिए जिसमें भावनाओं को उपयोगकर्ता की इच्छा के अनुसार ऊपर या नीचे डायल किया जा सकता है, या अंततः मूल स्रोत वीडियो के संबंध में विपरीत भावनाओं द्वारा प्रतिस्थापित किया जा सकता है।