Artificial Intelligence
गहरी भावनाओं की सुबह
शोधकर्ताओं ने वीडियो में चेहरों पर मनमाने ढंग से नई भावनाओं को थोपने के लिए एक नई मशीन लर्निंग तकनीक विकसित की है, जो मौजूदा प्रौद्योगिकियों को अपना रही है जो हाल ही में विदेशी भाषा डबिंग के साथ होंठों की गतिविधियों के मिलान के समाधान के रूप में उभरी हैं।
यह शोध बोस्टन में नॉर्थईस्टर्न यूनिवर्सिटी और एमआईटी में मीडिया लैब के बीच एक समान सहयोग है, और इसका शीर्षक है इनवर्टेबल फ्रौन्स: वीडियो-टू-वीडियो फेशियल इमोशन ट्रांसलेशन. हालांकि शोधकर्ता मानते हैं कि परिणामों की प्रारंभिक गुणवत्ता को आगे के शोध के माध्यम से विकसित किया जाना चाहिए, उनका दावा है कि Wav2Lip-Emotion नामक तकनीक, तंत्रिका नेटवर्क तकनीकों के माध्यम से सीधे पूर्ण-वीडियो अभिव्यक्ति संशोधन को संबोधित करने वाली अपनी तरह की पहली है।
आधार कोड हो गया है रिहा GitHub पर, हालांकि मॉडल चौकियों को बाद में ओपन सोर्स रिपॉजिटरी में जोड़ा जाएगा, लेखक वादा करते हैं।
स्रोत डेटा के रूप में एकल वीडियो
सिद्धांत रूप में, इस तरह के हेरफेर अब पारंपरिक डीपफेक रिपॉजिटरी जैसे पूर्ण प्रशिक्षण के माध्यम से प्राप्त किए जा सकते हैं डीपफेसलैब या फेसस्वैप. हालाँकि, मानक वर्कफ़्लो में 'लक्ष्य' पहचान के लिए एक वैकल्पिक पहचान का उपयोग करना शामिल होगा, जैसे कि एक अभिनेता लक्ष्य का प्रतिरूपण करेगा, जिसकी अपनी अभिव्यक्तियाँ बाकी प्रदर्शन के साथ किसी अन्य व्यक्ति को हस्तांतरित की जाएंगी। इसके अतिरिक्त, भ्रम को पूरा करने के लिए डीपफेक वॉयस क्लोनिंग तकनीक आमतौर पर आवश्यक होगी।
इसके अलावा, वास्तव में की अभिव्यक्ति बदल रही है लक्ष्य1>लक्ष्य1 इन लोकप्रिय रूपरेखाओं के तहत एकमात्र स्रोत वीडियो में परिवर्तन शामिल होगा चेहरे का संरेखण वैक्टर इस तरह से कि ये आर्किटेक्चर वर्तमान में सुविधा प्रदान नहीं करते हैं।
इसके बजाय, Wav2Lip-इमोशन प्रभावी ढंग से वीडियो के एक हिस्से से भावना-संबंधी अभिव्यक्तियों को 'कॉपी और पेस्ट' करने और उन्हें अन्य बिंदुओं में प्रतिस्थापित करने का प्रयास करता है, स्रोत डेटा की स्वयं-लगाई गई मितव्ययिता के साथ जिसका उद्देश्य अंततः कम-प्रयास विधि की पेशकश करना है अभिव्यक्ति हेरफेर.
ऑफ़लाइन मॉडल बाद में विकसित किए जा सकते हैं जिन्हें स्पीकर के वैकल्पिक वीडियो पर प्रशिक्षित किया जाता है, जिससे किसी एक वीडियो में अभिव्यक्ति राज्यों का 'पैलेट' शामिल करने की आवश्यकता समाप्त हो जाती है जिसके साथ वीडियो में हेरफेर किया जा सकता है।
संभावित उद्देश्य
लेखक अभिव्यक्ति संशोधन के लिए कई अनुप्रयोगों का सुझाव देते हैं, जिसमें PTSD और चेहरे के पक्षाघात से पीड़ित लोगों के प्रभावों की भरपाई के लिए एक लाइव वीडियो फ़िल्टर भी शामिल है। पेपर देखता है:
'चेहरे की भाव-भंगिमाओं के साथ या बिना बाधित चेहरे वाले व्यक्तियों को अपनी सामाजिक परिस्थितियों में बेहतर ढंग से फिट होने के लिए अपनी स्वयं की भाव-भंगिमाओं को समायोजित करने से लाभ हो सकता है। कोई उन्हें दिखाए गए वीडियो में भावों को बदलना चाह सकता है। वीडियो कॉन्फ्रेंस के दौरान वक्ता एक-दूसरे पर चिल्ला रहे होंगे, लेकिन फिर भी वे अप्रिय अभिव्यक्तियों के बिना अपने आदान-प्रदान में सामग्री एकत्र करना चाहते हैं। या फिर कोई फिल्म निर्देशक किसी अभिनेता की अभिव्यक्ति को बढ़ाना या कम करना चाहता हो।'
चूंकि चेहरे की अभिव्यक्ति एक है इरादे का मुख्य और मुख्य संकेतकयहां तक कि जहां यह बोले गए शब्दों के खिलाफ हो सकता है, अभिव्यक्ति को बदलने की क्षमता भी एक हद तक संचार को बदलने की क्षमता प्रदान करती है। प्राप्त.
काम से पहले
मशीन लर्निंग अभिव्यक्ति परिवर्तन में रुचि कम से कम 2012 तक चली गई, जब ए सहयोग एडोब, फेसबुक और रटगर्स यूनिवर्सिटी के बीच टेन्सर-आधारित 3डी ज्योमेट्री पुनर्निर्माण दृष्टिकोण का उपयोग करके अभिव्यक्तियों को बदलने की एक विधि प्रस्तावित की गई, जिसने परिवर्तन को प्रभावित करने के लिए लक्ष्य वीडियो के प्रत्येक फ्रेम पर बड़ी मेहनत से सीजीआई जाल लगाया।
हालाँकि परिणाम आशाजनक थे, तकनीक बोझिल थी और आवश्यक संसाधन काफी थे। इस बिंदु पर, सीजीआई प्रत्यक्ष फीचर स्पेस और पिक्सेल हेरफेर के लिए कंप्यूटर विज़न-आधारित दृष्टिकोण से बहुत आगे था।
नए पेपर से अधिक निकटता से संबंधित है MEAD, एक डेटासेट और अभिव्यक्ति-पीढ़ी मॉडल जो 2020 में जारी किया गया था, जो 'टॉकिंग-हेड' वीडियो बनाने में सक्षम है, हालांकि परिष्कार के स्तर के बिना जो संभावित रूप से वास्तविक स्रोत वीडियो को सीधे संशोधित करके प्राप्त किया जा सकता है।
2018 में एक और पेपर, जिसका शीर्षक था गैनीमेशन: एक ही छवि से शारीरिक रूप से जागरूक चेहरे का एनीमेशन, यूएस/स्पेनिश अकादमिक अनुसंधान सहयोग के रूप में उभरा, और केवल स्थिर छवियों में अभिव्यक्ति को बढ़ाने या बदलने के लिए जेनरेटिव एडवरसैरियल नेटवर्क का उपयोग किया।
Wav2Lip-भावना
इसके बजाय, नया प्रोजेक्ट Wav2Lip पर आधारित है, जो प्रचार बटोरा 2020 में उपन्यास भाषण को समायोजित करने के लिए होंठ आंदोलन को फिर से सिंक करने के लिए एक संभावित विधि की पेशकश करके (या गाना) इनपुट जो मूल वीडियो में कभी प्रदर्शित नहीं हुआ।
मूल Wav2Lip आर्किटेक्चर बीबीसी अभिलेखागार से बोले गए वाक्यों के संग्रह पर प्रशिक्षित किया गया था। अभिव्यक्ति परिवर्तन के कार्य के लिए Wav2Lip को अनुकूलित करने के लिए, शोधकर्ताओं ने उपर्युक्त MEAD डेटासेट पर आर्किटेक्चर को 'फाइन ट्यून' किया।
MEAD में 40 घंटे का वीडियो है जिसमें 60 कलाकार एक ही वाक्य को पढ़ते हुए विभिन्न प्रकार के चेहरे के भाव प्रदर्शित करते हैं। अभिनेता 15 अलग-अलग देशों से हैं और लागू और अच्छी तरह से सामान्यीकृत अभिव्यक्ति संश्लेषण का उत्पादन करने के लिए परियोजना (और व्युत्पन्न परियोजनाओं) की मदद करने के उद्देश्य से कई अंतरराष्ट्रीय विशेषताओं की पेशकश करते हैं।
अनुसंधान के समय, एमईएडी ने डेटासेट का केवल पहला भाग जारी किया था, जिसमें 47 व्यक्तियों को 'क्रोधित', 'घृणा', 'भय', 'तिरस्कार', 'खुश', 'दुखद' और 'आश्चर्य' जैसे भाव प्रदर्शित किए गए थे। '. एक नए दृष्टिकोण की इस प्रारंभिक शुरुआत में, शोधकर्ताओं ने परियोजना के दायरे को 'खुश' और 'दुखद' कथित भावनाओं को सुपरइम्पोज़ करने या अन्यथा बदलने तक सीमित कर दिया, क्योंकि ये सबसे आसानी से पहचाने जाने वाले हैं।
विधि एवं परिणाम
मूल Wav2Lip आर्किटेक्चर केवल चेहरे के निचले हिस्से को प्रतिस्थापित करता है, जबकि Wav2Lip-Emotion पूर्ण चेहरे के प्रतिस्थापन मास्क और अभिव्यक्ति संश्लेषण के साथ भी प्रयोग करता है। इस प्रकार शोधकर्ताओं के लिए अंतर्निहित मूल्यांकन विधियों को अतिरिक्त रूप से संशोधित करना आवश्यक था, क्योंकि इन्हें पूर्ण-चेहरा कॉन्फ़िगरेशन के लिए डिज़ाइन नहीं किया गया था।
लेखक मूल ऑडियो इनपुट को बनाए रखते हुए, होठों की गति की निरंतरता को बनाए रखते हुए मूल कोड में सुधार करते हैं।
जनरेटर तत्व में पहले के काम के अनुसार एक पहचान एनकोडर, स्पीच एनकोडर और फेस डिकोडर की सुविधा है। भाषण तत्व को अतिरिक्त रूप से स्टैक्ड 2डी कनवल्शन के रूप में एन्कोड किया गया है जो बाद में उनके संबंधित फ्रेम/एस से जुड़ा हुआ है।
जनरेटिव तत्व के अलावा, संशोधित वास्तुकला में तीन मुख्य विभेदक घटक शामिल हैं, जो लिप सिंक्रोनाइज़ेशन की गुणवत्ता, एक भावना उद्देश्य तत्व और एक प्रतिकूल रूप से प्रशिक्षित दृश्य गुणवत्ता उद्देश्य को लक्षित करते हैं।
पूर्ण चेहरे के पुनर्निर्माण के लिए, मूल Wav2Lip कार्य में कोई मिसाल नहीं थी, और इसलिए मॉडल को स्क्रैच से प्रशिक्षित किया गया था। निचले चेहरे के प्रशिक्षण (आधे मुखौटे) के लिए, शोधकर्ता मूल Wav2Lip कोड में शामिल चौकियों से आगे बढ़े।
स्वचालित मूल्यांकन के अलावा, शोधकर्ताओं ने अर्ध-स्वचालित सेवा मंच द्वारा आपूर्ति की गई भीड़-स्रोत वाली राय का उपयोग किया। कर्मचारी आम तौर पर आरोपित भावनाओं को पहचानने के मामले में आउटपुट को उच्च रेटिंग देते हैं, जबकि छवि गुणवत्ता के लिए केवल 'मध्यम' मूल्यांकन की रिपोर्ट करते हैं।
लेखकों का सुझाव है कि, आगे के परिशोधन के साथ उत्पन्न वीडियो की गुणवत्ता में सुधार के अलावा, काम के भविष्य के पुनरावृत्तियों में भावनाओं की एक विस्तृत श्रृंखला शामिल हो सकती है, और यह कि काम को भविष्य में लेबल किए गए या स्वचालित रूप से अनुमानित स्रोत डेटा और डेटासेट पर समान रूप से लागू किया जा सकता है, जिससे अंततः अग्रणी हो सकता है। , एक प्रामाणिक प्रणाली के लिए जिसमें भावनाओं को उपयोगकर्ता की इच्छा के अनुसार ऊपर या नीचे डायल किया जा सकता है, या अंततः मूल स्रोत वीडियो के संबंध में विपरीत भावनाओं द्वारा प्रतिस्थापित किया जा सकता है।