рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдЧрд╣рд░реЗ рдирдХрд▓реА рднрд╛рд╡рдирд╛рдУрдВ рдХрд╛ рдЙрджрдп

mm

शोधकर्ताओं ने वीडियो में चेहरों पर मनमाने ढंग से नए भावनाओं को थोपने के लिए एक नई मशीन लर्निंग तकनीक विकसित की है, जो हाल ही में उभरे समाधानों को अपनाती है जो विदेशी भाषा डबिंग के लिए होंठ की गति को मिलाने के लिए मौजूदा प्रौद्योगिकियों का उपयोग करते हैं।

यह शोध नॉर्थईस्टर्न यूनिवर्सिटी एट बोस्टन और एमआईटी के मीडिया लैब के बीच एक समान सहयोग है, और इसका शीर्षक इनवर्टेबल फ्राउन्स: वीडियो-टू-वीडियो फेशियल भावना अनुवाद है। हालांकि शोधकर्ता स्वीकार करते हैं कि परिणामों की प्रारंभिक गुणवत्ता को आगे के शोध के माध्यम से विकसित किया जाना चाहिए, वे दावा करते हैं कि तकनीक, जिसे वेव2लिप-भावना कहा जाता है, पूर्ण-वीडियो अभिव्यक्ति संशोधन को सीधे संबोधित करने के लिए अपनी तरह की पहली है जो तंत्रिका नेटवर्क तकनीकों के माध्यम से है।

बेस कोड को गिटहब पर जारी किया गया है, हालांकि मॉडल चेकपॉइंट बाद में ओपन सोर्स रिपॉजिटरी में जोड़े जाएंगे, लेखकों का वादा है।

рдмрд╛рдПрдВ, рд╕реНрд░реЛрдд рд╡реАрдбрд┐рдпреЛ рдХрд╛ рдПрдХ 'рджреБрдЦреА' рдлреНрд░реЗрдоред рджрд╛рдПрдВ, рдПрдХ 'рдЦреБрд╢' рдлреНрд░реЗрдоред рдХреЗрдВрджреНрд░ рдореЗрдВ рджреЛ рдирд╡рдЬрд╛рдд рджреГрд╖реНрдЯрд┐рдХреЛрдг рд╣реИрдВ рдЬреЛ рд╡реИрдХрд▓реНрдкрд┐рдХ рднрд╛рд╡рдирд╛рдУрдВ рдХреЛ рд╕рдВрд╢реНрд▓реЗрд╖рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП - рд╢реАрд░реНрд╖ рдкрдВрдХреНрддрд┐: рдПрдХ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдорд╛рд╕реНрдХреЗрдб рдЪреЗрд╣рд░рд╛ рдЬрд╣рд╛рдВ рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐ рдХреА рдкреВрд░реА рд╕рддрд╣ рдХреЛ рдкреНрд░рддрд┐рд╕реНрдерд╛рдкрд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ; рдиреАрдЪреЗ рдХреА рдкрдВрдХреНрддрд┐: рдПрдХ рдЕрдзрд┐рдХ рдкрд╛рд░рдВрдкрд░рд┐рдХ рд╡реЗрд╡2рд▓рд┐рдк рд╡рд┐рдзрд┐, рдЬреЛ рдХреЗрд╡рд▓ рдЪреЗрд╣рд░реЗ рдХреЗ рдирд┐рдЪрд▓реЗ рд╣рд┐рд╕реНрд╕реЗ рдХреЛ рдкреНрд░рддрд┐рд╕реНрдерд╛рдкрд┐рдд рдХрд░рддреА рд╣реИред

बाएं, स्रोत वीडियो का एक ‘दुखी’ फ्रेम। दाएं, एक ‘खुश’ फ्रेम। केंद्र में दो नवजात दृष्टिकोण हैं जो वैकल्पिक भावनाओं को संश्लेषित करने के लिए – शीर्ष पंक्ति: एक पूरी तरह से मास्केड चेहरा जहां अभिव्यक्ति की पूरी सतह को प्रतिस्थापित किया गया है; नीचे की पंक्ति: एक अधिक पारंपरिक वेव2लिप विधि, जो केवल चेहरे के निचले हिस्से को प्रतिस्थापित करती है। स्रोत: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

एकल वीडियो के रूप में स्रोत डेटा

सिद्धांत रूप में, ऐसे हेरफेर अब पारंपरिक डीपफेक रिपॉजिटरी जैसे डीपफेसलैब या फेसस्वैप के माध्यम से प्राप्त किए जा सकते हैं। हालांकि, मानक कार्यप्रवाह में एक वैकल्पिक पहचान का उपयोग शामिल होगा जो ‘लक्ष्य’ पहचान के लिए, जैसे कि एक अभिनेता जो लक्ष्य की नकल करता है, जिसकी अपनी अभिव्यक्तियां दूसरे व्यक्ति में स्थानांतरित की जाएंगी, साथ ही साथ पूरे प्रदर्शन के साथ। इसके अलावा, डीपफेक वॉयस क्लोनिंग तकनीक आमतौर पर भ्रम को पूरा करने के लिए आवश्यक होगी।

इसके अलावा, वास्तव में लक्ष्य1>लक्ष्य1 की अभिव्यक्ति को एकमात्र स्रोत वीडियो में इन लोकप्रिय फ्रेमवर्क के तहत बदलना चेहरे की संरेखण वेक्टर को बदलने के लिए शामिल होगा जिस तरह से ये संरचनाएं वर्तमान में सुविधा प्रदान नहीं करती हैं।

рд╡реЗрд╡2рд▓рд┐рдк-рднрд╛рд╡рдирд╛ рдореВрд▓ рд╡реАрдбрд┐рдпреЛ рдСрдбрд┐рдпреЛ рд╕рдВрд╡рд╛рдж рдХреЗ рд╣реЛрдВрда рд╕рд┐рдВрдХреНрд░реЛрдирд╛рдЗрдЬреЗрд╢рди рдХреЛ рдмрдирд╛рдП рд░рдЦрддреЗ рд╣реБрдП рд╕рдВрдмрдВрдзрд┐рдд рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐рдпреЛрдВ рдХреЛ рдмрджрд▓ рджреЗрддреА рд╣реИред

वेव2लिप-भावना मूल वीडियो ऑडियो संवाद के होंठ सिंक्रोनाइजेशन को बनाए रखते हुए संबंधित अभिव्यक्तियों को बदल देती है।

इसके बजाय, वेव2लिप-भावना प्रभावी रूप से एक वीडियो के एक हिस्से से भावना से संबंधित अभिव्यक्तियों को ‘कॉपी और पेस्ट’ करने का प्रयास करती है और उन्हें अन्य बिंदुओं पर प्रतिस्थापित करती है, जिसमें स्रोत डेटा की एक स्व-लगाई हुई किफायत है जो अंततः वीडियो में अभिव्यक्ति हेरफेर के लिए एक कम-प्रयास विधि प्रदान करने का इरादा रखती है।

ऑफलाइन मॉडल बाद में विकसित किए जा सकते हैं जो वक्ता के वैकल्पिक वीडियो पर प्रशिक्षित हों, जो किसी एक वीडियो में ‘पैलेट’ की आवश्यकता को समाप्त करते हैं जिसके साथ वीडियो को हेरफेर किया जा सकता है।

संभावित उद्देश्य

लेखक भावना संशोधन के लिए कई अनुप्रयोगों का सुझाव देते हैं, जिनमें पीटीएसडी और चेहरे की पक्षाघात से पीड़ित लोगों के लिए प्रभावों के लिए एक लाइव वीडियो फिल्टर शामिल है। पत्र में观察 किया गया है:

‘चेहरे की अभिव्यक्ति को रोकने वाले व्यक्तियों के साथ या बिना अपनी अभिव्यक्तियों को अपने सामाजिक परिस्थितियों के अनुसार बेहतर ढंग से फिट करने के लिए लाभान्वित हो सकते हैं। कोई व्यक्ति अपनी अभिव्यक्तियों को बदलना चाह सकता है जो उन्हें दिखाई दे रही हैं। वीडियो कॉन्फ्रेंस के दौरान वक्ता एक दूसरे पर चिल्ला रहे हो सकते हैं, लेकिन फिर भी अपने आदान-प्रदान की सामग्री को अप्रिय अभिव्यक्तियों के बिना इकट्ठा करना चाहते हैं। या एक फिल्म निर्देशक अभिनेता की अभिव्यक्तियों को बढ़ाना या कम करना चाह सकता है।’

चूंकि चेहरे की अभिव्यक्ति एक मुख्य और मूल संकेतक है, यहां तक कि जहां यह बोले जा रहे शब्दों के खिलाफ घिसने लगता है, अभिव्यक्ति को बदलने की क्षमता भी प्रदान करती है, एक हद तक, संचार को प्राप्त करने की क्षमता प्रदान करती है।

पिछला काम

भावना परिवर्तन में मशीन लर्निंग के हेरफेर में रुचि कम से कम 2012 से है, जब सहयोग ने एक विधि का प्रस्ताव किया था जो एक टेंसर-आधारित 3डी ज्यामिति पुनर्निर्माण दृष्टिकोण का उपयोग करके अभिव्यक्तियों को बदलने के लिए, जो श्रमसाध्य रूप से प्रत्येक फ्रेम पर एक सीजीआई मेश लगाने के लिए था लक्ष्य वीडियो पर परिवर्तन लाने के लिए।

2012 рдХреЗ рдПрдбреЛрдмреА/рдлреЗрд╕рдмреБрдХ рд╢реЛрдз рдиреЗ рд╡реАрдбрд┐рдпреЛ рдлреБрдЯреЗрдЬ рдкрд░ рдкрд╛рд░рдВрдкрд░рд┐рдХ, рд╕реАрдЬреАрдЖрдИ-рдЪрд╛рд▓рд┐рдд рдкрд░рд┐рд╡рд░реНрддрди рд▓рд╛рдЧреВ рдХрд░рдХреЗ рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐рдпреЛрдВ рдХреЛ рдмрджрд▓ рджрд┐рдпрд╛ред рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐рдпрд╛рдВ рдмрдврд╝рд╛рдИ рдпрд╛ рджрдмрд╛рдИ рдЬрд╛ рд╕рдХрддреА рдереАрдВред рд╕реНрд░реЛрдд: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

2012 के एडोबी/फेसबुक शोध ने वीडियो फुटेज पर पारंपरिक, सीजीआई-चालित परिवर्तन लागू करके अभिव्यक्तियों को बदल दिया। अभिव्यक्तियां बढ़ाई या दबाई जा सकती थीं। स्रोत: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

हालांकि परिणाम आशाजनक थे, तकनीक भारी थी और आवश्यक संसाधनों की मात्रा काफी अधिक थी। इस बिंदु पर, सीजीआई सीधे फीचर स्पेस और पिक्सेल हेरफेर के लिए कंप्यूटर विजन-आधारित दृष्टिकोण से बहुत आगे था।

नया पत्र सबसे अधिक एमईएडी से संबंधित है, एक डेटासेट और अभिव्यक्ति-पीढ़ी मॉडल जो 2020 में जारी किया गया था, जो ‘बात करने वाले सिर’ वीडियो उत्पन्न करने में सक्षम था, हालांकि सीधे वास्तविक स्रोत वीडियो को संशोधित करने के माध्यम से प्राप्त की जा सकने वाली जटिलता के स्तर के बिना।

рд╕реЗрдВрд╕рдЯрд╛рдЗрдо рд░рд┐рд╕рд░реНрдЪ, рдХрд╛рд░реНрдиреЗрдЧреА рдореЗрд▓рди рдФрд░ рддреАрди рдЪреАрдиреА рд╡рд┐рд╢реНрд╡рд╡рд┐рджреНрдпрд╛рд▓рдпреЛрдВ рдХреЗ рдмреАрдЪ 2020 рдХреЗ рд╕рд╣рдпреЛрдЧ рдХреЗ рд╕рд╛рде рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐ рдкреАрдврд╝реАред рд╕реНрд░реЛрдд: https://wywu.github.io/projects/MEAD/MEAD.html

सेंसटाइम रिसर्च, कार्नेगी मेलन और तीन चीनी विश्वविद्यालयों के बीच 2020 के सहयोग के साथ अभिव्यक्ति पीढ़ी। स्रोत: https://wywu.github.io/projects/MEAD/MEAD.html

2018 में एक और पत्र, GANimation: Anatomically-aware Facial Animation from a Single Image नामक एक यूएस/स्पेनिश शैक्षणिक अनुसंधान सहयोग के रूप में उभरा, और स्थिर छवियों में अभिव्यक्तियों को बढ़ाने या बदलने के लिए जनरेटिव एडवर्सेरियल नेटवर्क का उपयोग किया।

рд╕реНрдерд┐рд░ рдЫрд╡рд┐рдпреЛрдВ рдореЗрдВ рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐рдпреЛрдВ рдХреЛ рдмрджрд▓рдиреЗ рдХреЗ рд▓рд┐рдП рдЬреАрдПрдирдЖрдИрдореЗрд╢рди рдХрд╛ рдЙрдкрдпреЛрдЧред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/1807.09251.pdf

स्थिर छवियों में अभिव्यक्तियों को बदलने के लिए जीएनआईमेशन का उपयोग। स्रोत: https://arxiv.org/pdf/1807.09251.pdf

वेव2लिप-भावना

इसके बजाय, नया परियोजना वेव2लिप पर आधारित है, जिसने 2020 में प्रचार प्राप्त किया था जो एक संभावित विधि प्रदान करता है जो मूल वीडियो में दिखाई नहीं देने वाली नई बोली या गीत इनपुट के लिए होंठ की गति को पुन: सिंक्रोनाइज़ करने के लिए।

मूल वेव2लिप आर्किटेक्चर बीबीसी आर्काइव्स के बोले हुए वाक्यों के एक निगम पर प्रशिक्षित किया गया था। अभिव्यक्ति परिवर्तन के कार्य के लिए वेव2लिप को अनुकूलित करने के लिए, शोधकर्ताओं ने उपरोक्त एमईएडी डेटासेट पर आर्किटेक्चर को बारीक-ट्यून किया।

एमईएडी में 40 घंटे का वीडियो है जिसमें 60 अभिनेता एक ही वाक्य को पढ़कर विभिन्न चेहरे की अभिव्यक्तियां करते हैं। अभिनेता 15 अलग-अलग देशों से हैं और परियोजना (और व्युत्पन्न परियोजनाओं) को लागू और सामान्यीकृत अभिव्यक्ति संश्लेषण उत्पन्न करने में मदद करने के लिए अंतर्राष्ट्रीय विशेषताओं की एक श्रृंखला प्रदान करते हैं।

शोध के समय, एमईएडी ने केवल डेटासेट का पहला भाग जारी किया था, जिसमें 47 व्यक्तियों को ‘क्रोध’, ‘अपमान’, ‘भय’, ‘अवमानना’, ‘खुश’, ‘दुखी’ और ‘आश्चर्य’ जैसी अभिव्यक्तियां करते हुए दिखाया गया था। इस प्रारंभिक आउटिंग में, शोधकर्ताओं ने परियोजना के दायरे को ‘खुश’ और ‘दुखी’ जैसी भावनाओं को सुपरिम्पोज़ या बदलने तक सीमित कर दिया, क्योंकि वे सबसे आसानी से पहचाने जाने योग्य हैं।

विधि और परिणाम

मूल वेव2लिप आर्किटेक्चर केवल चेहरे के निचले खंड को प्रतिस्थापित करता है, जबकि वेव2लिप-भावना एक पूर्ण चेहरे की प्रतिस्थापन मास्क और अभिव्यक्ति संश्लेषण के साथ भी प्रयोग करता है। इसलिए, शोधकर्ताओं के लिए निर्मित-इन मूल्यांकन विधियों को संशोधित करना आवश्यक था, क्योंकि वे पूर्ण-चेहरे कॉन्फ़िगरेशन के लिए डिज़ाइन नहीं किए गए थे।

लेखक मूल ऑडियो इनपुट को बनाए रखने और होंठ की गति की निरंतरता को बनाए रखने के द्वारा मूल कोड में सुधार करते हैं।

जनरेटर तत्व में एक पहचान एनकोडर, भाषण एनकोडर और चेहरे डिकोडर शामिल हैं, जो पहले के काम के अनुसार हैं। भाषण तत्व को अतिरिक्त रूप से स्टैक्ड 2डी कनवोल्यूशनल के रूप में संस्कoded किया जाता है जो बाद में अपने संबंधित फ्रेम के साथ जुड़े होते हैं।

जनरेटिव तत्व के अलावा, संशोधित आर्किटेक्चर में तीन मुख्य भेदभावपूर्ण घटक हैं, जो होंठ सिंक्रोनाइजेशन, भावना उद्देश्य तत्व और एक द्वंद्वात्मक रूप से प्रशिक्षित दृश्य गुणवत्ता उद्देश्य की गुणवत्ता को लक्षित करते हैं।

पूर्ण चेहरे के पुनर्निर्माण के लिए, मूल वेव2लिप कार्य में कोई पूर्ववर्ती नहीं था, और इसलिए मॉडल को स्क्रैच से प्रशिक्षित किया गया था। निचले-चेहरे के प्रशिक्षण (आधे मास्क) के लिए, शोधकर्ताओं ने मूल वेव2लिप कोड में शामिल चेकपॉइंट से आगे बढ़े।

स्वचालित मूल्यांकन के अलावा, शोधकर्ताओं ने एक सेमी-ऑटोमेटेड सेवा प्लेटफ़ॉर्म द्वारा आपूर्ति की गई भीड़-सourced राय का उपयोग किया। कार्यकर्ताओं ने आउटपुट को होंठ सिंक्रोनाइजेशन और भावना सुपरिम्पोज़िशन दोनों के संदर्भ में उच्च दर्जा दिया, जबकि छवि गुणवत्ता के लिए केवल ‘मध्यम’ मूल्यांकन की सूचना दी।

लेखक सुझाव देते हैं कि उत्पन्न वीडियो गुणवत्ता में सुधार के अलावा, काम की भविष्य की पुनरावृत्ति एक व्यापक श्रृंखला में भावनाओं को शामिल कर सकती है, और कि काम को भविष्य में लेबल या स्वचालित रूप से अनुमानित स्रोत डेटा और डेटासेट पर भी लागू किया जा सकता है, जो अंततः एक प्रामाणिक प्रणाली की ओर ले जाता है जिसमें भावनाएं मूल स्रोत वीडियो के संबंध में उपयोगकर्ता की मर्जी से या अंततः विपरीत भावनाओं द्वारा प्रतिस्थापित की जा सकती हैं।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai