Artificial Intelligence
एक नई और सरल डीपफेक विधि जो पिछले दृष्टिकोणों से बेहतर प्रदर्शन करती है
चीनी एआई अनुसंधान समूह और अमेरिका स्थित शोधकर्ताओं के बीच एक सहयोग ने चार साल पहले सामने आई घटना के बाद से डीपफेक तकनीक में पहला वास्तविक नवाचार विकसित किया है।
नई विधि ऐसे फेसस्वैप का प्रदर्शन कर सकती है जो मानक अवधारणात्मक परीक्षणों पर अन्य सभी मौजूदा ढांचों से बेहतर प्रदर्शन करती है, इसके लिए बड़े समर्पित डेटासेट को व्यापक रूप से इकट्ठा करने और क्यूरेट करने और उन्हें केवल एक पहचान के लिए एक सप्ताह तक प्रशिक्षित करने की आवश्यकता नहीं होती है। नए पेपर में प्रस्तुत उदाहरणों के लिए, मॉडलों को प्रशिक्षित किया गया संपूर्णता लगभग तीन दिनों के लिए एक NVIDIA Tesla P40 GPU पर दो लोकप्रिय सेलिब्रिटी डेटासेट का उपयोग किया गया।
नया दृष्टिकोण लक्षित वीडियो में प्रत्यारोपित पहचान को 'चिपकाने' की आवश्यकता को हटा देता है, जो अक्सर कहानी बताने की ओर ले जाता है कलाकृतियों वह प्रकट होता है जहां नकली चेहरा समाप्त होता है और असली, अंतर्निहित चेहरा शुरू होता है। बल्कि, 'मतिभ्रम मानचित्र' का उपयोग दृश्य पहलुओं का गहरा मिश्रण करने के लिए किया जाता है, क्योंकि सिस्टम मौजूदा तरीकों की तुलना में पहचान को संदर्भ से कहीं अधिक प्रभावी ढंग से अलग करता है, और इसलिए लक्ष्य पहचान को अधिक गहन स्तर पर मिश्रित कर सकता है।
प्रभावी रूप से नया मतिभ्रम मानचित्र स्वैप के लिए अधिक संपूर्ण संदर्भ प्रदान करता है, उन कठिन मुखौटों के विपरीत जिन्हें अक्सर व्यापक क्यूरेशन की आवश्यकता होती है (और डीपफेसलैब के मामले में, अलग प्रशिक्षण) दो पहचानों के वास्तविक समावेश के संदर्भ में सीमित लचीलापन प्रदान करते हुए।
RSI काग़ज़, शीर्षक वन-स्टेज संदर्भ और पहचान मतिभ्रम नेटवर्क, जेडी एआई रिसर्च और मैसाचुसेट्स एमहर्स्ट विश्वविद्यालय से संबद्ध शोधकर्ताओं द्वारा लिखा गया है, और इसे अनुदान संख्या 2020AAA0103800 के तहत चीन के राष्ट्रीय कुंजी अनुसंधान एवं विकास कार्यक्रम द्वारा समर्थित किया गया था। इसे 29-20 अक्टूबर को चेंगदू, चीन में मल्टीमीडिया पर 24वें एसीएम अंतर्राष्ट्रीय सम्मेलन में पेश किया गया था।
'फेस-ऑन' समता की कोई आवश्यकता नहीं
दोनों सबसे लोकप्रिय मौजूदा डीपफेक सॉफ्टवेयर, डीपफेसलैब और प्रतिस्पर्धी फोर्क फेसस्वैप, टेढ़ा और बार-बार हाथ से तैयार किए गए वर्कफ़्लो का प्रदर्शन करते हैं ताकि यह पता लगाया जा सके कि चेहरा किस दिशा में झुका हुआ है, रास्ते में कौन सी बाधाएं हैं जिनका ध्यान रखना होगा (फिर से, मैन्युअल रूप से) , और कई अन्य परेशान करने वाली बाधाओं (प्रकाश सहित) से निपटना होगा जो डीपफेक के आगमन के बाद से मीडिया में गलत तरीके से चित्रित किए गए 'प्वाइंट-एंड-क्लिक' अनुभव से उनका उपयोग दूर कर देता है।
इसके विपरीत, CihaNet को एक ही छवि से उपयोगी पहचान जानकारी निकालने और उसका दोहन करने के लिए दो छवियों को सीधे कैमरे के सामने रखने की आवश्यकता नहीं है।
आर्किटेक्चर
लेखकों के अनुसार, सिहानेट परियोजना, माइक्रोसॉफ्ट रिसर्च और पेकिंग यूनिवर्सिटी के बीच 2019 के सहयोग से प्रेरित थी, जिसे कहा जाता है फेसशिफ्टर, हालाँकि यह पुरानी पद्धति की मूल वास्तुकला में कुछ उल्लेखनीय और महत्वपूर्ण परिवर्तन करता है।
फेसशिफ्टर दो अनुकूली इंस्टेंस सामान्यीकरण का उपयोग करता है (AdaIN) पहचान की जानकारी को संभालने के लिए नेटवर्क, जिसके बाद डेटा को एक मास्क के माध्यम से लक्ष्य छवि में स्थानांतरित किया जाता है, एक तरह से वर्तमान लोकप्रिय डीपफेक सॉफ़्टवेयर (और इसकी सभी संबंधित सीमाओं के साथ) के समान, एक अतिरिक्त का उपयोग करके HEAR-नेट (जिसमें रोड़ा बाधाओं पर प्रशिक्षित एक अलग से प्रशिक्षित उप-नेट शामिल है - जटिलता की एक अतिरिक्त परत)।
इसके बजाय, नया आर्किटेक्चर दो-चरणीय सिंगल कैस्केडिंग एडेप्टिव इंस्टेंस नॉर्मलाइज़ेशन (C-AdaIN) ऑपरेशन के माध्यम से परिवर्तनकारी प्रक्रिया के लिए सीधे इस 'प्रासंगिक' जानकारी का उपयोग करता है, जो आईडी के संदर्भ (यानी चेहरे की त्वचा और अवरोध) की स्थिरता प्रदान करता है। प्रासंगिक क्षेत्र.
सिस्टम के लिए महत्वपूर्ण दूसरे उप-नेट को स्वैपिंग ब्लॉक (स्वैपब्लॉक) कहा जाता है, जो संदर्भ छवि के संदर्भ से एक एकीकृत सुविधा और स्रोत छवि से एम्बेडेड 'पहचान' जानकारी उत्पन्न करता है, इसे पूरा करने के लिए आवश्यक कई चरणों को दरकिनार करता है। परंपरागत वर्तमान साधन.
संदर्भ और पहचान के बीच अंतर करने में मदद के लिए, a मतिभ्रम मानचित्र प्रत्येक स्तर के लिए तैयार किया जाता है, एक सॉफ्ट-सेगमेंटेशन मास्क के लिए खड़ा होता है, और डीपफेक प्रक्रिया के इस महत्वपूर्ण भाग के लिए सुविधाओं की एक विस्तृत श्रृंखला पर कार्य करता है।
इस तरह, संपूर्ण स्वैपिंग प्रक्रिया एक ही चरण में और बिना पोस्ट-प्रोसेसिंग के पूरी हो जाती है।
डेटा और परीक्षण
सिस्टम को आज़माने के लिए, शोधकर्ताओं ने दो अत्यधिक लोकप्रिय और विविध खुली छवि डेटासेट पर चार मॉडलों को प्रशिक्षित किया - सेलेबए-मुख्यालय और NVIDIA का फ़्लिकर-फेसेस-एचक्यू डेटासेट (एफएफएचक्यू), प्रत्येक में क्रमशः 30,000 और 70,000 छवियां हैं।
इन आधार डेटासेट पर कोई काट-छाँट या फ़िल्टरिंग नहीं की गई। प्रत्येक मामले में, शोधकर्ताओं ने एडम ऑप्टिमाइज़ेशन पर 0.0002 की सीखने की दर के साथ, तीन दिनों में एकल टेस्ला जीपीयू पर प्रत्येक डेटासेट की संपूर्णता को प्रशिक्षित किया।
फिर उन्होंने डेटासेट में चित्रित हजारों व्यक्तित्वों के बीच यादृच्छिक अदला-बदली की एक श्रृंखला प्रस्तुत की, बिना इस बात की परवाह किए कि चेहरे समान थे या लिंग-मिलान भी थे, और सिहानेट के परिणामों की तुलना चार प्रमुख डीपफेक फ्रेमवर्क के आउटपुट से की: चेहरा बदलना (जो अधिक लोकप्रिय के लिए है डीपफेसलैब, क्योंकि यह एक रूट कोडबेस साझा करता है मूल 2017 भंडार जो दुनिया में डीपफेक लेकर आया); उपर्युक्त फेसशिफ्टर; एफएसजीएएन, और सिमस्वैप.
के माध्यम से परिणामों की तुलना में वीजीजी-चेहरा, एफएफएचक्यू, सेलेबए-मुख्यालय और फेस फोरेंसिक ++, लेखकों ने पाया कि उनके नए मॉडल ने सभी पिछले मॉडलों से बेहतर प्रदर्शन किया, जैसा कि नीचे दी गई तालिका में दर्शाया गया है।
परिणामों के मूल्यांकन में उपयोग की जाने वाली तीन मीट्रिक संरचनात्मक समानता थीं (एसएसआईएम), अनुमान लगाने में त्रुटि और आईडी पुनर्प्राप्ति सटीकता, जिसकी गणना सफलतापूर्वक प्राप्त जोड़े के प्रतिशत के आधार पर की जाती है।
शोधकर्ताओं का तर्क है कि CihaNet गुणात्मक परिणामों के मामले में एक बेहतर दृष्टिकोण का प्रतिनिधित्व करता है, और व्यापक और श्रम-गहन मास्किंग आर्किटेक्चर और कार्यप्रणाली के बोझ को हटाकर, और अधिक उपयोगी प्राप्त करके, डीपफेक प्रौद्योगिकियों में कला की वर्तमान स्थिति पर एक उल्लेखनीय प्रगति का प्रतिनिधित्व करता है। और संदर्भ से पहचान का कार्रवाई योग्य पृथक्करण।
नई तकनीक के और वीडियो उदाहरण देखने के लिए नीचे देखें। आप पूर्ण लंबाई वाला वीडियो पा सकते हैं यहाँ उत्पन्न करें.
नए पेपर के लिए पूरक सामग्री से, सिहानेट विभिन्न पहचानों पर फेसस्वैपिंग करता है। स्रोत: https://mitchellx.github.io/#video