Artificial Intelligence

एक नई और सरल डीपफेक विधि जो पिछले दृष्टिकोणों से बेहतर प्रदर्शन करती है

Updated on दिसम्बर 9/2022

चीनी एआई अनुसंधान समूह और अमेरिका स्थित शोधकर्ताओं के बीच एक सहयोग ने चार साल पहले सामने आई घटना के बाद से डीपफेक तकनीक में पहला वास्तविक नवाचार विकसित किया है।

नई विधि ऐसे फेसस्वैप का प्रदर्शन कर सकती है जो मानक अवधारणात्मक परीक्षणों पर अन्य सभी मौजूदा ढांचों से बेहतर प्रदर्शन करती है, इसके लिए बड़े समर्पित डेटासेट को व्यापक रूप से इकट्ठा करने और क्यूरेट करने और उन्हें केवल एक पहचान के लिए एक सप्ताह तक प्रशिक्षित करने की आवश्यकता नहीं होती है। नए पेपर में प्रस्तुत उदाहरणों के लिए, मॉडलों को प्रशिक्षित किया गया संपूर्णता लगभग तीन दिनों के लिए एक NVIDIA Tesla P40 GPU पर दो लोकप्रिय सेलिब्रिटी डेटासेट का उपयोग किया गया।

पूरा वीडियो इस लेख के अंत में एम्बेड किया गया है। नए पेपर के लिए पूरक सामग्री में एक वीडियो के इस नमूने में, स्कारलेट जोहानसन का चेहरा स्रोत वीडियो पर स्थानांतरित किया गया है। CihaNet स्रोत और लक्ष्य पहचान के बीच गहरे संबंधों को बनाकर और अधिनियमित करके, स्वैप करते समय एज-मास्किंग की समस्या को दूर करता है, जिसका अर्थ है 'स्पष्ट सीमाओं' और पारंपरिक डीपफेक दृष्टिकोण में होने वाली अन्य सुपरइम्पोज़िशन गड़बड़ियों का अंत। स्रोत: स्रोत: https://mitchellx.github.io/#video

पूरा वीडियो इस लेख के अंत में उपलब्ध है। नए पेपर के लेखकों में से एक द्वारा प्रदान की गई पूरक सामग्रियों में से एक वीडियो के इस नमूने में, स्कारलेट जोहानसन का चेहरा स्रोत वीडियो पर स्थानांतरित किया गया है। CihaNet स्रोत और लक्ष्य पहचान के बीच गहरे संबंधों को बनाकर और अधिनियमित करके, स्वैप करते समय एज-मास्किंग की समस्या को दूर करता है, जिसका अर्थ है 'स्पष्ट सीमाओं' और पारंपरिक डीपफेक दृष्टिकोण में होने वाली अन्य सुपरइम्पोज़िशन गड़बड़ियों का अंत। स्रोत: स्रोत: https://mitchellx.github.io/#video

नया दृष्टिकोण लक्षित वीडियो में प्रत्यारोपित पहचान को 'चिपकाने' की आवश्यकता को हटा देता है, जो अक्सर कहानी बताने की ओर ले जाता है कलाकृतियों वह प्रकट होता है जहां नकली चेहरा समाप्त होता है और असली, अंतर्निहित चेहरा शुरू होता है। बल्कि, 'मतिभ्रम मानचित्र' का उपयोग दृश्य पहलुओं का गहरा मिश्रण करने के लिए किया जाता है, क्योंकि सिस्टम मौजूदा तरीकों की तुलना में पहचान को संदर्भ से कहीं अधिक प्रभावी ढंग से अलग करता है, और इसलिए लक्ष्य पहचान को अधिक गहन स्तर पर मिश्रित कर सकता है।

कागज से. CihaNet परिवर्तनों को मतिभ्रम मानचित्रों (निचली पंक्ति) के माध्यम से सुविधाजनक बनाया गया है। सिस्टम पूरी तरह से उस छवि से संदर्भ जानकारी (यानी चेहरे की दिशा, बाल, चश्मा और अन्य अवक्षेप इत्यादि) का उपयोग करता है जिसमें नई पहचान आरोपित की जाएगी, और चेहरे की पहचान की जानकारी पूरी तरह से उस व्यक्ति से ली जाती है जिसे छवि में डाला जाना है। संदर्भ से चेहरे को अलग करने की यह क्षमता प्रणाली की सफलता के लिए महत्वपूर्ण है। स्रोत: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

प्रभावी रूप से नया मतिभ्रम मानचित्र स्वैप के लिए अधिक संपूर्ण संदर्भ प्रदान करता है, उन कठिन मुखौटों के विपरीत जिन्हें अक्सर व्यापक क्यूरेशन की आवश्यकता होती है (और डीपफेसलैब के मामले में, अलग प्रशिक्षण) दो पहचानों के वास्तविक समावेश के संदर्भ में सीमित लचीलापन प्रदान करते हुए।

VGGFace और Forensics++ में FFHQ और Celeb-A HQ डेटासेट दोनों का उपयोग करते हुए, पूरक सामग्रियों में दिए गए नमूनों से। पहले दो कॉलम स्वैप की जाने वाली यादृच्छिक रूप से चयनित (वास्तविक) छवियों को दिखाते हैं। निम्नलिखित चार कॉलम वर्तमान में उपलब्ध चार सबसे प्रभावी तरीकों का उपयोग करके स्वैप के परिणाम दिखाते हैं, जबकि अंतिम कॉलम CihaNet से परिणाम दिखाता है। अधिक लोकप्रिय डीपफेसलैब के बजाय फेसस्वैप रिपॉजिटरी का उपयोग किया गया है, क्योंकि दोनों प्रोजेक्ट GitHub पर मूल 2017 डीपफेक कोड के फोर्क हैं। हालाँकि प्रत्येक परियोजना में मॉडल, तकनीक, विविध यूआई और पूरक उपकरण जोड़े गए हैं, लेकिन अंतर्निहित कोड जो डीपफेक को संभव बनाता है वह कभी नहीं बदला है, और दोनों के लिए सामान्य बना हुआ है। स्रोत: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

RSI काग़ज़, शीर्षक वन-स्टेज संदर्भ और पहचान मतिभ्रम नेटवर्क, जेडी एआई रिसर्च और मैसाचुसेट्स एमहर्स्ट विश्वविद्यालय से संबद्ध शोधकर्ताओं द्वारा लिखा गया है, और इसे अनुदान संख्या 2020AAA0103800 के तहत चीन के राष्ट्रीय कुंजी अनुसंधान एवं विकास कार्यक्रम द्वारा समर्थित किया गया था। इसे 29-20 अक्टूबर को चेंगदू, चीन में मल्टीमीडिया पर 24वें एसीएम अंतर्राष्ट्रीय सम्मेलन में पेश किया गया था।

'फेस-ऑन' समता की कोई आवश्यकता नहीं

दोनों सबसे लोकप्रिय मौजूदा डीपफेक सॉफ्टवेयर, डीपफेसलैब और प्रतिस्पर्धी फोर्क फेसस्वैप, टेढ़ा और बार-बार हाथ से तैयार किए गए वर्कफ़्लो का प्रदर्शन करते हैं ताकि यह पता लगाया जा सके कि चेहरा किस दिशा में झुका हुआ है, रास्ते में कौन सी बाधाएं हैं जिनका ध्यान रखना होगा (फिर से, मैन्युअल रूप से) , और कई अन्य परेशान करने वाली बाधाओं (प्रकाश सहित) से निपटना होगा जो डीपफेक के आगमन के बाद से मीडिया में गलत तरीके से चित्रित किए गए 'प्वाइंट-एंड-क्लिक' अनुभव से उनका उपयोग दूर कर देता है।

इसके विपरीत, CihaNet को एक ही छवि से उपयोगी पहचान जानकारी निकालने और उसका दोहन करने के लिए दो छवियों को सीधे कैमरे के सामने रखने की आवश्यकता नहीं है।

इन उदाहरणों में, डीपफेक सॉफ़्टवेयर दावेदारों के एक समूह को उन चेहरों की अदला-बदली करने के कार्य के साथ चुनौती दी जाती है जो न केवल पहचान में भिन्न हैं, बल्कि जो एक ही तरह का सामना नहीं कर रहे हैं। मूल डीपफेक रिपॉजिटरी (जैसे कि बेहद लोकप्रिय डीपफेसलैब और फेसस्वैप, ऊपर चित्रित) से प्राप्त सॉफ्टवेयर स्वैप की जाने वाली दो छवियों के बीच कोणों में असमानता को संभाल नहीं सकता है (तीसरा कॉलम देखें)। इस बीच, सिहानेट पहचान को सही ढंग से अमूर्त कर सकता है, क्योंकि चेहरे की 'मुद्रा' आंतरिक रूप से पहचान की जानकारी का हिस्सा नहीं है।

आर्किटेक्चर

लेखकों के अनुसार, सिहानेट परियोजना, माइक्रोसॉफ्ट रिसर्च और पेकिंग यूनिवर्सिटी के बीच 2019 के सहयोग से प्रेरित थी, जिसे कहा जाता है फेसशिफ्टर, हालाँकि यह पुरानी पद्धति की मूल वास्तुकला में कुछ उल्लेखनीय और महत्वपूर्ण परिवर्तन करता है।

फेसशिफ्टर दो अनुकूली इंस्टेंस सामान्यीकरण का उपयोग करता है (AdaIN) पहचान की जानकारी को संभालने के लिए नेटवर्क, जिसके बाद डेटा को एक मास्क के माध्यम से लक्ष्य छवि में स्थानांतरित किया जाता है, एक तरह से वर्तमान लोकप्रिय डीपफेक सॉफ़्टवेयर (और इसकी सभी संबंधित सीमाओं के साथ) के समान, एक अतिरिक्त का उपयोग करके HEAR-नेट (जिसमें रोड़ा बाधाओं पर प्रशिक्षित एक अलग से प्रशिक्षित उप-नेट शामिल है - जटिलता की एक अतिरिक्त परत)।

इसके बजाय, नया आर्किटेक्चर दो-चरणीय सिंगल कैस्केडिंग एडेप्टिव इंस्टेंस नॉर्मलाइज़ेशन (C-AdaIN) ऑपरेशन के माध्यम से परिवर्तनकारी प्रक्रिया के लिए सीधे इस 'प्रासंगिक' जानकारी का उपयोग करता है, जो आईडी के संदर्भ (यानी चेहरे की त्वचा और अवरोध) की स्थिरता प्रदान करता है। प्रासंगिक क्षेत्र.

सिस्टम के लिए महत्वपूर्ण दूसरे उप-नेट को स्वैपिंग ब्लॉक (स्वैपब्लॉक) कहा जाता है, जो संदर्भ छवि के संदर्भ से एक एकीकृत सुविधा और स्रोत छवि से एम्बेडेड 'पहचान' जानकारी उत्पन्न करता है, इसे पूरा करने के लिए आवश्यक कई चरणों को दरकिनार करता है। परंपरागत वर्तमान साधन.

संदर्भ और पहचान के बीच अंतर करने में मदद के लिए, a मतिभ्रम मानचित्र प्रत्येक स्तर के लिए तैयार किया जाता है, एक सॉफ्ट-सेगमेंटेशन मास्क के लिए खड़ा होता है, और डीपफेक प्रक्रिया के इस महत्वपूर्ण भाग के लिए सुविधाओं की एक विस्तृत श्रृंखला पर कार्य करता है।

जैसे-जैसे मतिभ्रम मानचित्र (दाईं ओर नीचे चित्रित) का मूल्य बढ़ता है, पहचानों के बीच एक स्पष्ट रास्ता उभरता है।

इस तरह, संपूर्ण स्वैपिंग प्रक्रिया एक ही चरण में और बिना पोस्ट-प्रोसेसिंग के पूरी हो जाती है।

डेटा और परीक्षण

सिस्टम को आज़माने के लिए, शोधकर्ताओं ने दो अत्यधिक लोकप्रिय और विविध खुली छवि डेटासेट पर चार मॉडलों को प्रशिक्षित किया - सेलेबए-मुख्यालय और NVIDIA का फ़्लिकर-फेसेस-एचक्यू डेटासेट (एफएफएचक्यू), प्रत्येक में क्रमशः 30,000 और 70,000 छवियां हैं।

इन आधार डेटासेट पर कोई काट-छाँट या फ़िल्टरिंग नहीं की गई। प्रत्येक मामले में, शोधकर्ताओं ने एडम ऑप्टिमाइज़ेशन पर 0.0002 की सीखने की दर के साथ, तीन दिनों में एकल टेस्ला जीपीयू पर प्रत्येक डेटासेट की संपूर्णता को प्रशिक्षित किया।

फिर उन्होंने डेटासेट में चित्रित हजारों व्यक्तित्वों के बीच यादृच्छिक अदला-बदली की एक श्रृंखला प्रस्तुत की, बिना इस बात की परवाह किए कि चेहरे समान थे या लिंग-मिलान भी थे, और सिहानेट के परिणामों की तुलना चार प्रमुख डीपफेक फ्रेमवर्क के आउटपुट से की: चेहरा बदलना (जो अधिक लोकप्रिय के लिए है डीपफेसलैब, क्योंकि यह एक रूट कोडबेस साझा करता है मूल 2017 भंडार जो दुनिया में डीपफेक लेकर आया); उपर्युक्त फेसशिफ्टर; एफएसजीएएन, और सिमस्वैप.

के माध्यम से परिणामों की तुलना में वीजीजी-चेहरा, एफएफएचक्यू, सेलेबए-मुख्यालय और फेस फोरेंसिक ++, लेखकों ने पाया कि उनके नए मॉडल ने सभी पिछले मॉडलों से बेहतर प्रदर्शन किया, जैसा कि नीचे दी गई तालिका में दर्शाया गया है।

परिणामों के मूल्यांकन में उपयोग की जाने वाली तीन मीट्रिक संरचनात्मक समानता थीं (एसएसआईएम), अनुमान लगाने में त्रुटि और आईडी पुनर्प्राप्ति सटीकता, जिसकी गणना सफलतापूर्वक प्राप्त जोड़े के प्रतिशत के आधार पर की जाती है।

शोधकर्ताओं का तर्क है कि CihaNet गुणात्मक परिणामों के मामले में एक बेहतर दृष्टिकोण का प्रतिनिधित्व करता है, और व्यापक और श्रम-गहन मास्किंग आर्किटेक्चर और कार्यप्रणाली के बोझ को हटाकर, और अधिक उपयोगी प्राप्त करके, डीपफेक प्रौद्योगिकियों में कला की वर्तमान स्थिति पर एक उल्लेखनीय प्रगति का प्रतिनिधित्व करता है। और संदर्भ से पहचान का कार्रवाई योग्य पृथक्करण।

नई तकनीक के और वीडियो उदाहरण देखने के लिए नीचे देखें। आप पूर्ण लंबाई वाला वीडियो पा सकते हैं यहाँ उत्पन्न करें.