рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдПрдХ рдирдпрд╛ рдФрд░ рд╕рд░рд▓ рдбреАрдкрдлреЗрдХ рд╡рд┐рдзрд┐ рдЬреЛ рдкрд┐рдЫрд▓реЗ рджреГрд╖реНрдЯрд┐рдХреЛрдгреЛрдВ рдХреЛ рдкрд╛рд░ рдХрд░рддреА рд╣реИ

चीनी एआई अनुसंधान समूह और यूएस-आधारित शोधकर्ताओं के बीच एक सहयोग ने चार साल पहले इसके उद्भव के बाद डीपफेक प्रौद्योगिकी में पहली वास्तविक नवाचार विकसित की है।
नई विधि मानक संवेदी परीक्षणों पर सभी मौजूदा फ्रेमवर्क से बेहतर प्रदर्शन करते हुए फेसस्वैप कर सकती है, जिसके लिए बड़े समर्पित डेटासेट को थकावट से इकट्ठा करने और उन्हें एक सप्ताह तक प्रशिक्षित करने की आवश्यकता नहीं होती है, केवल एक ही पहचान के लिए। नए पत्र में प्रस्तुत उदाहरणों के लिए, मॉडल दो लोकप्रिय सेलिब्रिटी डेटासेट की पूर्णता पर लगभग तीन दिनों के लिए एक NVIDIA Tesla P40 GPU पर प्रशिक्षित किए गए थे।

पूरा वीडियो इस लेख के अंत में उपलब्ध है। इस वीडियो के पूरक सामग्री में से एक नमूने में, स्कारलेट जोहानसन का चेहरा स्रोत वीडियो पर स्थानांतरित किया जाता है। CihaNet स्वैप करते समय एज-मास्किंग की समस्या को दूर करता है, स्रोत और लक्ष्य पहचान के बीच गहरे संबंध बनाकर और उन्हें लागू करके, जिसका अर्थ है ‘स्पष्ट सीमाओं’ और पारंपरिक डीपफेक दृष्टिकोण में होने वाले अन्य सुपरइम्पोज़िशन ग्लिच का अंत। स्रोत: स्रोत: https://mitchellx.github.io/#video
नई विधि लक्ष्य वीडियो में क्रूडली प्रत्यारोपित पहचान को ‘पेस्ट’ करने की आवश्यकता को दूर करती है, जो अक्सर बताने वाले कलाकृतियों को जन्म देती है जो नकली चेहरे के अंत और वास्तविक, अंतर्निहित चेहरे की शुरुआत में दिखाई देती हैं। इसके बजाय, ‘हॉलुसिनेशन मैप’ का उपयोग दृश्य पहलुओं के गहरे मिश्रण को करने के लिए किया जाता है, क्योंकि प्रणाली वर्तमान विधियों की तुलना में पहचान को संदर्भ से अधिक प्रभावी ढंग से अलग करती है, और इसलिए लक्ष्य पहचान को एक अधिक गहरे स्तर पर मिला सकती है।

पत्र से। CihaNet परिवर्तन हॉलुसिनेशन मैप (नीचे की पंक्ति) के माध्यम से सुविधाजनक हैं। प्रणाली संदर्भ जानकारी (यानी, चेहरे की दिशा, बाल, चश्मे और अन्य अवरोध, आदि) पूरी तरह से उस छवि से लेती है जिसमें नई पहचान सुपरइम्पोज़ की जाएगी, और चेहरे की पहचान जानकारी पूरी तरह से उस व्यक्ति से जो छवि में डाली जाने वाली है। पहचान को संदर्भ से अलग करने की यह क्षमता प्रणाली की सफलता के लिए महत्वपूर्ण है। स्रोत: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257
प्रभावी रूप से, नई हॉलुसिनेशन मैप स्वैप के लिए एक अधिक पूर्ण संदर्भ प्रदान करती है, जो कि अक्सर व्यापक क्यूरेशन (और डीपफेसलैब के मामले में, अलग प्रशिक्षण) की आवश्यकता होती है, जबकि दो पहचानों के वास्तविक एकीकरण के मामले में सीमित लचीलापन प्रदान करती है।

पूरक सामग्री में से नमूनों का उपयोग करते हुए, VGGFace और Forensics++ पर FFHQ और Celeb-A HQ डेटासेट का उपयोग करते हुए। पहले दो कॉलम यादृच्छिक रूप से चुनी गई (वास्तविक) छवियों को दिखाते हैं जिन्हें स्वैप किया जाना है। अगले चार कॉलम वर्तमान में उपलब्ध चार सबसे प्रभावी तरीकों का उपयोग करके स्वैप के परिणाम दिखाते हैं, जबकि अंतिम कॉलम CihaNet के परिणाम को दिखाता है। FaceSwap रिपॉजिटरी का उपयोग DeepFaceLab के बजाय किया गया है, क्योंकि दोनों परियोजनाएं मूल 2017 डीपफेक्स कोड के फोर्क हैं जो GitHub पर हैं। हालांकि प्रत्येक परियोजना ने बाद में मॉडल, तकनीक, विविध यूआई और पूरक उपकरण जोड़े हैं, लेकिन जो कोड डीपफेक्स को संभव बनाता है वह कभी नहीं बदला है और दोनों के लिए सामान्य है। स्रोत: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip
पत्र, जिसका शीर्षक वन-स्टेज कॉन्टेक्स्ट एंड आइडेंटिटी हॉलुसिनेशन नेटवर्क है, जेडी एआई रिसर्च और यूनिवर्सिटी ऑफ मैसाचुसेट्स अम्हर्स्ट के शोधकर्ताओं द्वारा लिखा गया है, और यह राष्ट्रीय की रिसर्च एंड डेवलपमेंट प्रोग्राम ऑफ चाइना के तहत ग्रांट नं। 2020AAA0103800 द्वारा समर्थित है। यह 29वें ACM इंटरनेशनल कॉन्फ्रेंस ऑन मल्टीमीडिया में पेश किया गया था, जो 20-24 अक्टूबर को चेंगदू, चीन में आयोजित किया गया था।
‘फेस-ऑन’ समानता की आवश्यकता नहीं
दोनों सबसे लोकप्रिय वर्तमान डीपफेक सॉफ्टवेयर, डीपफेसलैब, और प्रतिस्पर्धी फोर्क फेसस्वैप, जटिल और अक्सर हाथ से क्यूरेटेड वर्कफ्लो का उपयोग करके यह पहचानने की कोशिश करते हैं कि एक चेहरा किस दिशा में है, कौन से बाधाएं हैं जिन्हें ध्यान में रखना होगा (फिर से, मैनुअल रूप से), और कई अन्य परेशान करने वाली बाधाओं (รวม लाइटिंग) को संभालना होगा जो उनके उपयोग को ‘पॉइंट-एंड-क्लिक’ अनुभव से दूर बनाते हैं जो मीडिया में डीपफेक्स के आगमन के बाद से गलत तरीके से चित्रित किया गया है।
इसके विपरीत, CihaNet को दो छवियों को सीधे कैमरे की ओर मुखातिब होने की आवश्यकता नहीं होती है ताकि एक छवि से उपयोगी पहचान जानकारी निकाली जा सके और इसका फायदा उठाया जा सके।
<img class="size-full wp-image-178605" src="https://www.unite.ai/wp-content/uploads/2021/11/cihanet-angles.jpg" alt="इन उदाहरणों में, एक सूट डीपफेक सॉफ्टवेयर प्रतिद्वंद्वियों को यह कार्य सौंपा जाता है कि वे चेहरों को स्वैप करें जो न केवल पहचान में भिन्न हैं, बल्कि जो एक ही दिशा में भी नहीं हैं। मूल डीपफेक्स रिपॉजिटरी (जैसे कि बहुत लोकप्रिय डीपफेसलैब और फेसस्वैप, ऊपर दिखाया गया है) दो छवियों के बीच कोणों में असमानता को संभालने में असमर्थ हैं (तीसरे कॉलम को देखें)। जबकि CihaNet पहचान को सही ढंग से स abstract कर सकता है, क्योंकि चेहरे का 'मुद्रा' पहचान जानकारी का एक अंतर्निहित हिस्सा नहीं है।आर्किटेक्चर
CihaNet परियोजना, लेखकों के अनुसार, 2019 में माइक्रोसॉफ्ट रिसर्च और पेकिंग यूनिवर्सिटी के बीच सहयोग से प्रेरित थी, जिसे फेसशिफ्टर कहा जाता है, हालांकि यह पुराने तरीके की मूल वास्तुकला में कुछ उल्लेखनीय और महत्वपूर्ण परिवर्तन करता है।
फेसशिफ्टर दो एडाप्टिव इंस्टेंस नॉर्मलाइजेशन (एडीएआईएन) नेटवर्क का उपयोग पहचान जानकारी को संभालने के लिए करता है, जो डेटा तब मास्क के माध्यम से लक्ष्य छवि में स्थानांतरित किया जाता है, एक तरीका जो वर्तमान लोकप्रिय डीपफेक सॉफ्टवेयर (और इसकी संबंधित सीमाओं) के समान है, एक अतिरिक्त हियर-नेट (जिसमें एक अलग से प्रशिक्षित सब-नेट शामिल है जो ऑक्लूजन बाधाओं पर प्रशिक्षित होता है – जटिलता की एक अतिरिक्त परत) का उपयोग करता है।
इसके बजाय, नई वास्तुकला सीधे इस ‘संदर्भ’ जानकारी का उपयोग परिवर्तनकारी प्रक्रिया के लिए करती है, एक दो-चरण एक कैस्केडिंग एडाप्टिव इंस्टेंस नॉर्मलाइजेशन (सी-एडीएआईएन) ऑपरेशन के माध्यम से, जो आईडी-संबंधित क्षेत्रों के संदर्भ की निरंतरता प्रदान करता है।
सिस्टम के लिए महत्वपूर्ण दूसरा सब-नेट स्वैपिंग ब्लॉक (स्वैपब्लक) कहलाता है, जो संदर्भ छवि के संदर्भ और स्रोत छवि से एम्बेडेड ‘पहचान’ जानकारी से एक एकीकृत सुविधा उत्पन्न करता है, पारंपरिक माध्यमों से इसे पूरा करने के लिए आवश्यक कई चरणों को दरकिनार करता है।
संदर्भ और पहचान के बीच अंतर करने में मदद करने के लिए, प्रत्येक स्तर के लिए एक हॉलुसिनेशन मैप उत्पन्न किया जाता है, जो एक सॉफ्ट-सेगमेंटेशन मास्क के लिए खड़ा है, और इस महत्वपूर्ण डीपफेक प्रक्रिया के इस महत्वपूर्ण हिस्से के लिए व्यापक सुविधाओं पर कार्य करता है।

जैसे ही हॉलुसिनेशन मैप (नीचे दाईं ओर दिखाया गया है) का मूल्य बढ़ता है, पहचान के बीच एक स्पष्ट पथ उभरता है।
इस तरह, पूरी स्वैपिंग प्रक्रिया एक ही चरण में और पोस्ट-प्रोसेसिंग के बिना पूरी की जाती है।
डेटा और परीक्षण
सिस्टम को आजमाने के लिए, शोधकर्ताओं ने चार मॉडलों को दो अत्यधिक लोकप्रिय और विविध खुले छवि डेटासेट – सेलेबा-एचक्यू और एनवीडिया के फ्लिकर-फेस-एचक्यू डेटासेट (एफएफएचक्यू) पर प्रशिक्षित किया, जिनमें से प्रत्येक में क्रमशः 30,000 और 70,000 छवियां हैं।
इन आधार डेटासेट पर कोई प्रूनिंग या फिल्टरिंग नहीं की गई थी। प्रत्येक मामले में, शोधकर्ताओं ने प्रत्येक डेटासेट की पूर्णता को एक टेस्ला जीपीयू पर तीन दिनों के लिए प्रशिक्षित किया, एडम ऑप्टिमाइजेशन पर 0.0002 की लर्निंग दर के साथ।
उन्होंने तब डेटासेट में व्यक्तियों के बीच यादृच्छिक स्वैप की एक श्रृंखला को रेंडर किया, यह ध्यान नहीं देते हुए कि क्या चेहरे समान थे या यहां तक कि लिंग-मिलान वाले थे, और CihaNet के परिणामों की तुलना चार प्रमुख डीपफेक फ्रेमवर्क के आउटपुट से की: फेसस्वैप (जो अधिक लोकप्रिय डीपफेसलैब के लिए खड़ा है, क्योंकि यह मूल 2017 रिपॉजिटरी में रूट कोडबेस को साझा करता है जिसने दुनिया में डीपफेक्स लाए); उपरोक्त फेसशिफ्टर; एफएसजीएन; और सिमस्वैप.
परिणामों की तुलना वीजीजीएफेस, एफएफएचक्यू, सेलेबा-एचक्यू और फेसफोरेंसिक्स++ के माध्यम से की गई, लेखकों ने पाया कि उनका नया मॉडल सभी पिछले मॉडलों को पार करता है, जैसा कि नीचे दी गई तालिका में दिखाया गया है।

मूल्यांकन के लिए उपयोग किए गए तीन मीट्रिक थे संरचनात्मक समानता (एसएसआईएम), मुद्रा अनुमान त्रुटि और आईडी पुनर्प्राप्ति सटीकता, जो सफलतापूर्वक पुनर्प्राप्त जोड़े के प्रतिशत के आधार पर गणना की जाती है।
शोधकर्ता दावा करते हैं कि CihaNet गुणात्मक परिणामों के मामले में एक श्रेष्ठ दृष्टिकोण का प्रतिनिधित्व करता है, और डीपफेक प्रौद्योगिकियों की वर्तमान स्थिति में एक उल्लेखनीय प्रगति है, जो व्यापक और श्रमसाध्य मास्किंग आर्किटेक्चर और विधियों के बोझ को दूर करता है, और पहचान को संदर्भ से अधिक उपयोगी और कार्रवाई योग्य पृथक्करण प्राप्त करता है।
नीचे देखें कि नई तकनीक के और वीडियो उदाहरण देखें। आप पूर्ण लंबाई वाला वीडियो यहां पा सकते हैं।
नई पत्र की पूरक सामग्री से, CihaNet विभिन्न पहचानों पर फेसस्वैपिंग करता है। स्रोत: https://mitchellx.github.io/#video












