Connect with us

рдПрдХ рдирдпрд╛ рдФрд░ рд╕рд░рд▓ рдбреАрдкрдлреЗрдХ рд╡рд┐рдзрд┐ рдЬреЛ рдкрд┐рдЫрд▓реЗ рджреГрд╖реНрдЯрд┐рдХреЛрдгреЛрдВ рдХреЛ рдкрд╛рд░ рдХрд░рддреА рд╣реИ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдПрдХ рдирдпрд╛ рдФрд░ рд╕рд░рд▓ рдбреАрдкрдлреЗрдХ рд╡рд┐рдзрд┐ рдЬреЛ рдкрд┐рдЫрд▓реЗ рджреГрд╖реНрдЯрд┐рдХреЛрдгреЛрдВ рдХреЛ рдкрд╛рд░ рдХрд░рддреА рд╣реИ

mm

चीनी एआई अनुसंधान समूह और यूएस-आधारित शोधकर्ताओं के बीच एक सहयोग ने चार साल पहले इसके उद्भव के बाद डीपफेक प्रौद्योगिकी में पहली वास्तविक नवाचार विकसित की है।

नई विधि मानक संवेदी परीक्षणों पर सभी मौजूदा फ्रेमवर्क से बेहतर प्रदर्शन करते हुए फेसस्वैप कर सकती है, जिसके लिए बड़े समर्पित डेटासेट को थकावट से इकट्ठा करने और उन्हें एक सप्ताह तक प्रशिक्षित करने की आवश्यकता नहीं होती है, केवल एक ही पहचान के लिए। नए पत्र में प्रस्तुत उदाहरणों के लिए, मॉडल दो लोकप्रिय सेलिब्रिटी डेटासेट की पूर्णता पर लगभग तीन दिनों के लिए एक NVIDIA Tesla P40 GPU पर प्रशिक्षित किए गए थे।

पूरा वीडियो इस लेख के अंत में एम्बेडेड है। इस वीडियो के पूरक सामग्री में से एक नमूने में, स्कारलेट जोहानसन का चेहरा स्रोत वीडियो पर स्थानांतरित किया जाता है। CihaNet स्वैप करते समय एज-मास्किंग की समस्या को दूर करता है, स्रोत और लक्ष्य पहचान के बीच गहरे संबंध बनाकर और उन्हें लागू करके, जिसका अर्थ है 'स्पष्ट सीमाओं' और पारंपरिक डीपफेक दृष्टिकोण में होने वाले अन्य सुपरइम्पोज़िशन ग्लिच का अंत। स्रोत: https://mitchellx.github.io/#video

पूरा वीडियो इस लेख के अंत में उपलब्ध है। इस वीडियो के पूरक सामग्री में से एक नमूने में, स्कारलेट जोहानसन का चेहरा स्रोत वीडियो पर स्थानांतरित किया जाता है। CihaNet स्वैप करते समय एज-मास्किंग की समस्या को दूर करता है, स्रोत और लक्ष्य पहचान के बीच गहरे संबंध बनाकर और उन्हें लागू करके, जिसका अर्थ है ‘स्पष्ट सीमाओं’ और पारंपरिक डीपफेक दृष्टिकोण में होने वाले अन्य सुपरइम्पोज़िशन ग्लिच का अंत। स्रोत: स्रोत: https://mitchellx.github.io/#video

नई विधि लक्ष्य वीडियो में क्रूडली प्रत्यारोपित पहचान को ‘पेस्ट’ करने की आवश्यकता को दूर करती है, जो अक्सर बताने वाले कलाकृतियों को जन्म देती है जो नकली चेहरे के अंत और वास्तविक, अंतर्निहित चेहरे की शुरुआत में दिखाई देती हैं। इसके बजाय, ‘हॉलुसिनेशन मैप’ का उपयोग दृश्य पहलुओं के गहरे मिश्रण को करने के लिए किया जाता है, क्योंकि प्रणाली वर्तमान विधियों की तुलना में पहचान को संदर्भ से अधिक प्रभावी ढंग से अलग करती है, और इसलिए लक्ष्य पहचान को एक अधिक गहरे स्तर पर मिला सकती है।

рдкрддреНрд░ рд╕реЗред CihaNet рдкрд░рд┐рд╡рд░реНрддрди рд╣реЙрд▓реБрд╕рд┐рдиреЗрд╢рди рдореИрдк (рдиреАрдЪреЗ рдХреА рдкрдВрдХреНрддрд┐) рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╕реБрд╡рд┐рдзрд╛рдЬрдирдХ рд╣реИрдВред рдкреНрд░рдгрд╛рд▓реА рд╕рдВрджрд░реНрдн рдЬрд╛рдирдХрд╛рд░реА (рдпрд╛рдиреА, рдЪреЗрд╣рд░реЗ рдХреА рджрд┐рд╢рд╛, рдмрд╛рд▓, рдЪрд╢реНрдореЗ рдФрд░ рдЕрдиреНрдп рдЕрд╡рд░реЛрдз, рдЖрджрд┐) рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЙрд╕ рдЫрд╡рд┐ рд╕реЗ рд▓реЗрддреА рд╣реИ рдЬрд┐рд╕рдореЗрдВ рдирдИ рдкрд╣рдЪрд╛рди рд╕реБрдкрд░рдЗрдореНрдкреЛрдЬрд╝ рдХреА рдЬрд╛рдПрдЧреА, рдФрд░ рдЪреЗрд╣рд░реЗ рдХреА рдкрд╣рдЪрд╛рди рдЬрд╛рдирдХрд╛рд░реА рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЙрд╕ рд╡реНрдпрдХреНрддрд┐ рд╕реЗ рдЬреЛ рдЫрд╡рд┐ рдореЗрдВ рдбрд╛рд▓реА рдЬрд╛рдиреЗ рд╡рд╛рд▓реА рд╣реИред рдкрд╣рдЪрд╛рди рдХреЛ рд╕рдВрджрд░реНрдн рд╕реЗ рдЕрд▓рдЧ рдХрд░рдиреЗ рдХреА рдпрд╣ рдХреНрд╖рдорддрд╛ рдкреНрд░рдгрд╛рд▓реА рдХреА рд╕рдлрд▓рддрд╛ рдХреЗ рд▓рд┐рдП рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИред рд╕реНрд░реЛрдд: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

पत्र से। CihaNet परिवर्तन हॉलुसिनेशन मैप (नीचे की पंक्ति) के माध्यम से सुविधाजनक हैं। प्रणाली संदर्भ जानकारी (यानी, चेहरे की दिशा, बाल, चश्मे और अन्य अवरोध, आदि) पूरी तरह से उस छवि से लेती है जिसमें नई पहचान सुपरइम्पोज़ की जाएगी, और चेहरे की पहचान जानकारी पूरी तरह से उस व्यक्ति से जो छवि में डाली जाने वाली है। पहचान को संदर्भ से अलग करने की यह क्षमता प्रणाली की सफलता के लिए महत्वपूर्ण है। स्रोत: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

प्रभावी रूप से, नई हॉलुसिनेशन मैप स्वैप के लिए एक अधिक पूर्ण संदर्भ प्रदान करती है, जो कि अक्सर व्यापक क्यूरेशन (और डीपफेसलैब के मामले में, अलग प्रशिक्षण) की आवश्यकता होती है, जबकि दो पहचानों के वास्तविक एकीकरण के मामले में सीमित लचीलापन प्रदान करती है।

पूरक सामग्री में से नमूनों का उपयोग करते हुए, VGGFace और Forensics++ पर FFHQ और Celeb-A HQ डेटासेट का उपयोग करते हुए। पहले दो कॉलम यादृच्छिक रूप से चुनी गई (वास्तविक) छवियों को दिखाते हैं जिन्हें स्वैप किया जाना है। अगले चार कॉलम वर्तमान में उपलब्ध चार सबसे प्रभावी तरीकों का उपयोग करके स्वैप के परिणाम दिखाते हैं, जबकि अंतिम कॉलम CihaNet के परिणाम को दिखाता है। FaceSwap रिपॉजिटरी का उपयोग DeepFaceLab के बजाय किया गया है, क्योंकि दोनों परियोजनाएं मूल 2017 डीपफेक्स कोड के फोर्क हैं जो GitHub पर हैं। हालांकि प्रत्येक परियोजना ने बाद में मॉडल, तकनीक, विविध यूआई और पूरक उपकरण जोड़े हैं, लेकिन जो कोड डीपफेक्स को संभव बनाता है वह कभी नहीं बदला है और दोनों के लिए सामान्य है। स्रोत: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

पत्र, जिसका शीर्षक वन-स्टेज कॉन्टेक्स्ट एंड आइडेंटिटी हॉलुसिनेशन नेटवर्क है, जेडी एआई रिसर्च और यूनिवर्सिटी ऑफ मैसाचुसेट्स अम्हर्स्ट के शोधकर्ताओं द्वारा लिखा गया है, और यह राष्ट्रीय की रिसर्च एंड डेवलपमेंट प्रोग्राम ऑफ चाइना के तहत ग्रांट नं। 2020AAA0103800 द्वारा समर्थित है। यह 29वें ACM इंटरनेशनल कॉन्फ्रेंस ऑन मल्टीमीडिया में पेश किया गया था, जो 20-24 अक्टूबर को चेंगदू, चीन में आयोजित किया गया था।

‘फेस-ऑन’ समानता की आवश्यकता नहीं

दोनों सबसे लोकप्रिय वर्तमान डीपफेक सॉफ्टवेयर, डीपफेसलैब, और प्रतिस्पर्धी फोर्क फेसस्वैप, जटिल और अक्सर हाथ से क्यूरेटेड वर्कफ्लो का उपयोग करके यह पहचानने की कोशिश करते हैं कि एक चेहरा किस दिशा में है, कौन से बाधाएं हैं जिन्हें ध्यान में रखना होगा (फिर से, मैनुअल रूप से), और कई अन्य परेशान करने वाली बाधाओं (รวม लाइटिंग) को संभालना होगा जो उनके उपयोग को ‘पॉइंट-एंड-क्लिक’ अनुभव से दूर बनाते हैं जो मीडिया में डीपफेक्स के आगमन के बाद से गलत तरीके से चित्रित किया गया है।

इसके विपरीत, CihaNet को दो छवियों को सीधे कैमरे की ओर मुखातिब होने की आवश्यकता नहीं होती है ताकि एक छवि से उपयोगी पहचान जानकारी निकाली जा सके और इसका फायदा उठाया जा सके।

<img class="size-full wp-image-178605" src="https://www.unite.ai/wp-content/uploads/2021/11/cihanet-angles.jpg" alt="इन उदाहरणों में, एक सूट डीपफेक सॉफ्टवेयर प्रतिद्वंद्वियों को यह कार्य सौंपा जाता है कि वे चेहरों को स्वैप करें जो न केवल पहचान में भिन्न हैं, बल्कि जो एक ही दिशा में भी नहीं हैं। मूल डीपफेक्स रिपॉजिटरी (जैसे कि बहुत लोकप्रिय डीपफेसलैब और फेसस्वैप, ऊपर दिखाया गया है) दो छवियों के बीच कोणों में असमानता को संभालने में असमर्थ हैं (तीसरे कॉलम को देखें)। जबकि CihaNet पहचान को सही ढंग से स abstract कर सकता है, क्योंकि चेहरे का 'मुद्रा' पहचान जानकारी का एक अंतर्निहित हिस्सा नहीं है।

आर्किटेक्चर

CihaNet परियोजना, लेखकों के अनुसार, 2019 में माइक्रोसॉफ्ट रिसर्च और पेकिंग यूनिवर्सिटी के बीच सहयोग से प्रेरित थी, जिसे फेसशिफ्टर कहा जाता है, हालांकि यह पुराने तरीके की मूल वास्तुकला में कुछ उल्लेखनीय और महत्वपूर्ण परिवर्तन करता है।

फेसशिफ्टर दो एडाप्टिव इंस्टेंस नॉर्मलाइजेशन (एडीएआईएन) नेटवर्क का उपयोग पहचान जानकारी को संभालने के लिए करता है, जो डेटा तब मास्क के माध्यम से लक्ष्य छवि में स्थानांतरित किया जाता है, एक तरीका जो वर्तमान लोकप्रिय डीपफेक सॉफ्टवेयर (और इसकी संबंधित सीमाओं) के समान है, एक अतिरिक्त हियर-नेट (जिसमें एक अलग से प्रशिक्षित सब-नेट शामिल है जो ऑक्लूजन बाधाओं पर प्रशिक्षित होता है – जटिलता की एक अतिरिक्त परत) का उपयोग करता है।

इसके बजाय, नई वास्तुकला सीधे इस ‘संदर्भ’ जानकारी का उपयोग परिवर्तनकारी प्रक्रिया के लिए करती है, एक दो-चरण एक कैस्केडिंग एडाप्टिव इंस्टेंस नॉर्मलाइजेशन (सी-एडीएआईएन) ऑपरेशन के माध्यम से, जो आईडी-संबंधित क्षेत्रों के संदर्भ की निरंतरता प्रदान करता है।

सिस्टम के लिए महत्वपूर्ण दूसरा सब-नेट स्वैपिंग ब्लॉक (स्वैपब्लक) कहलाता है, जो संदर्भ छवि के संदर्भ और स्रोत छवि से एम्बेडेड ‘पहचान’ जानकारी से एक एकीकृत सुविधा उत्पन्न करता है, पारंपरिक माध्यमों से इसे पूरा करने के लिए आवश्यक कई चरणों को दरकिनार करता है।

संदर्भ और पहचान के बीच अंतर करने में मदद करने के लिए, प्रत्येक स्तर के लिए एक हॉलुसिनेशन मैप उत्पन्न किया जाता है, जो एक सॉफ्ट-सेगमेंटेशन मास्क के लिए खड़ा है, और इस महत्वपूर्ण डीपफेक प्रक्रिया के इस महत्वपूर्ण हिस्से के लिए व्यापक सुविधाओं पर कार्य करता है।

рдЬреИрд╕реЗ рд╣реА рд╣реЙрд▓реБрд╕рд┐рдиреЗрд╢рди рдореИрдк (рдиреАрдЪреЗ рджрд╛рдИрдВ рдУрд░ рджрд┐рдЦрд╛рдпрд╛ рдЧрдпрд╛ рд╣реИ) рдХрд╛ рдореВрд▓реНрдп рдмрдврд╝рддрд╛ рд╣реИ, рдкрд╣рдЪрд╛рди рдХреЗ рдмреАрдЪ рдПрдХ рд╕реНрдкрд╖реНрдЯ рдкрде рдЙрднрд░рддрд╛ рд╣реИред

जैसे ही हॉलुसिनेशन मैप (नीचे दाईं ओर दिखाया गया है) का मूल्य बढ़ता है, पहचान के बीच एक स्पष्ट पथ उभरता है।

इस तरह, पूरी स्वैपिंग प्रक्रिया एक ही चरण में और पोस्ट-प्रोसेसिंग के बिना पूरी की जाती है।

डेटा और परीक्षण

सिस्टम को आजमाने के लिए, शोधकर्ताओं ने चार मॉडलों को दो अत्यधिक लोकप्रिय और विविध खुले छवि डेटासेट – सेलेबा-एचक्यू और एनवीडिया के फ्लिकर-फेस-एचक्यू डेटासेट (एफएफएचक्यू) पर प्रशिक्षित किया, जिनमें से प्रत्येक में क्रमशः 30,000 और 70,000 छवियां हैं।

इन आधार डेटासेट पर कोई प्रूनिंग या फिल्टरिंग नहीं की गई थी। प्रत्येक मामले में, शोधकर्ताओं ने प्रत्येक डेटासेट की पूर्णता को एक टेस्ला जीपीयू पर तीन दिनों के लिए प्रशिक्षित किया, एडम ऑप्टिमाइजेशन पर 0.0002 की लर्निंग दर के साथ।

उन्होंने तब डेटासेट में व्यक्तियों के बीच यादृच्छिक स्वैप की एक श्रृंखला को रेंडर किया, यह ध्यान नहीं देते हुए कि क्या चेहरे समान थे या यहां तक कि लिंग-मिलान वाले थे, और CihaNet के परिणामों की तुलना चार प्रमुख डीपफेक फ्रेमवर्क के आउटपुट से की: फेसस्वैप (जो अधिक लोकप्रिय डीपफेसलैब के लिए खड़ा है, क्योंकि यह मूल 2017 रिपॉजिटरी में रूट कोडबेस को साझा करता है जिसने दुनिया में डीपफेक्स लाए); उपरोक्त फेसशिफ्टर; एफएसजीएन; और सिमस्वैप.

परिणामों की तुलना वीजीजीएफेस, एफएफएचक्यू, सेलेबा-एचक्यू और फेसफोरेंसिक्स++ के माध्यम से की गई, लेखकों ने पाया कि उनका नया मॉडल सभी पिछले मॉडलों को पार करता है, जैसा कि नीचे दी गई तालिका में दिखाया गया है।

मूल्यांकन के लिए उपयोग किए गए तीन मीट्रिक थे संरचनात्मक समानता (एसएसआईएम), मुद्रा अनुमान त्रुटि और आईडी पुनर्प्राप्ति सटीकता, जो सफलतापूर्वक पुनर्प्राप्त जोड़े के प्रतिशत के आधार पर गणना की जाती है।

शोधकर्ता दावा करते हैं कि CihaNet गुणात्मक परिणामों के मामले में एक श्रेष्ठ दृष्टिकोण का प्रतिनिधित्व करता है, और डीपफेक प्रौद्योगिकियों की वर्तमान स्थिति में एक उल्लेखनीय प्रगति है, जो व्यापक और श्रमसाध्य मास्किंग आर्किटेक्चर और विधियों के बोझ को दूर करता है, और पहचान को संदर्भ से अधिक उपयोगी और कार्रवाई योग्य पृथक्करण प्राप्त करता है।

नीचे देखें कि नई तकनीक के और वीडियो उदाहरण देखें। आप पूर्ण लंबाई वाला वीडियो यहां पा सकते हैं।

नई पत्र की पूरक सामग्री से, CihaNet विभिन्न पहचानों पर फेसस्वैपिंग करता है। स्रोत: https://mitchellx.github.io/#video

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai