कृत्रिम बुद्धिमत्ता

एक नया और सरल डीपफेक विधि जो पिछले दृष्टिकोणों को पार करती है

Published November 10, 2021

Updated April 5, 2026

Martin Anderson

चीनी एआई अनुसंधान समूह और यूएस-आधारित शोधकर्ताओं के बीच एक सहयोग ने चार साल पहले इसके उद्भव के बाद डीपफेक प्रौद्योगिकी में पहली वास्तविक नवाचार विकसित की है।

नई विधि मानक संवेदी परीक्षणों पर सभी मौजूदा फ्रेमवर्क से बेहतर प्रदर्शन करते हुए फेसस्वैप कर सकती है, जिसके लिए बड़े समर्पित डेटासेट को थकावट से इकट्ठा करने और उन्हें एक सप्ताह तक प्रशिक्षित करने की आवश्यकता नहीं होती है, केवल एक ही पहचान के लिए। नए पत्र में प्रस्तुत उदाहरणों के लिए, मॉडल दो लोकप्रिय सेलिब्रिटी डेटासेट की पूर्णता पर लगभग तीन दिनों के लिए एक NVIDIA Tesla P40 GPU पर प्रशिक्षित किए गए थे।

पूरा वीडियो इस लेख के अंत में एम्बेडेड है। इस वीडियो के पूरक सामग्री में से एक नमूने में, स्कारलेट जोहानसन का चेहरा स्रोत वीडियो पर स्थानांतरित किया जाता है। CihaNet स्वैप करते समय एज-मास्किंग की समस्या को दूर करता है, स्रोत और लक्ष्य पहचान के बीच गहरे संबंध बनाकर और उन्हें लागू करके, जिसका अर्थ है 'स्पष्ट सीमाओं' और पारंपरिक डीपफेक दृष्टिकोण में होने वाले अन्य सुपरइम्पोज़िशन ग्लिच का अंत। स्रोत: https://mitchellx.github.io/#video

पूरा वीडियो इस लेख के अंत में उपलब्ध है। इस वीडियो के पूरक सामग्री में से एक नमूने में, स्कारलेट जोहानसन का चेहरा स्रोत वीडियो पर स्थानांतरित किया जाता है। CihaNet स्वैप करते समय एज-मास्किंग की समस्या को दूर करता है, स्रोत और लक्ष्य पहचान के बीच गहरे संबंध बनाकर और उन्हें लागू करके, जिसका अर्थ है ‘स्पष्ट सीमाओं’ और पारंपरिक डीपफेक दृष्टिकोण में होने वाले अन्य सुपरइम्पोज़िशन ग्लिच का अंत। स्रोत: स्रोत: https://mitchellx.github.io/#video

नई विधि लक्ष्य वीडियो में क्रूडली प्रत्यारोपित पहचान को ‘पेस्ट’ करने की आवश्यकता को दूर करती है, जो अक्सर बताने वाले कलाकृतियों को जन्म देती है जो नकली चेहरे के अंत और वास्तविक, अंतर्निहित चेहरे की शुरुआत में दिखाई देती हैं। इसके बजाय, ‘हॉलुसिनेशन मैप’ का उपयोग दृश्य पहलुओं के गहरे मिश्रण को करने के लिए किया जाता है, क्योंकि प्रणाली वर्तमान विधियों की तुलना में पहचान को संदर्भ से अधिक प्रभावी ढंग से अलग करती है, और इसलिए लक्ष्य पहचान को एक अधिक गहरे स्तर पर मिला सकती है।

पत्र से। CihaNet परिवर्तन हॉलुसिनेशन मैप (नीचे की पंक्ति) के माध्यम से सुविधाजनक हैं। प्रणाली संदर्भ जानकारी (यानी, चेहरे की दिशा, बाल, चश्मे और अन्य अवरोध, आदि) पूरी तरह से उस छवि से लेती है जिसमें नई पहचान सुपरइम्पोज़ की जाएगी, और चेहरे की पहचान जानकारी पूरी तरह से उस व्यक्ति से जो छवि में डाली जाने वाली है। पहचान को संदर्भ से अलग करने की यह क्षमता प्रणाली की सफलता के लिए महत्वपूर्ण है। स्रोत: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

प्रभावी रूप से, नई हॉलुसिनेशन मैप स्वैप के लिए एक अधिक पूर्ण संदर्भ प्रदान करती है, जो कि अक्सर व्यापक क्यूरेशन (और डीपफेसलैब के मामले में, अलग प्रशिक्षण) की आवश्यकता होती है, जबकि दो पहचानों के वास्तविक एकीकरण के मामले में सीमित लचीलापन प्रदान करती है।

पूरक सामग्री में से नमूनों का उपयोग करते हुए, VGGFace और Forensics++ पर FFHQ और Celeb-A HQ डेटासेट का उपयोग करते हुए। पहले दो कॉलम यादृच्छिक रूप से चुनी गई (वास्तविक) छवियों को दिखाते हैं जिन्हें स्वैप किया जाना है। अगले चार कॉलम वर्तमान में उपलब्ध चार सबसे प्रभावी तरीकों का उपयोग करके स्वैप के परिणाम दिखाते हैं, जबकि अंतिम कॉलम CihaNet के परिणाम को दिखाता है। FaceSwap रिपॉजिटरी का उपयोग DeepFaceLab के बजाय किया गया है, क्योंकि दोनों परियोजनाएं मूल 2017 डीपफेक्स कोड के फोर्क हैं जो GitHub पर हैं। हालांकि प्रत्येक परियोजना ने बाद में मॉडल, तकनीक, विविध यूआई और पूरक उपकरण जोड़े हैं, लेकिन जो कोड डीपफेक्स को संभव बनाता है वह कभी नहीं बदला है और दोनों के लिए सामान्य है। स्रोत: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

पत्र, जिसका शीर्षक वन-स्टेज कॉन्टेक्स्ट एंड आइडेंटिटी हॉलुसिनेशन नेटवर्क है, जेडी एआई रिसर्च और यूनिवर्सिटी ऑफ मैसाचुसेट्स अम्हर्स्ट के शोधकर्ताओं द्वारा लिखा गया है, और यह राष्ट्रीय की रिसर्च एंड डेवलपमेंट प्रोग्राम ऑफ चाइना के तहत ग्रांट नं। 2020AAA0103800 द्वारा समर्थित है। यह 29वें ACM इंटरनेशनल कॉन्फ्रेंस ऑन मल्टीमीडिया में पेश किया गया था, जो 20-24 अक्टूबर को चेंगदू, चीन में आयोजित किया गया था।

‘फेस-ऑन’ समानता की आवश्यकता नहीं

दोनों सबसे लोकप्रिय वर्तमान डीपफेक सॉफ्टवेयर, डीपफेसलैब, और प्रतिस्पर्धी फोर्क फेसस्वैप, जटिल और अक्सर हाथ से क्यूरेटेड वर्कफ्लो का उपयोग करके यह पहचानने की कोशिश करते हैं कि एक चेहरा किस दिशा में है, कौन से बाधाएं हैं जिन्हें ध्यान में रखना होगा (फिर से, मैनुअल रूप से), और कई अन्य परेशान करने वाली बाधाओं (รวม लाइटिंग) को संभालना होगा जो उनके उपयोग को ‘पॉइंट-एंड-क्लिक’ अनुभव से दूर बनाते हैं जो मीडिया में डीपफेक्स के आगमन के बाद से गलत तरीके से चित्रित किया गया है।

इसके विपरीत, CihaNet को दो छवियों को सीधे कैमरे की ओर मुखातिब होने की आवश्यकता नहीं होती है ताकि एक छवि से उपयोगी पहचान जानकारी निकाली जा सके और इसका फायदा उठाया जा सके।

<img class="size-full wp-image-178605" src="https://www.unite.ai/wp-content/uploads/2021/11/cihanet-angles.jpg" alt="इन उदाहरणों में, एक सूट डीपफेक सॉफ्टवेयर प्रतिद्वंद्वियों को यह कार्य सौंपा जाता है कि वे चेहरों को स्वैप करें जो न केवल पहचान में भिन्न हैं, बल्कि जो एक ही दिशा में भी नहीं हैं। मूल डीपफेक्स रिपॉजिटरी (जैसे कि बहुत लोकप्रिय डीपफेसलैब और फेसस्वैप, ऊपर दिखाया गया है) दो छवियों के बीच कोणों में असमानता को संभालने में असमर्थ हैं (तीसरे कॉलम को देखें)। जबकि CihaNet पहचान को सही ढंग से स abstract कर सकता है, क्योंकि चेहरे का 'मुद्रा' पहचान जानकारी का एक अंतर्निहित हिस्सा नहीं है।

आर्किटेक्चर

CihaNet परियोजना, लेखकों के अनुसार, 2019 में माइक्रोसॉफ्ट रिसर्च और पेकिंग यूनिवर्सिटी के बीच सहयोग से प्रेरित थी, जिसे फेसशिफ्टर कहा जाता है, हालांकि यह पुराने तरीके की मूल वास्तुकला में कुछ उल्लेखनीय और महत्वपूर्ण परिवर्तन करता है।

फेसशिफ्टर दो एडाप्टिव इंस्टेंस नॉर्मलाइजेशन (एडीएआईएन) नेटवर्क का उपयोग पहचान जानकारी को संभालने के लिए करता है, जो डेटा तब मास्क के माध्यम से लक्ष्य छवि में स्थानांतरित किया जाता है, एक तरीका जो वर्तमान लोकप्रिय डीपफेक सॉफ्टवेयर (और इसकी संबंधित सीमाओं) के समान है, एक अतिरिक्त हियर-नेट (जिसमें एक अलग से प्रशिक्षित सब-नेट शामिल है जो ऑक्लूजन बाधाओं पर प्रशिक्षित होता है – जटिलता की एक अतिरिक्त परत) का उपयोग करता है।

इसके बजाय, नई वास्तुकला सीधे इस ‘संदर्भ’ जानकारी का उपयोग परिवर्तनकारी प्रक्रिया के लिए करती है, एक दो-चरण एक कैस्केडिंग एडाप्टिव इंस्टेंस नॉर्मलाइजेशन (सी-एडीएआईएन) ऑपरेशन के माध्यम से, जो आईडी-संबंधित क्षेत्रों के संदर्भ की निरंतरता प्रदान करता है।

सिस्टम के लिए महत्वपूर्ण दूसरा सब-नेट स्वैपिंग ब्लॉक (स्वैपब्लक) कहलाता है, जो संदर्भ छवि के संदर्भ और स्रोत छवि से एम्बेडेड ‘पहचान’ जानकारी से एक एकीकृत सुविधा उत्पन्न करता है, पारंपरिक माध्यमों से इसे पूरा करने के लिए आवश्यक कई चरणों को दरकिनार करता है।

संदर्भ और पहचान के बीच अंतर करने में मदद करने के लिए, प्रत्येक स्तर के लिए एक हॉलुसिनेशन मैप उत्पन्न किया जाता है, जो एक सॉफ्ट-सेगमेंटेशन मास्क के लिए खड़ा है, और इस महत्वपूर्ण डीपफेक प्रक्रिया के इस महत्वपूर्ण हिस्से के लिए व्यापक सुविधाओं पर कार्य करता है।

जैसे ही हॉलुसिनेशन मैप (नीचे दाईं ओर दिखाया गया है) का मूल्य बढ़ता है, पहचान के बीच एक स्पष्ट पथ उभरता है।

इस तरह, पूरी स्वैपिंग प्रक्रिया एक ही चरण में और पोस्ट-प्रोसेसिंग के बिना पूरी की जाती है।

डेटा और परीक्षण

सिस्टम को आजमाने के लिए, शोधकर्ताओं ने चार मॉडलों को दो अत्यधिक लोकप्रिय और विविध खुले छवि डेटासेट – सेलेबा-एचक्यू और एनवीडिया के फ्लिकर-फेस-एचक्यू डेटासेट (एफएफएचक्यू) पर प्रशिक्षित किया, जिनमें से प्रत्येक में क्रमशः 30,000 और 70,000 छवियां हैं।

इन आधार डेटासेट पर कोई प्रूनिंग या फिल्टरिंग नहीं की गई थी। प्रत्येक मामले में, शोधकर्ताओं ने प्रत्येक डेटासेट की पूर्णता को एक टेस्ला जीपीयू पर तीन दिनों के लिए प्रशिक्षित किया, एडम ऑप्टिमाइजेशन पर 0.0002 की लर्निंग दर के साथ।

उन्होंने तब डेटासेट में व्यक्तियों के बीच यादृच्छिक स्वैप की एक श्रृंखला को रेंडर किया, यह ध्यान नहीं देते हुए कि क्या चेहरे समान थे या यहां तक कि लिंग-मिलान वाले थे, और CihaNet के परिणामों की तुलना चार प्रमुख डीपफेक फ्रेमवर्क के आउटपुट से की: फेसस्वैप (जो अधिक लोकप्रिय डीपफेसलैब के लिए खड़ा है, क्योंकि यह मूल 2017 रिपॉजिटरी में रूट कोडबेस को साझा करता है जिसने दुनिया में डीपफेक्स लाए); उपरोक्त फेसशिफ्टर; एफएसजीएन; और सिमस्वैप.

परिणामों की तुलना वीजीजीएफेस, एफएफएचक्यू, सेलेबा-एचक्यू और फेसफोरेंसिक्स++ के माध्यम से की गई, लेखकों ने पाया कि उनका नया मॉडल सभी पिछले मॉडलों को पार करता है, जैसा कि नीचे दी गई तालिका में दिखाया गया है।

मूल्यांकन के लिए उपयोग किए गए तीन मीट्रिक थे संरचनात्मक समानता (एसएसआईएम), मुद्रा अनुमान त्रुटि और आईडी पुनर्प्राप्ति सटीकता, जो सफलतापूर्वक पुनर्प्राप्त जोड़े के प्रतिशत के आधार पर गणना की जाती है।

शोधकर्ता दावा करते हैं कि CihaNet गुणात्मक परिणामों के मामले में एक श्रेष्ठ दृष्टिकोण का प्रतिनिधित्व करता है, और डीपफेक प्रौद्योगिकियों की वर्तमान स्थिति में एक उल्लेखनीय प्रगति है, जो व्यापक और श्रमसाध्य मास्किंग आर्किटेक्चर और विधियों के बोझ को दूर करता है, और पहचान को संदर्भ से अधिक उपयोगी और कार्रवाई योग्य पृथक्करण प्राप्त करता है।

नीचे देखें कि नई तकनीक के और वीडियो उदाहरण देखें। आप पूर्ण लंबाई वाला वीडियो यहां पा सकते हैं।

नई पत्र की पूरक सामग्री से, CihaNet विभिन्न पहचानों पर फेसस्वैपिंग करता है। स्रोत: https://mitchellx.github.io/#video

Related Topics:China deepfake DeepFakes research

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

एक नया और सरल डीपफेक विधि जो पिछले दृष्टिकोणों को पार करती है

‘फेस-ऑन’ समानता की आवश्यकता नहीं

आर्किटेक्चर

डेटा और परीक्षण

You may like