Connect with us

рдбрд┐рд╕реЗрдВрдЯреИрдВрдЧреНрд▓рдореЗрдВрдЯ рд╣реИ рдЕрдЧрд▓реА рдбреАрдкрдлреЗрдХ рд░рд┐рд╡реЛрд▓реНрдпреВрд╢рди

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдбрд┐рд╕реЗрдВрдЯреИрдВрдЧреНрд▓рдореЗрдВрдЯ рд╣реИ рдЕрдЧрд▓реА рдбреАрдкрдлреЗрдХ рд░рд┐рд╡реЛрд▓реНрдпреВрд╢рди

mm

सीजीआई डेटा ऑगमेंटेशन का उपयोग एक नए प्रोजेक्ट में डीपफेक इमेजरी पर अधिक नियंत्रण प्राप्त करने के लिए किया जा रहा है। हालांकि आप अभी भी प्रभावी ढंग से सीजीआई हेड्स का उपयोग डीपफेक फेसियल डेटासेट में缺失 गैप को भरने के लिए नहीं कर सकते हैं, एक नए शोध की लहर पहचान को संदर्भ से अलग करने का अर्थ है कि जल्द ही, आपको ऐसा करने की आवश्यकता नहीं हो सकती है।

डीपफेक वीडियो के निर्माता जो पिछले कुछ वर्षों में सबसे सफल वायरल डीपफेक वीडियो बनाने में सफल रहे हैं, वे अपने स्रोत वीडियो का बहुत सावधानी से चयन करते हैं, सस्टेन्ड प्रोफाइल शॉट्स (यानी, पुलिस गिरफ्तारी प्रक्रियाओं द्वारा लोकप्रिय बनाए गए प्रकार के साइड-ऑन मुगशॉट्स) , तीव्र कोण और असामान्य या अतिरंजित अभिव्यक्तियों से बचते हैं। बढ़ती हुई, वायरल डीपफेकर्स द्वारा उत्पादित प्रदर्शन वीडियो संपादित संकलन हैं जो ‘सबसे आसान’ कोण और अभिव्यक्तियों का चयन करते हैं जिन्हें डीपफेक किया जा सकता है।

वास्तव में, जिस लक्ष्य वीडियो में एक डीपफेक सेलिब्रिटी को डाला जा सकता है, वह वह है जहां मूल व्यक्ति (जिसकी पहचान डीपफेक द्वारा मिटा दी जाएगी) सीधे कैमरे की ओर देख रहा है, न्यूनतम अभिव्यक्तियों के साथ।

<img class="wp-image-178727 size-full" src="https://www.unite.ai/wp-content/uploads/2021/11/easier-deepfakes.jpg" alt="पिछले वर्षों के अधिकांश लोकप्रिय डीपफेक्स ने विषयों को सीधे कैमरे की ओर देखते हुए दिखाया है, और या तो लोकप्रिय अभिव्यक्तियों (जैसे कि मुस्कराते हुए) को ही धारण किया है, जिन्हें लाल कालीन पपराज़ी आउटपुट से आसानी से निकाला जा सकता है, या (जैसे कि 2019 में सिल्वेस्टर स्टैलोन के टर्मिनेटर के रूप में), वास्तव में कोई अभिव्यक्ति नहीं है, क्योंकि तटस्थ अभिव्यक्तियां बहुत सामान्य हैं, जो उन्हें डीपफेक मॉडल में शामिल करना आसान बनाती हैं।

क्योंकि डीपफेक तकनीकें जैसे कि DeepFaceLab और FaceSwap इन सरल स्वैप्स को बहुत अच्छी तरह से करती हैं, हम उनके द्वारा की जाने वाली चीजों से इतने अधिक प्रभावित होते हैं कि हमें यह नहीं दिखाई देता कि वे क्या करने में असमर्थ हैं, और – अक्सर – नहीं भी कोशिश करते हैं:

рдПрдХ рдкреНрд░рд╕рд┐рджреНрдз рдбреАрдкрдлреЗрдХ рд╡реАрдбрд┐рдпреЛ рд╕реЗ рдЧреНрд░реИрдмреНрд╕ рдЬрд╣рд╛рдВ рдЕрд░реНрдиреЛрд▓реНрдб рд╢реНрд╡рд╛рд░реНрдЬрд╝рдиреЗрдЧрд░ рдХреЛ рд╕рд┐рд▓реНрд╡реЗрд╕реНрдЯрд░ рд╕реНрдЯреИрд▓реЛрди рдореЗрдВ рдмрджрд▓ рджрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ - рдЬрдм рддрдХ рдХрд┐ рдХреЛрдг рдмрд╣реБрдд рдореБрд╢реНрдХрд┐рд▓ рди рд╣реЛрдВред рдкреНрд░реЛрдлрд╛рдЗрд▓ рд╡рд░реНрддрдорд╛рди рдбреАрдкрдлреЗрдХ рджреГрд╖реНрдЯрд┐рдХреЛрдгреЛрдВ рдХреЗ рд╕рд╛рде рдПрдХ рджреАрд░реНрдШрдХрд╛рд▓рд┐рдХ рд╕рдорд╕реНрдпрд╛ рдмрдиреА рд╣реБрдИ рд╣реИ, рдЖрдВрд╢рд┐рдХ рд░реВрдк рд╕реЗ рдЗрд╕рд▓рд┐рдП рдХреНрдпреЛрдВрдХрд┐ рдбреАрдкрдлреЗрдХ рдлреНрд░реЗрдорд╡рд░реНрдХ рдореЗрдВ рдЪреЗрд╣рд░реЗ рдХреА рдореБрджреНрд░рд╛ рдХреЛ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛рдиреЗ рд╡рд╛рд▓рд╛ рдУрдкрди-рд╕реЛрд░реНрд╕ рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рд╕рд╛рдЗрдб-рд╡реНрдпреВ рдХреЗ рд▓рд┐рдП рдЕрдиреБрдХреВрд▓рд┐рдд рдирд╣реАрдВ рд╣реИ, рд▓реЗрдХрд┐рди рдореБрдЦреНрдп рд░реВрдк рд╕реЗ рдЗрд╕рд▓рд┐рдП рдХреНрдпреЛрдВрдХрд┐ рдЖрд╡рд╢реНрдпрдХ рдбреЗрдЯрд╛рд╕реЗрдЯ рдореЗрдВ рд╕реЗ рдПрдХ рдпрд╛ рджреЛрдиреЛрдВ рдореЗрдВ рдЙрдкрдпреБрдХреНрдд рд╕реНрд░реЛрдд рд╕рд╛рдордЧреНрд░реА рдХреА рдХрдореА рд╣реИред

एक प्रसिद्ध डीपफेक वीडियो से ग्रैब्स जहां अर्नोल्ड श्वार्ज़नेगर को सिल्वेस्टर स्टैलोन में बदल दिया जाता है – जब तक कि कोण बहुत मुश्किल न हों। प्रोफाइल वर्तमान डीपफेक दृष्टिकोणों के साथ एक दीर्घकालिक समस्या बनी हुई है, आंशिक रूप से इसलिए क्योंकि डीपफेक फ्रेमवर्क में चेहरे की मुद्रा को परिभाषित करने के लिए उपयोग किया जाने वाला ओपन-सोर्स सॉफ्टवेयर साइड-व्यू के लिए अनुकूलित नहीं है, लेकिन मुख्य रूप से इसलिए क्योंकि आवश्यक डेटासेट में से एक या दोनों में उपयुक्त स्रोत सामग्री की कमी है।

इज़राइल से नई शोध एक नए तरीके का प्रस्ताव करती है जिसमें सिंथेटिक डेटा का उपयोग करके डीपफेकिंग को वास्तव में अलग करने के लिए किया जाता है, जैसे कि सीजीआई हेड्स, चेहरे की पहचान (यानी, ‘टॉम क्रूज़’ की मूल चेहरे की विशेषताएं) को उनके संदर्भ (यानी, ऊपर देखते हुए, पक्ष में देखते हुए, मुस्कराते हुए, मुस्कराते हुए अंधेरे में, भौंहें सिकोड़ते हुए, आँखें बंद, आदि) से अलग करने के लिए।

рдирдпрд╛ рд╕рд┐рд╕реНрдЯрдо рд╡реНрдпрдХреНрддрд┐ рдХреА рдкрд╣рдЪрд╛рди рдХреЗ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рд╕реЗ рдореБрджреНрд░рд╛ рдФрд░ рд╕рдВрджрд░реНрдн (рдпрд╛рдиреА, рдПрдХ рдЖрдБрдЦ рдХреЛ рдЭрдкрдХрд╛рдирд╛) рдХреЛ рд╡рд┐рдЪреНрдЫрд┐рдиреНрди рд░реВрдк рд╕реЗ рдЕрд▓рдЧ рдХрд░рддрд╛ рд╣реИ, рдЕрд╕рдВрдмрдВрдзрд┐рдд рд╕рд┐рдВрдереЗрдЯрд┐рдХ рдЪреЗрд╣рд░реЗ рдХреЗ рдбреЗрдЯрд╛ (рдмрд╛рдПрдВ рдЪрд┐рддреНрд░) рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддрд╛ рд╣реИред рдКрдкрд░реА рдкрдВрдХреНрддрд┐ рдореЗрдВ, рд╣рдо рджреЗрдЦрддреЗ рд╣реИрдВ рдХрд┐ рдПрдХ 'рдЭрдкрдХ' рдХреЛ рдмрд░рд╛рдХ рдУрдмрд╛рдорд╛ рдХреА рдкрд╣рдЪрд╛рди рдореЗрдВ рд╕реНрдерд╛рдирд╛рдВрддрд░рд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдЬреАрдПрдирдП рдХреЗ рд▓реЗрдЯреЗрдВрдЯ рд╕реНрдкреЗрд╕ рдХреЗ рдЧреИрд░-рд░реЗрдЦреАрдп рдкрде рджреНрд╡рд╛рд░рд╛ рд╕реАрдЦрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдЬреЛ рдмрд╛рдПрдВ рдЪрд┐рддреНрд░ рдореЗрдВ рд╕реАрдЬреАрдЖрдИ рдЫрд╡рд┐ рджреНрд╡рд╛рд░рд╛ рдкреНрд░рд╕реНрддреБрдд рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдиреАрдЪреЗ рдХреА рдкрдВрдХреНрддрд┐ рдореЗрдВ, рд╣рдо рджреЗрдЦрддреЗ рд╣реИрдВ рдХрд┐ рдореБрдВрд╣ рдХреЗ рдХреЛрдиреЗ рдХреЗ рдлреЗрд╕реЗрдЯ рдХреЛ рдлреИрд▓рд╛рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рдФрд░ рдкреВрд░реНрд╡ рд░рд╛рд╖реНрдЯреНрд░рдкрддрд┐ рдкрд░ рд▓рд╛рдЧреВ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдиреАрдЪреЗ рджрд╛рдИрдВ рдУрд░, рд╣рдо рджреЛрдиреЛрдВ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреЛ рдПрдХ рд╕рд╛рде рд▓рд╛рдЧреВ рдХрд░рддреЗ рд╣реИрдВред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2111.08419.pdf

नया सिस्टम व्यक्ति की पहचान के एन्कोडिंग से मुद्रा और संदर्भ (यानी, एक आँख को झपकाना) को विच्छिन्न रूप से अलग करता है, असंबंधित सिंथेटिक चेहरे के डेटा (बाएं चित्र) का उपयोग करता है। ऊपरी पंक्ति में, हम देखते हैं कि एक ‘झपक’ को बराक ओबामा की पहचान में स्थानांतरित किया जाता है, जीएनए के लेटेंट स्पेस के गैर-रेखीय पथ द्वारा सीखा जाता है, जो बाएं चित्र में सीजीआई छवि द्वारा प्रस्तुत किया जाता है। नीचे की पंक्ति में, हम देखते हैं कि मुंह के कोने के फेसेट को फैलाया जाता है और पूर्व राष्ट्रपति पर लागू किया जाता है। नीचे दाईं ओर, हम दोनों विशेषताओं को एक साथ लागू करते हैं। स्रोत: https://arxiv.org/pdf/2111.08419.pdf

यह केवल डीपफेक हेड-पपेट्री नहीं है, एक तकनीक जो अवतार और आंशिक-चेहरे लिप-सिंक्रोनाइजेशन के लिए अधिक उपयुक्त है, और जिसकी पूर्ण विकसित डीपफेक वीडियो परिवर्तनों के लिए सीमित क्षमता है।

इसके बजाय, यह एक साधन की मूलभूत अलगाव का प्रतिनिधित्व करता है (जैसे कि ‘सिर के कोण को बदलें’, ‘एक मुस्कराहट बनाएं’) पहचान से, एक उच्च-स्तरीय छवि संश्लेषण-आधारित डीपफेक फ्रेमवर्क के लिए एक मार्ग प्रदान करता है।

नया पेपर डेल्टा-जीएन-एनकोडर: एक्सप्लिसिट इमेज एडिटिंग के लिए सेमेंटिक परिवर्तनों को एन्कोड करना, कुछ सिंथेटिक नमूनों का उपयोग करके शीर्षक से है, और यह तकनीकी-इज़राइल प्रौद्योगिकी संस्थान में शोधकर्ताओं से आता है।

इस शोध का क्या अर्थ है, यह समझने के लिए, आइए देखें कि डीपफेक्स कैसे वर्तमान में उत्पादित किए जाते हैं, चाहे वह डीपफेक पोर्न साइटों पर हो या इंडस्ट्रियल लाइट एंड मैजिक (चूंकि डीपफेसलैब ओपन सोर्स रिपॉजिटरी वर्तमान में ‘अमेच्योर’ और पेशेवर दोनों डीपफेकिंग में प्रमुख है)।

वर्तमान डीपफेक प्रौद्योगिकी को क्या रोक रहा है?

वर्तमान में डीपफेक्स का निर्माण दो फोल्डरों में चेहरे की छवियों पर एक एन्कोडर/डिकोडर मशीन लर्निंग मॉडल को प्रशिक्षित करके किया जाता है – जिस व्यक्ति को आप ‘पेंट ओवर’ करना चाहते हैं (पिछले उदाहरण में, यह अर्नी है) और जिस व्यक्ति को आप फुटेज में सुपरिम्पोज़ करना चाहते हैं (स्ली है)।

рджреЛ рдЕрд▓рдЧ-рдЕрд▓рдЧ рдЪреЗрд╣рд░реЗ рдХреЗ рд╕реЗрдЯреЛрдВ рдореЗрдВ рдореБрджреНрд░рд╛ рдФрд░ рдкреНрд░рдХрд╛рд╢ рд╡реНрдпрд╡рд╕реНрдерд╛ рдХреА рд╕реНрдерд┐рддрд┐ рдореЗрдВ рднрд┐рдиреНрдирддрд╛ред рдиреЛрдЯ рдХрд┐ рддреАрд╕рд░реА рдкрдВрдХреНрддрд┐ рдХреЗ рдЕрдВрдд рдореЗрдВ рдХреЙрд▓рдо рдП рдореЗрдВ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐, рдЬреЛ рджреВрд╕рд░реЗ рдбреЗрдЯрд╛рд╕реЗрдЯ рдореЗрдВ рдПрдХ рдХрд░реАрдмреА рд╕рдордХрдХреНрд╖ рд╣реЛрдиреЗ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдирд╣реАрдВ рд╣реИред

दो अलग-अलग चेहरे के सेटों में मुद्रा और प्रकाश व्यवस्था की स्थिति में भिन्नता। नोट कि तीसरी पंक्ति के अंत में कॉलम ए में विशिष्ट अभिव्यक्ति, जो दूसरे डेटासेट में एक करीबी समकक्ष होने की संभावना नहीं है।

फिर एन्कोडर/डिकोडर सिस्टम प्रत्येक फोल्डर में प्रत्येक छवि की तुलना दूसरे के साथ करता है, इस ऑपरेशन को सैकड़ों हजारों पुनरावृत्तियों (अक्सर एक सप्ताह तक) के लिए बनाए रखता है, जब तक कि यह दोनों पहचानों की मूल विशेषताओं को पर्याप्त रूप से समझने में सक्षम न हो जाए कि वे इच्छानुसार उन्हें स्वैप कर सकें।

प्रत्येक व्यक्ति के लिए जो प्रक्रिया में शामिल है, जिस पहचान के बारे में डीपफेक आर्किटेक्चर सीखता है वह संदर्भ के साथ जुड़ा हुआ है। यह किसी भी पहचान के लिए एक सामान्य मुद्रा ‘के लिए सीखने और लागू करने में सक्षम नहीं है, लेकिन इसके लिए प्रशिक्षण डेटासेट में प्रत्येक पहचान के लिए उस विशिष्ट मुद्रा के कई उदाहरणों की आवश्यकता होती है।

इसलिए, यदि आप दो पहचानों को स्वैप करना चाहते हैं जो कुछ और असामान्य कर रहे हैं, तो आपको बहुत सारे उदाहरणों की आवश्यकता होगी कि वह विशिष्ट मुद्रा दोनों चेहरे के सेटों में है:

рдЪреВрдВрдХрд┐ рдЪреЗрд╣рд░реЗ рдХреА рдкрд╣рдЪрд╛рди рдФрд░ рдореБрджреНрд░рд╛ рдХреА рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдВ рд╡рд░реНрддрдорд╛рди рдореЗрдВ рдЗрддрдиреА рдЬреБрдбрд╝реА рд╣реБрдИ рд╣реИрдВ, рдбреАрдкрдлреЗрд╕рд▓реИрдм рдЬреИрд╕реЗ рд╕рд┐рд╕реНрдЯрдо рдкрд░ рдПрдХ рдкреНрд░рднрд╛рд╡реА рдбреАрдкрдлреЗрдХ рдореЙрдбрд▓ рдХреЛ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рджреЛ рдЪреЗрд╣рд░реЗ рдХреЗ рдбреЗрдЯрд╛рд╕реЗрдЯ рдореЗрдВ рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐, рд╕рд┐рд░ рдХреА рдореБрджреНрд░рд╛ рдФрд░ (рдХрдо рд╕реЗ рдХрдо) рдкреНрд░рдХрд╛рд╢ рд╡реНрдпрд╡рд╕реНрдерд╛ рдХреА рдПрдХ рд╡реНрдпрд╛рдкрдХ рд╕рдорд╛рдирддрд╛ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реЛрддреА рд╣реИред рдпрджрд┐ рдПрдХ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдХреЙрдиреНрдлрд╝рд┐рдЧрд░реЗрд╢рди (рдЬреИрд╕реЗ 'рдкреНрд░реЛрдлрд╛рдЗрд▓/рдореБрд╕реНрдХрд░рд╛рддреЗ рд╣реБрдП/рд╕реВрд░рдЬ рдХреА рд░реЛрд╢рдиреА рдореЗрдВ') рджреЛрдиреЛрдВ рдЪреЗрд╣рд░реЗ рдХреЗ рд╕реЗрдЯреЛрдВ рдореЗрдВ рдЗрддрдирд╛ рдирд╣реАрдВ рд╣реИ, рддреЛ рдпрд╣ рдПрдХ рдбреАрдкрдлреЗрдХ рд╡реАрдбрд┐рдпреЛ рдореЗрдВ рдЙрддрдиреА рд╕рдЯреАрдХрддрд╛ рд╕реЗ рдкреНрд░рд╕реНрддреБрдд рдирд╣реАрдВ рд╣реЛрдЧрд╛, рдпрджрд┐ рдЗрд╕рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред

चूंकि चेहरे की पहचान और मुद्रा की विशेषताएं वर्तमान में इतनी जुड़ी हुई हैं, डीपफेसलैब जैसे सिस्टम पर एक प्रभावी डीपफेक मॉडल को प्रशिक्षित करने के लिए दो चेहरे के डेटासेट में अभिव्यक्ति, सिर की मुद्रा और (कम से कम) प्रकाश व्यवस्था की एक व्यापक समानता की आवश्यकता होती है। यदि एक विशिष्ट कॉन्फ़िगरेशन (जैसे ‘प्रोफाइल/मुस्कराते हुए/सूरज की रोशनी में’) दोनों चेहरे के सेटों में इतना नहीं है, तो यह एक डीपफेक वीडियो में उतनी सटीकता से प्रस्तुत नहीं होगा, यदि इसकी आवश्यकता है।

यदि सेट ए में असामान्य मुद्रा है, लेकिन सेट बी में इसका अभाव है, तो आप बहुत बुरी स्थिति में हैं; चाहे आप मॉडल को कितना भी प्रशिक्षित कर लें, यह उस मुद्रा को दोनों पहचानों के बीच अच्छी तरह से पुनरुत्पादित नहीं कर पाएगा, क्योंकि यह प्रशिक्षण के दौरान आवश्यक जानकारी का केवल आधा हिस्सा था।

यहां तक कि अगर आपके पास मेल खाने वाली छवियां हैं, तो यह पर्याप्त नहीं हो सकता है: यदि सेट ए में मेल खाने वाली मुद्रा है, लेकिन तीव्र पक्ष प्रकाश व्यवस्था के साथ, इसकी तुलना दूसरे चेहरे के सेट में समतल प्रकाश व्यवस्था वाली समकक्ष मुद्रा से की जाती है, तो स्वैप की गुणवत्ता उतनी अच्छी नहीं होगी जितनी होगी यदि प्रत्येक में सामान्य प्रकाश विशेषताएं हों।

डेटा की कमी क्यों है

जब तक आप नियमित रूप से गिरफ्तार नहीं होते हैं, तो आपके पास शायद अपने बारे में बहुत सारे प्रोफाइल शॉट नहीं होंगे। जो कोई भी आया, आप शायद उसे फेंक देते हैं। चूंकि पिक्चर एजेंसियां भी ऐसा ही करती हैं, प्रोफाइल फेस शॉट मिलना मुश्किल हो जाता है।

डीपफेकर अक्सर एक पहचान के लिए जो सीमित प्रोफाइल डेटा है, उसे अपने फेस-सेट में कई बार शामिल करते हैं, बस इसलिए कि मुद्रा प्रशिक्षण के दौरान कम से कम थोड़ा ध्यान और समय प्राप्त करती है, इसके बजाय एक आउटलियर के रूप में छूट जाती है।

लेकिन एक पहचान के लिए संभावित प्रोफाइल चेहरे की तस्वीरों की तुलना में बहुत अधिक प्रकार हैं जो एक डेटासेट में शामिल किए जा सकते हैं – मुस्कराते हुए, मुंह बनाते हुए, चीखते हुए, रोते हुए, अंधेरे में, तिरस्कारपूर्ण, उदासीन, प्रसन्न, फ्लैश-लिट, ऊपर देखते हुए, नीचे देखते हुए, आँखें खुली, आँखें बंद… और इतने पर। इनमें से कोई भी मुद्रा या अभिव्यक्ति एक लक्ष्य डीपफेक वीडियो में आवश्यक हो सकती है।

और यह केवल प्रोफाइल है। आपके पास खुद को सीधे ऊपर देखते हुए कितनी तस्वीरें हैं? क्या आपके पास अपने आप को उसी मुद्रा में देखते हुए पर्याप्त तस्वीरें हैं जो 10,000 संभावित अभिव्यक्तियों को कवर करती हैं जो आप उसी मुद्रा में धारण कर सकते हैं, जो उसी कैमरा कोण से, कम से कम एक मिलियन संभावित प्रकाश वातावरण में से कुछ को कवर करते हैं?

यह संभावना है कि आपके पास खुद को ऊपर देखते हुए एक तस्वीर भी नहीं है। और यह केवल दो कोण हैं जिनमें से सैकड़ों की आवश्यकता होती है जो पूर्ण कवरेज के लिए आवश्यक होते हैं।

यहां तक कि अगर यह संभव हो कि एक चेहरे का पूर्ण कवरेज सभी कोणों से और विभिन्न प्रकाश स्थितियों के तहत प्राप्त किया जा सकता है, तो परिणामी डेटासेट प्रशिक्षण के लिए बहुत बड़ा होगा, सैकड़ों हजारों चित्रों के क्रम में; और यहां तक कि अगर यह प्रशिक्षित भी किया जा सकता है, तो प्रशिक्षण प्रक्रिया की प्रकृति वर्तमान डीपफेक फ्रेमवर्क के लिए अधिकांश अतिरिक्त डेटा को छोड़ देगी, क्योंकि वर्तमान फ्रेमवर्क कम हैं और बहुत स्केलेबल नहीं हैं।

सिंथेटिक प्रतिस्थापन

डीपफेक्स के उदय से, डीपफेकर्स ने उन ‘गुम’ मुद्राओं को प्राप्त करने के लिए सीजीआई-शैली की छवियों का उपयोग करने के लिए प्रयोग किया है, जैसे कि सिनेमा4डी और माया जैसे 3डी अनुप्रयोगों में बनाए गए सिर।

рдХреЛрдИ рдПрдЖрдИ рдЖрд╡рд╢реНрдпрдХ рдирд╣реАрдВ; рдПрдХ рдЕрднрд┐рдиреЗрддреНрд░реА рдХреЛ рдкрд╛рд░рдВрдкрд░рд┐рдХ рд╕реАрдЬреАрдЖрдИ рдкреНрд░реЛрдЧреНрд░рд╛рдо, рд╕рд┐рдиреЗрдорд╛4рдбреА рдореЗрдВ рдкреБрдирд░реНрдирд┐рд░реНрдорд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рдЬрд╛рд▓ рдФрд░ рдмрд┐рдЯрдореИрдкреЗрдб рдЯреЗрдХреНрд╕рдЪрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ - рдЬреЛ рддрдХрдиреАрдХ 1960 рдХреЗ рджрд╢рдХ рд╕реЗ рд╣реИ, рд╣рд╛рд▓рд╛рдВрдХрд┐ 1990 рдХреЗ рджрд╢рдХ рд╕реЗ рд╡реНрдпрд╛рдкрдХ рдЙрдкрдпреЛрдЧ рдореЗрдВ рдЖрдпрд╛ред рд╕рд┐рджреНрдзрд╛рдВрдд рд░реВрдк рдореЗрдВ, рдЗрд╕ рдЪреЗрд╣рд░реЗ рдХреЗ рдореЙрдбрд▓ рдХрд╛ рдЙрдкрдпреЛрдЧ рдЕрд╕рд╛рдорд╛рдиреНрдп рдореБрджреНрд░рд╛рдУрдВ, рдкреНрд░рдХрд╛рд╢ рд╢реИрд▓рд┐рдпреЛрдВ рдФрд░ рдЪреЗрд╣рд░реЗ рдХреА рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐рдпреЛрдВ рдХреЗ рд▓рд┐рдП рдбреАрдкрдлреЗрдХ рд╕реНрд░реЛрдд рдбреЗрдЯрд╛ рдЙрддреНрдкрдиреНрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ, рдпрд╣ рдбреАрдкрдлреЗрдХрд┐рдВрдЧ рдореЗрдВ рдЙрдкрдпреЛрдЧреА рд╕рд╛рдмрд┐рдд рдирд╣реАрдВ рд╣реБрдЖ рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рд╕реНрд╡реИрдк рд╡реАрдбрд┐рдпреЛ рдореЗрдВ рд╕реАрдЬреАрдЖрдИ рд░реЗрдВрдбрд░реНрд╕ рдХреА 'рдирдХрд▓реА' рджрд┐рдЦрд╛рдИ рджреЗрдиреЗ рд╡рд╛рд▓реА рдЙрдкрд╕реНрдерд┐рддрд┐ рдлреИрд▓ рдЬрд╛рддреА рд╣реИред рд╕реНрд░реЛрдд: рдЗрд╕ рд▓реЗрдЦрдХ рдХреА рдЫрд╡рд┐ https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/ рдкрд░

कोई एआई आवश्यक नहीं; एक अभिनेत्री को पारंपरिक सीजीआई प्रोग्राम, सिनेमा4डी में पुनर्निर्मित किया जाता है, जिसमें जाल और बिटमैपेड टेक्सचर का उपयोग किया जाता है – जो तकनीक 1960 के दशक से है, हालांकि 1990 के दशक से व्यापक उपयोग में आया। सिद्धांत रूप में, इस चेहरे के मॉडल का उपयोग असामान्य मुद्राओं, प्रकाश शैलियों और चेहरे की अभिव्यक्तियों के लिए डीपफेक स्रोत डेटा उत्पन्न करने के लिए किया जा सकता है। वास्तव में, यह डीपफेकिंग में उपयोगी साबित नहीं हुआ है, क्योंकि स्वैप वीडियो में सीजीआई रेंडर्स की ‘नकली’ दिखाई देने वाली उपस्थिति फैल जाती है। स्रोत: इस लेखक की छवि https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/ पर

यह विधि आमतौर पर नए डीपफेक प्रैक्टिशनर्स द्वारा जल्दी से छोड़ दी जाती है, क्योंकि हालांकि यह उन मुद्राओं और अभिव्यक्तियों को प्रदान कर सकती है जो अन्यथा उपलब्ध नहीं हैं, सीजीआई चेहरों की सिंथेटिक उपस्थिति आमतौर पर संदर्भ और सेमेंटिक/संदर्भ जानकारी के साथ पहचान के जुड़ाव के कारण स्वैप में फैल जाती है।

यह एक विश्वसनीय डीपफेक वीडियो में अचानक ‘असामान्य घाटी’ चेहरों के फ्लैश का कारण बन सकता है, क्योंकि एल्गोरिदम एक असामान्य मुद्रा या अभिव्यक्ति के लिए अपनी एकमात्र उपलब्ध डेटा पर आकर्षित होना शुरू कर देता है – स्पष्ट रूप से नकली चेहरे।

डीपफेकर्स के लिए सबसे लोकप्रिय विषयों में से एक, ऑस्ट्रेलियाई अभिनेत्री मार्गोट रॉबी के लिए एक 3डी डीपफेक एल्गोरिदम डीपफेसलाइव के डिफ़ॉल्ट संस्करण में शामिल है, जो एक लाइव-स्ट्रीम में डीपफेक्स कर सकता है, जैसे कि एक वेबकैम सत्र। एक सीजीआई संस्करण, जैसा कि ऊपर दिखाया गया है, डीपफेक डेटासेट में 'गुम' कोण प्राप्त करने के लिए उपयोग किया जा सकता है। स्रोत: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

डीपफेकर्स के लिए सबसे लोकप्रिय विषयों में से एक, ऑस्ट्रेलियाई अभिनेत्री मार्गोट रॉबी के लिए एक 3डी डीपफेक एल्गोरिदम डीपफेसलाइव के डिफ़ॉल्ट संस्करण में शामिल है, जो एक लाइव-स्ट्रीम में डीपफेक्स कर सकता है, जैसे कि एक वेबकैम सत्र। एक सीजीआई संस्करण, जैसा कि ऊपर दिखाया गया है, डीपफेक डेटासेट में ‘गुम’ कोण प्राप्त करने के लिए उपयोग किया जा सकता है। स्रोत: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

सीजीआई चेहरे के रूप में एक अलग, संकल्पनात्मक मार्गदर्शिका

इसके बजाय, इज़राइली शोधकर्ताओं की नई डेल्टा-जीएन-एनकोडर (डीजीई) विधि अधिक प्रभावी है, क्योंकि सीजीआई छवियों से मुद्रा और संदर्भ की जानकारी लक्ष्य से पूरी तरह से अलग हो गई है।

हम इस सिद्धांत को नीचे दी गई छवि में कार्रवाई में देख सकते हैं, जहां विभिन्न सिर अभिविन्यास सीजीआई छवियों का उपयोग करके प्राप्त किए गए हैं। चूंकि पहचान की विशेषताएं संदर्भ की विशेषताओं से संबंधित नहीं हैं, इसलिए न तो सीजीआई चेहरे की ‘नकली’ उपस्थिति और न ही उसमें चित्रित पहचान का रिसाव होता है:

рдирдпрд╛ рддрд░реАрдХрд╛ рдЖрдкрдХреЛ рддреАрди рдЕрд▓рдЧ-рдЕрд▓рдЧ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдЬреАрд╡рди рдХреА рддрд╕реНрд╡реАрд░реЛрдВ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдирд╣реАрдВ рд╣реИ рддрд╛рдХрд┐ рд╡рд┐рднрд┐рдиреНрди рдХреЛрдгреЛрдВ рд╕реЗ рдПрдХ рдбреАрдкрдлреЗрдХ рдХреЛ рдкреВрд░рд╛ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХреЗ - рдЖрдк рд╕рд┐рд░реНрдл рд╕реАрдЬреАрдЖрдИ рд╕рд┐рд░ рдХреЛ рдШреБрдорд╛ рд╕рдХрддреЗ рд╣реИрдВ, рдЬрд┐рд╕рдХреА рдЙрдЪреНрдЪ-рд╕реНрддрд░реАрдп рдЕрдореВрд░реНрдд рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдВ рдкрд╣рдЪрд╛рди рдкрд░ рдереЛрдкреА рдЬрд╛рддреА рд╣реИрдВ рдмрд┐рдирд╛ рдХрд┐рд╕реА рдкрд╣рдЪрд╛рди рдЬрд╛рдирдХрд╛рд░реА рдХреЗ рд░рд┐рд╕рд╛рд╡ рдХреЗред

नया तरीका आपको तीन अलग-अलग वास्तविक जीवन की तस्वीरों की आवश्यकता नहीं है ताकि विभिन्न कोणों से एक डीपफेक को पूरा किया जा सके – आप सिर्फ सीजीआई सिर को घुमा सकते हैं, जिसकी उच्च-स्तरीय अमूर्त विशेषताएं पहचान पर थोपी जाती हैं बिना किसी पहचान जानकारी के रिसाव के।

рдбреЗрд▓реНрдЯрд╛-рдЬреАрдПрди-рдПрдирдХреЛрдбрд░ред рдКрдкрд░реА рдмрд╛рдПрдВ рд╕рдореВрд╣: рд╕реНрд░реЛрдд рдЫрд╡рд┐ рдХреЗ рдХреЛрдг рдХреЛ рдПрдХ рд╕реЗрдХрдВрдб рдореЗрдВ рдмрджрд▓рд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рддрд╛рдХрд┐ рдПрдХ рдирдИ рд╕реНрд░реЛрдд рдЫрд╡рд┐ рдкреНрд░рд╕реНрддреБрдд рдХреА рдЬрд╛ рд╕рдХреЗ, рдЬреЛ рдЖрдЙрдЯрдкреБрдЯ рдореЗрдВ рдкрд░рд┐рд▓рдХреНрд╖рд┐рдд рд╣реЛрддреА рд╣реИ; рджрд╛рдПрдВ рдКрдкрд░реА рд╕рдореВрд╣: рдкреНрд░рдХрд╛рд╢ рд╡реНрдпрд╡рд╕реНрдерд╛ рднреА рдкрд╣рдЪрд╛рди рд╕реЗ рдЕрд▓рдЧ рд╣реЛ рдЬрд╛рддреА рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдкреНрд░рдХрд╛рд╢ рд╢реИрд▓рд┐рдпреЛрдВ рдХрд╛ рд╕реБрдкрд░рдЗрдореНрдкреЛрдЬрд╝рд┐рд╢рди рд╕рдВрднрд╡ рд╣реЛ рдЬрд╛рддрд╛ рд╣реИ; рдиреАрдЪреЗ рдмрд╛рдПрдВ рд╕рдореВрд╣: рдХрдИ рдЪреЗрд╣рд░реЗ рдХреА рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдВ рдмрджрд▓ рджреА рдЬрд╛рддреА рд╣реИрдВ рддрд╛рдХрд┐ рдПрдХ 'рдЙрджрд╛рд╕' рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐ рдмрдирд╛рдИ рдЬрд╛ рд╕рдХреЗ; рдиреАрдЪреЗ рджрд╛рдПрдВ рд╕рдореВрд╣: рдПрдХ рд╣реА рдЪреЗрд╣рд░реЗ рдХреА рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐ рд╡рд┐рд╢реЗрд╖рддрд╛ рдмрджрд▓ рджреА рдЬрд╛рддреА рд╣реИ, рддрд╛рдХрд┐ рдЖрдВрдЦреЗрдВ рдЭрдкрдХ рдЬрд╛рддреА рд╣реИрдВред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2111.08419.pdf

डेल्टा-जीएन-एनकोडर। ऊपरी बाएं समूह: स्रोत छवि के कोण को एक सेकंड में बदला जा सकता है ताकि एक नई स्रोत छवि प्रस्तुत की जा सके, जो आउटपुट में परिलक्षित होती है; दाएं ऊपरी समूह: प्रकाश व्यवस्था भी पहचान से अलग हो जाती है, जिससे प्रकाश शैलियों का सुपरइम्पोज़िशन संभव हो जाता है; नीचे बाएं समूह: कई चेहरे की विशेषताएं बदल दी जाती हैं ताकि एक ‘उदास’ अभिव्यक्ति बनाई जा सके; नीचे दाएं समूह: एक ही चेहरे की अभिव्यक्ति विशेषता बदल दी जाती है, ताकि आंखें झपक जाती हैं। स्रोत: https://arxiv.org/pdf/2111.08419.pdf

यह पहचान और संदर्भ का पृथक्करण प्रशिक्षण चरण में प्राप्त किया जाता है। नए डीपफेक आर्किटेक्चर के लिए पाइपलाइन एक पूर्व-प्रशिक्षित जेनरेटिव एडवर्सेरियल नेटवर्क (जीएन) में लेटेंट वेक्टर की तलाश करती है जो छवि को बदलने के लिए मेल खाती है – एक सिम2रियल तरीका जो 2018 में आईबीएम के एआई रिसर्च सेक्शन से एक प्रोजेक्ट पर आधारित है।

शोधकर्ता टिप्पणी करते हैं:

‘केवल कुछ नमूनों के साथ, जो एक विशिष्ट विशेषता से भिन्न होते हैं, किसी पूर्व-प्रशिक्षित जुड़े हुए जेनरेटिव मॉडल के विच्छिन्न व्यवहार को सीखा जा सकता है। इसके लिए वास्तविक दुनिया के नमूनों की आवश्यकता नहीं है, जो आवश्यक रूप से संभव नहीं है। ‘

‘गैर-वास्तविक डेटा नमूनों का उपयोग करके同 लक्ष्य प्राप्त किया जा सकता है, सीखे हुए एन्कोडेड लेटेंट वेक्टर्स के सेमेंटिक्स का लाभ उठाकर। मौजूदा डेटा नमूनों पर वांछित परिवर्तन लागू करना किसी भी लेटेंट स्पेस व्यवहार अन्वेषण के बिना किया जा सकता है।’

शोधकर्ता उम्मीद करते हैं कि परियोजना में अन्वेषित विच्छिन्नता के मूल सिद्धांतों को अन्य डोमेन में स्थानांतरित किया जा सकता है, जैसे कि आंतरिक वास्तुकला सिमुलेशन, और यह कि डेल्टा-जीएन-एनकोडर के लिए अपनाए गए सिम2रियल विधि अंततः केवल स्केच के आधार पर डीपफेक साधनों को सक्षम कर सकती है, न कि सीजीआई-शैली के इनपुट के आधार पर।

यह तर्क दिया जा सकता है कि नई इज़राइली प्रणाली डीपफेक वीडियो को संश्लेषित करने में कितनी सक्षम हो सकती है या नहीं हो सकती है, इसकी तुलना में बहुत कम महत्वपूर्ण है कि शोध ने पहचान को संदर्भ से अलग करने में कितनी प्रगति की है, जीएन के लेटेंट स्पेस पर अधिक नियंत्रण प्राप्त करते हुए।

विच्छिन्नता छवि संश्लेषण में एक सक्रिय अनुसंधान क्षेत्र है; जनवरी 2021 में, एक अमेज़न के नेतृत्व वाले शोध पेपर ने समान मुद्रा नियंत्रण और विच्छिन्नता का प्रदर्शन किया, और 2018 में, चीनी अकादमी ऑफ साइंसेज में शेन्ज़ेन इंस्टीट्यूट ऑफ एडवांस्ड टेक्नोलॉजी से एक पेपर ने जीएन में मनमाने दृष्टिकोण उत्पन्न करने में प्रगति की।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai