कृत्रिम बुद्धिमत्ता

डीपफ़ेक वीडियो कॉल्स का पता लगाना मॉनिटर प्रकाश व्यवस्था के माध्यम से

Published July 6, 2022

Updated April 28, 2026

Martin Anderson

संयुक्त राज्य अमेरिका की नेशनल सिक्योरिटी एजेंसी (एनएसए) के एक शोधकर्ता और कैलिफोर्निया विश्वविद्यालय, बर्कले के बीच एक नए सहयोग से एक नए तरीके की पेशकश की जाती है जिसमें लाइव वीडियो संदर्भ में डीपफ़ेक सामग्री का पता लगाने के लिए – वीडियो कॉल के दूसरे छोर पर व्यक्ति की उपस्थिति पर मॉनिटर प्रकाश व्यवस्था के प्रभाव को देखकर।

लोकप्रिय DeepFaceLive उपयोगकर्ता Druuzil Tech & Games अपने अनुयायियों के साथ एक लाइव सत्र में अपने खुद के क्रिस्टियन बेल DeepFaceLab मॉडल का परीक्षण करते हैं, जबकि प्रकाश स्रोत बदलते हैं। स्रोत: https://www.youtube.com/watch?v=XPQLDnogLKA

सिस्टम एक ग्राफिक तत्व को उपयोगकर्ता की स्क्रीन पर रखता है जो एक संकीर्ण रंग श्रृंखला में तेजी से बदलता है जो एक典型 डीपफ़ेक सिस्टम की तुलना में तेजी से प्रतिक्रिया कर सकता है – यहां तक कि अगर, जैसे कि वास्तविक समय डीपफ़ेक स्ट्रीमिंग कार्यान्वयन DeepFaceLive (ऊपर चित्रित), यह लाइव रंग स्थानांतरण की कुछ क्षमता रखता है और परिवेश प्रकाश व्यवस्था के लिए खाता है।

दूसरे छोर पर व्यक्ति (अर्थात संभावित डीपफ़ेक धोखाधड़ी) के मॉनिटर पर प्रदर्शित एकरूप रंग छवि एक सीमित श्रृंखला में ह्यू-परिवर्तन के माध्यम से चक्र चलाती है जो वेबकैम के स्वचालित सफेद संतुलन और अन्य अध hoc प्रकाश व्यवस्था मुआवजे प्रणालियों को सक्रिय नहीं करने के लिए डिज़ाइन किए गए हैं, जो विधि को समझौता करेंगे।

पेपर से, एक उपयोगकर्ता के सामने मॉनिटर से प्रकाश स्थितियों में परिवर्तन का एक चित्रण, जो एक विस्तृत ‘क्षेत्र प्रकाश’ के रूप में कार्य करता है। स्रोत: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

इस दृष्टिकोण के पीछे का सिद्धांत यह है कि लाइव डीपफ़ेक सिस्टम रंग स्पेक्ट्रम के कुछ हिस्सों में अपने प्रभाव को प्रदर्शित करने में विफल रहता है, जिससे ‘लैग’ बढ़ जाता है, जो इसकी उपस्थिति को प्रकट करता है।

मॉनिटर प्रकाश को सटीक रूप से मापने के लिए, सिस्टम को सामान्य पर्यावरण प्रकाश व्यवस्था के प्रभाव को मापने और छोड़ने की आवश्यकता होती है जो मॉनिटर प्रकाश से संबंधित नहीं है। यह फिर सक्षम है मापन में कमियों को अलग करने के लिए, जो उपयोगकर्ताओं के चेहरे के रंग और सक्रिय-प्रकाश ह्यू का प्रतिनिधित्व करता है, जो 1-4 फ्रेम के बीच एक अस्थायी परिवर्तन का प्रतिनिधित्व करता है:

ऑन-स्क्रीन ‘डिटेक्टर’ ग्राफिक में ह्यू परिवर्तनों को सीमित करके, और यह सुनिश्चित करके कि उपयोगकर्ता का वेबकैम मॉनिटर प्रकाश व्यवस्था में अत्यधिक परिवर्तन से स्वचालित रूप से अपनी कैप्चर सेटिंग्स को समायोजित नहीं करता है, शोधकर्ताओं ने डीपफ़ेक सिस्टम के प्रकाश परिवर्तनों के अनुकूलन में एक विशिष्ट देरी का पता लगाने में सक्षम हुए हैं।

पेपर निष्कर्ष निकालता है:

‘चूंकि हम लाइव वीडियो कॉल्स पर उचित विश्वास रखते हैं, और वीडियो कॉल्स की बढ़ती सर्वव्यापकता हमारे व्यक्तिगत और पेशेवर जीवन में, हम प्रस्ताव करते हैं कि वीडियो (और ऑडियो) कॉल्स को प्रमाणित करने के लिए तकनीकें केवल महत्व में बढ़ेंगी।’

अध्ययन शीर्षक है एक्टिव इल्युमिनेशन का उपयोग करके वास्तविक समय डीप-फ़ेक वीडियो का पता लगाना, और यह कैंडिस आर. गेर्स्टनर, यूएस डिपार्टमेंट ऑफ डिफेंस में एक अनुप्रयुक्त शोध गणितज्ञ, और बर्कले के प्रोफेसर हनी फारिद से आता है।

विश्वास का क्षरण

एंटी-डीपफ़ेक शोध दृश्य पिछले छह महीनों में उल्लेखनीय रूप से बदल गया है, सामान्य डीपफ़ेक पता लगाने (अर्थात पूर्व-रिकॉर्डेड वीडियो और पोर्नोग्राफिक सामग्री को लक्षित करना) से ‘लाइवनेस’ पता लगाने की ओर, डीपफ़ेक का उपयोग वीडियो कॉन्फ़्रेंस कॉल्स में बढ़ती लहर की घटनाओं के प्रतिक्रियास्वरूप, और एफबीआई की हाल की चेतावनी के बारे में दूरस्थ कार्य के लिए ऐसी प्रौद्योगिकियों के उपयोग के बारे में।

यहां तक कि जहां एक वीडियो कॉल में यह साबित होता है कि यह डीपफ़ेक नहीं है, एआई-संचालित वीडियो प्रतिरूपकों के लिए बढ़ते अवसर परिदृश्य पैदा कर रहे हैं.

नई पेपर कहती है:

‘वास्तविक समय डीप फ़ेक [पोज़] अद्वितीय खतरे क्योंकि लाइव वीडियो या फोन कॉल के आसपास की सामान्य भावना विश्वास, और पता लगाने की चुनौती डीप फ़ेक्स को वास्तविक समय में कॉल के दौरान।’

शोध समुदाय ने लंबे समय से डीपफ़ेक सामग्री के लिए अवश्य ही संकेत खोजने का लक्ष्य निर्धारित किया है जो आसानी से मुआवजा नहीं दिया जा सकता है। हालांकि मीडिया ने आमतौर पर इसे सुरक्षा शोधकर्ताओं और डीपफ़ेक डेवलपर्स के बीच एक तकनीकी युद्ध के रूप में वर्णित किया है, अधिकांश प्रारंभिक दृष्टिकोणों (जैसे आंख ब्लिंक विश्लेषण, सिर मुद्रा विभेदन, और व्यवहार विश्लेषण) का खंडन किया गया है क्योंकि डेवलपर और उपयोगकर्ता सामान्य रूप से अधिक वास्तविक डीपफ़ेक बनाने का प्रयास कर रहे थे, न कि सुरक्षा समुदाय द्वारा पहचाने गए नवीनतम ‘टेल’ को संबोधित करने के लिए।

लाइव डीपफ़ेक वीडियो पर प्रकाश डालना

लाइव वीडियो वातावरण में डीपफ़ेक्स का पता लगाने में खराब वीडियो कनेक्शन के लिए खाता होना शामिल है, जो वीडियो-कॉन्फ़्रेंसिंग परिदृश्यों में बहुत आम है। यहां तक कि बिना किसी हस्तक्षेप डीपफ़ेक परत के, वीडियो सामग्री नासा शैली की देरी, रेंडरिंग आर्टेफैक्ट्स, और ऑडियो और वीडियो में अन्य प्रकार के क्षय के अधीन हो सकती है। ये एक लाइव डीपफ़ेकिंग आर्किटेक्चर में खुरदरे किनारों को छिपाने में मदद कर सकते हैं, दोनों वीडियो और ऑडियो डीपफ़ेक्स में।

लेखकों की नई प्रणाली 2020 प्रकाशन से परिणामों और तरीकों में सुधार करती है, जो फिलाडेल्फिया में टेम्पल विश्वविद्यालय के सेंटर फॉर नेटवर्क्ड कंप्यूटिंग से आता है।

2020 के पेपर से, हम उपयोगकर्ता की स्क्रीन की सामग्री के रूपांतरण के रूप में ‘इन-फ़िल्ड’ चेहरे की प्रकाश व्यवस्था में परिवर्तन का अवलोकन कर सकते हैं। स्रोत: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

नई कार्य में अंतर यह है कि यह वेबकैम के प्रतिक्रिया करने के तरीके को ध्यान में रखता है। लेखकों का वर्णन है:

‘चूंकि सभी आधुनिक वेबकैम स्वचालित एक्सपोज़र करते हैं, उच्च तीव्रता वाले सक्रिय प्रकाश व्यवस्था [पिछले कार्य में उपयोग किया जाता है] संभवतः कैमरे के स्वचालित एक्सपोज़र को ट्रिगर करेगा, जो बदले में रिकॉर्ड की गई चेहरे की उपस्थिति को भ्रमित करेगा। इसे避ने के लिए, हम एक समान ह्यू परिवर्तन का उपयोग करते हैं। ‘

‘हालांकि यह कैमरे के स्वचालित एक्सपोज़र से बचाता है, यह कैमरे के सफेद संतुलन को ट्रिगर कर सकता है, जो फिर से रिकॉर्ड की गई चेहरे की उपस्थिति को भ्रमित करेगा। इसे टालने के लिए, हम एक ह्यू श्रृंखला में काम करते हैं जो हमने सांख्यिकीय रूप से निर्धारित किया है जो सफेद संतुलन को ट्रिगर नहीं करता है।’

इस पहल के लिए, लेखकों ने इसी तरह के पिछले प्रयासों पर भी विचार किया, जैसे LiveScreen, जो एक अस्पष्ट प्रकाश पैटर्न को अंत-उपयोगकर्ता के मॉनिटर पर मजबूर करता है ताकि डीपफ़ेक सामग्री का पता लगाया जा सके।

हालांकि उस प्रणाली ने 94.8% सटीकता दर हासिल की, शोधकर्ता निष्कर्ष निकालते हैं कि प्रकाश पैटर्न की सूक्ष्मता एक उज्ज्वल वातावरण में ऐसे गुप्त दृष्टिकोण को लागू करना मुश्किल बना देगी, और इसके बजाय प्रस्ताव करते हैं कि उनकी अपनी प्रणाली या इसी तरह की प्रणाली को लोकप्रिय वीडियो-कॉन्फ़्रेंसिंग सॉफ़्टवेयर में सार्वजनिक रूप से और डिफ़ॉल्ट रूप से एकीकृत किया जा सकता है:

‘हमारा प्रस्तावित हस्तक्षेप या तो एक कॉल प्रतिभागी द्वारा हो सकता है जो बस अपनी स्क्रीन साझा करता है और समय-समय पर बदलते पैटर्न को प्रदर्शित करता है, या आदर्श रूप से, यह सीधे वीडियो-कॉल क्लाइंट में एकीकृत किया जा सकता है।’

परीक्षण

लेखकों ने अपने Dlib-चालित डीपफ़ेक डिटेक्टर का परीक्षण करने के लिए सिंथेटिक और वास्तविक दुनिया के विषयों का मिश्रण उपयोग किया। सिंथेटिक परिदृश्य के लिए, उन्होंने Mitsuba का उपयोग किया, जो लॉज़ाने में स्विस फेडरल इंस्टीट्यूट ऑफ टेक्नोलॉजी से एक आगे और उल्टा रेंडरर है।

सिम्युलेटेड डेटा सेट से नमूने, जिसमें त्वचा का स्वर, प्रकाश स्रोत का आकार, परिवेश प्रकाश तीव्रता और कैमरे की निकटता में भिन्नता है।

सिम्युलेटेड परीक्षण परिदृश्य से, जिसमें त्वचा का स्वर, प्रकाश स्रोत का आकार, परिवेश प्रकाश तीव्रता और कैमरे की निकटता में भिन्नता है।

दृश्य में एक पैरामेट्रिक सीजीआई हेड शामिल है जो एक आभासी कैमरे से 90° क्षेत्र दृश्य के साथ कब्जा कर लिया गया है। सिर में लैम्बर्टियन प्रतिबिंब और तटस्थ त्वचा स्वर हैं, और वे आभासी कैमरे से 2 फीट दूर स्थित हैं।

लेखकों का टिप्पणी है:

‘सिम्युलेशन में, हमारे विभिन्न धारणाओं को संतुष्ट करने के साथ, हमारी प्रस्तावित तकनीक विभिन्न इमेजिंग कॉन्फ़िगरेशन के लिए बहुत ही मजबूत है।’

वास्तविक दुनिया के परिदृश्य के लिए, शोधकर्ताओं ने 15 स्वयंसेवकों का उपयोग किया, जिनमें विभिन्न त्वचा स्वर थे, विभिन्न वातावरण में। प्रत्येक को प्रतिबंधित ह्यू परिवर्तन के दो चक्र के अधीन किया गया था, जिसमें 30Hz डिस्प्ले रिफ्रेश दर वेबकैम के साथ सिंक्रनाइज़ की गई थी, जिसका अर्थ था कि सक्रिय प्रकाश व्यवस्था केवल एक सेकंड के लिए ही चलेगी। परिणाम सिंथेटिक परीक्षणों के साथ तुलनात्मक रूप से तुलनात्मक थे, हालांकि संबंध मूल्य में वृद्धि हुई जब प्रकाश मूल्यों में वृद्धि हुई।

भविष्य की दिशा

सिस्टम, शोधकर्ताओं को स्वीकार करते हैं, आमतौर पर चेहरे की अकल्पनीयता के लिए खाता नहीं है, जैसे कि बैंग्स, चश्मे, या दाढ़ी। हालांकि, वे नोट करते हैं कि इस तरह के मास्किंग को बाद की प्रणालियों में जोड़ा जा सकता है (लेबलिंग और बाद के सेमेंटिक सेगमेंटेशन के माध्यम से), जो केवल लक्ष्य विषय में देखे गए त्वचा क्षेत्रों से मान ले सकते हैं।

लेखक यह भी सुझाव देते हैं कि एक समान दृष्टिकोण का उपयोग डीपफ़ेक ऑडियो कॉल्स का पता लगाने के लिए किया जा सकता है, और यह आवश्यक ध्वनि को मानव श्रवण सीमा से बाहर एक आवृत्ति में खेला जा सकता है।

शायद सबसे दिलचस्प बात यह है कि शोधकर्ता यह भी सुझाव देते हैं कि मूल्यांकन क्षेत्र का विस्तार चेहरे से परे एक समृद्ध कैप्चर फ्रेमवर्क में डीपफ़ेक पता लगाने की संभावना को काफी बढ़ा सकता है:

‘एक अधिक जटिल 3-डी प्रकाश व्यवस्था का अनुमान एक समृद्ध उपस्थिति मॉडल प्रदान करेगा जो एक धोखेबाज के लिए परिहार करना और भी कठिन होगा। जबकि हम केवल चेहरे पर केंद्रित थे, कंप्यूटर डिस्प्ले गर्दन, ऊपरी शरीर और आसपास के पृष्ठभूमि को भी रोशन करता है, जिससे समान माप किए जा सकते हैं। ‘

‘इन अतिरिक्त मापों को धोखेबाज को पूरे 3-डी दृश्य पर विचार करने के लिए मजबूर करेंगे, न कि केवल चेहरे को।’

* मेरा लेखकों के इनलाइन संदर्भों को हाइपरलिंक में रूपांतरण।

पहली बार 6 जुलाई 2022 को प्रकाशित।

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai