कृत्रिम बुद्धिमत्ता

‘रचनात्मक’ चेहरा सत्यापन जेनरेटिव एडवर्सेरियल नेटवर्क के साथ

Published March 30, 2022

Updated April 5, 2026

Martin Anderson

स्टैनफोर्ड विश्वविद्यालय से एक नए शोध पत्र ने डेटिंग ऐप्स जैसे प्लेटफ़ॉर्म पर चेहरा प्रमाणीकरण प्रणालियों को धोखा देने के लिए एक नवजात तरीका प्रस्तावित किया है, जिसमें एक जेनरेटिव एडवर्सेरियल नेटवर्क (GAN) का उपयोग करके वास्तविक चेहरे के समान मूलभूत आईडी जानकारी वाले वैकल्पिक चेहरा छवियों का निर्माण किया जाता है।

यह तरीका टिंडर और बम्बल जैसे डेटिंग अनुप्रयोगों पर चेहरा सत्यापन प्रक्रियाओं को सफलतापूर्वक बायपास करने में सक्षम था, एक मामले में यहां तक कि एक लिंग-विपरीत (पुरुष) चेहरे को मूल (महिला) पहचान के लिए प्रामाणिक के रूप में पारित किया गया था।

विभिन्न उत्पन्न पहचान जो शोध पत्र के लेखक (ऊपर पहली छवि में चित्रित) के विशिष्ट एन्कोडिंग की विशेषता है। स्रोत: https://arxiv.org/pdf/2203.15068.pdf

लेखक के अनुसार, यह काम विशिष्ट पहचान विशेषताओं वाली उत्पन्न छवियों का उपयोग करके चेहरा सत्यापन को बायपास करने का पहला प्रयास है, जो एक वैकल्पिक या पर्याप्त रूप से परिवर्तित पहचान का प्रतिनिधित्व करने का प्रयास करता है।

यह तकनीक एक कस्टम स्थानीय चेहरा सत्यापन प्रणाली पर परीक्षण की गई थी, और फिर दो डेटिंग अनुप्रयोगों के खिलाफ ब्लैक बॉक्स परीक्षण में अच्छा प्रदर्शन किया जो उपयोगकर्ता-अपलोडेड छवियों पर चेहरा सत्यापन करते हैं।

नया शोध पत्र चेहरा सत्यापन बायपास शीर्षक से है, और स्टैनफोर्ड विश्वविद्यालय के इलेक्ट्रिकल इंजीनियरिंग विभाग में शोधकर्ता संजना सरदा से आया है।

चेहरा स्थान को नियंत्रित करना

हालांकि चेहरे, सड़क संकेत आदि से आईडी-विशिष्ट विशेषताओं को क्राफ्टेड छवियों में ‘इंजेक्ट’ करना प्रतिकूल हमलों का एक मानक है, नए अध्ययन से पता चलता है कि कुछ और: यह सुझाव देता है कि शोध क्षेत्र की जेनरेटिव एडवर्सेरियल नेटवर्क के लेटेंट स्पेस को नियंत्रित करने की बढ़ती क्षमता अंततः उन आर्किटेक्चर के विकास को सक्षम करेगी जो एक उपयोगकर्ता की संगत वैकल्पिक पहचान बना सकते हैं – और, प्रभावी रूप से, एक अनजान उपयोगकर्ता की वेब-उपलब्ध छवियों से पहचान विशेषताओं को निकालकर एक ‘छाया’ क्राफ्टेड पहचान में शामिल करने में सक्षम होंगे।

संगतता और नेविगेबिलिटी जेनरेटिव एडवर्सेरियल नेटवर्क के लेटेंट स्पेस के संबंध में मुख्य चुनौतियां रही हैं जब से जेनरेटिव एडवर्सेरियल नेटवर्क की शुरुआत हुई। एक जेनरेटिव एडवर्सेरियल नेटवर्क जिसने अपने लेटेंट स्पेस में प्रशिक्षण छवियों का संग्रह सफलतापूर्वक आत्मसात किया है, वह किसी भी वर्ग से विशेषताओं को ‘धक्का’ देने के लिए कोई आसान मानचित्र प्रदान नहीं करता है।

हालांकि ग्रेडिएंट-वेटेड क्लास एक्टिवेशन मैपिंग (ग्रेड-कैम) जैसी तकनीकें और उपकरण स्थापित वर्गों के बीच लेटेंट दिशाएं स्थापित करने में मदद कर सकते हैं और परिवर्तनों (नीचे दी गई छवि देखें) को सक्षम कर सकते हैं, आगे की चुनौती जुड़ाव आमतौर पर एक ‘अनुमानित’ यात्रा बनाती है, जिसमें संक्रमण पर सीमित महीन नियंत्रण होता है।

जेनरेटिव एडवर्सेरियल नेटवर्क के लेटेंट स्पेस में एन्कोडेड वेक्टर के बीच एक खुरदरा यात्रा, एक डेटा-व्युत्पन्न पुरुष पहचान को दूसरी ओर एक जटिल और रहस्यमय लेटेंट स्पेस में कई रैखिक हाइपरप्लेन में से एक के पार ‘धक्का’ दे रहा है। छवि https://www.youtube.com/watch?v=dCKbRCUyop8 पर सामग्री से व्युत्पन्न है।

आईडी-विशिष्ट विशेषताओं को ‘फ्रीज’ और सुरक्षित करने और उन्हें लेटेंट स्पेस में कहीं और परिवर्तनकारी एन्कोडिंग में ले जाने की क्षमता संभावित रूप से एक संगत (और यहां तक कि एनिमेटेड) व्यक्ति बनाने के लिए संभव बनाती है जिसकी पहचान मशीन प्रणाली द्वारा किसी और के रूप में पढ़ी जाती है।

विधि

लेखक ने प्रयोगों के लिए दो डेटासेट का उपयोग किया: एक मानव उपयोगकर्ता डेटासेट, जिसमें चार साल की अवधि में उसके चेहरे की 310 छवियां शामिल थीं, जिसमें विभिन्न प्रकाश, आयु और दृश्य कोण थे), कैफे के माध्यम से फेस क्रॉप किए गए; और फेयरफेस डेटासेट में 108,501 छवियां, जो इसी तरह से निकाली और क्रॉप की गई थीं।

स्थानीय चेहरा सत्यापन मॉडल फेसनेट और डीपफेस के आधार पर था, जो कॉनवनेट इन्सेप्शन पर पूर्व-प्रशिक्षित था, जिसमें प्रत्येक छवि 128-आयामी वेक्टर द्वारा प्रतिनिधित्व किया गया था।

इस दृष्टिकोण में फेयरफेस से प्रशिक्षित उपसेट से चेहरा छवियों का उपयोग किया जाता है। चेहरा सत्यापन को पारित करने के लिए, छवि के फ्रोबेनियस नॉर्म द्वारा उत्पन्न दूरी को डेटाबेस में लक्ष्य उपयोगकर्ता के खिलाफ ऑफसेट किया जाता है। 0.7 के थ्रेशोल्ड से नीचे की कोई भी छवि समान पहचान के रूप में मानी जाती है, अन्यथा सत्यापन विफल माना जाता है।

एक स्टाइलजीएन मॉडल को लेखक के व्यक्तिगत डेटासेट पर फाइन-ट्यून किया गया था, जो उसकी पहचान के पहचानने योग्य भिन्नताओं का उत्पादन करने वाला मॉडल बनाता था, हालांकि इनमें से कोई भी उत्पन्न छवियां प्रशिक्षण डेटा की समान नहीं थीं। यह पहले चार परतों को फ्रीज करके प्राप्त किया गया था, ताकि डेटा को ओवरफिटिंग से बचाया जा सके और विविध आउटपुट उत्पन्न किया जा सके।

हालांकि आधार स्टाइलजीएन मॉडल के साथ विविध छवियां प्राप्त की गईं, कम रिज़ॉल्यूशन और विश्वासार्हता ने स्टारजीएन वी2 के साथ दूसरे प्रयास को प्रेरित किया, जो लक्ष्य चेहरे की ओर सीड छवियों को प्रशिक्षित करने की अनुमति देता है।

स्टारजीएन वी2 मॉडल को फेयरफेस वैलिडेशन सेट पर लगभग 10 घंटे तक प्रशिक्षित किया गया था, जिसमें बैच आकार चार और वैलिडेशन आकार आठ था। सबसे सफल दृष्टिकोण में, लेखक के व्यक्तिगत डेटासेट का उपयोग स्रोत के रूप में किया गया था, और प्रशिक्षण डेटा को संदर्भ के रूप में उपयोग किया गया था।

सत्यापन प्रयोग

एक चेहरा सत्यापन मॉडल का निर्माण 1000 छवियों के उपसेट पर किया गया था, जिसका उद्देश्य सेट से एक मनमानी छवि की पुष्टि करना था। जिन छवियों ने सत्यापन में सफलतापूर्वक पारित किया, उन्हें बाद में लेखक के अपने आईडी के खिलाफ परीक्षण किया गया।

बाएं, शोध पत्र के लेखक, एक वास्तविक फोटो; मध्य, एक मनमानी छवि जो सत्यापन में विफल रही; दाएं, डेटासेट से एक असंबंधित छवि जो लेखक के रूप में सत्यापन में पारित हुई।

प्रयोगों का उद्देश्य दृश्य पहचान के बीच संभव के रूप में व्यापक अंतर बनाना था, जबकि लक्ष्य पहचान की परिभाषित विशेषताओं को बनाए रखना था। इसका मूल्यांकन महालनोबिस दूरी के साथ किया गया था, जो छवि प्रसंस्करण में पैटर्न और टेम्पलेट खोज के लिए उपयोग किया जाने वाला एक मीट्रिक है।

बेसलाइन जेनरेटिव मॉडल के लिए, कम रिज़ॉल्यूशन परिणाम सीमित विविधता प्रदर्शित करते हैं, हालांकि स्थानीय चेहरा सत्यापन में पारित किया जाता है। स्टारजीएन वी2 ने विविध छवियों को बनाने में अधिक सक्षम साबित किया जो प्रमाणीकरण में सक्षम थीं।

चित्रित सभी छवियों ने स्थानीय चेहरा सत्यापन में पारित किया। ऊपर, निम्न-रिज़ॉल्यूशन स्टाइलजीएन बेसलाइन पीढ़ियां हैं, नीचे उच्च-रिज़ॉल्यूशन और उच्च गुणवत्ता वाली स्टारजीएन वी2 पीढ़ियां हैं।

अंतिम तीन छवियों का उपयोग लेखक के अपने चेहरा डेटासेट के रूप में किया गया था, जबकि पिछली छवियों ने प्रशिक्षण डेटा को संदर्भ के रूप में और लेखक के डेटासेट को स्रोत के रूप में उपयोग किया था।

उत्पन्न छवियों का परीक्षण बम्बल और टिंडर जैसे डेटिंग ऐप्स के चेहरा सत्यापन प्रणालियों के खिलाफ किया गया था, जिसमें लेखक की पहचान को बेसलाइन के रूप में उपयोग किया गया था, और सत्यापन में पारित किया गया था। लेखक के चेहरे का एक ‘पुरुष’ संस्करण भी बम्बल की सत्यापन प्रक्रिया में पारित हो गया, हालांकि उत्पन्न छवि में प्रकाश को स्वीकार किए जाने से पहले समायोजित करना पड़ा। टिंडर ने पुरुष संस्करण को स्वीकार नहीं किया।

लेखक (महिला) की पहचान के ‘पुरुष’ संस्करण।

निष्कर्ष

यह जेनरेटिव एडवर्सेरियल नेटवर्क लेटेंट स्पेस मैनिपुलेशन के संदर्भ में पहचान प्रोजेक्शन में एक महत्वपूर्ण प्रयोग है, जो अभी भी एक असाधारण चुनौती है छवि सिंथेसिस और डीपफेक रिसर्च में। हालांकि, यह काम विविध पहचानों में विशिष्ट विशेषताओं को लगातार एम्बेड करने और ‘वैकल्पिक’ पहचान बनाने की अवधारणा को खोलता है जो मशीन प्रणाली द्वारा किसी और के रूप में ‘पढ़ी’ जाती है।

पहली बार 30 मार्च 2022 को प्रकाशित।

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

‘रचनात्मक’ चेहरा सत्यापन जेनरेटिव एडवर्सेरियल नेटवर्क के साथ

चेहरा स्थान को नियंत्रित करना

विधि

सत्यापन प्रयोग

निष्कर्ष

You may like