कृत्रिम बुद्धिमत्ता

‘गुप्त मार्ग’ जो पैदल यात्री पहचान प्रणालियों को विफल कर सकते हैं

Published January 28, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: Variation on prompt: ‘a 1792x1024 feature image depicting an orthogonal ariel view looking down on NYC's 42nd street area. Most of the image should have a blue hue, but within the sidewalk areas there should be red-tinted pathways indicated, like a kind of map route. Make it like The Sims.’

इज़राइल और जापान के बीच एक नए शोध सहयोग में यह दावा किया गया है कि पैदल यात्री पहचान प्रणालियों में अंतर्निहित कमजोरियां हैं, जो सावधानी से योजनाबद्ध मार्गों का उपयोग करके चेहरे की पहचान प्रणालियों से बचने की अनुमति देती हैं जो उन क्षेत्रों में नेविगेट करती हैं जहां निगरानी नेटवर्क कम प्रभावी होते हैं।

सार्वजनिक रूप से उपलब्ध फुटेज की मदद से टोक्यो, न्यूयॉर्क और सैन फ्रांसिस्को में, शोधकर्ताओं ने सार्वजनिक नेटवर्क में उपयोग में आने वाली सबसे लोकप्रिय वस्तु पहचान प्रणालियों के आधार पर ऐसे मार्गों की गणना करने के लिए एक स्वचालित विधि विकसित की।

अध्ययन में उपयोग किए गए तीन क्रॉसिंग: टोक्यो, जापान में शिबुया क्रॉसिंग; न्यूयॉर्क में ब्रॉडवे; और सैन फ्रांसिस्को में कास्ट्रो जिला। स्रोत: https://arxiv.org/pdf/2501.15653

इस विधि से, यह संभव है कि विश्वास हीटमैप उत्पन्न किए जाएं जो कैमरा फीड में उन क्षेत्रों को चिह्नित करते हैं जहां पैदल यात्री सकारात्मक चेहरे की पहचान हिट प्रदान करने की संभावना कम होती है:

दाएं, हम शोधकर्ताओं की विधि द्वारा उत्पन्न विश्वास हीटमैप देखते हैं। लाल क्षेत्र कम विश्वास को इंगित करते हैं, और एक मुद्रा, कैमरा मुद्रा और अन्य कारकों का एक सम्मेलन है जो चेहरे की पहचान में बाधा डाल सकता है।

सिद्धांत रूप में, ऐसी विधि एक स्थान-जागरूक ऐप या किसी अन्य प्रकार के मंच में संसाधित की जा सकती है जो किसी भी गणना किए गए स्थान में ए से बी तक के कम से कम ‘पहचान मित्र’ मार्गों को वितरित करने के लिए है।

नई पेपर में ऐसी विधि का प्रस्ताव किया गया है, जिसे स्थान-आधारित गोपनीयता बढ़ाने की तकनीक (एल-पीईटी) कहा जाता है; यह एक प्रति-उपाय का भी प्रस्ताव करता है, जिसे स्थान-आधारित अनुकूली सीमा (एल-बीएटी) कहा जाता है, जो मूल रूप से समान दिनचर्या चलाता है, लेकिन फिर जानकारी का उपयोग करके निगरानी उपायों को मजबूत और सुधारने के लिए करता है, न कि पहचान से बचने के तरीके खोजने के लिए; और कई मामलों में, ऐसे सुधार संभव नहीं होंगे बिना निगरानी बुनियादी ढांचे में अतिरिक्त निवेश के।

पेपर इसलिए एक संभावित तकनीकी वृद्धि की लड़ाई की स्थापना करता है जो उन लोगों के बीच है जो अपने मार्गों को पहचान से बचने के लिए अनुकूलित करना चाहते हैं और निगरानी प्रणालियों की क्षमता के बीच है जो चेहरे की पहचान प्रौद्योगिकियों का पूरा उपयोग करने में सक्षम हैं।

पहले के चेहरे की पहचान को विफल करने के तरीके इस से कम आकर्षक हैं, और विरोधी दृष्टिकोण पर केंद्रित हैं, जैसे कि टीएनटी हमले, और मुद्रित पैटर्न का उपयोग करके पहचान अल्गोरिथ्म को भ्रमित करने के लिए।

2019 का काम ‘स्वचालित निगरानी कैमरों को धोखा देना: व्यक्ति पहचान पर हमला करने के लिए विरोधी पैच’ ने एक विरोधी मुद्रित पैटर्न का प्रदर्शन किया जो पहचान प्रणाली को यह विश्वास दिलाने में सक्षम था कि कोई व्यक्ति नहीं है। स्रोत: https://arxiv.org/pdf/1904.08653

शोधकर्ताओं का कहना है कि उनकी विधि को कम तैयारी की आवश्यकता है, जिसमें विरोधी पोशाक आइटम (ऊपर दी गई छवि देखें) बनाने की कोई आवश्यकता नहीं है।

पेपर पेपर है, जिसे स्ट्रीट वीडियो कैमरों द्वारा पहचान से बचने के लिए एक गोपनीयता बढ़ाने की तकनीक विरोधी सहायक उपकरण का उपयोग किए बिना कहा जाता है, और बेन-गुरियन विश्वविद्यालय ऑफ द नेगेव और फुजित्सु लिमिटेड के पांच शोधकर्ताओं से आता है।

विधि और परीक्षण

पिछले कार्यों के अनुसार विरोधी मास्क, एडव्हैट, विरोधी पैच, और विभिन्न अन्य समान परीक्षणों के अनुसार, शोधकर्ता यह मानते हैं कि पैदल यात्री ‘हमलावर’ को यह पता है कि निगरानी नेटवर्क में कौन सी वस्तु पहचान प्रणाली का उपयोग किया जा रहा है। यह वास्तव में एक असंगत धारणा नहीं है, खुले स्रोत व्यावसायिक प्रणालियों जैसे कि सिस्को और अल्ट्रालिटिक्स (वर्तमान में वाईओएलओ विकास में केंद्रीय ड्राइविंग बल) जैसे निगरानी प्रणालियों में व्यापक अपनाने के कारण।

पेपर यह भी मानता है कि पैदल यात्री के पास एक लाइव स्ट्रीम तक पहुंच है जो गणना किए गए स्थानों पर केंद्रित है, जो अधिकांश स्थानों में एक तार्किक धारणा है जो संभावित रूप से कवरेज की तीव्रता हो सकती है।

511ny.org जैसी साइटें न्यूयॉर्क शहर क्षेत्र में कई निगरानी कैमरों तक पहुंच प्रदान करती हैं। स्रोत: https://511ny.or

इसके अलावा, पैदल यात्री को प्रस्तावित विधि तक पहुंच की आवश्यकता है, और दृश्य itself (अर्थात, पारित होने और मार्ग जिसमें एक ‘सुरक्षित’ मार्ग स्थापित किया जाना है)।

एल-पीईटी विकसित करने के लिए, लेखकों ने कैमरे के संबंध में पैदल यात्री कोण के प्रभाव का मूल्यांकन किया; कैमरे की ऊंचाई का प्रभाव; दूरी का प्रभाव; और दिन के समय का प्रभाव। मैदानी सच्चाई प्राप्त करने के लिए, उन्होंने 0°, 45°, 90°, 135°, 180°, 225°, 270°, और 315° के कोणों पर एक व्यक्ति की तस्वीर ली।

शोधकर्ताओं द्वारा किए गए मैदानी सच्चाई के अवलोकन।

उन्होंने इन भिन्नताओं को तीन अलग-अलग कैमरे की ऊंचाई (0.6मी, 1.8मी, 2.4मी) पर दोहराया, और विभिन्न प्रकाश स्थितियों (सुबह, दोपहर, रात और ‘प्रयोगशाला’ स्थितियों) के साथ।

इस फुटेज को फास्टर आर-सीएनएन और वाईओएलओवी3 वस्तु पहचानकर्ताओं को खिलाने पर, उन्होंने पाया कि वस्तु का विश्वास कैमरे के कोण, पैदल यात्री की दूरी, कैमरे की ऊंचाई, और मौसम/प्रकाश स्थितियों पर निर्भर करता है।

लेखकों ने तब एक व्यापक श्रृंखला के वस्तु पहचानकर्ताओं का परीक्षण किया: फास्टर आर-सीएनएन; वाईओएलओवी3; एसएसडी; डिफ्यूजनडेट; और आरटीएमडेट.

लेखकों का कहना है:

‘हमने पाया कि सभी पांच वस्तु पहचानकर्ता संरचनाएं पैदल यात्री स्थिति और पर्यावरण प्रकाश से प्रभावित होती हैं। इसके अलावा, हमने पाया कि तीन में से पांच मॉडल (वाईओएलओवी3, एसएसडी, और आरटीएमडेट) के लिए प्रभाव सभी पर्यावरण प्रकाश स्तरों के माध्यम से बना रहता है।’

विस्तार की सीमा को बढ़ाने के लिए, शोधकर्ताओं ने टोक्यो में शिबुया क्रॉसिंग, न्यूयॉर्क में ब्रॉडवे और सैन फ्रांसिस्को में कास्ट्रो जिले में सार्वजनिक रूप से उपलब्ध यातायात कैमरों से फुटेज का उपयोग किया।

प्रत्येक स्थान ने पांच से छह रिकॉर्डिंग प्रदान की, प्रति रिकॉर्डिंग लगभग चार घंटे के फुटेज के साथ। पहचान प्रदर्शन का विश्लेषण करने के लिए, प्रत्येक फ्रेम को दो सेकंड के अंतराल पर निकाला गया और फास्टर आर-सीएनएन वस्तु पहचानकर्ता का उपयोग करके संसाधित किया गया। प्राप्त फ्रेम में प्रत्येक पिक्सेल के लिए, विधि ने ‘व्यक्ति’ पहचान बाउंडिंग बॉक्स की औसत विश्वास का अनुमान लगाया।

‘हमने पाया कि तीनों स्थानों में, वस्तु पहचानकर्ता का विश्वास लोगों की स्थिति पर निर्भर करता था। उदाहरण के लिए, शिबुया क्रॉसिंग फुटेज में, कैमरे से दूर और कैमरे के करीब दोनों में बड़े क्षेत्र हैं जहां विश्वास कम है, जहां एक खंभा गुजरने वाले पैदल यात्रियों को आंशिक रूप से ढकता है।’

एल-पीईटी विधि मूल रूप से यह प्रक्रिया है, जो तर्कसंगत रूप से ‘हथियारबंद’ है ताकि एक शहरी क्षेत्र में एक मार्ग प्राप्त किया जा सके जो पैदल यात्री को सफलतापूर्वक पहचाने जाने की संभावना कम से कम हो।

इसके विपरीत, एल-बीएटी समान प्रक्रिया का पालन करता है, लेकिन पहचान प्रणाली में स्कोर को अपडेट करके एक फीडबैक लूप बनाता है, जो एल-पीईटी दृष्टिकोण को रोकने और प्रणाली के ‘अंधे क्षेत्रों’ को अधिक प्रभावी बनाने के लिए डिज़ाइन किया गया है।

(व्यावहारिक रूप से, हालांकि, हीटमैप से प्राप्त कवरेज में सुधार करने के लिए केवल कैमरे की स्थिति में बैठे कैमरे को अपग्रेड करने से ज्यादा की आवश्यकता होगी; परीक्षण मानदंडों के आधार पर, स्थान सहित, यह आवश्यक होगा कि उपेक्षित क्षेत्रों को कवर करने के लिए अतिरिक्त कैमरे स्थापित किए जाएं – इसलिए यह तर्क दिया जा सकता है कि एल-पीईटी विधि इस विशेष ‘ठंडे युद्ध’ को एक बहुत ही महंगी परिदृश्य में बदल देती है)

कास्ट्रो स्ट्रीट के देखे गए क्षेत्र में विभिन्न डिटेक्टर फ्रेमवर्क के माध्यम से प्रत्येक पिक्सेल के लिए पैदल यात्री पहचान विश्वास का औसत। प्रत्येक वीडियो को विभिन्न प्रकाश स्थितियों में रिकॉर्ड किया गया था: सूर्योदय, दिन, सूर्यास्त, और दो अलग-अलग रात की स्थितियां। परिणाम प्रत्येक प्रकाश परिदृश्य के लिए अलग से प्रस्तुत किए गए हैं।

पिक्सेल-आधारित मैट्रिक्स प्रतिनिधित्व को कार्य के लिए उपयुक्त ग्राफ प्रतिनिधित्व में परिवर्तित करने के बाद, शोधकर्ताओं ने डिज्कस्ट्रा एल्गोरिदम को पैदल यात्रियों के लिए क्षेत्रों में निगरानी का पता लगाने से बचने के लिए अनुकूल मार्गों की गणना करने के लिए अनुकूलित किया।

इसके बजाय सबसे छोटा मार्ग खोजने के, एल्गोरिदम को पहचान विश्वास को कम करने के लिए संशोधित किया गया था, उच्च-विश्वास क्षेत्रों को उच्च ‘लागत’ वाले क्षेत्रों के रूप में माना जाता था। इस अनुकूलन ने एल्गोरिदम को उन मार्गों की पहचान करने की अनुमति दी जो अंधे धब्बों या कम-पता क्षेत्रों से गुजरते हैं, प्रभावी रूप से पैदल यात्रियों को निगरानी प्रणालियों के लिए कम दृश्य मार्गों के साथ मार्गदर्शन करते हैं।

दृश्य के हीटमैप को पिक्सेल-आधारित मैट्रिक्स से ग्राफ-आधारित प्रतिनिधित्व में परिवर्तित करने का एक दृश्य।

शोधकर्ताओं ने एल-बीएटी प्रणाली के प्रभाव का मूल्यांकन एक डेटासेट के साथ किया जो चार घंटे की सार्वजनिक पैदल यात्रा रिकॉर्डिंग से बनाया गया था। संग्रह को आबाद करने के लिए, प्रत्येक फ्रेम को दो सेकंड के अंतराल पर प्रसंस्कृत किया गया और एक एसएसडी वस्तु पहचानकर्ता का उपयोग किया गया।

प्रत्येक फ्रेम से, एक बाउंडिंग बॉक्स चुना गया जिसमें एक पहचाना गया व्यक्ति शामिल था एक सकारात्मक नमूने के रूप में, और एक यादृच्छिक क्षेत्र जिसमें कोई पहचाना गया व्यक्ति नहीं था एक नकारात्मक नमूने के रूप में उपयोग किया गया था। इन जोड़े नमूनों ने दो फास्टर आर-सीएनएन मॉडलों के मूल्यांकन के लिए एक डेटासेट बनाया – एक एल-बीएटी लागू किया गया, और एक बिना।

मॉडलों के प्रदर्शन का मूल्यांकन यह जांचकर किया गया कि वे सकारात्मक और नकारात्मक नमूनों की पहचान कितनी सटीकता से करते हैं: एक बाउंडिंग बॉक्स जो एक सकारात्मक नमूने को ओवरलैप करता है एक सच्चा सकारात्मक माना जाता है, जबकि एक बाउंडिंग बॉक्स जो एक नकारात्मक नमूने को ओवरलैप करता है एक झूठा सकारात्मक माना जाता है।

एल-बीएटी के पता लगाने की विश्वसनीयता को निर्धारित करने के लिए उपयोग किए जाने वाले मेट्रिक्स क्षेत्र अंतर्गत वक्र (एयूसी); सच्चा सकारात्मक दर (टीपीआर); झूठा सकारात्मक दर (एफपीआर); और औसत सच्चा सकारात्मक विश्वास थे। शोधकर्ताओं का कहना है कि एल-बीएटी का उपयोग पहचान विश्वास को बढ़ाता है, जबकि एक उच्च सच्चा सकारात्मक दर (हालांकि थोड़ा झूठा सकारात्मक वृद्धि के साथ) बनाए रखता है।

निष्कर्ष में, लेखक यह ध्यान देते हैं कि दृष्टिकोण में कुछ सीमाएं हैं। एक यह है कि उनकी विधि द्वारा उत्पन्न हीटमैप एक विशिष्ट समय के लिए विशिष्ट होते हैं। हालांकि वे इसका विस्तार नहीं करते हैं, यह संकेत देता है कि एक अधिक लचीली तैनाती के लिए समय के साथ एक अधिक बहुस्तरीय दृष्टिकोण की आवश्यकता होगी।

उनका यह भी मानना है कि हीटमैप विभिन्न मॉडल आर्किटेक्चर में स्थानांतरित नहीं होंगे, और एक विशिष्ट वस्तु पहचानकर्ता मॉडल से जुड़े हुए हैं। चूंकि प्रस्तावित कार्य मूल रूप से एक प्रूफ-ऑफ-кон्सेप्ट है, अधिक कुशल आर्किटेक्चर भी विकसित किए जा सकते हैं जो इस तकनीकी ऋण को दूर करने में सक्षम हों।

निष्कर्ष

कोई भी नया हमला तरीका जिसका समाधान ‘नई निगरानी कैमरे के लिए भुगतान’ है, इसका एक फायदा है, क्योंकि उच्च निगरानी वाले क्षेत्रों में नागरिक कैमरा नेटवर्क का विस्तार करना राजनीतिक रूप से चुनौतीपूर्ण हो सकता है, साथ ही साथ एक उल्लेखनीय नागरिक व्यय का प्रतिनिधित्व करता है जिसके लिए आमतौर पर एक मतदाता जनादेश की आवश्यकता होगी।

शायद सबसे बड़ा प्रश्न जो इस कार्य से उत्पन्न होता है ‘क्या बंद स्रोत निगरानी प्रणालियां खुले स्रोत सOTA फ्रेमवर्क जैसे वाईओएलओ का लाभ उठाती हैं?’। यह, जाहिर है, जानना असंभव है, क्योंकि स्वामित्व वाली प्रणालियों के निर्माता (कम से कम यूएस में) तर्क देंगे कि ऐसा उपयोग खुलासा करना उन्हें हमले के लिए खोल सकता है।

फिर भी, सरकारी आईटी और स्वामित्व वाले कोड का वैश्विक और खुले स्रोत कोड में स्थानांतरण यह सुझाव देता है कि कोई भी लेखकों के दावे का परीक्षण करने के लिए (उदाहरण के लिए, वाईओएलओ के साथ) तुरंत जैकपॉट मार सकता है।

* मैं आमतौर पर पेपर में प्रदान की गई तालिका परिणामों को शामिल करूंगा, लेकिन इस मामले में पेपर की तालिकाओं की जटिलता उन्हें एक आकस्मिक पाठक के लिए अप्रकाशित बना देती है, और एक सारांश अधिक उपयोगी है।

मंगलवार, 28 जनवरी, 2025 को पहली बार प्रकाशित

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

‘गुप्त मार्ग’ जो पैदल यात्री पहचान प्रणालियों को विफल कर सकते हैं

विधि और परीक्षण

निष्कर्ष

You may like