Anderson का एंगल

विरोधी छवि हमले क्यों मजाक नहीं हैं

प्रकाशित 29 नवंबर 2021

अपडेट किया गया 24 मई 2026

Martin Anderson

छवि पहचान प्रणालियों पर सावधानी से तैयार की गई विरोधी छवियों के साथ हमला करना पिछले पांच वर्षों से एक मनोरंजक लेकिन तुच्छ प्रूफ-ऑफ-кон्सेप्ट माना जाता रहा है। हालांकि, ऑस्ट्रेलिया से नए शोध से पता चलता है कि व्यावसायिक एआई परियोजनाओं के लिए अत्यधिक लोकप्रिय छवि डेटासेट के आकस्मिक उपयोग एक नए और स्थायी सुरक्षा समस्या का निर्माण कर सकता है।

पिछले कुछ वर्षों से, एडिलेड विश्वविद्यालय में एक अकादमिक समूह ने एआई-आधारित छवि पहचान प्रणालियों के भविष्य के बारे में कुछ बहुत महत्वपूर्ण बातें समझाने का प्रयास किया है।

यह कुछ ऐसा है जो वर्तमान में (और बहुत महंगा) ठीक करना मुश्किल होगा, और जो 5-10 वर्षों के समय में व्यावसायिक और औद्योगिक तैनाती में पूरी तरह से विकसित होने के बाद अविश्वसनीय रूप से महंगा होगा।

इससे पहले कि हम इसमें गहराई से जाएं, आइए एक फूल को बराक ओबामा के रूप में वर्गीकृत करने वाली छवि पर एक नज़र डालें, जो टीम द्वारा प्रकाशित छह वीडियो में से एक है: प्रोजेक्ट पेज पर:

स्रोत: https://www.youtube.com/watch?v=Klepca1Ny3c

उपरोक्त छवि में, एक चेहरा पहचान प्रणाली जो स्पष्ट रूप से बराक ओबामा को पहचानना जानती है, एक गुमनाम व्यक्ति को 80% सुनिश्चित करती है कि एक क्राफ्टेड, प्रिंटेड विरोधी छवि एक फूल भी बराक ओबामा है। प्रणाली इस बात की परवाह नहीं करती है कि ‘नकली चेहरा’ विषय की छाती पर है, न कि उसके कंधों पर।

हालांकि यह प्रभावशाली है कि शोधकर्ताओं ने इस तरह की पहचान हासिल करने में सक्षम होने के लिए एक सुसंगत छवि (एक फूल) का उत्पादन किया है, न कि केवल यादृच्छिक शोर, यह लगता है कि इस तरह के मजाकिया शोषण सुरक्षा अनुसंधान में कम्प्यूटर दृष्टि में नियमित रूप से होते हैं। उदाहरण के लिए, उन अजीब तरीके से पैटर्न वाले चश्मे जो 2016 में चेहरा पहचान को धोखा देने में सक्षम थे, या विशेष रूप से तैयार की गई विरोधी छवियां जो सड़क संकेतों को फिर से लिखने का प्रयास करती हैं।

यदि आप रुचि रखते हैं, तो ऊपर दिए गए उदाहरण में हमला किया जा रहा कन्वोल्यूशनल न्यूरल नेटवर्क (सीएनएन) मॉडल वीजीजीफेस (वीजीजी-16) है, जो कोलम्बिया विश्वविद्यालय के पबफिग डेटासेट पर प्रशिक्षित है। शोधकर्ताओं द्वारा विकसित अन्य हमले के नमूने विभिन्न संसाधनों का उपयोग विभिन्न संयोजनों में करते हैं।

एक कीबोर्ड को वाइडरेसनेट50 मॉडल में एक कोंक के रूप में वर्गीकृत किया गया है। शोधकर्ताओं ने यह सुनिश्चित किया है कि मॉडल में कोंक के प्रति कोई पूर्वाग्रह नहीं है। विस्तारित और अतिरिक्त प्रदर्शन के लिए पूरा वीडियो देखें https://www.youtube.com/watch?v=dhTTjjrxIcU

छवि पहचान एक उभरता हुआ हमला वेक्टर के रूप में

शोधकर्ताओं द्वारा रेखांकित और चित्रित किए गए कई प्रभावशाली हमले किसी विशेष डेटासेट, किसी विशेष मॉडल, या दोनों के लिए विशिष्ट नहीं हैं; वे अन्य प्रणालियों पर सामान्य नहीं हैं; और, परिणामस्वरूप, केवल एक तुच्छ खतरा प्रस्तुत करते हैं।

एडिलेड टीम के शोषण एक केंद्रीय कमजोरी को प्रदर्शित करते हैं जो पूरे वर्तमान छवि पहचान एआई विकास की वास्तुकला में है; एक कमजोरी जो भविष्य की कई छवि पहचान प्रणालियों को हमलावरों द्वारा आसानी से हेरफेर के लिए खोल सकती है, और किसी भी बाद के रक्षात्मक उपायों को पीछे के पैरों पर रख सकती है।

कल्पना कीजिए कि नवीनतम विरोधी छवि हमले की छवियों (जैसे ऊपर दिए गए फूल) को भविष्य की सुरक्षा प्रणालियों में ‘जीरो-दिन के शोषण’ के रूप में जोड़ा जा रहा है, जैसे कि वर्तमान एंटी-मालवेयर और एंटीवायरस फ्रेमवर्क अपने वायरस परिभाषाओं को हर दिन अपडेट करते हैं।

नवीनतम विरोधी छवि हमलों की संभावना अथाह होगी, क्योंकि प्रणाली की आधार वास्तुकला ने आगे की समस्याओं का पूर्वानुमान नहीं लगाया, जैसा कि इंटरनेट के साथ हुआ, मिलेनियम बग और पीसा की झुकी हुई मीनार के साथ हुआ।

इस तरह, हम इसके लिए दृश्य कैसे तैयार कर रहे हैं?

हमले के लिए डेटा प्राप्त करना

विरोधी छवियां, जैसे कि ऊपर दिए गए फूल का उदाहरण, कंप्यूटर मॉडलों को प्रशिक्षित करने वाले छवि डेटासेट तक पहुंच के साथ उत्पन्न की जाती हैं। आपको ‘विशेषाधिकार प्राप्त’ प्रशिक्षण डेटा (या मॉडल आर्किटेक्चर) तक पहुंच की आवश्यकता नहीं है, क्योंकि सबसे लोकप्रिय डेटासेट (और कई प्रशिक्षित मॉडल) व्यापक रूप से उपलब्ध हैं और नियमित रूप से अपडेट किए जाते हैं।

उदाहरण के लिए, कंप्यूटर विजन डेटासेट का गोलियत, इमेजनेट, टॉरेंट पर उपलब्ध है, जो इसके सामान्य प्रतिबंधों को दरकिनार करता है, और महत्वपूर्ण गौण तत्वों जैसे मान्यकरण सेट को उपलब्ध कराता है।

स्रोत: https://academictorrents.com

यदि आपके पास डेटा है, तो आप (जैसा कि एडिलेड शोधकर्ताओं ने देखा है) प्रभावी ढंग से किसी भी लोकप्रिय डेटासेट, जैसे सिटीस्केप्स या सीआईएफएआर को ‘रिवर्स-इंजीनियर’ कर सकते हैं।

पबफिग के मामले में, जिस डेटासेट ने पहले उदाहरण में ‘ओबामा फूल’ को सक्षम किया, कोलम्बिया विश्वविद्यालय ने छवि डेटासेट पुनर्वितरण के आसपास बढ़ती प्रवृत्ति को संबोधित किया है कि शोधकर्ताओं को संकलन को सीधे उपलब्ध कराने के बजाय डेटासेट को पुनरुत्पादित करने के लिए क्यूरेटेड लिंक के माध्यम से निर्देशित किया है, यह देखते हुए कि ‘यह ऐसा लगता है जैसे अन्य बड़े वेब-आधारित डेटाबेस विकसित हो रहे हैं’।

अधिकांश मामलों में, यह आवश्यक नहीं है: कैगल अनुमान करता है कि कंप्यूटर विजन में दस सबसे लोकप्रिय छवि डेटासेट हैं: सीआईएफएआर-10 और सीआईएफएआर-100 (दोनों सीधे डाउनलोड के लिए उपलब्ध हैं); कैल्टेक-101 और 256 (दोनों उपलब्ध हैं, और वर्तमान में टॉरेंट के रूप में उपलब्ध हैं); एमएनआईएसटी (आधिकारिक तौर पर उपलब्ध है, और टॉरेंट पर भी); इमेजनेट (ऊपर देखें); पास्कल वीओसी (उपलब्ध, और टॉरेंट पर); एमएस सीओसीओ (उपलब्ध, और टॉरेंट पर); स्पोर्ट्स-1एम (उपलब्ध); और यूट्यूब-8एम (उपलब्ध और टॉरेंट पर)।

यह उपलब्धता व्यापक रूप से उपलब्ध कंप्यूटर विजन छवि डेटासेट के लिए प्रतिनिधित्व करती है, क्योंकि ‘प्रकाशित या नष्ट’ खुले स्रोत विकास संस्कृति में अस्तित्व का अभाव है।

किसी भी मामले में, प्रबंधनीय नए डेटासेट की कमी, छवि सेट विकास की उच्च लागत, ‘पुराने पसंदीदा’ पर निर्भरता, और पुराने डेटासेट को साधारण रूप से अनुकूलित करने की प्रवृत्ति समस्या को और बढ़ा देती है जो एडिलेड के नए पत्र में रेखांकित की गई है।

विरोधी छवि हमला विधियों की विशिष्ट आलोचनाएं

विरोधी छवि हमले की नवीनतम तकनीक की प्रभावशीलता के खिलाफ मशीन लर्निंग इंजीनियरों की सबसे लगातार और स्थायी आलोचना यह है कि हमला एक विशिष्ट डेटासेट, एक विशिष्ट मॉडल, या दोनों के लिए विशिष्ट है; यह अन्य प्रणालियों पर सामान्य नहीं है; और, परिणामस्वरूप, केवल एक तुच्छ खतरा प्रस्तुत करता है।

दूसरी सबसे लगातार शिकायत यह है कि विरोधी छवि हमला ‘व्हाइट बॉक्स’ है, जिसका अर्थ है कि आपको प्रशिक्षण वातावरण या डेटा तक सीधी पहुंच की आवश्यकता होगी। यह वास्तव में अधिकांश मामलों में एक असंभव परिदृश्य है – उदाहरण के लिए, यदि आप लंदन की मेट्रोपॉलिटन पुलिस की चेहरा पहचान प्रणालियों के प्रशिक्षण प्रक्रिया का शोषण करना चाहते हैं, तो आपको एनईसी में अपना रास्ता हैक करना होगा, या तो एक कंसोल के साथ या एक कुल्हाड़ी के साथ।

‘शून्य’, पूर्व-प्रशिक्षित मॉडल पर विरोधी हमले

क्या होगा अगर आप केवल एक पूर्व-प्रशिक्षित मॉडल डाउनलोड करते हैं जो मूल रूप से एक अत्यधिक लोकप्रिय डेटासेट पर प्रशिक्षित किया गया था, और इसे पूरी तरह से नए डेटा के साथ देते हैं?

मॉडल को पहले ही इमेजनेट पर प्रशिक्षित किया जा चुका है, और जो बचा है वह वजन है, जिन्हें प्रशिक्षित करने में हफ्तों या महीनों का समय लगा होगा, और अब आपको उन वस्तुओं की पहचान करने में मदद करने के लिए तैयार हैं जो मूल (अब अनुपस्थित) डेटा में मौजूद थीं।

मूल डेटा को प्रशिक्षण वास्तुकला से हटा दिए जाने के साथ, जो बचा है वह मॉडल की ‘पूर्वाग्रह’ है जो वस्तुओं को उसी तरह वर्गीकृत करने के लिए है जिस तरह से यह मूल रूप से सीखा था, जो मूल रूप से विरोधी छवि हमले विधियों के लिए फिर से कमजोर हो जाएगा।

वे वजन मूल्यवान हैं। डेटा या वजन के बिना, आपके पास एक खाली वास्तुकला है जिसमें कोई डेटा नहीं है। आपको इसे प्रशिक्षित करने के लिए समय और कंप्यूटिंग संसाधनों का एक बड़ा निवेश करना होगा, जैसा कि मूल लेखकों ने किया था (शायद अधिक शक्तिशाली हार्डवेयर और एक उच्च बजट के साथ)।

परेशानी यह है कि वजन पहले से ही बहुत अच्छी तरह से बनाए गए हैं और लचीले हैं। हालांकि वे प्रशिक्षण में थोड़ा अनुकूलन करेंगे, वे आपके नए डेटा पर उतनी ही तरह से व्यवहार करेंगे जितना कि उन्होंने मूल डेटा पर किया था, जो एक विरोधी हमला प्रणाली के लिए सिग्नेचर विशेषताएं पैदा करेगा जो उन पर फिर से हमला कर सकती है।

दीर्घकालिक में, यह भी कंप्यूटर विजन डेटासेट के ‘डीएनए’ को संरक्षित करता है जो बारह या अधिक वर्ष पुराने हैं, और जो खुले स्रोत प्रयासों से व्यावसायिक तैनाती में एक उल्लेखनीय विकास से गुजरे हैं – यहां तक कि जहां मूल प्रशिक्षण डेटा परियोजना की शुरुआत में पूरी तरह से छोड़ दिया गया था। इनमें से कुछ व्यावसायिक तैनाती अभी भी कई वर्षों में नहीं हो सकती हैं।

कोई व्हाइट बॉक्स की आवश्यकता नहीं

विरोधी छवि हमला प्रणालियों की दूसरी सामान्य आलोचना के संबंध में, नए पत्र के लेखकों ने पाया है कि उनकी फूल की छवियों के साथ पहचान प्रणालियों को धोखा देने की क्षमता कई वास्तुकलाओं में स्थानांतरित है।

‘[टीएनटी] वाइडरेसनेट50 जैसे व्यापक रूप से उपयोग किए जाने वाले इमेजनेट डेटासेट में बड़े पैमाने पर दृश्य मान्यता कार्य में राज्य-के-कला वर्गीकरणकर्ताओं की श्रृंखला में प्रभावी हैं; वीजीजी-फेस मॉडल में पबफिग डेटासेट में चेहरा पहचान कार्य में लक्षित और अलक्षित हमलों दोनों में।

‘टीएनटी में: i) ट्रोजन हमले विधियों में उपयोग किए जाने वाले ट्रिगर्स के साथ प्राप्त की जाने वाली प्राकृतिकता; और ii) अन्य नेटवर्क में विरोधी उदाहरणों की सामान्यीकरण और स्थानांतरणीयता हो सकती है।

‘यह पहले से तैनात डीएनएन और भविष्य के डीएनएन तैनाती के संबंध में सुरक्षा और सुरक्षा के बारे में चिंताएं बढ़ाता है, जहां हमलावर नेटवर्क प्रणालियों को धोखा देने के लिए अस्पष्ट प्राकृतिक दिखने वाले वस्तु पैच का उपयोग कर सकते हैं और मॉडल को खतरे में डाले बिना खोज किए जाने का जोखिम उठा सकते हैं। ‘

लेखक सुझाव देते हैं कि पारंपरिक प्रतिकार उपाय, जैसे कि नेटवर्क की स्वच्छ सटीकता को कम करना, सैद्धांतिक रूप से टीएनटी पैच के खिलाफ कुछ रक्षा प्रदान कर सकते हैं, लेकिन यह भी कि ‘टीएनटी अभी भी सबसे उन्नत प्रोवेबल रक्षा विधियों को दरकिनार कर सकते हैं, जिनमें से अधिकांश रक्षा प्रणालियों ने 0% लचीलापन हासिल किया है।’

संभावित अन्य समाधानों में फेडरेटेड लर्निंग शामिल है, जहां योगदान करने वाली छवियों का प्रोवेनेंस संरक्षित है, और नए दृष्टिकोण जो प्रशिक्षण समय पर सीधे डेटा को ‘एन्क्रिप्ट’ कर सकते हैं, जैसा कि हाल ही में नैनजिंग विश्वविद्यालय ऑफ एयरोनॉटिक्स एंड एस्ट्रोनॉटिक्स द्वारा सुझाया गया है।

यहां तक कि उन मामलों में, यह महत्वपूर्ण होगा कि वास्तव में नई छवि डेटा पर प्रशिक्षित किया जाए – अब तक, दुनिया भर में विकास चक्र में शामिल कंप्यूटर विजन डेटासेट के छोटे कैडर की छवियां और संबंधित एनोटेशन इतने अधिक जड़े हुए हैं कि वे डेटा की तुलना में अधिक सॉफ़्टवेयर जैसे लगते हैं; सॉफ़्टवेयर जिसे वर्षों से उल्लेखनीय रूप से अद्यतन नहीं किया गया है।

निष्कर्ष

विरोधी छवि हमले न केवल खुले स्रोत मशीन लर्निंग प्रथाओं द्वारा संभव बनाए जा रहे हैं, बल्कि एक कॉर्पोरेट एआई विकास संस्कृति द्वारा भी जो विभिन्न कारणों से स्थापित कंप्यूटर विजन डेटासेट को पुन: उपयोग करने के लिए प्रेरित है: वे पहले से ही प्रभावी साबित हुए हैं; वे शुरू से शुरू करने की तुलना में बहुत सस्ते हैं; और वे अकादमिक और उद्योग में अग्रणी दिमागों और संगठनों द्वारा बनाए रखे और अद्यतन किए जाते हैं, जो एक单 कंपनी के लिए दोहराना मुश्किल होगा।

इसके अलावा, कई मामलों में, जहां डेटा मूल नहीं है (जैसे सिटीस्केप्स के विपरीत), छवियां हाल के निजता और डेटा संग्रह प्रथाओं के विवादों से पहले एकत्र की गई थीं, जो इन पुराने डेटासेट को एक प्रकार के अर्ध-कानूनी प्रेत में छोड़ देती हैं जो एक कंपनी के दृष्टिकोण से एक ‘सुरक्षित बंदरगाह’ की तरह दिखाई दे सकती है।

टीएनटी हमले! गहरे तंत्रिका नेटवर्क प्रणालियों के खिलाफ सार्वभौमिक प्राकृतिक विरोधी पैच एडिलेड विश्वविद्यालय के बाओ जिया डोआन, मिन्हुई जू, एहसान अब्बासनेजाद, दामिथ सी रानासिंघे के साथ-साथ रूटगर्स विश्वविद्यालय के कंप्यूटर विज्ञान विभाग में शिकिंग मा द्वारा सह-लिखित है।

1 दिसंबर 2021, 7:06 बजे जीएमटी + 2 – टाइपो को ठीक किया गया।

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai