AGI

वाहिद बेहज़ादान, सिक्योर्ड और अस्योर्ड इंटेलिजेंट लर्निंग (एसएआईएल) लैब – इंटरव्यू सीरीज

Published April 27, 2020

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

वाहिद कंप्यूटर साइंस और डेटा साइंस में असिस्टेंट प्रोफेसर हैं और न्यू हेवन विश्वविद्यालय में सिक्योर और अस्योर्ड इंटेलिजेंट लर्निंग (एसएआईएल) लैब के निदेशक हैं। उनकी शोध रुचियों में इंटेलिजेंट सिस्टम्स की सुरक्षा और सुरक्षा, एआई सुरक्षा समस्याओं के मनोवैज्ञानिक मॉडलिंग, जटिल अनुकूली प्रणालियों की सुरक्षा, गेम थ्योरी, मल्टी-एजेंट सिस्टम, और साइबर सुरक्षा शामिल हैं।

आपके पास साइबर सुरक्षा और एआई को सुरक्षित रखने में व्यापक अनुभव है। क्या आप हमें बता सकते हैं कि आप इन दोनों क्षेत्रों में कैसे आकर्षित हुए?

मेरी शोध यात्रा में दो मुख्य रुचियों ने मेरा मार्गदर्शन किया है: चीजों को तोड़ने का तरीका जानना और मानव मन के यांत्रिकी के बारे में जानना। मैं अपने किशोरावस्था से ही साइबर सुरक्षा में सक्रिय रूप से शामिल रहा हूं, और परिणामस्वरूप, मैंने अपने शुरुआती शोध एजेंडे को इस डोमेन की क्लासिकल समस्याओं के आसपास बनाया। कुछ वर्षों के बाद, मुझे अपने शोध क्षेत्र को बदलने का एक दुर्लभ अवसर मिला। उस समय, मैंने स्जेगेडी और गुडफेलो के शुरुआती कार्यों पर हमला करने वाले उदाहरणों के बारे में सुना, और मुझे मशीन लर्निंग पर हमला करने का विचार बहुत आकर्षक लगा। जैसे ही मैंने इस समस्या को गहराई से देखा, मुझे एआई सुरक्षा और सुरक्षा के अधिक सामान्य क्षेत्र के बारे में पता चला, और मुझे लगा कि यह मेरी मुख्य रुचियों को शामिल करता है, जैसे कि साइबर सुरक्षा, संज्ञानात्मक विज्ञान, अर्थशास्त्र, और दर्शनशास्त्र। मुझे यह भी विश्वास हो गया कि इस क्षेत्र में शोध न केवल आकर्षक है, बल्कि एआई क्रांति के दीर्घकालिक लाभों और सुरक्षा के लिए भी महत्वपूर्ण है।

आप एसएआईएल लैब के निदेशक हैं, जो बुद्धिमान मशीनों की सुरक्षा और सुरक्षा के लिए ठोस नींव रखने का काम करता है। क्या आप एसएआईएल द्वारा किए जा रहे काम के बारे में कुछ विवरण दे सकते हैं?

एसएआईएल में, मेरे छात्रों और मैं सुरक्षा, एआई, और जटिल प्रणालियों के बीच के交्स में समस्याओं पर काम करते हैं। हमारे शोध का मुख्य फोकस इंटेलिजेंट सिस्टम्स की सुरक्षा और सुरक्षा की जांच करने पर है, दोनों सैद्धांतिक और व्यावहारिक दृष्टिकोण से। सैद्धांतिक पक्ष पर, हम वर्तमान में मल्टी-एजेंट सेटिंग्स में मूल्य-संरेखण समस्या की जांच कर रहे हैं और एआई एजेंटों के उद्देश्यों को स्थिरता और मजबूत संरेखण के संबंध में मूल्यांकन और अनुकूलन के लिए गणितीय उपकरण विकसित कर रहे हैं। व्यावहारिक पक्ष पर, हमारी कुछ परियोजनाएं स्वायत्त वाहनों और अल्गोरिदमिक ट्रेडिंग जैसी आगामी एआई प्रौद्योगिकियों की सुरक्षा कमजोरियों का अन्वेषण करती हैं और ऐसी प्रौद्योगिकियों की लचीलापन को अद्वितीय हमलों के प्रति मूल्यांकन और सुधार के लिए तकनीकों को विकसित करने का उद्देश्य रखती हैं।

हम साइबर सुरक्षा में मशीन लर्निंग के अनुप्रयोगों पर भी काम करते हैं, जैसे कि स्वचालित प्रवेश परीक्षण, आक्रमण प्रयासों का प्रारंभिक पता लगाना, और खुले स्रोतों से डेटा जैसे सोशल मीडिया से स्वचालित खतरा बुद्धिमत्ता संग्रह और विश्लेषण।

आप हाल ही में एआई सुरक्षा समस्याओं को मनोवैज्ञानिक विकारों के रूप में मॉडलिंग करने के प्रस्ताव का नेतृत्व करने वाले प्रयास का हिस्सा थे। क्या आप इसके बारे में बता सकते हैं?

यह परियोजना एआई एजेंटों और प्रणालियों की तेजी से बढ़ती जटिलता को संबोधित करती है: यह पहले से ही बहुत मुश्किल है कि गैर-मामूली सेटिंग्स में पुनरावृत्ति लर्निंग एजेंटों के असुरक्षित व्यवहार का निदान, पूर्वानुमान, और नियंत्रण किया जा सके केवल उनके निम्न-स्तरीय कॉन्फ़िगरेशन को देखकर। इस कार्य में, हम एआई और एजीआई में उद्भवशील हानिकारक व्यवहारों की जांच करने के लिए उच्च-स्तरीय अभिव्यक्तियों की आवश्यकता पर जोर देते हैं। मानव व्यवहार संबंधी समस्याओं के वैज्ञानिक दृष्टिकोण से प्रेरित, हम एआई सुरक्षा और विश्लेषण के लिए मनोवैज्ञानिक विकारों के रूप में एक उपयोगी उच्च-स्तरीय अभिव्यक्ति का प्रस्ताव करते हैं। एक प्रमाण के रूप में, हम क्लासिक गेम स्नेक खेलने वाले एक आरएल एजेंट में रिवार्ड हैकिंग की एआई सुरक्षा समस्या का अध्ययन करते हैं। हम दिखाते हैं कि यदि हम पर्यावरण में एक “ड्रग” बीज जोड़ते हैं, तो एजेंट एक उप-आप्टिमल व्यवहार सीखता है जिसे तंत्रिका विज्ञान मॉडलों के माध्यम से व्यसन के रूप में वर्णित किया जा सकता है। यह कार्य मनश्चिकित्सा में उपयोग की जाने वाली उपचार दृष्टिकोणों के आधार पर नियंत्रण विधियों का भी प्रस्ताव करता है। उदाहरण के लिए, हम एजेंटों के हानिकारक व्यवहार को संशोधित करने के लिए कृत्रिम रूप से उत्पन्न पुरस्कार संकेतों के उपयोग का प्रस्ताव करते हैं जैसे कि मनोरोग चिकित्सा के लिए दवा चिकित्सा के रूप में।

क्या आपको स्वायत्त वाहनों के संबंध में एआई सुरक्षा के बारे में कोई चिंता है?

स्वायत्त वाहन साइबर-भौतिक प्रणालियों में एआई की तैनाती के प्रमुख उदाहरण बन रहे हैं। वर्तमान मशीन लर्निंग प्रौद्योगिकियों की मूलभूत संवेदनशीलता को ध्यान में रखते हुए गलतियों और अद्वितीय हमलों के प्रति मैं स्वायत्त वाहनों की सुरक्षा और सुरक्षा के बारे में गहराई से चिंतित हूं। इसके अलावा, स्वायत्त ड्राइविंग क्षेत्र में सुरक्षा मानकों और मूल्यांकन प्रोटोकॉल की गंभीर कमी है। हालांकि, मैं आशावादी रहता हूं। जैसे कि प्राकृतिक बुद्धिमत्ता के साथ, एआई भी गलतियों के लिए प्रवण होगा। फिर भी, स्व-ड्राइविंग कारों का उद्देश्य तब तक संतुष्ट किया जा सकता है जब तक कि ऐसी गलतियों की दर और प्रभाव मानव ड्राइवरों की तुलना में कम हो। हम उद्योग और अकादमिक जगत में बढ़ते प्रयासों को देख रहे हैं, साथ ही सरकारों द्वारा भी इन मुद्दों को संबोधित किया जा रहा है।

स्ट्रीट साइन्स को स्टिकर्स या अन्य साधनों से हैक करना स्वायत्त वाहनों के कंप्यूटर विजन मॉड्यूल को भ्रमित कर सकता है। क्या आप इसे कितना बड़ा मुद्दा मानते हैं?

इन स्टिकर्स और अद्वितीय उदाहरणों के सामान्य रूप से मशीन लर्निंग मॉडल्स की मजबूती में मूलभूत चुनौतियां पैदा करते हैं। जॉर्ज ई. पी. बॉक्स के शब्दों में, “सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी होते हैं”। अद्वितीय उदाहरण मॉडल्स की इस “गलती” का फायदा उठाते हैं, जो उनके संक्षिप्त स्वरूप और साथ ही साथ उन पर प्रशिक्षित डेटा की सीमाओं के कारण होता है। हाल के प्रयासों ने अद्वितीय मशीन लर्निंग के क्षेत्र में गहरे लर्निंग मॉडल्स की लचीलापन को अद्वितीय हमलों के प्रति बढ़ाने में महत्वपूर्ण प्रगति की है। सुरक्षा के दृष्टिकोण से, मशीन लर्निंग मॉडल्स को भ्रमित करने का एक तरीका हमेशा रहेगा। हालांकि, मशीन लर्निंग मॉडल्स को सुरक्षित करने का व्यावहारिक उद्देश्य ऐसे हमलों को लागू करने की लागत को आर्थिक रूप से असंभव बनाने तक बढ़ाना है।

आपका फोकस गहरे लर्निंग और गहरे पुनरावृत्ति लर्निंग दोनों की सुरक्षा और सुरक्षा सुविधाओं पर है। क्या यह इतना महत्वपूर्ण क्यों है?

पुनरावृत्ति लर्निंग (आरएल) नियंत्रण समस्याओं पर मशीन लर्निंग को लागू करने का प्रमुख तरीका है, जो परिभाषा के अनुसार उनके पर्यावरण के हेरफेर को शामिल करता है। इसलिए, मैं मानता हूं कि आरएल पर आधारित प्रणालियों में वास्तविक दुनिया में बड़े नुकसान पहुंचाने का जोखिम अन्य मशीन लर्निंग तरीकों की तुलना में अधिक है। यह समस्या गहरे लर्निंग के आरएल में एकीकरण से और भी बढ़ जाती है, जो आरएल को जटिल सेटिंग्स में अपनाने की अनुमति देता है। इसके अलावा, मेरा मानना है कि आरएल फ्रेमवर्क मानव बुद्धिमत्ता में संज्ञानात्मक तंत्र के अंतर्निहित तंत्र से密切 संबंधित है, और इसकी सुरक्षा और कमजोरियों का अध्ययन करने से हमारे दिमाग में निर्णय लेने की सीमाओं के बारे में बेहतर अंतर्दृष्टि मिल सकती है।

क्या आप मानते हैं कि हम आर्टिफिशियल जनरल इंटेलिजेंस (एजीआई) हासिल करने के करीब हैं?

यह एक कठिन प्रश्न है जिसका उत्तर देना मुश्किल है। मैं मानता हूं कि हम वर्तमान में कुछ आर्किटेक्चर के निर्माण खंडों के पास हैं जो एजीआई के उद्भव को सुविधाजनक बना सकते हैं। हालांकि, यह इन आर्किटेक्चर्स में सुधार करने और प्रशिक्षण और रखरखाव की लागत को बढ़ाने में कुछ और वर्षों या दशकों का समय लग सकता है। आने वाले वर्षों में, हमारे एजेंट तेजी से बुद्धिमान होंगे। मुझे नहीं लगता कि एजीआई का उद्भव एक वैज्ञानिक रूप से वैध शीर्षक के रूप में घोषित किया जाएगा, बल्कि यह धीरे-धीरे प्रगति के परिणामस्वरूप होगा। इसके अलावा, मुझे लगता है कि हमारे पास अभी तक एजीआई के अस्तित्व का पता लगाने और इसका पता लगाने के लिए एक व्यापक रूप से स्वीकृत विधि नहीं है, और यह हमारे पहले एजीआई के उद्भव की हमारी प्राप्ति में देरी कर सकता है।

एक एजीआई प्रणाली में सुरक्षा कैसे बनाए रखी जा सकती है जो स्वयं सोचने में सक्षम होगी और मानवों से अधिक बुद्धिमान होगी?

मैं मानता हूं कि बुद्धिमान व्यवहार का एकीकृत सिद्धांत अर्थशास्त्र है और यह जांच करता है कि एजेंट कैसे कार्य करते हैं और कैसे बातचीत करते हैं जो वे चाहते हैं। मानवों के निर्णय और क्रियाएं उनके उद्देश्यों, उनकी जानकारी, और उपलब्ध संसाधनों द्वारा निर्धारित होते हैं। समाज और सहयोगी प्रयास व्यक्तिगत सदस्यों के लिए लाभों से उद्भवित होते हैं। एक और उदाहरण है दंड संहिता, जो व्यक्तियों को कुछ निर्णयों से रोकती है जो समाज को नुकसान पहुंचा सकते हैं। इसी तरह, मैं मानता हूं कि प्रोत्साहन और संसाधनों को नियंत्रित करके मानवों और एजीआई के बीच एक संतुलन की स्थिति का उद्भव संभव है। वर्तमान में, एआई सुरक्षा समुदाय इस थीसिस की जांच मूल्य-संरेखण समस्याओं के तहत करता है।

आप आतंकवाद विरोधी के एक क्षेत्र का अनुसरण करते हैं। क्या आपको लगता है कि आतंकवादी एआई या एजीआई प्रणालियों पर कब्जा कर सकते हैं?

एआई प्रौद्योगिकियों के दुरुपयोग के बारे में कई चिंताएं हैं। आतंकवादी ऑपरेशनों के मामले में, मुख्य चिंता यह है कि आतंकवादी स्वायत्त हमलों को कैसे विकसित और लागू कर सकते हैं। मेरे कई सहयोगी आतंकवादी हथियारों (देखें https://autonomousweapons.org/) के जोखिमों के बारे में चेतावनी दे रहे हैं। एआई-संचालित हथियारों के साथ एक मुख्य समस्या यह है कि अंतर्निहित प्रौद्योगिकी को नियंत्रित करना मुश्किल है: एआई खुले स्रोत अनुसंधान के अग्रभाग पर है, और कोई भी इंटरनेट और उपभोक्ता-ग्रेड हार्डवेयर तक पहुंच के साथ हानिकारक एआई प्रणालियों को विकसित कर सकता है। मुझे लगता है कि स्वायत्त हथियारों का उद्भव अपरिहार्य है, और मुझे लगता है कि जल्द ही ऐसे हथियारों का मुकाबला करने के लिए नए प्रौद्योगिकी समाधानों की आवश्यकता होगी। यह एक बिल्ली और चूहे का चक्र हो सकता है जो एआई-संचालित हथियारों के विकास को ईंधन देता है, जो दीर्घकालिक में गंभीर अस्तित्व जोखिम पैदा कर सकता है।

एआई प्रणालियों को इन अद्वितीय एजेंटों से सुरक्षित रखने के लिए हम क्या कर सकते हैं?

सबसे पहली और सबसे महत्वपूर्ण बात यह है कि सभी एआई इंजीनियरों और पрак्टिशनरों को एआई प्रौद्योगिकियों की कमजोरियों के बारे में जानना चाहिए और अपने सिस्टम के डिजाइन और कार्यान्वयन में संबंधित जोखिमों पर विचार करना चाहिए। अधिक तकनीकी सिफारिशों के लिए, कई प्रस्ताव और समाधान अवधारणाएं हैं जिन्हें नियोजित किया जा सकता है। उदाहरण के लिए, अद्वितीय सेटिंग्स में मशीन लर्निंग एजेंटों को प्रशिक्षित करने से उनकी लचीलापन और अद्वितीय हमलों के प्रति मजबूती में सुधार हो सकता है (जैसे कि मेरे शोध पत्र “व्हाटेवर डज नॉट किल डीप रिनफोर्समेंट लर्निंग, मेक्स इट स्ट्रॉन्गर” देखें)। एक और समाधान यह है कि एजेंट की आर्किटेक्चर में सीधे अद्वितीय हमलों के जोखिम को ध्यान में रखा जाए (जैसे कि बेयसियन दृष्टिकोण से जोखिम मॉडलिंग)। हालांकि, इस क्षेत्र में एक बड़ा अंतर है और यह अद्वितीय हमलों के खिलाफ एआई एजेंटों की लचीलापन के लिए सार्वभौमिक मापदंड और विधियों की आवश्यकता है। वर्तमान समाधान अधिकांशतः ad hoc हैं और सभी प्रकार के हमलों के खिलाफ लचीलापन के सामान्य उपाय प्रदान नहीं करते हैं।

क्या आपको इन विषयों में से किसी पर और कुछ साझा करना होगा?

2014 में, स्कली एट अल ने न्यूरिप्स सम्मेलन में एक शोध पत्र प्रकाशित किया जिसमें एक बहुत ही प्रेरक विषय था: “मशीन लर्निंग: तकनीकी ऋण का उच्च-ब्याज वाला क्रेडिट कार्ड”। एआई क्षेत्र में पिछले कुछ वर्षों में हुई सभी प्रगति के बावजूद, यह बयान अभी भी अपनी वैधता नहीं खोया है। वर्तमान एआई और मशीन लर्निंग की स्थिति निस्संदेह अद्भुत है, लेकिन हमें अभी भी एआई के नींव और इंजीनियरिंग आयामों में कई महत्वपूर्ण अंतराल भरने हैं। मेरी राय में, यह हमारी बातचीत का सबसे महत्वपूर्ण निष्कर्ष है। मैं एआई प्रौद्योगिकियों के व्यावसायिक अपनाने को प्रोत्साहित नहीं करना चाहता, लेकिन केवल इंजीनियरिंग समुदाय को वर्तमान एआई प्रौद्योगिकियों के जोखिमों और सीमाओं के बारे में जागरूक करना चाहता हूं ताकि वे अपने निर्णयों में इसका ध्यान रख सकें।

मैं वास्तव में विभिन्न प्रकार की एआई प्रणालियों के सुरक्षा और सुरक्षा चुनौतियों के बारे में जानने में रुचि रखता हूं। यह वास्तव में कुछ ऐसा है जिसके बारे में व्यक्तियों, निगमों और सरकारों को जागरूक होने की आवश्यकता है। जो पाठक अधिक जानना चाहते हैं उन्हें सिक्योर और अस्योर्ड इंटेलिजेंट लर्निंग (एसएआईएल) लैब की वेबसाइट पर जाना चाहिए।

Antoine Tardif, CEO & Founder of Unite.AI

एंटोनी एक दूरदर्शी नेता और Unite.AI के संस्थापक भागीदार हैं, जो कि एआई और रोबोटिक्स के भविष्य को आकार देने और बढ़ावा देने के लिए एक अटूट जुनून से प्रेरित हैं। एक श्रृंखला उद्यमी, वह मानता है कि एआई समाज के लिए उतना ही विघटनकारी होगा जितना कि बिजली, और अक्सर विघटनकारी प्रौद्योगिकियों और एजीआई की संभावना के बारे में उत्साहित होता है।

एक फ्यूचरिस्ट के रूप में, वह इन नवाचारों के माध्यम से हमारी दुनिया को आकार देने की खोज में समर्पित है। इसके अलावा, वह सिक्योरिटीज़.io के संस्थापक हैं, एक मंच जो भविष्य को फिर से परिभाषित करने और पूरे क्षेत्रों को फिर से आकार देने वाली अत्याधुनिक प्रौद्योगिकियों में निवेश पर केंद्रित है।

Unite.AI

वाहिद बेहज़ादान, सिक्योर्ड और अस्योर्ड इंटेलिजेंट लर्निंग (एसएआईएल) लैब – इंटरव्यू सीरीज

You may like