AGI

рд╡рд╛рд╣рд┐рдж рдмреЗрд╣рдЬрд╝рд╛рджрд╛рди, рд╕рд┐рдХреНрдпреЛрд░реНрдб рдФрд░ рдЕрд╕реНрдпреЛрд░реНрдб рдЗрдВрдЯреЗрд▓рд┐рдЬреЗрдВрдЯ рд▓рд░реНрдирд┐рдВрдЧ (рдПрд╕рдПрдЖрдИрдПрд▓) рд▓реИрдм – рдЗрдВрдЯрд░рд╡реНрдпреВ рд╕реАрд░реАрдЬ

mm

वाहिद कंप्यूटर साइंस और डेटा साइंस में असिस्टेंट प्रोफेसर हैं और न्यू हेवन विश्वविद्यालय में सिक्योर और अस्योर्ड इंटेलिजेंट लर्निंग (एसएआईएल) लैब के निदेशक हैं। उनकी शोध रुचियों में इंटेलिजेंट सिस्टम्स की सुरक्षा और सुरक्षा, एआई सुरक्षा समस्याओं के मनोवैज्ञानिक मॉडलिंग, जटिल अनुकूली प्रणालियों की सुरक्षा, गेम थ्योरी, मल्टी-एजेंट सिस्टम, और साइबर सुरक्षा शामिल हैं।

आपके पास साइबर सुरक्षा और एआई को सुरक्षित रखने में व्यापक अनुभव है। क्या आप हमें बता सकते हैं कि आप इन दोनों क्षेत्रों में कैसे आकर्षित हुए?

मेरी शोध यात्रा में दो मुख्य रुचियों ने मेरा मार्गदर्शन किया है: चीजों को तोड़ने का तरीका जानना और मानव मन के यांत्रिकी के बारे में जानना। मैं अपने किशोरावस्था से ही साइबर सुरक्षा में सक्रिय रूप से शामिल रहा हूं, और परिणामस्वरूप, मैंने अपने शुरुआती शोध एजेंडे को इस डोमेन की क्लासिकल समस्याओं के आसपास बनाया। कुछ वर्षों के बाद, मुझे अपने शोध क्षेत्र को बदलने का एक दुर्लभ अवसर मिला। उस समय, मैंने स्जेगेडी और गुडफेलो के शुरुआती कार्यों पर हमला करने वाले उदाहरणों के बारे में सुना, और मुझे मशीन लर्निंग पर हमला करने का विचार बहुत आकर्षक लगा। जैसे ही मैंने इस समस्या को गहराई से देखा, मुझे एआई सुरक्षा और सुरक्षा के अधिक सामान्य क्षेत्र के बारे में पता चला, और मुझे लगा कि यह मेरी मुख्य रुचियों को शामिल करता है, जैसे कि साइबर सुरक्षा, संज्ञानात्मक विज्ञान, अर्थशास्त्र, और दर्शनशास्त्र। मुझे यह भी विश्वास हो गया कि इस क्षेत्र में शोध न केवल आकर्षक है, बल्कि एआई क्रांति के दीर्घकालिक लाभों और सुरक्षा के लिए भी महत्वपूर्ण है।

आप एसएआईएल लैब के निदेशक हैं, जो बुद्धिमान मशीनों की सुरक्षा और सुरक्षा के लिए ठोस नींव रखने का काम करता है। क्या आप एसएआईएल द्वारा किए जा रहे काम के बारे में कुछ विवरण दे सकते हैं?

एसएआईएल में, मेरे छात्रों और मैं सुरक्षा, एआई, और जटिल प्रणालियों के बीच के交्स में समस्याओं पर काम करते हैं। हमारे शोध का मुख्य फोकस इंटेलिजेंट सिस्टम्स की सुरक्षा और सुरक्षा की जांच करने पर है, दोनों सैद्धांतिक और व्यावहारिक दृष्टिकोण से। सैद्धांतिक पक्ष पर, हम वर्तमान में मल्टी-एजेंट सेटिंग्स में मूल्य-संरेखण समस्या की जांच कर रहे हैं और एआई एजेंटों के उद्देश्यों को स्थिरता और मजबूत संरेखण के संबंध में मूल्यांकन और अनुकूलन के लिए गणितीय उपकरण विकसित कर रहे हैं। व्यावहारिक पक्ष पर, हमारी कुछ परियोजनाएं स्वायत्त वाहनों और अल्गोरिदमिक ट्रेडिंग जैसी आगामी एआई प्रौद्योगिकियों की सुरक्षा कमजोरियों का अन्वेषण करती हैं और ऐसी प्रौद्योगिकियों की लचीलापन को अद्वितीय हमलों के प्रति मूल्यांकन और सुधार के लिए तकनीकों को विकसित करने का उद्देश्य रखती हैं।

हम साइबर सुरक्षा में मशीन लर्निंग के अनुप्रयोगों पर भी काम करते हैं, जैसे कि स्वचालित प्रवेश परीक्षण, आक्रमण प्रयासों का प्रारंभिक पता लगाना, और खुले स्रोतों से डेटा जैसे सोशल मीडिया से स्वचालित खतरा बुद्धिमत्ता संग्रह और विश्लेषण।

आप हाल ही में एआई सुरक्षा समस्याओं को मनोवैज्ञानिक विकारों के रूप में मॉडलिंग करने के प्रस्ताव का नेतृत्व करने वाले प्रयास का हिस्सा थे। क्या आप इसके बारे में बता सकते हैं?

यह परियोजना एआई एजेंटों और प्रणालियों की तेजी से बढ़ती जटिलता को संबोधित करती है: यह पहले से ही बहुत मुश्किल है कि गैर-मामूली सेटिंग्स में पुनरावृत्ति लर्निंग एजेंटों के असुरक्षित व्यवहार का निदान, पूर्वानुमान, और नियंत्रण किया जा सके केवल उनके निम्न-स्तरीय कॉन्फ़िगरेशन को देखकर। इस कार्य में, हम एआई और एजीआई में उद्भवशील हानिकारक व्यवहारों की जांच करने के लिए उच्च-स्तरीय अभिव्यक्तियों की आवश्यकता पर जोर देते हैं। मानव व्यवहार संबंधी समस्याओं के वैज्ञानिक दृष्टिकोण से प्रेरित, हम एआई सुरक्षा और विश्लेषण के लिए मनोवैज्ञानिक विकारों के रूप में एक उपयोगी उच्च-स्तरीय अभिव्यक्ति का प्रस्ताव करते हैं। एक प्रमाण के रूप में, हम क्लासिक गेम स्नेक खेलने वाले एक आरएल एजेंट में रिवार्ड हैकिंग की एआई सुरक्षा समस्या का अध्ययन करते हैं। हम दिखाते हैं कि यदि हम पर्यावरण में एक “ड्रग” बीज जोड़ते हैं, तो एजेंट एक उप-आप्टिमल व्यवहार सीखता है जिसे तंत्रिका विज्ञान मॉडलों के माध्यम से व्यसन के रूप में वर्णित किया जा सकता है। यह कार्य मनश्चिकित्सा में उपयोग की जाने वाली उपचार दृष्टिकोणों के आधार पर नियंत्रण विधियों का भी प्रस्ताव करता है। उदाहरण के लिए, हम एजेंटों के हानिकारक व्यवहार को संशोधित करने के लिए कृत्रिम रूप से उत्पन्न पुरस्कार संकेतों के उपयोग का प्रस्ताव करते हैं जैसे कि मनोरोग चिकित्सा के लिए दवा चिकित्सा के रूप में।

क्या आपको स्वायत्त वाहनों के संबंध में एआई सुरक्षा के बारे में कोई चिंता है?

स्वायत्त वाहन साइबर-भौतिक प्रणालियों में एआई की तैनाती के प्रमुख उदाहरण बन रहे हैं। वर्तमान मशीन लर्निंग प्रौद्योगिकियों की मूलभूत संवेदनशीलता को ध्यान में रखते हुए गलतियों और अद्वितीय हमलों के प्रति मैं स्वायत्त वाहनों की सुरक्षा और सुरक्षा के बारे में गहराई से चिंतित हूं। इसके अलावा, स्वायत्त ड्राइविंग क्षेत्र में सुरक्षा मानकों और मूल्यांकन प्रोटोकॉल की गंभीर कमी है। हालांकि, मैं आशावादी रहता हूं। जैसे कि प्राकृतिक बुद्धिमत्ता के साथ, एआई भी गलतियों के लिए प्रवण होगा। फिर भी, स्व-ड्राइविंग कारों का उद्देश्य तब तक संतुष्ट किया जा सकता है जब तक कि ऐसी गलतियों की दर और प्रभाव मानव ड्राइवरों की तुलना में कम हो। हम उद्योग और अकादमिक जगत में बढ़ते प्रयासों को देख रहे हैं, साथ ही सरकारों द्वारा भी इन मुद्दों को संबोधित किया जा रहा है।

स्ट्रीट साइन्स को स्टिकर्स या अन्य साधनों से हैक करना स्वायत्त वाहनों के कंप्यूटर विजन मॉड्यूल को भ्रमित कर सकता है। क्या आप इसे कितना बड़ा मुद्दा मानते हैं?

इन स्टिकर्स और अद्वितीय उदाहरणों के सामान्य रूप से मशीन लर्निंग मॉडल्स की मजबूती में मूलभूत चुनौतियां पैदा करते हैं। जॉर्ज ई. पी. बॉक्स के शब्दों में, “सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी होते हैं”। अद्वितीय उदाहरण मॉडल्स की इस “गलती” का फायदा उठाते हैं, जो उनके संक्षिप्त स्वरूप और साथ ही साथ उन पर प्रशिक्षित डेटा की सीमाओं के कारण होता है। हाल के प्रयासों ने अद्वितीय मशीन लर्निंग के क्षेत्र में गहरे लर्निंग मॉडल्स की लचीलापन को अद्वितीय हमलों के प्रति बढ़ाने में महत्वपूर्ण प्रगति की है। सुरक्षा के दृष्टिकोण से, मशीन लर्निंग मॉडल्स को भ्रमित करने का एक तरीका हमेशा रहेगा। हालांकि, मशीन लर्निंग मॉडल्स को सुरक्षित करने का व्यावहारिक उद्देश्य ऐसे हमलों को लागू करने की लागत को आर्थिक रूप से असंभव बनाने तक बढ़ाना है।

आपका फोकस गहरे लर्निंग और गहरे पुनरावृत्ति लर्निंग दोनों की सुरक्षा और सुरक्षा सुविधाओं पर है। क्या यह इतना महत्वपूर्ण क्यों है?

पुनरावृत्ति लर्निंग (आरएल) नियंत्रण समस्याओं पर मशीन लर्निंग को लागू करने का प्रमुख तरीका है, जो परिभाषा के अनुसार उनके पर्यावरण के हेरफेर को शामिल करता है। इसलिए, मैं मानता हूं कि आरएल पर आधारित प्रणालियों में वास्तविक दुनिया में बड़े नुकसान पहुंचाने का जोखिम अन्य मशीन लर्निंग तरीकों की तुलना में अधिक है। यह समस्या गहरे लर्निंग के आरएल में एकीकरण से और भी बढ़ जाती है, जो आरएल को जटिल सेटिंग्स में अपनाने की अनुमति देता है। इसके अलावा, मेरा मानना है कि आरएल फ्रेमवर्क मानव बुद्धिमत्ता में संज्ञानात्मक तंत्र के अंतर्निहित तंत्र से密切 संबंधित है, और इसकी सुरक्षा और कमजोरियों का अध्ययन करने से हमारे दिमाग में निर्णय लेने की सीमाओं के बारे में बेहतर अंतर्दृष्टि मिल सकती है।

क्या आप मानते हैं कि हम आर्टिफिशियल जनरल इंटेलिजेंस (एजीआई) हासिल करने के करीब हैं?

यह एक कठिन प्रश्न है जिसका उत्तर देना मुश्किल है। मैं मानता हूं कि हम वर्तमान में कुछ आर्किटेक्चर के निर्माण खंडों के पास हैं जो एजीआई के उद्भव को सुविधाजनक बना सकते हैं। हालांकि, यह इन आर्किटेक्चर्स में सुधार करने और प्रशिक्षण और रखरखाव की लागत को बढ़ाने में कुछ और वर्षों या दशकों का समय लग सकता है। आने वाले वर्षों में, हमारे एजेंट तेजी से बुद्धिमान होंगे। मुझे नहीं लगता कि एजीआई का उद्भव एक वैज्ञानिक रूप से वैध शीर्षक के रूप में घोषित किया जाएगा, बल्कि यह धीरे-धीरे प्रगति के परिणामस्वरूप होगा। इसके अलावा, मुझे लगता है कि हमारे पास अभी तक एजीआई के अस्तित्व का पता लगाने और इसका पता लगाने के लिए एक व्यापक रूप से स्वीकृत विधि नहीं है, और यह हमारे पहले एजीआई के उद्भव की हमारी प्राप्ति में देरी कर सकता है।

एक एजीआई प्रणाली में सुरक्षा कैसे बनाए रखी जा सकती है जो स्वयं सोचने में सक्षम होगी और मानवों से अधिक बुद्धिमान होगी?

मैं मानता हूं कि बुद्धिमान व्यवहार का एकीकृत सिद्धांत अर्थशास्त्र है और यह जांच करता है कि एजेंट कैसे कार्य करते हैं और कैसे बातचीत करते हैं जो वे चाहते हैं। मानवों के निर्णय और क्रियाएं उनके उद्देश्यों, उनकी जानकारी, और उपलब्ध संसाधनों द्वारा निर्धारित होते हैं। समाज और सहयोगी प्रयास व्यक्तिगत सदस्यों के लिए लाभों से उद्भवित होते हैं। एक और उदाहरण है दंड संहिता, जो व्यक्तियों को कुछ निर्णयों से रोकती है जो समाज को नुकसान पहुंचा सकते हैं। इसी तरह, मैं मानता हूं कि प्रोत्साहन और संसाधनों को नियंत्रित करके मानवों और एजीआई के बीच एक संतुलन की स्थिति का उद्भव संभव है। वर्तमान में, एआई सुरक्षा समुदाय इस थीसिस की जांच मूल्य-संरेखण समस्याओं के तहत करता है।

आप आतंकवाद विरोधी के एक क्षेत्र का अनुसरण करते हैं। क्या आपको लगता है कि आतंकवादी एआई या एजीआई प्रणालियों पर कब्जा कर सकते हैं?

एआई प्रौद्योगिकियों के दुरुपयोग के बारे में कई चिंताएं हैं। आतंकवादी ऑपरेशनों के मामले में, मुख्य चिंता यह है कि आतंकवादी स्वायत्त हमलों को कैसे विकसित और लागू कर सकते हैं। मेरे कई सहयोगी आतंकवादी हथियारों (देखें https://autonomousweapons.org/) के जोखिमों के बारे में चेतावनी दे रहे हैं। एआई-संचालित हथियारों के साथ एक मुख्य समस्या यह है कि अंतर्निहित प्रौद्योगिकी को नियंत्रित करना मुश्किल है: एआई खुले स्रोत अनुसंधान के अग्रभाग पर है, और कोई भी इंटरनेट और उपभोक्ता-ग्रेड हार्डवेयर तक पहुंच के साथ हानिकारक एआई प्रणालियों को विकसित कर सकता है। मुझे लगता है कि स्वायत्त हथियारों का उद्भव अपरिहार्य है, और मुझे लगता है कि जल्द ही ऐसे हथियारों का मुकाबला करने के लिए नए प्रौद्योगिकी समाधानों की आवश्यकता होगी। यह एक बिल्ली और चूहे का चक्र हो सकता है जो एआई-संचालित हथियारों के विकास को ईंधन देता है, जो दीर्घकालिक में गंभीर अस्तित्व जोखिम पैदा कर सकता है।

एआई प्रणालियों को इन अद्वितीय एजेंटों से सुरक्षित रखने के लिए हम क्या कर सकते हैं?

सबसे पहली और सबसे महत्वपूर्ण बात यह है कि सभी एआई इंजीनियरों और पрак्टिशनरों को एआई प्रौद्योगिकियों की कमजोरियों के बारे में जानना चाहिए और अपने सिस्टम के डिजाइन और कार्यान्वयन में संबंधित जोखिमों पर विचार करना चाहिए। अधिक तकनीकी सिफारिशों के लिए, कई प्रस्ताव और समाधान अवधारणाएं हैं जिन्हें नियोजित किया जा सकता है। उदाहरण के लिए, अद्वितीय सेटिंग्स में मशीन लर्निंग एजेंटों को प्रशिक्षित करने से उनकी लचीलापन और अद्वितीय हमलों के प्रति मजबूती में सुधार हो सकता है (जैसे कि मेरे शोध पत्र “व्हाटेवर डज नॉट किल डीप रिनफोर्समेंट लर्निंग, मेक्स इट स्ट्रॉन्गर” देखें)। एक और समाधान यह है कि एजेंट की आर्किटेक्चर में सीधे अद्वितीय हमलों के जोखिम को ध्यान में रखा जाए (जैसे कि बेयसियन दृष्टिकोण से जोखिम मॉडलिंग)। हालांकि, इस क्षेत्र में एक बड़ा अंतर है और यह अद्वितीय हमलों के खिलाफ एआई एजेंटों की लचीलापन के लिए सार्वभौमिक मापदंड और विधियों की आवश्यकता है। वर्तमान समाधान अधिकांशतः ad hoc हैं और सभी प्रकार के हमलों के खिलाफ लचीलापन के सामान्य उपाय प्रदान नहीं करते हैं।

क्या आपको इन विषयों में से किसी पर और कुछ साझा करना होगा?

2014 में, स्कली एट अल ने न्यूरिप्स सम्मेलन में एक शोध पत्र प्रकाशित किया जिसमें एक बहुत ही प्रेरक विषय था: “मशीन लर्निंग: तकनीकी ऋण का उच्च-ब्याज वाला क्रेडिट कार्ड”। एआई क्षेत्र में पिछले कुछ वर्षों में हुई सभी प्रगति के बावजूद, यह बयान अभी भी अपनी वैधता नहीं खोया है। वर्तमान एआई और मशीन लर्निंग की स्थिति निस्संदेह अद्भुत है, लेकिन हमें अभी भी एआई के नींव और इंजीनियरिंग आयामों में कई महत्वपूर्ण अंतराल भरने हैं। मेरी राय में, यह हमारी बातचीत का सबसे महत्वपूर्ण निष्कर्ष है। मैं एआई प्रौद्योगिकियों के व्यावसायिक अपनाने को प्रोत्साहित नहीं करना चाहता, लेकिन केवल इंजीनियरिंग समुदाय को वर्तमान एआई प्रौद्योगिकियों के जोखिमों और सीमाओं के बारे में जागरूक करना चाहता हूं ताकि वे अपने निर्णयों में इसका ध्यान रख सकें।

मैं वास्तव में विभिन्न प्रकार की एआई प्रणालियों के सुरक्षा और सुरक्षा चुनौतियों के बारे में जानने में रुचि रखता हूं। यह वास्तव में कुछ ऐसा है जिसके बारे में व्यक्तियों, निगमों और सरकारों को जागरूक होने की आवश्यकता है। जो पाठक अधिक जानना चाहते हैं उन्हें सिक्योर और अस्योर्ड इंटेलिजेंट लर्निंग (एसएआईएल) लैब की वेबसाइट पर जाना चाहिए।

рдПрдВрдЯреЛрдиреА рдПрдХ рджреВрд░рджрд░реНрд╢реА рдиреЗрддрд╛ рдФрд░ Unite.AI рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рднрд╛рдЧреАрджрд╛рд░ рд╣реИрдВ, рдЬреЛ рдХрд┐ рдПрдЖрдИ рдФрд░ рд░реЛрдмреЛрдЯрд┐рдХреНрд╕ рдХреЗ рднрд╡рд┐рд╖реНрдп рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдФрд░ рдмрдврд╝рд╛рд╡рд╛ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдЕрдЯреВрдЯ рдЬреБрдиреВрди рд╕реЗ рдкреНрд░реЗрд░рд┐рдд рд╣реИрдВред рдПрдХ рд╢реНрд░реГрдВрдЦрд▓рд╛ рдЙрджреНрдпрдореА, рд╡рд╣ рдорд╛рдирддрд╛ рд╣реИ рдХрд┐ рдПрдЖрдИ рд╕рдорд╛рдЬ рдХреЗ рд▓рд┐рдП рдЙрддрдирд╛ рд╣реА рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рд╣реЛрдЧрд╛ рдЬрд┐рддрдирд╛ рдХрд┐ рдмрд┐рдЬрд▓реА, рдФрд░ рдЕрдХреНрд╕рд░ рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдФрд░ рдПрдЬреАрдЖрдИ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЙрддреНрд╕рд╛рд╣рд┐рдд рд╣реЛрддрд╛ рд╣реИред

рдПрдХ рдлреНрдпреВрдЪрд░рд┐рд╕реНрдЯ рдХреЗ рд░реВрдк рдореЗрдВ, рд╡рд╣ рдЗрди рдирд╡рд╛рдЪрд╛рд░реЛрдВ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╣рдорд╛рд░реА рджреБрдирд┐рдпрд╛ рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдХреА рдЦреЛрдЬ рдореЗрдВ рд╕рдорд░реНрдкрд┐рдд рд╣реИред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рд╡рд╣ рд╕рд┐рдХреНрдпреЛрд░рд┐рдЯреАрдЬрд╝.io рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВ, рдПрдХ рдордВрдЪ рдЬреЛ рднрд╡рд┐рд╖реНрдп рдХреЛ рдлрд┐рд░ рд╕реЗ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рдФрд░ рдкреВрд░реЗ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рдлрд┐рд░ рд╕реЗ рдЖрдХрд╛рд░ рджреЗрдиреЗ рд╡рд╛рд▓реА рдЕрддреНрдпрд╛рдзреБрдирд┐рдХ рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдореЗрдВ рдирд┐рд╡реЗрд╢ рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рд╣реИред