рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдбреАрдкрдорд╛рдЗрдВрдб рдХрд╛ рдирдпрд╛ рдПрдЖрдИ рдЧреЗрдо рдЦреЗрд▓рддреЗ рд╕рдордп рдирд┐рдпрдо рд╕реАрдЦрдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рд╣реИ

अल्फाबेट की सहायक कंपनी डीपमाइंड ने हाल ही में एक एआई सिस्टम विकसित किया है जो गेम खेलते समय नियम सीखने में सक्षम है। जबकि डीपमाइंड ने पहले शतरंज, शोगी, गो और वीडियो गेम जैसे गेम मास्टर करने वाले प्रभावशाली एआई मॉडल बनाए हैं, इन मॉडलों को पहले से गेम के नियम प्रदान करने होते हैं। इस प्रकार, डीपमाइंड का नया एआई पिछले एआई अल्गोरिदम की तुलना में एक उल्लेखनीय सुधार है जो पुनरावृत्ति सीखने के माध्यम से गेम सीखते हैं।
एआई सिस्टम – म्यूजीरो
एक पत्र हाल ही में नेचर पत्रिका में प्रकाशित में, डीपमाइंड ने विस्तार से बताया कि उनका नया एआई सिस्टम कैसे काम करता है। नया एआई, जिसे म्यूजीरो कहा जाता है, “लुक-अहेड सर्च” नामक एक सिद्धांत के कारण गेम खेलते समय नियम सीखने में सक्षम है। इंगेडगेट की रिपोर्ट के अनुसार, म्यूजीरो विरोधियों से सबसे अधिक संभावित प्रतिक्रियाओं के आधार पर निष्पादित करने के लिए कौन से कदम उठाने चाहिए, यह निर्धारित करने के लिए लुक-अहेड सर्च का उपयोग करता है।
जब शतरंज जैसे गेम में किए जा सकने वाले सभी संभावित कदमों पर विचार किया जाता है, तो म्यूजीरो सक्षम होता है प्राथमिकता देना, कदमों को केवल सबसे अधिक संभावित और प्रासंगिक कदमों तक सीमित करने के लिए। म्यूजीरो दोनों सफल और असफल युद्धाभ्यास से सीखेगा। सभी संभावित कारकों को मॉडल करने के बजाय, यह केवल उन कारकों पर विचार करता है जो निर्णय लेने के लिए सबसे प्रासंगिक हैं। म्यूजीरो मूल रूप से उन सभी संभावित चरों को लेता है जिन पर विचार किया जा सकता है और उन्हें केवल सबसे प्रासंगिक, प्रभावशाली विशेषताओं में कम करता है। ये विशेषताएं एक पेड़-आधारित खोज अल्गोरिदम में प्रस्तुत की जाती हैं। पेड़ के भीतर संभावनाएं तब एक सीखे हुए मॉडल के साथ परीक्षण वातावरण की विशेषताओं के आधार पर जोड़ी जाती हैं। लुक-अहेड सर्च तब किया जाता है जब पर्यावरण के सबसे प्रासंगिक पहलुओं की पहचान की जाती है।
एक अंतिम निर्णय पर पहुंचने के लिए, तीन कारकों पर विचार किया जाता है।
म्यूजीरो पिछले विकल्प के परिणाम, वर्तमान स्थिति जिसमें यह है, और अगले कदम जो यह ले सकता है, पर विचार करता है। यह दृष्टिकोण डीपमाइंड द्वारा पहले उपयोग किए जाने वाले दृष्टिकोणों से बेहतर है, जिनमें बुनियादी लुक-अहेड सर्च और पेड़-आधारित मॉडल शामिल हैं। म्यूजीरो शतरंज, शोगी और गो में अल्फाजीरो के रूप में कम से कम उतना ही अच्छा साबित हुआ, और जब यह मिस पैक-मैन गेम खेला, तो म्यूजीरो केवल छह या सात कदमों पर विचार कर सकता था। इस सीमा के बावजूद, एआई अभी भी बहुत अच्छा प्रदर्शन करने में सक्षम था। डीपमाइंड ने म्यूजीरो की क्षमताओं का प्रयोग करके देखा कि यह कितने सिमुलेशन को पूरा करने से पहले एक कदम पर प्रतिबद्ध होने में सक्षम था।一般, जितना अधिक समय कार्यक्रम को संभावित कदमों पर विचार करने के लिए दिया गया, उतना ही बेहतर यह प्रदर्शन किया।
डीपमाइंड के प्रिंसिपल रिसर्च साइंटिस्ट, डेविड सिल्वर, टेकएक्सप्लोर के माध्यम से समझाया कि म्यूजीरो पहला एआई मॉडल है जो अपने आप पर्यावरण के नियमों का प्रतिनिधित्व करने में सक्षम है, और उस प्रतिनिधित्व का उपयोग क्रियाओं की योजना बनाने के लिए करता है।
“हमारे पास पहली बार एक ऐसी प्रणाली है जो वास्तव में दुनिया के काम करने के तरीके को समझने का निर्माण कर सकती है और उस समझ का उपयोग इस तरह की जटिल लुक-अहेड योजना बनाने के लिए कर सकती है जो आपने पहले शतरंज जैसे गेम में देखी है,” सिल्वर ने कहा। “(म्यूजीरो) शून्य से शुरू कर सकता है, और बस परीक्षण और त्रुटि के माध्यम से, दुनिया के नियमों का पता लगा सकता है और उन नियमों का उपयोग करके siêuमानव प्रदर्शन प्राप्त कर सकता है।”
संभावित अनुप्रयोग
एक एआई जो वास्तव में एक कार्य के प्रतिबंधों को सीखने और उन प्रतिबंधों के भीतर काम करने में सक्षम है, उसके कई संभावित अनुप्रयोग हैं। म्यूजीरो का उपयोग वीडियो संपीड़न जैसे कार्यों के लिए किया जा सकता है, जो ऐतिहासिक रूप से विभिन्न संभावित वीडियो प्रारूपों और संपीड़न मोड के कारण एआई का उपयोग करके स्वचालित करना मुश्किल रहा है। म्यूजीरो ने लगभग 5% संपीड़न सुधार हासिल किया। यह गूगल और यूट्यूब द्वारा होस्ट किए जाने वाले वीडियो की बड़ी संख्या के लिए परिणाम हो सकता है। वीडियो के अलावा, डीपमाइंड प्रोटीन आर्किटेक्चर डिज़ाइन और रोबोटिक्स प्रोग्रामिंग के लिए भी म्यूजीरो तकनीकों का उपयोग करने की तलाश में है।
साउथेम्प्टन विश्वविद्यालय के कंप्यूटर विज्ञान के प्रोफेसर वेंडी हॉल के अनुसार, म्यूजीरो पुनरावृत्ति सीखने वाले अल्गोरिदम के लिए “एक महत्वपूर्ण कदम आगे” है। हालांकि, हॉल चिंतित है कि अल्गोरिदम का दुरुपयोग किया जा सकता है। उदाहरण के लिए, अमेरिकी वायु सेना ने पहले से ही म्यूजीरो को कवर करने वाले शोध पत्रों का संदर्भ दिया है ताकि एक एआई सिस्टम बनाया जा सके जो यू -2 जासूसी विमानों से मिसाइलें लॉन्च कर सके। यह डीपमाइंड के शोधकर्ताओं द्वारा घातक हथियारों के लिए अपने अल्गोरिदम का उपयोग करने के विरोध के बावजूद है, जिन्होंने घातक स्वायत्त हथियार प्रतिज्ञा पर हस्ताक्षर किए हैं ताकि यह तर्क दिया जा सके कि किसी भी घातक प्रौद्योगिकी को मानव नियंत्रण में रहना चाहिए।
सिल्वर ने समझाया कि डीपमाइंड भविष्य की ओर देख रहा है, जिसका उद्देश्य मस्तिष्क के रूप में शक्तिशाली और बहुमुखी अल्गोरिदम विकसित करना है। एक बहुमुखी और लचीले अल्गोरिदम बनाने का पहला कदम यह समझना है कि एक प्रणाली के लिए बुद्धिमान होने का क्या अर्थ है, और बुद्धिमत्ता जटिल पर्यावरण के नियमों और पैटर्न को पहचानने की क्षमता से जुड़ी हुई है।












