कृत्रिम बुद्धिमत्ता

डीपमाइंड का नया एआई गेम खेलते समय नियम सीखने में सक्षम है

Published December 27, 2020

Updated April 28, 2026

Daniel Nelson

अल्फाबेट की सहायक कंपनी डीपमाइंड ने हाल ही में एक एआई सिस्टम विकसित किया है जो गेम खेलते समय नियम सीखने में सक्षम है। जबकि डीपमाइंड ने पहले शतरंज, शोगी, गो और वीडियो गेम जैसे गेम मास्टर करने वाले प्रभावशाली एआई मॉडल बनाए हैं, इन मॉडलों को पहले से गेम के नियम प्रदान करने होते हैं। इस प्रकार, डीपमाइंड का नया एआई पिछले एआई अल्गोरिदम की तुलना में एक उल्लेखनीय सुधार है जो पुनरावृत्ति सीखने के माध्यम से गेम सीखते हैं।

एआई सिस्टम – म्यूजीरो

एक पत्र हाल ही में नेचर पत्रिका में प्रकाशित में, डीपमाइंड ने विस्तार से बताया कि उनका नया एआई सिस्टम कैसे काम करता है। नया एआई, जिसे म्यूजीरो कहा जाता है, “लुक-अहेड सर्च” नामक एक सिद्धांत के कारण गेम खेलते समय नियम सीखने में सक्षम है। इंगेडगेट की रिपोर्ट के अनुसार, म्यूजीरो विरोधियों से सबसे अधिक संभावित प्रतिक्रियाओं के आधार पर निष्पादित करने के लिए कौन से कदम उठाने चाहिए, यह निर्धारित करने के लिए लुक-अहेड सर्च का उपयोग करता है।
जब शतरंज जैसे गेम में किए जा सकने वाले सभी संभावित कदमों पर विचार किया जाता है, तो म्यूजीरो सक्षम होता है प्राथमिकता देना, कदमों को केवल सबसे अधिक संभावित और प्रासंगिक कदमों तक सीमित करने के लिए। म्यूजीरो दोनों सफल और असफल युद्धाभ्यास से सीखेगा। सभी संभावित कारकों को मॉडल करने के बजाय, यह केवल उन कारकों पर विचार करता है जो निर्णय लेने के लिए सबसे प्रासंगिक हैं। म्यूजीरो मूल रूप से उन सभी संभावित चरों को लेता है जिन पर विचार किया जा सकता है और उन्हें केवल सबसे प्रासंगिक, प्रभावशाली विशेषताओं में कम करता है। ये विशेषताएं एक पेड़-आधारित खोज अल्गोरिदम में प्रस्तुत की जाती हैं। पेड़ के भीतर संभावनाएं तब एक सीखे हुए मॉडल के साथ परीक्षण वातावरण की विशेषताओं के आधार पर जोड़ी जाती हैं। लुक-अहेड सर्च तब किया जाता है जब पर्यावरण के सबसे प्रासंगिक पहलुओं की पहचान की जाती है।
एक अंतिम निर्णय पर पहुंचने के लिए, तीन कारकों पर विचार किया जाता है।
म्यूजीरो पिछले विकल्प के परिणाम, वर्तमान स्थिति जिसमें यह है, और अगले कदम जो यह ले सकता है, पर विचार करता है। यह दृष्टिकोण डीपमाइंड द्वारा पहले उपयोग किए जाने वाले दृष्टिकोणों से बेहतर है, जिनमें बुनियादी लुक-अहेड सर्च और पेड़-आधारित मॉडल शामिल हैं। म्यूजीरो शतरंज, शोगी और गो में अल्फाजीरो के रूप में कम से कम उतना ही अच्छा साबित हुआ, और जब यह मिस पैक-मैन गेम खेला, तो म्यूजीरो केवल छह या सात कदमों पर विचार कर सकता था। इस सीमा के बावजूद, एआई अभी भी बहुत अच्छा प्रदर्शन करने में सक्षम था। डीपमाइंड ने म्यूजीरो की क्षमताओं का प्रयोग करके देखा कि यह कितने सिमुलेशन को पूरा करने से पहले एक कदम पर प्रतिबद्ध होने में सक्षम था।一般, जितना अधिक समय कार्यक्रम को संभावित कदमों पर विचार करने के लिए दिया गया, उतना ही बेहतर यह प्रदर्शन किया।
डीपमाइंड के प्रिंसिपल रिसर्च साइंटिस्ट, डेविड सिल्वर, टेकएक्सप्लोर के माध्यम से समझाया कि म्यूजीरो पहला एआई मॉडल है जो अपने आप पर्यावरण के नियमों का प्रतिनिधित्व करने में सक्षम है, और उस प्रतिनिधित्व का उपयोग क्रियाओं की योजना बनाने के लिए करता है।
“हमारे पास पहली बार एक ऐसी प्रणाली है जो वास्तव में दुनिया के काम करने के तरीके को समझने का निर्माण कर सकती है और उस समझ का उपयोग इस तरह की जटिल लुक-अहेड योजना बनाने के लिए कर सकती है जो आपने पहले शतरंज जैसे गेम में देखी है,” सिल्वर ने कहा। “(म्यूजीरो) शून्य से शुरू कर सकता है, और बस परीक्षण और त्रुटि के माध्यम से, दुनिया के नियमों का पता लगा सकता है और उन नियमों का उपयोग करके siêuमानव प्रदर्शन प्राप्त कर सकता है।”

संभावित अनुप्रयोग

एक एआई जो वास्तव में एक कार्य के प्रतिबंधों को सीखने और उन प्रतिबंधों के भीतर काम करने में सक्षम है, उसके कई संभावित अनुप्रयोग हैं। म्यूजीरो का उपयोग वीडियो संपीड़न जैसे कार्यों के लिए किया जा सकता है, जो ऐतिहासिक रूप से विभिन्न संभावित वीडियो प्रारूपों और संपीड़न मोड के कारण एआई का उपयोग करके स्वचालित करना मुश्किल रहा है। म्यूजीरो ने लगभग 5% संपीड़न सुधार हासिल किया। यह गूगल और यूट्यूब द्वारा होस्ट किए जाने वाले वीडियो की बड़ी संख्या के लिए परिणाम हो सकता है। वीडियो के अलावा, डीपमाइंड प्रोटीन आर्किटेक्चर डिज़ाइन और रोबोटिक्स प्रोग्रामिंग के लिए भी म्यूजीरो तकनीकों का उपयोग करने की तलाश में है।
साउथेम्प्टन विश्वविद्यालय के कंप्यूटर विज्ञान के प्रोफेसर वेंडी हॉल के अनुसार, म्यूजीरो पुनरावृत्ति सीखने वाले अल्गोरिदम के लिए “एक महत्वपूर्ण कदम आगे” है। हालांकि, हॉल चिंतित है कि अल्गोरिदम का दुरुपयोग किया जा सकता है। उदाहरण के लिए, अमेरिकी वायु सेना ने पहले से ही म्यूजीरो को कवर करने वाले शोध पत्रों का संदर्भ दिया है ताकि एक एआई सिस्टम बनाया जा सके जो यू -2 जासूसी विमानों से मिसाइलें लॉन्च कर सके। यह डीपमाइंड के शोधकर्ताओं द्वारा घातक हथियारों के लिए अपने अल्गोरिदम का उपयोग करने के विरोध के बावजूद है, जिन्होंने घातक स्वायत्त हथियार प्रतिज्ञा पर हस्ताक्षर किए हैं ताकि यह तर्क दिया जा सके कि किसी भी घातक प्रौद्योगिकी को मानव नियंत्रण में रहना चाहिए।
सिल्वर ने समझाया कि डीपमाइंड भविष्य की ओर देख रहा है, जिसका उद्देश्य मस्तिष्क के रूप में शक्तिशाली और बहुमुखी अल्गोरिदम विकसित करना है। एक बहुमुखी और लचीले अल्गोरिदम बनाने का पहला कदम यह समझना है कि एक प्रणाली के लिए बुद्धिमान होने का क्या अर्थ है, और बुद्धिमत्ता जटिल पर्यावरण के नियमों और पैटर्न को पहचानने की क्षमता से जुड़ी हुई है।

Daniel Nelson

ब्लॉगर और प्रोग्रामर जिनकी विशेषज्ञता मैशीन लर्निंग और डीप लर्निंग विषयों में है। डैनियल दूसरों को सामाजिक कल्याण के लिए एआई की शक्ति का उपयोग करने में मदद करना चाहता है।

Unite.AI

डीपमाइंड का नया एआई गेम खेलते समय नियम सीखने में सक्षम है

एआई सिस्टम – म्यूजीरो

संभावित अनुप्रयोग

You may like