कृत्रिम बुद्धिमत्ता

एआई शोधकर्ता वीडियो गेम खेलने वाले मॉडल बनाते हैं जो पिछली घटनाओं को याद रख सकते हैं

Published February 27, 2021

Updated April 28, 2026

Daniel Nelson

उबेर के एआई लैब में शोधकर्ताओं की एक टीम ने हाल ही में एक प्रणाली विकसित की है एआई एल्गोरिदम की जो क्लासिक एटारी वीडियो गेम में मानव खिलाड़ियों और अन्य एआई सिस्टम को पीछे छोड़ देती है। शोधकर्ताओं द्वारा विकसित एआई सिस्टम पिछली बार सफल रणनीतियों को याद रखने में सक्षम है, और जो पहले काम आया था उसके आधार पर नई रणनीतियों का निर्माण करता है। अध्ययन की शोध टीम का मानना है कि उन्होंने जिन एल्गोरिदम को विकसित किया है, उनके अन्य तकनीकी क्षेत्रों जैसे भाषा प्रसंस्करण और रोबोटिक्स में अनुप्रयोग हैं।

वीडियो गेम खेलने में सक्षम एआई सिस्टम बनाने के लिए आमतौर पर इस्तेमाल किया जाने वाला तरीका पुनरावृत्ति सीखने के एल्गोरिदम का उपयोग करना है। पुनरावृत्ति सीखने के एल्गोरिदम एक कार्य को करने के लिए संभावित क्रियाओं की एक श्रृंखला का अन्वेषण करके सीखते हैं, और प्रत्येक क्रिया के बाद, उन्हें एक प्रकार का पुनरावृत्ति (पुरस्कार या दंड) प्रदान किया जाता है। समय के साथ, एआई मॉडल सीखता है कि कौन सी क्रियाएं बड़े पुरस्कारों की ओर ले जाती हैं, और यह उन क्रियाओं को करने की संभावना अधिक होती है। दुर्भाग्य से, पुनरावृत्ति सीखने वाले मॉडल डेटासेट में अन्य डेटा बिंदुओं के साथ असंगत डेटा बिंदुओं का सामना करने पर परेशानी में पड़ जाते हैं।

शोध टीम के अनुसार, उनके दृष्टिकोण को अन्य एआई शोधकर्ताओं द्वारा नहीं माना जा रहा है क्योंकि रणनीति पुनरावृत्ति सीखने में आमतौर पर इस्तेमाल किए जाने वाले “आंतरिक प्रेरणा” दृष्टिकोण से भिन्न है। आंतरिक प्रेरणा दृष्टिकोण के साथ समस्या यह है कि मॉडल पुरस्कार देने वाले क्षेत्रों के बारे में “भूलने” के लिए प्रवण हो सकता है जो अभी भी अन्वेषण के योग्य हैं। इस घटना को “विच्छेदन” के रूप में जाना जाता है। परिणामस्वरूप, जब मॉडल अप्रत्याशित डेटा का सामना करता है, तो यह उन क्षेत्रों के बारे में भूल सकता है जिन्हें अभी भी अन्वेषण किया जाना चाहिए।

टेकएक्सप्लोरे के अनुसार, शोध टीम ने एक सीखने का मॉडल बनाने का लक्ष्य रखा जो अधिक लचीला और अप्रत्याशित डेटा का जवाब देने में सक्षम हो। शोधकर्ताओं ने इस समस्या का समाधान एक ऐसे एल्गोरिदम को पेश करके किया जो समस्या को हल करने के लिए पिछले मॉडल द्वारा की गई सभी क्रियाओं को याद रख सकता है। जब एआई मॉडल एक डेटा बिंदु का सामना करता है जो उसके द्वारा सीखे गए डेटा से मेल नहीं खाता है, तो मॉडल अपने मेमोरी मैप की जांच करता है। मॉडल तब यह पहचानेगा कि कौन सी रणनीतियां सफल और असफल रहीं और उपयुक्त रणनीतियों का चयन करेगा।

जब वीडियो गेम खेलते हैं, तो मॉडल गेम के स्क्रीनशॉट एकत्र करता है क्योंकि यह खेलता है, अपनी क्रियाओं का एक लॉग बनाता है। छवियों को समानता के आधार पर समूहीकृत किया जाता है, जो समय के स्पष्ट बिंदु बनाते हैं जिनसे मॉडल संदर्भ ले सकता है। एल्गोरिदम लॉग की गई छवियों का उपयोग समय में एक दिलचस्प बिंदु पर वापस लौटने और वहां से अन्वेषण जारी रखने के लिए कर सकता है। जब मॉडल पाता है कि यह हार रहा है, तो यह ली गई स्क्रीनशॉट को देखेगा और एक अलग रणनीति आजमाएगा।

बीबीसी के अनुसार, एआई एजेंट के लिए खतरनाक परिदृश्यों को संभालने की भी समस्या है। यदि एजेंट एक खतरे में भाग जाता है जो इसे मार सकता है, तो यह आगे के अन्वेषण के योग्य क्षेत्रों में वापस लौटने से रोकेगा, जिसे “विचलन” के रूप में जाना जाता है। एआई मॉडल विचलन समस्याओं को पुराने क्षेत्रों की खोज के लिए उपयोग किए जाने वाले से अलग एक प्रक्रिया के माध्यम से संभालता है।

शोध टीम ने मॉडल को 55 एटारी गेम खेलने दिया। ये गेम आमतौर पर एआई मॉडल के प्रदर्शन को बेंचमार्क करने के लिए उपयोग किए जाते हैं, लेकिन शोधकर्ताओं ने अपने मॉडल के लिए एक मोड़ जोड़ा। शोधकर्ताओं ने गेम में अतिरिक्त नियम पेश किए, मॉडल को निर्देश दिया कि न केवल संभव के रूप में उच्च स्कोर प्राप्त करने का प्रयास करें, बल्कि हर बार एक और उच्च स्कोर प्राप्त करने का प्रयास करें। जब मॉडल के प्रदर्शन के परिणामों का विश्लेषण किया गया, तो शोधकर्ताओं ने पाया कि उनका एआई सिस्टम लगभग 85% समय गेम में अन्य एआई को पीछे छोड़ देता है। एआई ने विशेष रूप से मोंटेज़ुमा के प्रतिशोध नामक प्लेटफ़ॉर्मिंग गेम में अच्छा प्रदर्शन किया, जहां खिलाड़ी खतरों से बचता है और खजाने इकट्ठा करता है। गेम ने मानव खिलाड़ी के लिए रिकॉर्ड को पीछे छोड़ दिया और किसी भी अन्य एआई सिस्टम से अधिक स्कोर किया।

उबेर एआई शोधकर्ताओं के अनुसार, शोध टीम द्वारा उपयोग की जाने वाली रणनीतियों का रोबोटिक्स जैसे उद्योगों में अनुप्रयोग है। रोबोटों को यह जानने में लाभ होता है कि कौन सी क्रियाएं सफल रहीं हैं, कौन सी काम नहीं आईं, और कौन सी अभी तक आजमाई नहीं गई हैं।

Daniel Nelson

ब्लॉगर और प्रोग्रामर जिनकी विशेषज्ञता मैशीन लर्निंग और डीप लर्निंग विषयों में है। डैनियल दूसरों को सामाजिक कल्याण के लिए एआई की शक्ति का उपयोग करने में मदद करना चाहता है।

Unite.AI

एआई शोधकर्ता वीडियो गेम खेलने वाले मॉडल बनाते हैं जो पिछली घटनाओं को याद रख सकते हैं

You may like