рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдПрдЖрдИ рд╢реЛрдзрдХрд░реНрддрд╛ рд╡реАрдбрд┐рдпреЛ рдЧреЗрдо рдЦреЗрд▓рдиреЗ рд╡рд╛рд▓реЗ рдореЙрдбрд▓ рдмрдирд╛рддреЗ рд╣реИрдВ рдЬреЛ рдкрд┐рдЫрд▓реА рдШрдЯрдирд╛рдУрдВ рдХреЛ рдпрд╛рдж рд░рдЦ рд╕рдХрддреЗ рд╣реИрдВ

उबेर के एआई लैब में शोधकर्ताओं की एक टीम ने हाल ही में एक प्रणाली विकसित की है एआई एल्गोरिदम की जो क्लासिक एटारी वीडियो गेम में मानव खिलाड़ियों और अन्य एआई सिस्टम को पीछे छोड़ देती है। शोधकर्ताओं द्वारा विकसित एआई सिस्टम पिछली बार सफल रणनीतियों को याद रखने में सक्षम है, और जो पहले काम आया था उसके आधार पर नई रणनीतियों का निर्माण करता है। अध्ययन की शोध टीम का मानना है कि उन्होंने जिन एल्गोरिदम को विकसित किया है, उनके अन्य तकनीकी क्षेत्रों जैसे भाषा प्रसंस्करण और रोबोटिक्स में अनुप्रयोग हैं।
वीडियो गेम खेलने में सक्षम एआई सिस्टम बनाने के लिए आमतौर पर इस्तेमाल किया जाने वाला तरीका पुनरावृत्ति सीखने के एल्गोरिदम का उपयोग करना है। पुनरावृत्ति सीखने के एल्गोरिदम एक कार्य को करने के लिए संभावित क्रियाओं की एक श्रृंखला का अन्वेषण करके सीखते हैं, और प्रत्येक क्रिया के बाद, उन्हें एक प्रकार का पुनरावृत्ति (पुरस्कार या दंड) प्रदान किया जाता है। समय के साथ, एआई मॉडल सीखता है कि कौन सी क्रियाएं बड़े पुरस्कारों की ओर ले जाती हैं, और यह उन क्रियाओं को करने की संभावना अधिक होती है। दुर्भाग्य से, पुनरावृत्ति सीखने वाले मॉडल डेटासेट में अन्य डेटा बिंदुओं के साथ असंगत डेटा बिंदुओं का सामना करने पर परेशानी में पड़ जाते हैं।
शोध टीम के अनुसार, उनके दृष्टिकोण को अन्य एआई शोधकर्ताओं द्वारा नहीं माना जा रहा है क्योंकि रणनीति पुनरावृत्ति सीखने में आमतौर पर इस्तेमाल किए जाने वाले “आंतरिक प्रेरणा” दृष्टिकोण से भिन्न है। आंतरिक प्रेरणा दृष्टिकोण के साथ समस्या यह है कि मॉडल पुरस्कार देने वाले क्षेत्रों के बारे में “भूलने” के लिए प्रवण हो सकता है जो अभी भी अन्वेषण के योग्य हैं। इस घटना को “विच्छेदन” के रूप में जाना जाता है। परिणामस्वरूप, जब मॉडल अप्रत्याशित डेटा का सामना करता है, तो यह उन क्षेत्रों के बारे में भूल सकता है जिन्हें अभी भी अन्वेषण किया जाना चाहिए।
टेकएक्सप्लोरे के अनुसार, शोध टीम ने एक सीखने का मॉडल बनाने का लक्ष्य रखा जो अधिक लचीला और अप्रत्याशित डेटा का जवाब देने में सक्षम हो। शोधकर्ताओं ने इस समस्या का समाधान एक ऐसे एल्गोरिदम को पेश करके किया जो समस्या को हल करने के लिए पिछले मॉडल द्वारा की गई सभी क्रियाओं को याद रख सकता है। जब एआई मॉडल एक डेटा बिंदु का सामना करता है जो उसके द्वारा सीखे गए डेटा से मेल नहीं खाता है, तो मॉडल अपने मेमोरी मैप की जांच करता है। मॉडल तब यह पहचानेगा कि कौन सी रणनीतियां सफल और असफल रहीं और उपयुक्त रणनीतियों का चयन करेगा।
जब वीडियो गेम खेलते हैं, तो मॉडल गेम के स्क्रीनशॉट एकत्र करता है क्योंकि यह खेलता है, अपनी क्रियाओं का एक लॉग बनाता है। छवियों को समानता के आधार पर समूहीकृत किया जाता है, जो समय के स्पष्ट बिंदु बनाते हैं जिनसे मॉडल संदर्भ ले सकता है। एल्गोरिदम लॉग की गई छवियों का उपयोग समय में एक दिलचस्प बिंदु पर वापस लौटने और वहां से अन्वेषण जारी रखने के लिए कर सकता है। जब मॉडल पाता है कि यह हार रहा है, तो यह ली गई स्क्रीनशॉट को देखेगा और एक अलग रणनीति आजमाएगा।
बीबीसी के अनुसार, एआई एजेंट के लिए खतरनाक परिदृश्यों को संभालने की भी समस्या है। यदि एजेंट एक खतरे में भाग जाता है जो इसे मार सकता है, तो यह आगे के अन्वेषण के योग्य क्षेत्रों में वापस लौटने से रोकेगा, जिसे “विचलन” के रूप में जाना जाता है। एआई मॉडल विचलन समस्याओं को पुराने क्षेत्रों की खोज के लिए उपयोग किए जाने वाले से अलग एक प्रक्रिया के माध्यम से संभालता है।
शोध टीम ने मॉडल को 55 एटारी गेम खेलने दिया। ये गेम आमतौर पर एआई मॉडल के प्रदर्शन को बेंचमार्क करने के लिए उपयोग किए जाते हैं, लेकिन शोधकर्ताओं ने अपने मॉडल के लिए एक मोड़ जोड़ा। शोधकर्ताओं ने गेम में अतिरिक्त नियम पेश किए, मॉडल को निर्देश दिया कि न केवल संभव के रूप में उच्च स्कोर प्राप्त करने का प्रयास करें, बल्कि हर बार एक और उच्च स्कोर प्राप्त करने का प्रयास करें। जब मॉडल के प्रदर्शन के परिणामों का विश्लेषण किया गया, तो शोधकर्ताओं ने पाया कि उनका एआई सिस्टम लगभग 85% समय गेम में अन्य एआई को पीछे छोड़ देता है। एआई ने विशेष रूप से मोंटेज़ुमा के प्रतिशोध नामक प्लेटफ़ॉर्मिंग गेम में अच्छा प्रदर्शन किया, जहां खिलाड़ी खतरों से बचता है और खजाने इकट्ठा करता है। गेम ने मानव खिलाड़ी के लिए रिकॉर्ड को पीछे छोड़ दिया और किसी भी अन्य एआई सिस्टम से अधिक स्कोर किया।
उबेर एआई शोधकर्ताओं के अनुसार, शोध टीम द्वारा उपयोग की जाने वाली रणनीतियों का रोबोटिक्स जैसे उद्योगों में अनुप्रयोग है। रोबोटों को यह जानने में लाभ होता है कि कौन सी क्रियाएं सफल रहीं हैं, कौन सी काम नहीं आईं, और कौन सी अभी तक आजमाई नहीं गई हैं।












