Connect with us

рдПрдЖрдИ рд╢реЛрдзрдХрд░реНрддрд╛ рд╡реАрдбрд┐рдпреЛ рдЧреЗрдо рдЦреЗрд▓рдиреЗ рд╡рд╛рд▓реЗ рдореЙрдбрд▓ рдмрдирд╛рддреЗ рд╣реИрдВ рдЬреЛ рдкрд┐рдЫрд▓реА рдШрдЯрдирд╛рдУрдВ рдХреЛ рдпрд╛рдж рд░рдЦ рд╕рдХрддреЗ рд╣реИрдВ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдПрдЖрдИ рд╢реЛрдзрдХрд░реНрддрд╛ рд╡реАрдбрд┐рдпреЛ рдЧреЗрдо рдЦреЗрд▓рдиреЗ рд╡рд╛рд▓реЗ рдореЙрдбрд▓ рдмрдирд╛рддреЗ рд╣реИрдВ рдЬреЛ рдкрд┐рдЫрд▓реА рдШрдЯрдирд╛рдУрдВ рдХреЛ рдпрд╛рдж рд░рдЦ рд╕рдХрддреЗ рд╣реИрдВ

mm

उबेर के एआई लैब में शोधकर्ताओं की एक टीम ने हाल ही में एक प्रणाली विकसित की है एआई एल्गोरिदम की जो क्लासिक एटारी वीडियो गेम में मानव खिलाड़ियों और अन्य एआई सिस्टम को पीछे छोड़ देती है। शोधकर्ताओं द्वारा विकसित एआई सिस्टम पिछली बार सफल रणनीतियों को याद रखने में सक्षम है, और जो पहले काम आया था उसके आधार पर नई रणनीतियों का निर्माण करता है। अध्ययन की शोध टीम का मानना है कि उन्होंने जिन एल्गोरिदम को विकसित किया है, उनके अन्य तकनीकी क्षेत्रों जैसे भाषा प्रसंस्करण और रोबोटिक्स में अनुप्रयोग हैं।

वीडियो गेम खेलने में सक्षम एआई सिस्टम बनाने के लिए आमतौर पर इस्तेमाल किया जाने वाला तरीका पुनरावृत्ति सीखने के एल्गोरिदम का उपयोग करना है। पुनरावृत्ति सीखने के एल्गोरिदम एक कार्य को करने के लिए संभावित क्रियाओं की एक श्रृंखला का अन्वेषण करके सीखते हैं, और प्रत्येक क्रिया के बाद, उन्हें एक प्रकार का पुनरावृत्ति (पुरस्कार या दंड) प्रदान किया जाता है। समय के साथ, एआई मॉडल सीखता है कि कौन सी क्रियाएं बड़े पुरस्कारों की ओर ले जाती हैं, और यह उन क्रियाओं को करने की संभावना अधिक होती है। दुर्भाग्य से, पुनरावृत्ति सीखने वाले मॉडल डेटासेट में अन्य डेटा बिंदुओं के साथ असंगत डेटा बिंदुओं का सामना करने पर परेशानी में पड़ जाते हैं।

शोध टीम के अनुसार, उनके दृष्टिकोण को अन्य एआई शोधकर्ताओं द्वारा नहीं माना जा रहा है क्योंकि रणनीति पुनरावृत्ति सीखने में आमतौर पर इस्तेमाल किए जाने वाले “आंतरिक प्रेरणा” दृष्टिकोण से भिन्न है। आंतरिक प्रेरणा दृष्टिकोण के साथ समस्या यह है कि मॉडल पुरस्कार देने वाले क्षेत्रों के बारे में “भूलने” के लिए प्रवण हो सकता है जो अभी भी अन्वेषण के योग्य हैं। इस घटना को “विच्छेदन” के रूप में जाना जाता है। परिणामस्वरूप, जब मॉडल अप्रत्याशित डेटा का सामना करता है, तो यह उन क्षेत्रों के बारे में भूल सकता है जिन्हें अभी भी अन्वेषण किया जाना चाहिए।

टेकएक्सप्लोरे के अनुसार, शोध टीम ने एक सीखने का मॉडल बनाने का लक्ष्य रखा जो अधिक लचीला और अप्रत्याशित डेटा का जवाब देने में सक्षम हो। शोधकर्ताओं ने इस समस्या का समाधान एक ऐसे एल्गोरिदम को पेश करके किया जो समस्या को हल करने के लिए पिछले मॉडल द्वारा की गई सभी क्रियाओं को याद रख सकता है। जब एआई मॉडल एक डेटा बिंदु का सामना करता है जो उसके द्वारा सीखे गए डेटा से मेल नहीं खाता है, तो मॉडल अपने मेमोरी मैप की जांच करता है। मॉडल तब यह पहचानेगा कि कौन सी रणनीतियां सफल और असफल रहीं और उपयुक्त रणनीतियों का चयन करेगा।

जब वीडियो गेम खेलते हैं, तो मॉडल गेम के स्क्रीनशॉट एकत्र करता है क्योंकि यह खेलता है, अपनी क्रियाओं का एक लॉग बनाता है। छवियों को समानता के आधार पर समूहीकृत किया जाता है, जो समय के स्पष्ट बिंदु बनाते हैं जिनसे मॉडल संदर्भ ले सकता है। एल्गोरिदम लॉग की गई छवियों का उपयोग समय में एक दिलचस्प बिंदु पर वापस लौटने और वहां से अन्वेषण जारी रखने के लिए कर सकता है। जब मॉडल पाता है कि यह हार रहा है, तो यह ली गई स्क्रीनशॉट को देखेगा और एक अलग रणनीति आजमाएगा।

बीबीसी के अनुसार, एआई एजेंट के लिए खतरनाक परिदृश्यों को संभालने की भी समस्या है। यदि एजेंट एक खतरे में भाग जाता है जो इसे मार सकता है, तो यह आगे के अन्वेषण के योग्य क्षेत्रों में वापस लौटने से रोकेगा, जिसे “विचलन” के रूप में जाना जाता है। एआई मॉडल विचलन समस्याओं को पुराने क्षेत्रों की खोज के लिए उपयोग किए जाने वाले से अलग एक प्रक्रिया के माध्यम से संभालता है।

शोध टीम ने मॉडल को 55 एटारी गेम खेलने दिया। ये गेम आमतौर पर एआई मॉडल के प्रदर्शन को बेंचमार्क करने के लिए उपयोग किए जाते हैं, लेकिन शोधकर्ताओं ने अपने मॉडल के लिए एक मोड़ जोड़ा। शोधकर्ताओं ने गेम में अतिरिक्त नियम पेश किए, मॉडल को निर्देश दिया कि न केवल संभव के रूप में उच्च स्कोर प्राप्त करने का प्रयास करें, बल्कि हर बार एक और उच्च स्कोर प्राप्त करने का प्रयास करें। जब मॉडल के प्रदर्शन के परिणामों का विश्लेषण किया गया, तो शोधकर्ताओं ने पाया कि उनका एआई सिस्टम लगभग 85% समय गेम में अन्य एआई को पीछे छोड़ देता है। एआई ने विशेष रूप से मोंटेज़ुमा के प्रतिशोध नामक प्लेटफ़ॉर्मिंग गेम में अच्छा प्रदर्शन किया, जहां खिलाड़ी खतरों से बचता है और खजाने इकट्ठा करता है। गेम ने मानव खिलाड़ी के लिए रिकॉर्ड को पीछे छोड़ दिया और किसी भी अन्य एआई सिस्टम से अधिक स्कोर किया।

उबेर एआई शोधकर्ताओं के अनुसार, शोध टीम द्वारा उपयोग की जाने वाली रणनीतियों का रोबोटिक्स जैसे उद्योगों में अनुप्रयोग है। रोबोटों को यह जानने में लाभ होता है कि कौन सी क्रियाएं सफल रहीं हैं, कौन सी काम नहीं आईं, और कौन सी अभी तक आजमाई नहीं गई हैं।

рдмреНрд▓реЙрдЧрд░ рдФрд░ рдкреНрд░реЛрдЧреНрд░рд╛рдорд░ рдЬрд┐рдирдХреА рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдореИрд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рд╡рд┐рд╖рдпреЛрдВ рдореЗрдВ рд╣реИред рдбреИрдирд┐рдпрд▓ рджреВрд╕рд░реЛрдВ рдХреЛ рд╕рд╛рдорд╛рдЬрд┐рдХ рдХрд▓реНрдпрд╛рдг рдХреЗ рд▓рд┐рдП рдПрдЖрдИ рдХреА рд╢рдХреНрддрд┐ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реИред

рд╡рд┐рдЬреНрдЮрд╛рдкрди рдкреНрд░рдХрдЯреАрдХрд░рдг: Unite.AI рд╕рдЯреАрдХ рдЬрд╛рдирдХрд╛рд░реА рдФрд░ рд╕рдорд╛рдЪрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрдареЛрд░ рд╕рдВрдкрд╛рджрдХреАрдп рдорд╛рдирдХреЛрдВ рдХреЗ рдкреНрд░рддрд┐ рдкреНрд░рддрд┐рдмрджреНрдз рд╣реИред рдЬрдм рдЖрдк рдЙрди рдЙрддреНрдкрд╛рджреЛрдВ рдХреЗ рд▓рд┐рдВрдХ рдкрд░ рдХреНрд▓рд┐рдХ рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдирдХреА рд╣рдордиреЗ рд╕рдореАрдХреНрд╖рд╛ рдХреА рд╣реИ, рддреЛ рд╣рдореЗрдВ рдореБрдЖрд╡рдЬрд╛ рдорд┐рд▓ рд╕рдХрддрд╛ рд╣реИред