कृत्रिम बुद्धिमत्ता
एआई संघर्ष करता है माइनक्राफ्ट को अनुकरण सीखने के माध्यम से मास्टर करने के लिए

पिछले कुछ महीनों में, माइक्रोसॉफ्ट और अन्य कंपनियों ने मशीन लर्निंग पर शोध किया और एआई डेवलपर्स की टीमों को एक एआई सिस्टम बनाने के लिए चुनौती दी जो माइनक्राफ्ट खेल सकता है और गेम में एक हीरा ढूंढ सकता है। बीबीसी की रिपोर्ट के अनुसार, जबकि एआई प्लेटफ़ॉर्म शतरंज और गो जैसे खेलों में पारंगत हो गए हैं, लेकिन उन्हें माइनक्राफ्ट में एक कार्य को मास्टर करने में संघर्ष करना पड़ा।
माइक्रोसॉफ्ट की माइनक्राफ्ट-आधारित एआई चुनौती को माइनआरएल कहा जाता था, और प्रतियोगिता के परिणाम हाल ही में न्यूरिप्स सम्मेलन में औपचारिक रूप से घोषित किए गए थे। प्रतियोगिता का उद्देश्य एक एआई को “अनुकरण सीखने” दृष्टिकोण के माध्यम से प्रशिक्षित करना था। अनुकरण सीखना एक ऐसी विधि है जिसमें एक एआई को अवलोकन के माध्यम से प्रशिक्षित किया जाता है। अनुकरण सीखने का उद्देश्य एआई प्रणालियों को मानवों द्वारा उन क्रियाओं को करने के द्वारा क्रियाओं को सीखने देना है, अवलोकन के कार्य के माध्यम से सीखना। अनुकरण सीखना, प्रबलन सीखने की तुलना में, एक बहुत कम गणनात्मक रूप से महंगा और काफी अधिक कुशल तरीका है एक एआई को प्रशिक्षित करने का।
प्रबलन सीखने में अक्सर कई शक्तिशाली कंप्यूटरों को नेटवर्क में जोड़ने और किसी कार्य में प्रभावी होने के लिए सैकड़ों या हजारों घंटों के प्रशिक्षण की आवश्यकता होती है। इसके विपरीत, एक एआई को अनुकरण सीखने की विधि के साथ प्रशिक्षित किया जा सकता है जो बहुत तेजी से प्रशिक्षित किया जा सकता है, क्योंकि एआई के पास पहले से ही मानव ऑपरेटरों द्वारा प्रदान किए गए ज्ञान का एक आधार है।
अनुकरण सीखने के व्यावहारिक अनुप्रयोग हैं एक एआई को प्रशिक्षित करने में जहां एआई को सुरक्षित रूप से अन्वेषण करने की अनुमति नहीं है जब तक कि यह सही क्रियाओं का पता नहीं लगा लेता। ऐसे परिदृश्यों में स्वायत्त वाहन को प्रशिक्षित करना शामिल होगा, क्योंकि कार को सड़क पर घूमने की अनुमति नहीं दी जा सकती है जब तक कि यह वांछित व्यवहार सीख न ले। मानव प्रदर्शक के डेटा का उपयोग वाहन को प्रशिक्षित करने के लिए किया जा सकता है, जो प्रक्रिया को तेजी से और सुरक्षित बना सकता है।
माइनक्राफ्ट में एक हीरा ढूंढने की क्रिया कई चरणों को क्रम में करने की आवश्यकता होती है, जैसे कि उपकरण बनाने के लिए पेड़ों को काटना, हीरे वाली गुफाओं का अन्वेषण करना, और वास्तव में गुफा में एक हीरा ढूंढना। इस कार्य की जटिलता के बावजूद, एक मानव खिलाड़ी जो गेम से परिचित है, को लगभग 20 मिनट में एक हीरा मिलना चाहिए।
प्रतियोगिता में 660 से अधिक विभिन्न एआई एजेंट जमा किए गए थे, लेकिन एक भी एआई हीरा ढूंढने में सक्षम नहीं था। प्रशिक्षण के लिए प्रदान किए गए डेटा में कई मानव खिलाड़ियों से एकत्र किए गए 60 मिलियन से अधिक गेमप्ले फ्रेम शामिल थे। हीरे के स्थान गेम की शुरुआत में यादृच्छिक होते हैं, इसलिए इसका मतलब है कि एआई को बस वहां नहीं देखना चाहिए जहां मानव खिलाड़ियों ने हीरे पाए। दूसरे शब्दों में, एआई को उपकरण बनाने, उपकरण का उपयोग करने, अन्वेषण करने, और संसाधन ढूंढने जैसी अवधारणाओं के बीच के संबंधों को समझने की आवश्यकता है।
हालांकि कोई भी एआई एजेंट हीरा ढूंढने में सक्षम नहीं था, प्रतियोगिता की टीम अभी भी परिणामों से संतुष्ट थी, और बहुत कुछ अभी भी प्रयोग से सीखा गया था। एआई टीमों द्वारा किए गए शोध एआई क्षेत्र को आगे बढ़ाने में मदद कर सकता है, प्रबलन सीखने की रणनीतियों के विकल्प खोज रहा है।
प्रबलन सीखने में अक्सर अनुकरण सीखने पर श्रेष्ठ प्रदर्शन होता है, जिसमें प्रबलन सीखने की एक उल्लेखनीय सफलता डीपमाइंड का अल्फागो है। हालांकि, जैसा कि पहले उल्लेख किया गया है, प्रबलन सीखने में बड़े पैमाने पर गणनात्मक संसाधनों की आवश्यकता होती है, जो इसके उपयोग को उन संगठनों द्वारा सीमित करता है जो बड़े पैमाने पर कंप्यूटर प्रोसेसर को वहन नहीं कर सकते हैं।
कार्नेगी मेलन विश्वविद्यालय में पीएचडी छात्र और प्रतियोगिता के मुख्य आयोजक, विलियम गस, ने बीबीसी को बताया कि माइनआरएल प्रतियोगिता का उद्देश्य गणनात्मक रूप से भारी एआई के विकल्पों की जांच करना था। गस ने कहा:
“…मासIVE कंप्यूट पर समस्याओं को फेंकना आवश्यक रूप से हमारे लिए क्षेत्र के रूप में राज्य को आगे बढ़ाने का सही तरीका नहीं है… यह सीधे उन संगठनों को छोड़ देता है जो स्वायत्त वाहनों को जटिल वातावरण में प्रशिक्षित करने में सक्षम हैं, जो बड़े पैमाने पर कंप्यूटर के साथ कंपनियों के पास हैं।”


