ठूंठ गहन सुदृढीकरण सीखना क्या है? - यूनाइट.एआई
हमसे जुडे
एआई मास्टरक्लास:

एआई 101

डीप रीइन्फोर्समेंट लर्निंग क्या है?

mm
Updated on

डीप रीइन्फोर्समेंट लर्निंग क्या है?

बिना पर्यवेक्षित मशीन लर्निंग और पर्यवेक्षित लर्निंग के साथ, एआई निर्माण का एक और सामान्य रूप सुदृढीकरण सीखना है। नियमित सुदृढीकरण सीखने से परे, गहरी सुदृढीकरण सीखने आश्चर्यजनक रूप से प्रभावशाली परिणाम दे सकता है, इस तथ्य के कारण कि यह गहन शिक्षण और सुदृढीकरण शिक्षण दोनों के सर्वोत्तम पहलुओं को जोड़ता है। आइए देखें कि गहन सुदृढीकरण सीखना कैसे संचालित होता है।

इससे पहले कि हम गहन सुदृढीकरण सीखने में उतरें, नियमित रूप से खुद को तरोताजा करना एक अच्छा विचार हो सकता है सुदृढीकरण सीखना काम करता है. सुदृढीकरण सीखने में, लक्ष्य-उन्मुख एल्गोरिदम को परीक्षण और त्रुटि की प्रक्रिया के माध्यम से डिज़ाइन किया गया है, जो उस कार्रवाई के लिए अनुकूलन करता है जो सबसे अच्छा परिणाम देता है / वह कार्रवाई जो सबसे अधिक "इनाम" प्राप्त करती है। जब सुदृढीकरण सीखने के एल्गोरिदम को प्रशिक्षित किया जाता है, तो उन्हें "पुरस्कार" या "दंड" दिए जाते हैं जो प्रभावित करते हैं कि वे भविष्य में कौन से कार्य करेंगे। एल्गोरिदम क्रियाओं का एक सेट ढूंढने का प्रयास करते हैं जो सिस्टम को तत्काल और भविष्य दोनों के पुरस्कारों को संतुलित करते हुए सबसे अधिक पुरस्कार प्रदान करेगा।

सुदृढीकरण सीखने के एल्गोरिदम बहुत शक्तिशाली हैं क्योंकि उन्हें लगभग किसी भी कार्य पर लागू किया जा सकता है, जो पर्यावरण से लचीले और गतिशील रूप से सीखने और संभावित कार्यों की खोज करने में सक्षम हैं।

गहन सुदृढीकरण सीखने का अवलोकन

फोटो: विकिमीडिया कॉमन्स के माध्यम से मेगाजूस, सीसी 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

जब गहन सुदृढीकरण सीखने की बात आती है, तो पर्यावरण को आम तौर पर छवियों के साथ दर्शाया जाता है। एक छवि समय में किसी विशेष बिंदु पर पर्यावरण का एक चित्र है। एजेंट को छवियों का विश्लेषण करना चाहिए और उनसे प्रासंगिक जानकारी निकालनी चाहिए, जानकारी का उपयोग करके यह बताना चाहिए कि उन्हें कौन सी कार्रवाई करनी चाहिए। गहन सुदृढीकरण सीखना आम तौर पर दो अलग-अलग तकनीकों में से एक के साथ किया जाता है: मूल्य-आधारित शिक्षा और नीति-आधारित शिक्षा।

मूल्य-आधारित शिक्षण तकनीकें कन्वेन्शनल न्यूरल नेटवर्क और जैसे एल्गोरिदम और आर्किटेक्चर का उपयोग करती हैं डीप-क्यू-नेटवर्क. ये एल्गोरिदम छवि को ग्रेस्केल में परिवर्तित करके और छवि के अनावश्यक हिस्सों को काटकर काम करते हैं। इसके बाद, छवि विभिन्न कनवल्शन और पूलिंग ऑपरेशन से गुजरती है, जिससे छवि के सबसे प्रासंगिक हिस्से निकाले जाते हैं। फिर छवि के महत्वपूर्ण हिस्सों का उपयोग एजेंट द्वारा की जा सकने वाली विभिन्न कार्रवाइयों के लिए क्यू-मूल्य की गणना करने के लिए किया जाता है। एजेंट के लिए कार्रवाई का सर्वोत्तम तरीका निर्धारित करने के लिए क्यू-मूल्यों का उपयोग किया जाता है। प्रारंभिक क्यू-मानों की गणना के बाद, बैकप्रॉपैगेशन किया जाता है ताकि सबसे सटीक क्यू-मान निर्धारित किया जा सके।

नीति-आधारित तरीकों का उपयोग तब किया जाता है जब एजेंट द्वारा की जाने वाली संभावित कार्रवाइयों की संख्या बहुत अधिक होती है, जो आमतौर पर वास्तविक दुनिया के परिदृश्यों में होता है। इस तरह की स्थितियों के लिए एक अलग दृष्टिकोण की आवश्यकता होती है क्योंकि सभी व्यक्तिगत कार्यों के लिए क्यू-मूल्यों की गणना करना व्यावहारिक नहीं है। नीति-आधारित दृष्टिकोण व्यक्तिगत कार्यों के लिए फ़ंक्शन मानों की गणना किए बिना काम करते हैं। इसके बजाय, वे नीति को सीधे सीखकर नीतियों को अपनाते हैं, अक्सर पॉलिसी ग्रेजुएट्स नामक तकनीकों के माध्यम से।

नीति ग्रेडिएंट एक स्थिति प्राप्त करके और एजेंट के पूर्व अनुभवों के आधार पर कार्यों के लिए संभावनाओं की गणना करके संचालित होते हैं। फिर सबसे संभावित कार्रवाई का चयन किया जाता है। यह प्रक्रिया मूल्यांकन अवधि के अंत तक दोहराई जाती है और एजेंट को पुरस्कार दिए जाते हैं। एजेंट के साथ पुरस्कार निपटाए जाने के बाद, नेटवर्क के मापदंडों को बैकप्रोपेगेशन के साथ अपडेट किया जाता है।

क्यू-लर्निंग क्या है?

क्योंकि क्यू-लर्निंग गहन सुदृढीकरण सीखने की प्रक्रिया का इतना बड़ा हिस्सा है, आइए वास्तव में यह समझने में कुछ समय लें कि क्यू-लर्निंग प्रणाली कैसे काम करती है।

मार्कोव निर्णय प्रक्रिया

एक मार्कोव निर्णय प्रक्रिया. फोटो: पिक्साबे के माध्यम से वाल्डोअल्वारेज़, पिक्सबे लाइसेंस (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

एआई एजेंट को कार्यों की एक श्रृंखला को पूरा करने और एक लक्ष्य तक पहुंचने के लिए, एजेंट को राज्यों और घटनाओं के अनुक्रम से निपटने में सक्षम होना चाहिए। एजेंट एक राज्य से शुरू करेगा और अंतिम स्थिति तक पहुंचने के लिए उसे कई कार्रवाइयां करनी होंगी, और शुरुआत और अंतिम राज्यों के बीच बड़ी संख्या में राज्य मौजूद हो सकते हैं। प्रत्येक राज्य के संबंध में जानकारी संग्रहीत करना अव्यावहारिक या असंभव है, इसलिए सिस्टम को केवल सबसे प्रासंगिक राज्य जानकारी को संरक्षित करने का एक तरीका खोजना होगा। यह a के उपयोग के माध्यम से पूरा किया जाता है मार्कोव निर्णय प्रक्रिया, जो केवल वर्तमान स्थिति और पिछली स्थिति के संबंध में जानकारी संरक्षित करता है। प्रत्येक राज्य एक मार्कोव संपत्ति का अनुसरण करता है, जो ट्रैक करता है कि एजेंट पिछली स्थिति से वर्तमान स्थिति में कैसे बदलता है।

डीप क्यू-लर्निंग

एक बार जब मॉडल को सीखने के माहौल की स्थिति के बारे में जानकारी मिल जाती है, तो क्यू-मूल्यों की गणना की जा सकती है। Q-मान क्रियाओं के अनुक्रम के अंत में एजेंट को दिया गया कुल इनाम है।

क्यू-मूल्यों की गणना पुरस्कारों की एक श्रृंखला के साथ की जाती है। वर्तमान स्थिति और वर्तमान कार्रवाई के आधार पर तत्काल इनाम की गणना की जाती है। उसके बाद के राज्य के लिए क्यू-मूल्य के साथ-साथ उसके बाद के राज्य के लिए क्यू-मूल्य की भी गणना की जाती है, और इसी तरह जब तक कि विभिन्न राज्यों के लिए सभी क्यू-मूल्यों की गणना नहीं की जाती है। एक गामा पैरामीटर भी है जिसका उपयोग यह नियंत्रित करने के लिए किया जाता है कि एजेंट के कार्यों पर भविष्य के पुरस्कारों का कितना महत्व है। नीतियों की गणना आमतौर पर Q-मानों को बेतरतीब ढंग से प्रारंभ करके और मॉडल को प्रशिक्षण के दौरान इष्टतम Q-मानों की ओर अभिसरण करने की अनुमति देकर की जाती है।

डीप क्यू-नेटवर्क

शामिल मूलभूत समस्याओं में से एक क्यू-लर्निंग का उपयोग सुदृढीकरण सीखने के लिए यह है कि जैसे-जैसे राज्यों की संख्या बढ़ती है, डेटा को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा तेजी से बढ़ती है। डीप क्यू नेटवर्क न्यूरल नेटवर्क मॉडल को क्यू-वैल्यू के साथ जोड़कर इस समस्या का समाधान करता है, जिससे एजेंट को अनुभव से सीखने और सर्वोत्तम कार्यों के बारे में उचित अनुमान लगाने में सक्षम बनाया जाता है। गहन क्यू-लर्निंग के साथ, क्यू-मूल्य कार्यों का अनुमान तंत्रिका नेटवर्क के साथ लगाया जाता है। तंत्रिका नेटवर्क राज्य को इनपुट डेटा के रूप में लेता है, और नेटवर्क एजेंट द्वारा किए जाने वाले सभी अलग-अलग संभावित कार्यों के लिए क्यू-वैल्यू आउटपुट करता है।

डीप क्यू-लर्निंग सभी पिछले अनुभवों को मेमोरी में संग्रहीत करके, क्यू-नेटवर्क के लिए अधिकतम आउटपुट की गणना करके और फिर वर्तमान मूल्यों और सैद्धांतिक उच्चतम संभव मूल्यों के बीच अंतर की गणना करने के लिए एक हानि फ़ंक्शन का उपयोग करके पूरा किया जाता है।

डीप रीइन्फोर्समेंट लर्निंग बनाम डीप लर्निंग

गहन सुदृढीकरण सीखने और नियमित गहन सीखने के बीच एक महत्वपूर्ण अंतर यह है कि पूर्व के मामले में इनपुट लगातार बदल रहे हैं, जो पारंपरिक गहन शिक्षा में मामला नहीं है। सीखने का मॉडल उन इनपुट और आउटपुट को कैसे ध्यान में रख सकता है जो लगातार बदल रहे हैं?

अनिवार्य रूप से, अनुमानित मूल्यों और लक्ष्य मूल्यों के बीच विचलन को ध्यान में रखने के लिए, एक के बजाय दो तंत्रिका नेटवर्क का उपयोग किया जा सकता है। एक नेटवर्क लक्ष्य मूल्यों का अनुमान लगाता है, जबकि दूसरा नेटवर्क भविष्यवाणियों के लिए जिम्मेदार है। प्रशिक्षण पुनरावृत्तियों की चुनी हुई संख्या बीत जाने के बाद, जैसे ही मॉडल सीखता है, लक्ष्य नेटवर्क के पैरामीटर अपडेट हो जाते हैं। फिर अंतर निर्धारित करने के लिए संबंधित नेटवर्क के आउटपुट को एक साथ जोड़ा जाता है।

नीति-आधारित शिक्षा

नीति आधारित शिक्षा दृष्टिकोण क्यू-मूल्य आधारित दृष्टिकोण से भिन्न तरीके से संचालित होते हैं। जबकि क्यू-मूल्य दृष्टिकोण एक मूल्य फ़ंक्शन बनाता है जो राज्यों और कार्यों के लिए पुरस्कार की भविष्यवाणी करता है, नीति-आधारित विधियां एक नीति निर्धारित करती हैं जो राज्यों को कार्यों के लिए मैप करेगी। दूसरे शब्दों में, नीति फ़ंक्शन जो कार्यों के लिए चयन करता है, उसे मूल्य फ़ंक्शन की परवाह किए बिना सीधे अनुकूलित किया जाता है।

नीति स्नातक

गहन सुदृढीकरण सीखने की नीति दो श्रेणियों में से एक में आती है: स्टोकेस्टिक या नियतात्मक। एक नियतात्मक नीति वह है जहां राज्यों को कार्यों के लिए मैप किया जाता है, जिसका अर्थ है कि जब नीति में किसी राज्य के बारे में जानकारी दी जाती है तो एक कार्रवाई वापस की जाती है। इस बीच, स्टोकेस्टिक नीतियां एकल, अलग कार्रवाई के बजाय कार्यों के लिए संभाव्यता वितरण लौटाती हैं।

नियतिवादी नीतियों का उपयोग तब किया जाता है जब किए जा सकने वाले कार्यों के परिणामों के बारे में कोई अनिश्चितता नहीं होती है। दूसरे शब्दों में, जब पर्यावरण स्वयं नियतिवादी हो। इसके विपरीत, स्टोकेस्टिक नीति आउटपुट उन वातावरणों के लिए उपयुक्त हैं जहां कार्यों का परिणाम अनिश्चित है। आमतौर पर, सुदृढीकरण सीखने के परिदृश्यों में कुछ हद तक अनिश्चितता शामिल होती है इसलिए स्टोकेस्टिक नीतियों का उपयोग किया जाता है।

क्यू-लर्निंग दृष्टिकोण की तुलना में नीति ढाल दृष्टिकोण के कुछ फायदे हैं, साथ ही कुछ नुकसान भी हैं। फायदे के संदर्भ में, नीति-आधारित विधियां इष्टतम मापदंडों पर तेजी से और अधिक विश्वसनीय रूप से अभिसरण करती हैं। नीतिगत ढाल का तब तक पालन किया जा सकता है जब तक कि सर्वोत्तम पैरामीटर निर्धारित न हो जाएं, जबकि मूल्य-आधारित तरीकों के साथ अनुमानित कार्रवाई मूल्यों में छोटे बदलाव से कार्यों और उनके संबंधित मापदंडों में बड़े बदलाव हो सकते हैं।

नीति ग्रेडिएंट उच्च आयामी कार्य स्थानों के लिए भी बेहतर काम करते हैं। जब करने के लिए संभावित कार्रवाइयों की संख्या बहुत अधिक होती है, तो गहन क्यू-लर्निंग अव्यावहारिक हो जाती है क्योंकि इसमें सभी समय के चरणों के लिए हर संभव कार्रवाई के लिए एक अंक निर्दिष्ट करना होगा, जो कम्प्यूटेशनल रूप से असंभव हो सकता है। हालाँकि, नीति-आधारित तरीकों के साथ, मापदंडों को समय के साथ समायोजित किया जाता है और मॉडल के अभिसरण के रूप में संभावित सर्वोत्तम मापदंडों की संख्या जल्दी से कम हो जाती है।

मूल्य-आधारित नीतियों के विपरीत, नीति ढाल भी स्टोकेस्टिक नीतियों को लागू करने में सक्षम हैं। क्योंकि स्टोकेस्टिक नीतियां संभाव्यता वितरण उत्पन्न करती हैं, अन्वेषण/शोषण व्यापार-बंद को लागू करने की आवश्यकता नहीं है।

नुकसान के संदर्भ में, नीतिगत ग्रेडिएंट्स का मुख्य नुकसान यह है कि वे वैश्विक इष्टतम मूल्यों के बजाय केवल इष्टतम मूल्यों के एक संकीर्ण, स्थानीय सेट पर ध्यान केंद्रित करते हुए, इष्टतम मापदंडों की खोज करते समय अटक सकते हैं।

पॉलिसी स्कोर फ़ंक्शन

किसी मॉडल के प्रदर्शन लक्ष्य को अनुकूलित करने के लिए उपयोग की जाने वाली नीतियां स्कोर फ़ंक्शन को अधिकतम करने के लिए - जे(θ). यदि जे(θ) वांछित लक्ष्य को प्राप्त करने के लिए हमारी नीति कितनी अच्छी है इसका एक माप है, हम "के मूल्यों का पता लगा सकते हैंθ"यह हमें सर्वोत्तम नीति प्रदान करता है। सबसे पहले, हमें अपेक्षित पॉलिसी पुरस्कार की गणना करने की आवश्यकता है। हम पॉलिसी पुरस्कार का अनुमान लगाते हैं इसलिए हमारे पास एक उद्देश्य है, कुछ ऐसा जिसे अनुकूलित करना है। पॉलिसी स्कोर फ़ंक्शन वह तरीका है जिससे हम अपेक्षित पॉलिसी इनाम की गणना करते हैं, और विभिन्न पॉलिसी स्कोर फ़ंक्शन हैं जो आमतौर पर उपयोग किए जाते हैं, जैसे: एपिसोडिक वातावरण के लिए प्रारंभ मान, निरंतर वातावरण के लिए औसत मूल्य, और प्रति समय चरण औसत इनाम।

पॉलिसी ग्रेडिएंट एसेंट

ग्रेडिएंट एसेंट का उद्देश्य मापदंडों को तब तक स्थानांतरित करना है जब तक कि वे उस स्थान पर न पहुंच जाएं जहां स्कोर उच्चतम है। फोटो: सार्वजनिक डोमेन (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

वांछित पॉलिसी स्कोर फ़ंक्शन का उपयोग करने और अपेक्षित पॉलिसी इनाम की गणना करने के बाद, हम पैरामीटर के लिए एक मान पा सकते हैं "θजो स्कोर फ़ंक्शन को अधिकतम करता है। स्कोर फ़ंक्शन को अधिकतम करने के लिए J(θ), एक तकनीक जिसे "क्रमिक आरोहण" प्रयोग किया जाता है। ग्रेडिएंट एसेंट की अवधारणा गहरी शिक्षा में ग्रेडिएंट डिसेंट के समान है, लेकिन हम कमी के बजाय तीव्र वृद्धि के लिए अनुकूलन कर रहे हैं। ऐसा इसलिए है क्योंकि कई गहन शिक्षण समस्याओं की तरह हमारा स्कोर "त्रुटि" नहीं है। हमारा स्कोर कुछ ऐसा है जिसे हम अधिकतम करना चाहते हैं। पॉलिसी ग्रेडिएंट प्रमेय नामक एक अभिव्यक्ति का उपयोग नीति के संबंध में ग्रेडिएंट का अनुमान लगाने के लिए किया जाता है।θ".

गहन सुदृढीकरण सीखने का सारांश

संक्षेप में, गहन सुदृढीकरण सीखना सुदृढीकरण सीखने और गहरे तंत्रिका नेटवर्क के पहलुओं को जोड़ता है। डीप रीइन्फोर्समेंट लर्निंग दो अलग-अलग तकनीकों के साथ की जाती है: डीप क्यू-लर्निंग और पॉलिसी ग्रेडिएंट्स।

डीप क्यू-लर्निंग विधियों का लक्ष्य यह अनुमान लगाना है कि किसी दिए गए राज्य में किए गए कुछ कार्यों के बाद कौन से पुरस्कार मिलेंगे, जबकि नीतिगत ढाल दृष्टिकोण का उद्देश्य कार्यों की भविष्यवाणी करते हुए कार्रवाई स्थान को अनुकूलित करना है। गहन सुदृढीकरण सीखने के लिए नीति-आधारित दृष्टिकोण या तो प्रकृति में नियतात्मक या स्टोकेस्टिक हैं। नियतात्मक नीतियां सीधे क्रियाओं को दर्शाती हैं जबकि स्टोकेस्टिक नीतियां क्रियाओं के लिए संभाव्यता वितरण उत्पन्न करती हैं।

विशेषज्ञता वाले ब्लॉगर और प्रोग्रामर मशीन लर्निंग और गहरी सीख विषय। डैनियल को उम्मीद है कि वह दूसरों को सामाजिक भलाई के लिए एआई की शक्ति का उपयोग करने में मदद करेगा।