AI 101
рдЧрд╣рд░реЗ рдкреБрдирд░рд╛рд╡реГрддреНрддрд┐ рд╢рд┐рдХреНрд╖рдг рдХреНрдпрд╛ рд╣реИ?

गहरे पुनरावृत्ति शिक्षण क्या है?
अन्य प्रकार के मशीन लर्निंग के साथ, जैसे कि अनुप्रविष्ट मशीन लर्निंग और पर्यवेक्षित लर्निंग, एक और सामान्य प्रकार का एआई निर्माण पुनरावृत्ति शिक्षण है। नियमित पुनरावृत्ति शिक्षण के अलावा, गहरे पुनरावृत्ति शिक्षण आश्चर्यजनक परिणाम दे सकता है, क्योंकि यह गहरे शिक्षण और पुनरावृत्ति शिक्षण दोनों के सर्वोत्तम पहलुओं को जोड़ती है। आइए देखें कि गहरे पुनरावृत्ति शिक्षण कैसे काम करता है।
गहरे पुनरावृत्ति शिक्षण में जाने से पहले, यह एक अच्छा विचार हो सकता है कि हम नियमित पुनरावृत्ति शिक्षण के बारे में जानें। पुनरावृत्ति शिक्षण में, लक्ष्य-आधारित एल्गोरिदम को एक प्रक्रिया के माध्यम से डिज़ाइन किया जाता है जिसमें परीक्षण और त्रुटि शामिल होती है, जो कार्रवाई के लिए अनुकूलन करती है जो सबसे अच्छा परिणाम देती है / जो कार्रवाई सबसे अधिक “पुरस्कार” प्राप्त करती है। जब पुनरावृत्ति शिक्षण एल्गोरिदम को प्रशिक्षित किया जाता है, तो उन्हें “पुरस्कार” या “दंड” दिया जाता है जो यह प्रभावित करते हैं कि वे भविष्य में क्या कार्रवाई करेंगे। एल्गोरिदम एक कार्रवाई के सेट को खोजने का प्रयास करते हैं जो प्रणाली को सबसे अधिक पुरस्कार प्रदान करेगा, तुरंत और भविष्य के पुरस्कारों के बीच संतुलन बनाते हुए।
पुनरावृत्ति शिक्षण एल्गोरिदम बहुत शक्तिशाली हैं क्योंकि वे लगभग किसी भी कार्य पर लागू किए जा सकते हैं, जो पर्यावरण से लचीले और गतिशील रूप से सीखने और संभावित कार्रवाइयों की खोज करने में सक्षम हैं।
गहरे पुनरावृत्ति शिक्षण का अवलोकन

फोटो: मेगाजूस विकिमीडिया कॉमन्स, सीसी 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)
गहरे पुनरावृत्ति शिक्षण के संदर्भ में, पर्यावरण आमतौर पर छवियों के साथ प्रस्तुत किया जाता है। एक छवि एक विशिष्ट समय पर पर्यावरण का एक स्नैपशॉट है। एजेंट को छवियों का विश्लेषण करना चाहिए और उनसे प्रासंगिक जानकारी निकालनी चाहिए, जो जानकारी का उपयोग यह तय करने के लिए करना चाहिए कि वे क्या कार्रवाई करनी चाहिए। गहरे पुनरावृत्ति शिक्षण आमतौर पर दो अलग-अलग तकनीकों के साथ किया जाता है: मूल्य-आधारित शिक्षण और नीति-आधारित शिक्षण।
मूल्य-आधारित शिक्षण तकनीकों में एल्गोरिदम और आर्किटेक्चर जैसे कि कन्वोल्यूशनल न्यूरल नेटवर्क और डीप-क्यू-नेटवर्क शामिल हैं। ये एल्गोरिदम छवि को ग्रेस्केल में परिवर्तित करके और छवि के अनावश्यक हिस्सों को काटकर काम करते हैं। इसके बाद, छवि विभिन्न संवolution और पूलिंग ऑपरेशन से गुजरती है, जिससे छवि के सबसे प्रासंगिक हिस्सों को निकाला जा सकता है। छवि के महत्वपूर्ण हिस्सों का उपयोग एजेंट द्वारा की जा सकने वाली विभिन्न क्रियाओं के लिए क्यू-मूल्य की गणना करने के लिए किया जाता है। क्यू-मूल्य एजेंट के लिए सर्वोत्तम कार्रवाई का निर्धारण करने के लिए उपयोग किए जाते हैं। प्रारंभिक क्यू-मूल्यों की गणना के बाद, बैकप्रोपेगेशन किया जाता है ताकि सबसे सटीक क्यू-मूल्य निर्धारित किए जा सकें।
नीति-आधारित विधियों का उपयोग तब किया जाता है जब एजेंट द्वारा की जा सकने वाली संभावित क्रियाओं की संख्या बहुत अधिक होती है, जो आमतौर पर वास्तविक दुनिया के दृश्यों में होती है। ऐसे स्थितियों में एक अलग दृष्टिकोण की आवश्यकता होती है क्योंकि सभी व्यक्तिगत क्रियाओं के लिए क्यू-मूल्यों की गणना करना व्यावहारिक नहीं है। नीति-आधारित दृष्टिकोण कार्रवाई के लिए सीधे नीति को सीखने के माध्यम से काम करते हैं, अक्सर पॉलिसी ग्रेडिएंट्स नामक तकनीकों का उपयोग करके।
पॉलिसी ग्रेडिएंट्स एजेंट के पिछले अनुभवों के आधार पर एक राज्य प्राप्त करके और कार्रवाई के लिए संभावनाएं गणना करके काम करते हैं। सबसे अधिक संभावना वाली कार्रवाई का चयन किया जाता है। यह प्रक्रिया मूल्यांकन अवधि के अंत तक दोहराई जाती है और एजेंट को पुरस्कार दिए जाते हैं। पुरस्कारों के साथ एजेंट को सौदा करने के बाद, नेटवर्क के पैरामीटर बैकप्रोपेगेशन के साथ अपडेट किए जाते हैं।
क्यू-लर्निंग क्या है?
क्योंकि क्यू-लर्निंग गहरे पुनरावृत्ति शिक्षण प्रक्रिया का एक बड़ा हिस्सा है, आइए देखें कि क्यू-लर्निंग सिस्टम कैसे काम करता है।
मार्कोव निर्णय प्रक्रिया

मार्कोव निर्णय प्रक्रिया। फोटो: वाल्डो अल्वारेज़ विकिमीडिया कॉमन्स, पिक्साबे लाइसेंस (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)
एक एआई एजेंट को एक श्रृंखला कार्यों को करने और एक लक्ष्य तक पहुंचने के लिए, एजेंट को एक श्रृंखला राज्यों और घटनाओं से निपटना होगा। एजेंट एक राज्य से शुरू होगा और उसे एक श्रृंखला कार्रवाई करनी होगी जो अंतिम राज्य तक पहुंचेगी, और शुरुआत और अंतिम राज्यों के बीच एक बड़ी संख्या में राज्य हो सकते हैं। प्रत्येक राज्य के बारे में जानकारी संग्रहीत करना व्यावहारिक या असंभव है, इसलिए प्रणाली को केवल सबसे प्रासंगिक राज्य जानकारी को संरक्षित करने का एक तरीका खोजना होगा। यह एक मार्कोव निर्णय प्रक्रिया के माध्यम से किया जाता है, जो केवल वर्तमान राज्य और पिछले राज्य के बारे में जानकारी को संरक्षित करता है। प्रत्येक राज्य मार्कोव संपत्ति का पालन करता है, जो एजेंट को पिछले राज्य से वर्तमान राज्य में बदलने का तरीका ट्रैक करता है।
गहरे क्यू-लर्निंग
एक बार मॉडल को राज्यों के बारे में जानकारी तक पहुंच मिल जाने के बाद, क्यू-मूल्यों की गणना की जा सकती है। क्यू-मूल्य एजेंट को एक कार्रवाई श्रृंखला के अंत में दी जाने वाली कुल पुरस्कार हैं।
क्यू-मूल्यों की गणना एक श्रृंखला पुरस्कारों के साथ की जाती है। एक तात्कालिक पुरस्कार है, जो वर्तमान राज्य और वर्तमान कार्रवाई पर निर्भर करता है। अगले राज्य के लिए क्यू-मूल्य भी गणना किया जाता है, साथ ही उसके बाद के राज्य के लिए, और इसी तरह सभी राज्यों के लिए क्यू-मूल्यों की गणना की जाती है। एक गामा पैरामीटर भी है जो भविष्य के पुरस्कारों के एजेंट की क्रियाओं पर कितना भार होगा, इसका नियंत्रण करने के लिए उपयोग किया जाता है। नीतियां आमतौर पर यादृच्छिक रूप से क्यू-मूल्यों को प्रारंभ करके और मॉडल को प्रशिक्षण के दौरान ऑप्टिमल क्यू-मूल्यों की ओर अभिसरण करने देकर गणना की जाती हैं।
गहरे क्यू-नेटवर्क
क्यू-लर्निंग का उपयोग पुनरावृत्ति शिक्षण के लिए एक मूलभूत समस्या यह है कि आवश्यक डेटा संग्रहीत करने के लिए आवश्यक मेमोरी तेजी से बढ़ जाती है क्योंकि राज्यों की संख्या बढ़ जाती है। गहरे क्यू-नेटवर्क इस समस्या को हल करते हैं जो न्यूरल नेटवर्क मॉडल को क्यू-मूल्यों के साथ जोड़ते हैं, जिससे एजेंट को अनुभव से सीखने और सबसे अच्छी कार्रवाई करने के बारे में तर्कसंगत अनुमान लगाने में सक्षम बनाता है। गहरे क्यू-लर्निंग के साथ, क्यू-मूल्य फ़ंक्शन न्यूरल नेटवर्क के साथ अनुमानित होते हैं। न्यूरल नेटवर्क राज्य को इनपुट डेटा के रूप में लेता है, और नेटवर्क एजेंट द्वारा की जा सकने वाली विभिन्न संभावित क्रियाओं के लिए क्यू-मूल्य का आउटपुट देता है।
गहरे क्यू-लर्निंग को पूरे अनुभवों को मेमोरी में संग्रहीत करके, क्यू-नेटवर्क के लिए अधिकतम आउटपुट की गणना करके, और फिर एक हानि फ़ंक्शन का उपयोग करके वर्तमान मूल्यों और सैद्धांतिक उच्चतम संभावित मूल्यों के बीच अंतर की गणना करके किया जाता है।
गहरे पुनरावृत्ति शिक्षण बनाम गहरे शिक्षण
गहरे पुनरावृत्ति शिक्षण और नियमित गहरे शिक्षण के बीच एक महत्वपूर्ण अंतर यह है कि पूर्व में इनपुट लगातार बदलते रहते हैं, जो पारंपरिक गहरे शिक्षण में नहीं होता है। इनपुट और आउटपुट को कैसे खाता है जो लगातार बदलते रहते हैं?
मूल रूप से, पूर्वानुमानित मूल्यों और लक्ष्य मूल्यों के बीच विचलन के लिए खाता देने के लिए, एक के बजाय दो न्यूरल नेटवर्क का उपयोग किया जा सकता है। एक नेटवर्क लक्ष्य मूल्यों का अनुमान लगाता है, जबकि दूसरा नेटवर्क भविष्यवाणियों के लिए जिम्मेदार है। लक्ष्य नेटवर्क के पैरामीटर मॉडल के सीखने के बाद एक निर्धारित संख्या में प्रशिक्षण पुनरावृत्ति के बाद अपडेट किए जाते हैं। नेटवर्क के आउटपुट को एक साथ जोड़कर अंतर का निर्धारण किया जाता है।
नीति-आधारित शिक्षण
नीति-आधारित शिक्षण दृष्टिकोण क्यू-मूल्य आधारित दृष्टिकोण से अलग तरह से काम करते हैं। जबकि क्यू-मूल्य दृष्टिकोण राज्यों और क्रियाओं के लिए पुरस्कार की भविष्यवाणी करने वाले एक मूल्य फ़ंक्शन बनाते हैं, नीति-आधारित तरीके एक नीति को निर्धारित करते हैं जो राज्यों को क्रियाओं में मैप करती है। दूसरे शब्दों में, नीति फ़ंक्शन जो क्रियाओं का चयन करती है सीधे अनुकूलित की जाती है, मूल्य फ़ंक्शन के बिना विचार किए।
नीति ग्रेडिएंट
गहरे पुनरावृत्ति शिक्षण के लिए एक नीति दो श्रेणियों में से एक में आती है: स्टोकास्टिक या निर्धारित। एक निर्धारित नीति एक ऐसी नीति है जिसमें राज्यों को क्रियाओं में मैप किया जाता है, जिसका अर्थ है कि जब नीति को एक राज्य के बारे में जानकारी दी जाती है, तो एक क्रिया वापस आ जाती है। दूसरी ओर, स्टोकास्टिक नीतियां एकल, विच्छिन्न क्रिया के बजाय क्रियाओं के लिए एक संभावना वितरण लौटाती हैं।
निर्धारित नीतियों का उपयोग तब किया जाता है जब क्रियाओं के परिणामों के बारे में कोई अनिश्चितता नहीं होती है। दूसरे शब्दों में, जब पर्यावरण स्वयं निर्धारित होता है। दूसरी ओर, स्टोकास्टिक नीति आउटपुट पर्यावरण में अनिश्चितता वाले पर्यावरण के लिए उपयुक्त हैं। आमतौर पर, पुनरावृत्ति शिक्षण दृश्यों में कुछ अनिश्चितता शामिल होती है, इसलिए स्टोकास्टिक नीतियां उपयोग की जाती हैं।
नीति ग्रेडिएंट दृष्टिकोण क्यू-लर्निंग दृष्टिकोण की तुलना में कुछ फायदे और नुकसान हैं। फायदों के संदर्भ में, नीति-आधारित तरीके अधिक तेजी से और विश्वसनीय रूप से ऑप्टिमल पैरामीटर पर अभिसरण करते हैं। नीति ग्रेडिएंट का पालन किया जा सकता है जब तक कि सबसे अच्छे पैरामीटर निर्धारित नहीं किए जाते, जबकि मूल्य-आधारित तरीकों में अनुमानित क्रिया मूल्यों में छोटे परिवर्तन बड़े परिवर्तनों का कारण बन सकते हैं क्रियाओं और उनके संबंधित पैरामीटर में।
नीति ग्रेडिएंट उच्च आयामी क्रिया स्थान के लिए बेहतर काम करते हैं। जब संभावित क्रियाओं की संख्या बहुत अधिक होती है, जो आमतौर पर वास्तविक दुनिया के दृश्यों में होती है, तो गहरे क्यू-लर्निंग व्यावहारिक नहीं हो जाता है क्योंकि यह प्रत्येक समय चरण के लिए सभी संभावित क्रियाओं के लिए एक स्कोर असाइन करना होगा, जो संभव नहीं हो सकता है। हालांकि, नीति-आधारित तरीकों में, पैरामीटर समय के साथ समायोजित किए जाते हैं और मॉडल के अभिसरण के रूप में सबसे अच्छे पैरामीटर की संख्या तेजी से कम हो जाती है।
नीति ग्रेडिएंट स्टोकास्टिक नीतियों को लागू करने में भी सक्षम हैं, जो मूल्य-आधारित नीतियों के विपरीत हैं। क्योंकि स्टोकास्टिक नीतियां एक संभावना वितरण उत्पन्न करती हैं, अन्वेषण/शोषण व्यापार को लागू करने की आवश्यकता नहीं है।
नीति ग्रेडिएंट का एक मुख्य नुकसान यह है कि वे ऑप्टिमल पैरामीटर की खोज करते समय एक संकीर्ण, स्थानीय सेट के मूल्यों पर ध्यान केंद्रित कर सकते हैं, स्थानीय मूल्यों के बजाय वैश्विक मूल्यों की तलाश में नहीं जा रहे हैं।
नीति स्कोर फ़ंक्शन
नीतियों का उद्देश्य मॉडल के प्रदर्शन को अधिकतम करने वाले एक स्कोर फ़ंक्शन – जे(θ) को अधिकतम करना है। यदि जे(θ) हमारी नीति के लिए कितना अच्छा है यह मापने का एक उपाय है, तो हम उन θ मूल्यों को खोजने का प्रयास कर सकते हैं जो हमें सबसे अच्छी नीति देते हैं। सबसे पहले, हमें एक अपेक्षित नीति पुरस्कार की गणना करनी होगी। हम नीति पुरस्कार का अनुमान लगाते हैं ताकि हमारे पास अनुकूलन के लिए एक उद्देश्य हो। नीति स्कोर फ़ंक्शन यह है कि हम अपेक्षित नीति पुरस्कार की गणना कैसे करते हैं, और विभिन्न नीति स्कोर फ़ंक्शन हैं जो सामान्यतः उपयोग किए जाते हैं, जैसे कि एपिसोडिक पर्यावरण के लिए प्रारंभिक मूल्य, निरंतर पर्यावरण के लिए औसत मूल्य, और औसत पुरस्कार प्रति समय चरण।
नीति ग्रेडिएंट आरोहण

ग्रेडिएंट आरोहण पैरामीटर को तब तक ले जाने का लक्ष्य रखता है जब तक कि वे स्कोर को अधिकतम करने वाले स्थान पर न हों। फोटो: सार्वजनिक डोमेन (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)
एक बार वांछित नीति स्कोर फ़ंक्शन का उपयोग किया जाता है और एक अपेक्षित नीति पुरस्कार की गणना की जाती है, तो हम θ पैरामीटर का एक मूल्य खोज सकते हैं जो स्कोर फ़ंक्शन को अधिकतम करता है। स्कोर फ़ंक्शन जे(θ) को अधिकतम करने के लिए, एक तकनीक का उपयोग किया जाता है जिसे “ग्रेडिएंट आरोहण” कहा जाता है। ग्रेडिएंट आरोहण गहरे शिक्षण में ग्रेडिएंट डिसेंट की अवधारणा के समान है, लेकिन हम कमी के बजाय सबसे तेजी से वृद्धि के लिए अनुकूलन कर रहे हैं। यह इसलिए है क्योंकि हमारा स्कोर “त्रुटि” जैसे कई गहरे शिक्षण समस्याओं में नहीं है, लेकिन कुछ ऐसा है जिसे हम अधिकतम करना चाहते हैं। नीति ग्रेडिएंट प्रमेय नामक एक अभिव्यक्ति का उपयोग θ के संबंध में ग्रेडिएंट का अनुमान लगाने के लिए किया जाता है।
गहरे पुनरावृत्ति शिक्षण का सारांश
सारांश में, गहरे पुनरावृत्ति शिक्षण पुनरावृत्ति शिक्षण और गहरे न्यूरल नेटवर्क के पहलुओं को जोड़ती है। गहरे पुनरावृत्ति शिक्षण दो अलग-अलग तकनीकों के साथ किया जाता है: गहरे क्यू-लर्निंग और नीति ग्रेडिएंट।
गहरे क्यू-लर्निंग विधियां एक दिए गए राज्य में की जाने वाली कार्रवाइयों के बाद के पुरस्कारों की भविष्यवाणी करने का प्रयास करती हैं, जबकि नीति ग्रेडिएंट दृष्टिकोण कार्रवाई स्थान को अनुकूलित करने का प्रयास करते हैं, जो कार्रवाइयों का अनुमान लगाते हैं। नीति-आधारित गहरे पुनरावृत्ति शिक्षण दृष्टिकोण या तो निर्धारित या स्टोकास्टिक प्रकृति के होते हैं। निर्धारित नीतियां राज्यों को सीधे क्रियाओं में मैप करती हैं, जबकि स्टोकास्टिक नीतियां क्रियाओं के लिए संभावना वितरण उत्पन्न करती हैं।












