AI 101

डीप रिन्फोर्समेंट लर्निंग क्या है?

Published April 17, 2020

Updated April 5, 2026

Daniel Nelson

डीप रिन्फोर्समेंट लर्निंग क्या है?

अनसुपरवाइज्ड मशीन लर्निंग और सुपरवाइज्ड लर्निंग के साथ, एक और सामान्य रूप से एआई निर्माण है रिन्फोर्समेंट लर्निंग। नियमित रिन्फोर्समेंट लर्निंग के अलावा, डीप रिन्फोर्समेंट लर्निंग आश्चर्यजनक परिणाम दे सकती है, क्योंकि यह दोनों डीप लर्निंग और रिन्फोर्समेंट लर्निंग के सर्वोत्तम पहलुओं को जोड़ती है। आइए देखें कि डीप रिन्फोर्समेंट लर्निंग कैसे काम करती है।

डीप रिन्फोर्समेंट लर्निंग में जाने से पहले, यह एक अच्छा विचार हो सकता है कि हम नियमित रिन्फोर्समेंट लर्निंग के काम करने के तरीके को ताज़ा करें। रिन्फोर्समेंट लर्निंग में, लक्ष्य-उन्मुख एल्गोरिदम को एक प्रक्रिया के माध्यम से डिज़ाइन किया जाता है जो परीक्षण और त्रुटि के माध्यम से होता है, जो कि सर्वोत्तम परिणाम/सबसे अधिक “पुरस्कार” प्राप्त करने वाली क्रिया के लिए अनुकूलन करता है। जब रिन्फोर्समेंट लर्निंग एल्गोरिदम को प्रशिक्षित किया जाता है, तो उन्हें “पुरस्कार” या “दंड” दिया जाता है जो भविष्य में वे कौन सी क्रियाएं करेंगे, इसको प्रभावित करते हैं। एल्गोरिदम उन क्रियाओं का एक सेट खोजने का प्रयास करते हैं जो प्रणाली को सबसे अधिक पुरस्कार प्रदान करेगा, जो तात्कालिक और भविष्य के पुरस्कारों के बीच संतुलन बनाते हैं।

रिन्फोर्समेंट लर्निंग एल्गोरिदम बहुत शक्तिशाली हैं क्योंकि वे लगभग किसी भी कार्य पर लागू किए जा सकते हैं, जो कि एक पर्यावरण से लचीले और गतिशील रूप से सीखने और संभावित क्रियाओं का पता लगाने में सक्षम हैं।

डीप रिन्फोर्समेंट लर्निंग का अवलोकन

फोटो: मेगाजूस विकिमीडिया कॉमन्स, सीसी 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

जब डीप रिन्फोर्समेंट लर्निंग की बात आती है, तो पर्यावरण का प्रतिनिधित्व आमतौर पर छवियों के साथ किया जाता है। एक छवि एक विशिष्ट समय पर पर्यावरण का एक कैप्चर है। एजेंट को छवियों का विश्लेषण करना होगा और उनसे प्रासंगिक जानकारी निकालनी होगी, जो जानकारी का उपयोग यह तय करने के लिए किया जाएगा कि वे कौन सी क्रिया करेंगे। डीप रिन्फोर्समेंट लर्निंग आमतौर पर दो अलग-अलग तकनीकों के साथ किया जाता है: मूल्य-आधारित सीखने और नीति-आधारित सीखने।

मूल्य-आधारित सीखने की तकनीकें एल्गोरिदम और आर्किटेक्चर जैसे कि कॉन्वोल्यूशनल न्यूरल नेटवर्क और डीप-क्यू-नेटवर्क का उपयोग करती हैं। ये एल्गोरिदम छवि को ग्रेस्केल में परिवर्तित करके और छवि के अनावश्यक हिस्सों को क्रॉप करके काम करते हैं। इसके बाद, छवि विभिन्न कॉन्वोल्यूशंस और पूलिंग ऑपरेशन से गुजरती है, जो छवि के सबसे प्रासंगिक हिस्सों को निकालती है। छवि के महत्वपूर्ण हिस्सों का उपयोग एजेंट द्वारा की जा सकने वाली विभिन्न क्रियाओं के लिए क्यू-मूल्य की गणना करने के लिए किया जाता है। क्यू-मूल्य एजेंट के लिए सर्वोत्तम कार्रवाई का निर्धारण करने के लिए उपयोग किए जाते हैं। प्रारंभिक क्यू-मूल्यों की गणना के बाद, बैकप्रोपेगेशन किया जाता है ताकि सबसे सटीक क्यू-मूल्य निर्धारित किए जा सकें।

नीति-आधारित विधियों का उपयोग तब किया जाता है जब एजेंट द्वारा की जा सकने वाली संभावित क्रियाओं की संख्या बहुत अधिक होती है, जो कि वास्तविक दुनिया के दृश्यों में आमतौर पर होता है। ऐसे स्थितियों में एक अलग दृष्टिकोण की आवश्यकता होती है क्योंकि सभी व्यक्तिगत क्रियाओं के लिए क्यू-मूल्यों की गणना करना व्यावहारिक नहीं है। नीति-आधारित दृष्टिकोण व्यक्तिगत क्रियाओं के लिए कार्य मूल्यों की गणना किए बिना काम करते हैं। इसके बजाय, वे नीति को सीधे सीखने के द्वारा नीतियों को अपनाते हैं, जो अक्सर पॉलिसी ग्रेडिएंट्स नामक तकनीकों के माध्यम से होता है।

पॉलिसी ग्रेडिएंट्स एजेंट के पिछले अनुभवों के आधार पर क्रियाओं के लिए संभावनाएं निकालते हुए एक राज्य प्राप्त करके काम करते हैं। सबसे संभावित क्रिया का चयन किया जाता है। यह प्रक्रिया मूल्यांकन अवधि के अंत तक दोहराई जाती है और एजेंट को पुरस्कार दिए जाते हैं। पुरस्कारों के साथ एजेंट को सौदा करने के बाद, नेटवर्क के पैरामीटर बैकप्रोपेगेशन के साथ अपडेट किए जाते हैं।

क्यू-लर्निंग क्या है?

क्योंकि क्यू-लर्निंग डीप रिन्फोर्समेंट लर्निंग प्रक्रिया का एक बड़ा हिस्सा है, आइए देखें कि क्यू-लर्निंग सिस्टम कैसे काम करता है।

मार्कोव निर्णय प्रक्रिया

मार्कोव निर्णय प्रक्रिया। फोटो: वाल्डो अल्वारेज़ विकिमीडिया कॉमन्स, पिक्साबे लाइसेंस (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

एक एआई एजेंट को एक श्रृंखला कार्यों को करने और एक लक्ष्य तक पहुंचने के लिए, एजेंट को एक श्रृंखला राज्यों और घटनाओं से निपटने में सक्षम होना चाहिए। एजेंट एक राज्य से शुरू होगा और उसे एक राज्य से दूसरे राज्य तक पहुंचने के लिए एक श्रृंखला क्रियाएं करनी होंगी, और शुरुआती और अंतिम राज्यों के बीच बहुत सारे राज्य हो सकते हैं। प्रत्येक राज्य के बारे में जानकारी संग्रहीत करना व्यावहारिक या असंभव है, इसलिए प्रणाली को केवल सबसे प्रासंगिक राज्य जानकारी को संरक्षित करने का एक तरीका खोजना होगा। यह मार्कोव निर्णय प्रक्रिया के माध्यम से किया जाता है, जो केवल वर्तमान राज्य और पिछले राज्य के बारे में जानकारी को संरक्षित करता है। प्रत्येक राज्य मार्कोव संपत्ति का पालन करता है, जो एजेंट को पिछले राज्य से वर्तमान राज्य में कैसे बदलना है, इसका ट्रैक रखता है।

डीप क्यू-लर्निंग

एक बार मॉडल को सीखने वाले वातावरण की स्थितियों के बारे में जानकारी मिल जाने के बाद, क्यू-मूल्यों की गणना की जा सकती है। क्यू-मूल्य एजेंट को एक क्रिया श्रृंखला के अंत में दी जाने वाली कुल पुरस्कार हैं।

क्यू-मूल्यों की गणना एक श्रृंखला पुरस्कारों के साथ की जाती है। एक तात्कालिक पुरस्कार है, जो वर्तमान राज्य और वर्तमान क्रिया पर निर्भर करता है। अगले राज्य के लिए क्यू-मूल्य भी गणना किया जाता है, साथ ही साथ अगले राज्य के लिए क्यू-मूल्य, और इसी तरह सभी राज्यों के लिए क्यू-मूल्यों की गणना की जाती है। एक गामा पैरामीटर भी है जो भविष्य के पुरस्कारों के एजेंट की क्रियाओं पर कितना प्रभाव पड़ता है, इसको नियंत्रित करने के लिए उपयोग किया जाता है। नीतियां आमतौर पर यादृच्छिक रूप से क्यू-मूल्यों को आरंभ करके और मॉडल को प्रशिक्षण के दौरान ऑप्टिमल क्यू-मूल्यों की ओर अभिसरण करने देकर गणना की जाती हैं।

डीप क्यू-नेटवर्क

क्यू-लर्निंग का उपयोग रिन्फोर्समेंट लर्निंग के लिए करने में एक मूलभूत समस्या यह है कि राज्यों की संख्या बढ़ने के साथ डेटा संग्रहीत करने के लिए आवश्यक मेमोरी तेजी से बढ़ जाती है। डीप क्यू-नेटवर्क इस समस्या को हल करते हैं क्योंकि वे न्यूरल नेटवर्क मॉडल को क्यू-मूल्यों के साथ जोड़ते हैं, जो एजेंट को अनुभव से सीखने और सबसे अच्छी क्रियाओं के बारे में तर्कसंगत अनुमान लगाने में सक्षम बनाता है। डीप क्यू-लर्निंग में, क्यू-मूल्य फंक्शन न्यूरल नेटवर्क के साथ अनुमानित होते हैं। न्यूरल नेटवर्क राज्य को इनपुट डेटा के रूप में लेता है, और नेटवर्क एजेंट द्वारा की जा सकने वाली विभिन्न संभावित क्रियाओं के लिए क्यू-मूल्य का आउटपुट देता है।

डीप क्यू-लर्निंग पिछले अनुभवों को मेमोरी में संग्रहीत करके, क्यू-नेटवर्क के लिए अधिकतम आउटपुट की गणना करके, और फिर एक लॉस फंक्शन का उपयोग करके वर्तमान मूल्यों और सैद्धांतिक उच्चतम संभावित मूल्यों के बीच अंतर की गणना करके किया जाता है।

डीप रिन्फोर्समेंट लर्निंग बनाम डीप लर्निंग

डीप रिन्फोर्समेंट लर्निंग और नियमित डीप लर्निंग के बीच एक महत्वपूर्ण अंतर यह है कि पूर्व में इनपुट लगातार बदलते रहते हैं, जो कि पारंपरिक डीप लर्निंग में नहीं होता है। इनपुट और आउटपुट के बीच के अंतर के लिए खाता कैसे लिया जा सकता है जो लगातार बदलते रहते हैं?

मूल रूप से, पूर्वानुमानित मूल्यों और लक्ष्य मूल्यों के बीच के अंतर के लिए खाता देने के लिए, एक के बजाय दो न्यूरल नेटवर्क का उपयोग किया जा सकता है। एक नेटवर्क लक्ष्य मूल्यों का अनुमान लगाता है, जबकि दूसरा नेटवर्क भविष्यवाणियों के लिए जिम्मेदार है। लक्ष्य नेटवर्क के पैरामीटर मॉडल के सीखने के बाद एक निर्धारित संख्या में प्रशिक्षण पुनरावृत्ति के बाद अपडेट किए जाते हैं। दोनों नेटवर्क के आउटपुट को एक साथ जोड़कर अंतर का निर्धारण किया जाता है।

नीति-आधारित सीखने

नीति-आधारित सीखने दृष्टिकोण क्यू-मूल्य आधारित दृष्टिकोण से अलग तरह से काम करते हैं। जबकि क्यू-मूल्य दृष्टिकोण एक मूल्य फंक्शन बनाते हैं जो राज्यों और क्रियाओं के लिए पुरस्कार का अनुमान लगाते हैं, नीति-आधारित तरीके एक नीति का निर्धारण करते हैं जो राज्यों को क्रियाओं में मैप करती है। दूसरे शब्दों में, नीति फंक्शन जो क्रियाओं का चयन करती है सीधे मूल्य फंक्शन के बिना अनुकूलित की जाती है।

नीति ग्रेडिएंट

डीप रिन्फोर्समेंट लर्निंग के लिए एक नीति दो श्रेणियों में से एक में आती है: स्टोकास्टिक या निर्धारक। एक निर्धारक नीति एक ऐसी नीति है जो राज्यों को क्रियाओं में मैप करती है, जिसका अर्थ है कि जब नीति को एक राज्य के बारे में जानकारी दी जाती है, तो एक क्रिया वापस आ जाती है। दूसरी ओर, स्टोकास्टिक नीतियां एकल, विच्छिन्न क्रिया के बजाय क्रियाओं के लिए एक संभावना वितरण लौटाती हैं।

निर्धारक नीतियों का उपयोग तब किया जाता है जब क्रियाओं के परिणामों के बारे में कोई अनिश्चितता नहीं होती है। दूसरे शब्दों में, जब पर्यावरण स्वयं निर्धारक होता है। दूसरी ओर, स्टोकास्टिक नीति आउटपुट अनिश्चित परिणामों वाले पर्यावरण के लिए उपयुक्त होते हैं। आमतौर पर, रिन्फोर्समेंट लर्निंग दृश्यों में कुछ अनिश्चितता शामिल होती है, इसलिए स्टोकास्टिक नीतियां उपयोग की जाती हैं।

नीति ग्रेडिएंट दृष्टिकोण क्यू-लर्निंग दृष्टिकोण की तुलना में कुछ फायदे और नुकसान हैं। फायदों के संदर्भ में, नीति-आधारित तरीके ऑप्टिमल पैरामीटर पर तेजी से और अधिक विश्वसनीय रूप से अभिसरण करते हैं। नीति ग्रेडिएंट का पालन किया जा सकता है जब तक कि सबसे अच्छे पैरामीटर निर्धारित नहीं किए जाते, जबकि मूल्य-आधारित तरीकों में अनुमानित क्रिया मूल्यों में छोटे परिवर्तन बड़े परिवर्तनों का कारण बन सकते हैं और उनके संबंधित पैरामीटर।

नीति ग्रेडिएंट उच्च आयामी क्रिया स्थान के लिए भी बेहतर काम करते हैं। जब संभावित क्रियाओं की संख्या बहुत अधिक होती है, तो गहरा क्यू-लर्निंग व्यावहारिक नहीं हो जाता है क्योंकि यह प्रत्येक समय चरण के लिए सभी संभावित क्रियाओं के लिए एक स्कोर असाइन करना होगा, जो कि गणनात्मक रूप से असंभव हो सकता है। हालांकि, नीति-आधारित तरीकों में, पैरामीटर समय के साथ समायोजित किए जाते हैं और मॉडल के अभिसरण के रूप में सबसे अच्छे पैरामीटर की संख्या तेजी से घट जाती है।

नीति ग्रेडिएंट स्टोकास्टिक नीतियों को लागू करने में भी सक्षम हैं, जो कि मूल्य-आधारित नीतियों में संभव नहीं है। क्योंकि स्टोकास्टिक नीतियां एक संभावना वितरण उत्पन्न करती हैं, एक अन्वेषण/शोषण व्यापार को लागू करने की आवश्यकता नहीं है।

नीति ग्रेडिएंट का एक मुख्य नुकसान यह है कि वे ऑप्टिमल पैरामीटर की खोज करते समय फंस सकते हैं, केवल स्थानीय रूप से ऑप्टिमम मूल्यों पर ध्यान केंद्रित करते हुए, वैश्विक ऑप्टिमम मूल्यों के बजाय।

नीति स्कोर फंक्शन

मॉडल के प्रदर्शन को अनुकूलित करने के लिए उपयोग की जाने वाली नीतियां एक स्कोर फंक्शन को अधिकतम करने का लक्ष्य रखती हैं – जे(θ)। यदि जे(θ) हमारी नीति की गुणवत्ता का एक उपाय है जो वांछित लक्ष्य को प्राप्त करने के लिए, तो हम उन “θ” मूल्यों को खोज सकते हैं जो हमें सबसे अच्छी नीति देते हैं। सबसे पहले, हमें एक अपेक्षित नीति पुरस्कार की गणना करनी होगी। हम नीति पुरस्कार का अनुमान लगाते हैं ताकि हमारे पास एक उद्देश्य हो, जिसकी ओर हम अनुकूलन कर सकते हैं। नीति स्कोर फंक्शन यह है कि हम अपेक्षित नीति पुरस्कार की गणना कैसे करते हैं, और कई नीति स्कोर फंक्शन हैं जो सामान्यतः उपयोग किए जाते हैं, जैसे कि एपिसोडिक वातावरण के लिए प्रारंभिक मूल्य, निरंतर वातावरण के लिए औसत मूल्य, और प्रति समय चरण का औसत पुरस्कार।

नीति ग्रेडिएंट आरोह

ग्रेडिएंट आरोह का उद्देश्य पैरामीटर को तब तक स्थानांतरित करना है जब तक कि वे स्कोर को अधिकतम करने वाले स्थान पर न हों। फोटो: सार्वजनिक डोमेन (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

एक बार वांछित नीति स्कोर फंक्शन का उपयोग किया जाता है और एक अपेक्षित नीति पुरस्कार की गणना की जाती है, तो हम एक मूल्य को खोज सकते हैं जो स्कोर फंक्शन जे(θ) को अधिकतम करता है। स्कोर फंक्शन जे(θ) को अधिकतम करने के लिए, एक तकनीक का उपयोग किया जाता है जिसे “ग्रेडिएंट आरोह” कहा जाता है। ग्रेडिएंट आरोह की अवधारणा गहरे शिक्षण में ग्रेडिएंट वंश के समान है, लेकिन हम कमी के बजाय सबसे तेजी से वृद्धि के लिए अनुकूलन कर रहे हैं। यह इसलिए है क्योंकि हमारा स्कोर “त्रुटि” नहीं है, जैसा कि कई गहरे शिक्षण समस्याओं में है। हमारा स्कोर कुछ ऐसा है जिसे हम अधिकतम करना चाहते हैं। एक अभिव्यक्ति जिसे नीति ग्रेडिएंट प्रमेय कहा जाता है, नीति “θ” के सापेक्ष ग्रेडिएंट का अनुमान लगाने के लिए उपयोग किया जाता है।

डीप रिन्फोर्समेंट लर्निंग का सारांश

सारांश में, डीप रिन्फोर्समेंट लर्निंग डीप न्यूरल नेटवर्क और रिन्फोर्समेंट लर्निंग के पहलुओं को जोड़ती है। डीप रिन्फोर्समेंट लर्निंग दो अलग-अलग तकनीकों के साथ की जाती है: डीप क्यू-लर्निंग और नीति ग्रेडिएंट।

डीप क्यू-लर्निंग तरीके एक दिए गए राज्य में की जाने वाली क्रियाओं के बाद के पुरस्कारों का अनुमान लगाने का प्रयास करते हैं, जबकि नीति ग्रेडिएंट दृष्टिकोण क्रिया स्थान को अनुकूलित करने का प्रयास करते हैं, जो क्रियाएं स्वयं अनुमान लगाते हैं। नीति-आधारित दृष्टिकोण डीप रिन्फोर्समेंट लर्निंग निर्धारक या स्टोकास्टिक प्रकृति के होते हैं। निर्धारक नीतियां राज्यों को सीधे क्रियाओं में मैप करती हैं, जबकि स्टोकास्टिक नीतियां क्रियाओं के लिए संभावना वितरण उत्पन्न करती हैं।

Daniel Nelson

ब्लॉगर और प्रोग्रामर जिनकी विशेषज्ञता मैशीन लर्निंग और डीप लर्निंग विषयों में है। डैनियल दूसरों को सामाजिक कल्याण के लिए एआई की शक्ति का उपयोग करने में मदद करना चाहता है।