ठूंठ सुदृढीकरण सीखना क्या है? - यूनाइट.एआई
हमसे जुडे
एआई मास्टरक्लास:

एआई 101

सुदृढीकरण सीखना क्या है?

mm
Updated on

सुदृढीकरण सीखना क्या है?

सीधे शब्दों में कहें तो, सुदृढीकरण सीखना एक मशीन लर्निंग तकनीक है जिसमें कार्यों की पुनरावृत्ति और संबंधित पुरस्कारों के माध्यम से एक कृत्रिम बुद्धिमत्ता एजेंट को प्रशिक्षित करना शामिल है। एक सुदृढीकरण सीखने वाला एजेंट एक वातावरण में प्रयोग करता है, कार्रवाई करता है और सही कार्रवाई करने पर पुरस्कृत होता है। समय के साथ, एजेंट ऐसे कार्य करना सीखता है जिससे उसका प्रतिफल अधिकतम हो। यह सुदृढीकरण सीखने की एक त्वरित परिभाषा है, लेकिन सुदृढीकरण सीखने के पीछे की अवधारणाओं पर करीब से नज़र डालने से आपको इसकी बेहतर, अधिक सहज समझ हासिल करने में मदद मिलेगी।

शब्द "सुदृढीकरण सीखना" की अवधारणा से अनुकूलित है मनोविज्ञान में सुदृढीकरण. इस कारण से, आइए सुदृढीकरण की मनोवैज्ञानिक अवधारणा को समझने के लिए कुछ समय लें। मनोवैज्ञानिक अर्थ में, सुदृढीकरण शब्द का तात्पर्य किसी ऐसी चीज़ से है जिससे किसी विशेष प्रतिक्रिया/कार्य के घटित होने की संभावना बढ़ जाती है। सुदृढीकरण की यह अवधारणा संचालक कंडीशनिंग के सिद्धांत का एक केंद्रीय विचार है, जिसे शुरू में मनोवैज्ञानिक बीएफ स्किनर द्वारा प्रस्तावित किया गया था। इस संदर्भ में, सुदृढीकरण वह सब कुछ है जो किसी दिए गए व्यवहार की आवृत्ति को बढ़ाने का कारण बनता है। यदि हम मनुष्यों के लिए संभावित सुदृढीकरण के बारे में सोचते हैं, तो ये प्रशंसा, काम में वृद्धि, कैंडी और मज़ेदार गतिविधियाँ जैसी चीज़ें हो सकती हैं।

पारंपरिक, मनोवैज्ञानिक अर्थ में, सुदृढीकरण दो प्रकार के होते हैं। सकारात्मक सुदृढीकरण और नकारात्मक सुदृढीकरण है। सकारात्मक सुदृढीकरण किसी व्यवहार को बढ़ाने के लिए कुछ जोड़ना है, जैसे कि जब आपका कुत्ता अच्छा व्यवहार करता है तो उसे दावत देना। नकारात्मक सुदृढीकरण में किसी व्यवहार को उत्पन्न करने के लिए उत्तेजना को हटाना शामिल है, जैसे किसी चिड़चिड़ी बिल्ली को मनाने के लिए तेज़ आवाज़ को बंद करना।

सकारात्मक एवं नकारात्मक सुदृढीकरण

सकारात्मक सुदृढीकरण से व्यवहार की आवृत्ति बढ़ जाती है जबकि नकारात्मक सुदृढीकरण से व्यवहार की आवृत्ति कम हो जाती है। सामान्य तौर पर, सकारात्मक सुदृढीकरण सुदृढीकरण सीखने में उपयोग किया जाने वाला सबसे सामान्य प्रकार का सुदृढीकरण है, क्योंकि यह मॉडल को किसी दिए गए कार्य पर प्रदर्शन को अधिकतम करने में मदद करता है। इतना ही नहीं बल्कि सकारात्मक सुदृढीकरण मॉडल को अधिक टिकाऊ परिवर्तन करने के लिए प्रेरित करता है, परिवर्तन जो सुसंगत पैटर्न बन सकते हैं और लंबे समय तक बने रह सकते हैं।

इसके विपरीत, जबकि नकारात्मक सुदृढीकरण भी किसी व्यवहार के घटित होने की अधिक संभावना बनाता है, इसका उपयोग किसी मॉडल के अधिकतम प्रदर्शन तक पहुंचने के बजाय न्यूनतम प्रदर्शन मानक बनाए रखने के लिए किया जाता है। सुदृढीकरण सीखने में नकारात्मक सुदृढीकरण यह सुनिश्चित करने में मदद कर सकता है कि एक मॉडल को अवांछित कार्यों से दूर रखा गया है, लेकिन यह वास्तव में एक मॉडल को वांछित कार्यों का पता लगाने में सक्षम नहीं बना सकता है।

एक सुदृढीकरण एजेंट को प्रशिक्षण देना

जब एक सुदृढीकरण सीखने वाले एजेंट को प्रशिक्षित किया जाता है, चार अलग-अलग सामग्रियां हैं or राज्यों प्रशिक्षण में उपयोग किया जाता है: प्रारंभिक अवस्थाएँ (राज्य 0), नई अवस्था (राज्य 1), क्रियाएँ, और पुरस्कार।

कल्पना करें कि हम एक प्लेटफ़ॉर्मिंग वीडियो गेम खेलने के लिए एक रीइन्फोर्समेंट एजेंट को प्रशिक्षित कर रहे हैं जहां एआई का लक्ष्य स्क्रीन के ठीक पार जाकर स्तर के अंत तक पहुंचना है। खेल की प्रारंभिक स्थिति पर्यावरण से ली गई है, जिसका अर्थ है कि खेल के पहले फ्रेम का विश्लेषण किया जाता है और मॉडल को दिया जाता है। इस जानकारी के आधार पर, मॉडल को किसी कार्रवाई पर निर्णय लेना होगा।

प्रशिक्षण के शुरुआती चरणों के दौरान, ये क्रियाएं यादृच्छिक होती हैं लेकिन जैसे-जैसे मॉडल को सुदृढ़ किया जाता है, कुछ क्रियाएं अधिक सामान्य हो जाएंगी। कार्रवाई किए जाने के बाद गेम का वातावरण अद्यतन किया जाता है और एक नया राज्य या फ़्रेम बनाया जाता है। यदि एजेंट द्वारा की गई कार्रवाई से वांछनीय परिणाम मिलता है, तो इस मामले में मान लें कि एजेंट अभी भी जीवित है और किसी दुश्मन द्वारा नहीं मारा गया है, तो एजेंट को कुछ इनाम दिया जाता है और उसके ऐसा ही करने की अधिक संभावना हो जाती है। भविष्य।

यह बुनियादी प्रणाली लगातार लूप की जाती है, बार-बार होती है, और हर बार एजेंट थोड़ा और सीखने और अपने इनाम को अधिकतम करने की कोशिश करता है।

एपिसोडिक बनाम सतत कार्य

सुदृढीकरण सीखने के कार्यों को आम तौर पर दो अलग-अलग श्रेणियों में से एक में रखा जा सकता है: एपिसोडिक कार्य और निरंतर कार्य।

एपिसोडिक कार्य सीखने/प्रशिक्षण चक्र को पूरा करेंगे और उनके प्रदर्शन में सुधार करेंगे जब तक कि कुछ अंतिम मानदंड पूरे नहीं हो जाते और प्रशिक्षण समाप्त नहीं हो जाता। किसी खेल में, यह स्तर के अंत तक पहुँचना या स्पाइक्स जैसे खतरे में पड़ना हो सकता है। इसके विपरीत, निरंतर कार्यों में कोई समाप्ति मानदंड नहीं होता है, अनिवार्य रूप से तब तक प्रशिक्षण जारी रहता है जब तक कि इंजीनियर प्रशिक्षण समाप्त करने का विकल्प नहीं चुनता।

मोंटे कार्लो बनाम टेम्पोरल अंतर

सीखने या प्रशिक्षण के दो प्राथमिक तरीके हैं, एक सुदृढीकरण शिक्षण एजेंट। में मोंटे कार्लो दृष्टिकोण, पुरस्कार केवल प्रशिक्षण एपिसोड के अंत में एजेंट को वितरित किए जाते हैं (इसका स्कोर अपडेट किया जाता है)। दूसरे शब्दों में कहें तो, जब समाप्ति की स्थिति पूरी होती है तभी मॉडल को पता चलता है कि उसने कितना अच्छा प्रदर्शन किया है। इसके बाद यह इस जानकारी का उपयोग अद्यतन करने के लिए कर सकता है और जब अगला प्रशिक्षण दौर शुरू होगा तो यह नई जानकारी के अनुसार प्रतिक्रिया देगा।

RSI लौकिक-अंतर विधि मोंटे कार्लो पद्धति से भिन्न है जिसमें मूल्य अनुमान, या स्कोर अनुमान, प्रशिक्षण प्रकरण के दौरान अद्यतन किया जाता है। एक बार जब मॉडल अगली बार चरण पर आगे बढ़ता है तो मान अपडेट हो जाते हैं।

अन्वेषण बनाम शोषण

सुदृढीकरण सीखने वाले एजेंट को प्रशिक्षित करना एक संतुलनकारी कार्य है, जिसमें दो अलग-अलग मेट्रिक्स का संतुलन शामिल है: अन्वेषण और शोषण।

अन्वेषण आसपास के पर्यावरण के बारे में अधिक जानकारी एकत्र करने का कार्य है, जबकि अन्वेषण में पर्यावरण के बारे में पहले से ज्ञात जानकारी का उपयोग करके इनाम अंक अर्जित किए जाते हैं। यदि कोई एजेंट केवल अन्वेषण करता है और कभी भी पर्यावरण का दोहन नहीं करता है, तो वांछित कार्रवाई कभी नहीं की जाएगी। दूसरी ओर, यदि एजेंट केवल शोषण करता है और कभी अन्वेषण नहीं करता है, तो एजेंट केवल एक कार्रवाई करना सीखेगा और पुरस्कार अर्जित करने की अन्य संभावित रणनीतियों की खोज नहीं करेगा। इसलिए, सुदृढीकरण शिक्षण एजेंट बनाते समय अन्वेषण और शोषण को संतुलित करना महत्वपूर्ण है।

सुदृढीकरण सीखने के लिए मामलों का उपयोग करें

सुदृढीकरण सीखने का उपयोग विभिन्न प्रकार की भूमिकाओं में किया जा सकता है, और यह उन अनुप्रयोगों के लिए सबसे उपयुक्त है जहां कार्यों को स्वचालन की आवश्यकता होती है।

औद्योगिक रोबोटों द्वारा किए जाने वाले कार्यों का स्वचालन एक ऐसा क्षेत्र है जहां सुदृढीकरण सीखना उपयोगी साबित होता है। सुदृढीकरण सीखने का उपयोग टेक्स्ट माइनिंग जैसी समस्याओं के लिए भी किया जा सकता है, ऐसे मॉडल बनाना जो टेक्स्ट के लंबे निकायों को सारांशित करने में सक्षम हों। शोधकर्ता स्वास्थ्य सेवा क्षेत्र में सुदृढीकरण सीखने का उपयोग करने का भी प्रयोग कर रहे हैं, जिसमें सुदृढीकरण एजेंट उपचार नीतियों के अनुकूलन जैसे कार्यों को संभाल रहे हैं। सुदृढीकरण सीखने का उपयोग छात्रों के लिए शैक्षिक सामग्री को अनुकूलित करने के लिए भी किया जा सकता है।

सुदृढीकरण सीखने का सारांश

सुदृढीकरण सीखना एआई एजेंटों के निर्माण का एक शक्तिशाली तरीका है जो प्रभावशाली और कभी-कभी आश्चर्यजनक परिणाम दे सकता है। सुदृढीकरण सीखने के माध्यम से एक एजेंट को प्रशिक्षित करना जटिल और कठिन हो सकता है, क्योंकि इसमें कई प्रशिक्षण पुनरावृत्तियों और अन्वेषण/शोषण द्वंद्व का एक नाजुक संतुलन होता है। हालाँकि, सफल होने पर, सुदृढीकरण सीखने के साथ बनाया गया एक एजेंट विभिन्न प्रकार के विभिन्न वातावरणों में जटिल कार्यों को पूरा कर सकता है।

विशेषज्ञता वाले ब्लॉगर और प्रोग्रामर मशीन लर्निंग और गहरी सीख विषय। डैनियल को उम्मीद है कि वह दूसरों को सामाजिक भलाई के लिए एआई की शक्ति का उपयोग करने में मदद करेगा।