ठूंठ डीप लर्निंग में आरएनएन और एलएसटीएम क्या हैं? - यूनाइट.एआई
हमसे जुडे
एआई मास्टरक्लास:

एआई 101

डीप लर्निंग में आरएनएन और एलएसटीएम क्या हैं?

mm
Updated on

प्राकृतिक भाषा प्रसंस्करण और एआई चैटबॉट में सबसे प्रभावशाली प्रगति इसी से प्रेरित है आवर्तक तंत्रिका नेटवर्क (RNN) और लॉन्ग शॉर्ट-टर्म मेमोरी (LSTM) नेटवर्क। आरएनएन और एलएसटीएम विशेष तंत्रिका नेटवर्क आर्किटेक्चर हैं जो अनुक्रमिक डेटा, डेटा को संसाधित करने में सक्षम हैं जहां कालानुक्रमिक क्रम मायने रखता है। LSTM हैं आरएनएन के अनिवार्य रूप से उन्नत संस्करण, डेटा के लंबे अनुक्रमों की व्याख्या करने में सक्षम। आइए देखें कि आरएनएन और एलएसटीएमएस कैसे संरचित हैं और वे परिष्कृत प्राकृतिक भाषा प्रसंस्करण प्रणालियों के निर्माण को कैसे सक्षम करते हैं।

फ़ीड-फ़ॉरवर्ड न्यूरल नेटवर्क क्या हैं?

इसलिए इससे पहले कि हम इस बारे में बात करें कि लॉन्ग शॉर्ट-टर्म मेमोरी (LSTM) और कन्वेन्शनल न्यूरल नेटवर्क (CNN) कैसे काम करते हैं, हमें सामान्य रूप से न्यूरल नेटवर्क के प्रारूप पर चर्चा करनी चाहिए।

एक तंत्रिका नेटवर्क का उद्देश्य डेटा की जांच करना और प्रासंगिक पैटर्न सीखना है, ताकि इन पैटर्न को अन्य डेटा पर लागू किया जा सके और नए डेटा को वर्गीकृत किया जा सके। तंत्रिका नेटवर्क को तीन खंडों में विभाजित किया गया है: एक इनपुट परत, एक छिपी हुई परत (या कई छिपी हुई परतें), और एक आउटपुट परत।

इनपुट परत वह है जो डेटा को तंत्रिका नेटवर्क में ले जाती है, जबकि छिपी हुई परतें वह हैं जो डेटा में पैटर्न सीखती हैं। डेटासेट में छिपी हुई परतें "वेट" और "पूर्वाग्रह" द्वारा इनपुट और आउटपुट परतों से जुड़ी होती हैं, जो कि डेटा बिंदु एक दूसरे से कैसे संबंधित हैं, इसकी केवल धारणाएं हैं। ये वज़न प्रशिक्षण के दौरान समायोजित किए जाते हैं। जैसे ही नेटवर्क प्रशिक्षित होता है, प्रशिक्षण डेटा (आउटपुट मान) के बारे में मॉडल के अनुमान की तुलना वास्तविक प्रशिक्षण लेबल से की जाती है। प्रशिक्षण के दौरान, नेटवर्क को (उम्मीद है) डेटा बिंदुओं के बीच संबंधों की भविष्यवाणी करने में अधिक सटीक होना चाहिए, ताकि यह नए डेटा बिंदुओं को सटीक रूप से वर्गीकृत कर सके। डीप न्यूरल नेटवर्क ऐसे नेटवर्क होते हैं जिनमें बीच में अधिक परतें/अधिक छिपी हुई परतें होती हैं। मॉडल में जितनी अधिक छिपी हुई परतें और अधिक न्यूरॉन्स/नोड्स होंगे, मॉडल उतना ही बेहतर डेटा में पैटर्न को पहचान सकता है।

नियमित, फ़ीड-फ़ॉरवर्ड तंत्रिका नेटवर्क, जैसा कि मैंने ऊपर वर्णित किया है, अक्सर "घने तंत्रिका नेटवर्क" कहलाते हैं। ये घने तंत्रिका नेटवर्क विभिन्न नेटवर्क आर्किटेक्चर के साथ संयुक्त होते हैं जो विभिन्न प्रकार के डेटा की व्याख्या करने में विशेषज्ञ होते हैं।

आरएनएन (आवर्तक तंत्रिका नेटवर्क) क्या हैं?

आवर्ती तंत्रिका नेटवर्क फ़ीड-फ़ॉरवर्ड तंत्रिका नेटवर्क के सामान्य सिद्धांत को लेते हैं और उन्हें अनुक्रमिक डेटा को संभालने में सक्षम बनाते हैं मॉडल को आंतरिक मेमोरी देना. आरएनएन नाम का "आवर्ती" भाग इस तथ्य से आता है कि इनपुट और आउटपुट लूप हैं। एक बार नेटवर्क का आउटपुट तैयार हो जाने के बाद, आउटपुट को कॉपी किया जाता है और इनपुट के रूप में नेटवर्क पर वापस कर दिया जाता है। निर्णय लेते समय न केवल वर्तमान इनपुट और आउटपुट का विश्लेषण किया जाता है, बल्कि पिछले इनपुट पर भी विचार किया जाता है। दूसरे तरीके से कहें तो, यदि नेटवर्क के लिए प्रारंभिक इनपुट X है और आउटपुट H है, तो H और X1 (डेटा अनुक्रम में अगला इनपुट) दोनों को सीखने के अगले दौर के लिए नेटवर्क में फीड किया जाता है। इस तरह, डेटा का संदर्भ (पिछले इनपुट) नेटवर्क ट्रेनों के रूप में संरक्षित रहता है।

इस आर्किटेक्चर का परिणाम यह है कि आरएनएन अनुक्रमिक डेटा को संभालने में सक्षम हैं। हालाँकि, RNN कुछ समस्याओं से ग्रस्त हैं। आरएनएन इससे पीड़ित हैं लुप्त हो रही ग्रेडिएंट और विस्फोटित ग्रेडिएंट समस्याएँ।

आरएनएन द्वारा व्याख्या किए जा सकने वाले अनुक्रमों की लंबाई सीमित है, खासकर एलएसटीएम की तुलना में।

LSTM (दीर्घकालिक अल्पकालिक मेमोरी नेटवर्क) क्या हैं?

लॉन्ग शॉर्ट-टर्म मेमोरी नेटवर्क को आरएनएन का विस्तार माना जा सकता है, जो एक बार फिर इनपुट के संदर्भ को संरक्षित करने की अवधारणा को लागू करता है। हालाँकि, LSTM को कई महत्वपूर्ण तरीकों से संशोधित किया गया है जो उन्हें बेहतर तरीकों से पिछले डेटा की व्याख्या करने की अनुमति देता है। LSTM में किए गए परिवर्तन लुप्त हो रही ग्रेडिएंट समस्या से निपटते हैं और LSTM को अधिक लंबे इनपुट अनुक्रमों पर विचार करने में सक्षम बनाते हैं।

LSTM मॉडल बने होते हैं तीन अलग-अलग घटक, या द्वार. वहाँ एक है इनपुट गेट, आउटपुट गेट और फ़ॉरगेट गेट. आरएनएन की तरह, एलएसटीएम मॉडल की मेमोरी और इनपुट वेट को संशोधित करते समय पिछले टाइमस्टेप से इनपुट को ध्यान में रखता है। इनपुट गेट निर्णय लेता है कि कौन से मान महत्वपूर्ण हैं और उन्हें मॉडल के माध्यम से जाने दिया जाना चाहिए। इनपुट गेट में एक सिग्मॉइड फ़ंक्शन का उपयोग किया जाता है, जो यह निर्धारित करता है कि आवर्ती नेटवर्क के माध्यम से किन मूल्यों को पारित करना है। शून्य मान को गिरा देता है, जबकि 1 उसे सुरक्षित रखता है। यहां एक TanH फ़ंक्शन का भी उपयोग किया जाता है, जो यह तय करता है कि मॉडल के लिए -1 से 1 तक के इनपुट मान कितने महत्वपूर्ण हैं।

वर्तमान इनपुट और मेमोरी स्थिति का हिसाब-किताब करने के बाद, आउटपुट गेट तय करता है कि अगली बार चरण में कौन से मान को पुश करना है। आउटपुट गेट में, मानों का विश्लेषण किया जाता है और -1 से 1 तक का महत्व दिया जाता है। यह डेटा को अगले समय-चरण गणना पर ले जाने से पहले नियंत्रित करता है। अंत में, फ़ॉरगेट गेट का काम उस जानकारी को छोड़ना है जिसे मॉडल इनपुट मानों की प्रकृति के बारे में निर्णय लेने के लिए अनावश्यक मानता है। फ़ॉरगेट गेट मानों पर एक सिग्मॉइड फ़ंक्शन का उपयोग करता है, जो 0 (इसे भूल जाओ) और 1 (इसे रखें) के बीच संख्याओं को आउटपुट करता है।

एक LSTM तंत्रिका नेटवर्क दोनों विशेष LSTM परतों से बना होता है जो अनुक्रमिक शब्द डेटा और ऊपर वर्णित की तरह सघन रूप से जुड़े डेटा की व्याख्या कर सकता है। एक बार जब डेटा LSTM परतों से होकर गुजरता है, तो यह सघन रूप से जुड़ी परतों में आगे बढ़ता है।

विशेषज्ञता वाले ब्लॉगर और प्रोग्रामर मशीन लर्निंग और गहरी सीख विषय। डैनियल को उम्मीद है कि वह दूसरों को सामाजिक भलाई के लिए एआई की शक्ति का उपयोग करने में मदद करेगा।