рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
NLP (рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг) рдХреНрдпрд╛ рд╣реИ?
प्राकृतिक भाषा प्रसंस्करण (NLP) यह अध्ययन और तकनीकों और उपकरणों का अनुप्रयोग है जो कंप्यूटरों को मानव भाषा को संसाधित, विश्लेषण, व्याख्या और तर्क करने में सक्षम बनाता है। NLP एक अंतरविषयक क्षेत्र है और यह भाषाविज्ञान और कंप्यूटर विज्ञान जैसे क्षेत्रों में स्थापित तकनीकों को मिलाता है। इन तकनीकों का उपयोग AI के साथ मिलकर चैटबॉट और डिजिटल सहायक जैसे Google Assistant और Amazon के Alexa बनाने के लिए किया जाता है।
आइए प्राकृतिक भाषा प्रसंस्करण के पीछे के तर्क, NLP में उपयोग की जाने वाली कुछ तकनीकों और NLP के लिए कुछ सामान्य उपयोग के मामलों का अन्वेषण करने के लिए कुछ समय लेते हैं।
प्राकृतिक भाषा प्रसंस्करण (NLP) क्यों मायने रखता है
कंप्यूटरों को मानव भाषा की व्याख्या करने के लिए, उन्हें एक ऐसे रूप में परिवर्तित किया जाना चाहिए जिसे कंप्यूटर मैनिपुलेट कर सके। हालांकि, यह बस टेक्स्ट डेटा को संख्याओं में परिवर्तित करने जितना सरल नहीं है। मानव भाषा से अर्थ निकालने के लिए, सैकड़ों या हजारों शब्दों से पैटर्न निकाले जाने चाहिए जो एक पाठ दस्तावेज़ को बनाते हैं। यह कोई आसान काम नहीं है। मानव भाषा की व्याख्या के लिए कुछ कठिन और तेज़ नियम नहीं हैं। उदाहरण के लिए, एक ही शब्दों का एक ही सेट अलग-अलग चीजें मतलब कर सकता है जो संदर्भ पर निर्भर करता है। मानव भाषा एक जटिल और अक्सर अस्पष्ट चीज है, और एक बयान को ईमानदारी या व्यंग्य के साथ कहा जा सकता है।
इसके बावजूद, कुछ सामान्य दिशानिर्देश हैं जो शब्दों और अक्षरों की व्याख्या करते समय उपयोग किए जा सकते हैं, जैसे कि अक्षर “स” का उपयोग यह दर्शाने के लिए किया जाता है कि एक आइटम बहुवचन है। इन सामान्य दिशानिर्देशों को एक दूसरे के साथ मिलकर उपयोग करना होगा ताकि पाठ से अर्थ निकाला जा सके, ताकि एक मशीन लर्निंग अल्गोरिदम को व्याख्या किया जा सके।
प्राकृतिक भाषा प्रसंस्करण (NLP) तकनीक

फोटो: Tamur via WikiMedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:ParseTree.svg)
NLP में उपयोग की जाने वाली कई तकनीकों को दो श्रेणियों में रखा जा सकता है: व्याकरण या अर्थ। व्याकरण तकनीकें वे हैं जो शब्दों के क्रम से संबंधित हैं, जबकि अर्थ तकनीकें वे हैं जो शब्दों के अर्थ से संबंधित हैं।
व्याकरण NLP तकनीक
व्याकरण के उदाहरण हैं:
- मूल रूप में परिवर्तन
- आकृति विभाजन
- भाग-ऑफ-भाषा टैगिंग
- विश्लेषण
- वाक्य तोड़ना
- मूल रूप में कमी
- शब्द विभाजन
मूल रूप में परिवर्तन शब्दों के विभिन्न रूपों को एक ही रूप में परिवर्तित करने की प्रक्रिया है। मूल रूप में परिवर्तन शब्दों को सरल बनाता है, जैसे कि “पैर” को “पैर” में परिवर्तित करना और “धारियों” को “धारी” में परिवर्तित करना।
आकृति विभाजन शब्दों को मूल इकाइयों में विभाजित करने की प्रक्रिया है। इन इकाइयों में मुक्त मोर्फेम (जो स्वयं शब्दों के रूप में खड़े हो सकते हैं) और उपसर्ग या प्रत्यय शामिल हैं।
भाग-ऑफ-भाषा टैगिंग प्रत्येक शब्द को उसके भाग-ऑफ-भाषा के अनुसार पहचानने की प्रक्रिया है।
विश्लेषण शब्दों का व्याकरणिक विश्लेषण करने की प्रक्रिया है।
वाक्य तोड़ना वाक्यों को अलग-अलग करने की प्रक्रिया है।
मूल रूप में कमी शब्दों को उनके मूल रूप में कम करने की प्रक्रिया है। उदाहरण के लिए, “जुड़े”, “संबंध”, और “संबंधों” को “जुड़ने” में कम किया जा सकता है।
शब्द विभाजन शब्दों को छोटी इकाइयों में विभाजित करने की प्रक्रिया है।
अर्थ NLP तकनीक
अर्थ तकनीकों में शामिल हैं:
- नामित सущा पहचान
- प्राकृतिक भाषा उत्पादन
- शब्द-अर्थ विभाजन
नामित सущा पहचान पाठ के विशिष्ट भागों को पहचानने की प्रक्रिया है जो पूर्वनिर्धारित श्रेणियों में रखे जा सकते हैं। पूर्वनिर्धारित श्रेणियों में तारीखें, शहर, स्थान, कंपनियां, और व्यक्तियों जैसी चीजें शामिल हैं।
प्राकृतिक भाषा उत्पादन संरचित डेटा को प्राकृतिक भाषा में परिवर्तित करने की प्रक्रिया है। उदाहरण के लिए, मौसम के बारे में आंकड़े, जैसे कि तापमान और हवा की गति, प्राकृतिक भाषा में सारांशित किए जा सकते हैं।
शब्द-अर्थ विभाजन शब्दों को उनके अर्थ के अनुसार पहचानने की प्रक्रिया है जो वे पाठ में दिखाई देते हैं।
गहरे शिक्षण मॉडल NLP के लिए
नियमित बहुस्तरीय प्रत्यावर्ती कंप्यूटर मानव भाषा की व्याख्या करने में असमर्थ होते हैं क्योंकि वे अनुक्रमिक डेटा को संभाल नहीं सकते हैं। अनुक्रमिक डेटा में जानकारी का क्रम महत्वपूर्ण होता है।
पुनरावृत्ति तंत्रिका नेटवर्क एक प्रकार का तंत्रिका नेटवर्क है जो पिछले समय के डेटा को ध्यान में रखते हुए वर्तमान समय के डेटा को संसाधित करता है। पुनरावृत्ति तंत्रिका नेटवर्क में तीन पैरामीटर होते हैं जो आगे के प्रशिक्षण पास में उपयोग किए जाते हैं: पिछले छिपे हुए राज्य पर आधारित एक मैट्रिक्स, वर्तमान इनपुट पर आधारित एक मैट्रिक्स, और छिपे हुए राज्य और आउटपुट के बीच एक मैट्रिक्स। पुनरावृत्ति तंत्रिका नेटवर्क अनुक्रमिक डेटा से पैटर्न निकाल सकते हैं क्योंकि वे पिछले समय के डेटा को ध्यान में रखते हैं।
एक अन्य प्रकार का गहरा शिक्षण आर्किटेक्चर जो पाठ डेटा को संसाधित करने के लिए उपयोग किया जाता है वह लंबे अल्पकालिक स्मृति (LSTM) नेटवर्क है। LSTM नेटवर्क पुनरावृत्ति तंत्रिका नेटवर्क के समान होते हैं लेकिन उनकी वास्तुकला में कुछ अंतर होते हैं जो उन्हें पुनरावृत्ति तंत्रिका नेटवर्क से बेहतर बनाते हैं। वे एक विशिष्ट समस्या से बचते हैं जो अक्सर पुनरावृत्ति तंत्रिका नेटवर्क का उपयोग करते समय होती है, जिसे विस्फोटक ग्रेडिएंट समस्या कहा जाता है।
इन गहरे तंत्रिका नेटवर्क को एकदिशा या द्विदिशा में उपयोग किया जा सकता है। द्विदिशा नेटवर्क न केवल पिछले शब्दों को ध्यान में रखते हैं बल्कि वर्तमान शब्द के बाद के शब्दों को भी ध्यान में रखते हैं। यह उच्च सटीकता प्रदान करता है लेकिन अधिक गणनात्मक रूप से महंगा होता है।
प्राकृतिक भाषा प्रसंस्करण (NLP) के लिए उपयोग के मामले

फोटो: mohammed_hassan via Pixabay, Pixabay लाइसेंस (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)
प्राकृतिक भाषा प्रसंस्करण मानव भाषाओं के विश्लेषण और मैनिपुलेशन से संबंधित है, इसलिए इसके अनुप्रयोगों का एक व्यापक श्रृंखला है। NLP के लिए संभावित अनुप्रयोगों में चैटबॉट, डिजिटल सहायक, भावना विश्लेषण, दस्तावेज़ संगठन, प्रतिभा भर्ती, और स्वास्थ्य सेवा शामिल हैं।
चैटबॉट और डिजिटल सहायक जैसे Amazon के Alexa और Google Assistant आवाज़ पहचान और संश्लेषण प्लेटफ़ॉर्म के उदाहरण हैं जो NLP का उपयोग करके मौखिक आदेशों की व्याख्या और प्रतिक्रिया करते हैं। ये डिजिटल सहायक लोगों को विभिन्न कार्यों में मदद करते हैं, जिससे वे अपने कुछ संज्ञानात्मक कार्यों को दूसरे उपकरणों में स्थानांतरित कर सकते हैं और अपने मस्तिष्क की शक्ति को अन्य महत्वपूर्ण चीजों के लिए मुक्त कर सकते हैं। इसके बजाय कि वे सुबह के समय बैंक जाने के लिए सबसे अच्छे मार्ग की जांच करें, वे अपने डिजिटल सहायक से ऐसा करने के लिए कह सकते हैं।
भावना विश्लेषण NLP तकनीकों का उपयोग करके लोगों की प्रतिक्रियाओं और भावनाओं का अध्ययन करने की प्रक्रिया है। एक बयान की भावना को पकड़ना, जैसे कि एक उत्पाद की समीक्षा अच्छी या बुरी है, कंपनियों को अपने उत्पाद के प्रति लोगों की प्रतिक्रिया के बारे में महत्वपूर्ण जानकारी प्रदान कर सकता है।
स्वचालित रूप से पाठ दस्तावेज़ों को व्यवस्थित करना NLP का एक अन्य अनुप्रयोग है। कंपनियां जैसे Google और Yahoo NLP अल्गोरिदम का उपयोग ईमेल दस्तावेज़ों को वर्गीकृत करने के लिए करती हैं, उन्हें उपयुक्त बिन में रखा जाता है जैसे कि “सामाजिक” या “प्रमोशन”। वे इन तकनीकों का उपयोग स्पैम की पहचान करने और उसे आपके इनबॉक्स में पहुंचने से रोकने के लिए भी करते हैं।
समूहों ने NLP तकनीकों का विकास किया है जो संभावित नौकरी के उम्मीदवारों की पहचान करने में मदद करती हैं, उन्हें प्रासंगिक कौशल के आधार पर ढूंढती है। भर्ती प्रबंधक NLP तकनीकों का उपयोग आवेदकों की सूची को छानने में मदद करने के लिए भी करते हैं।
NLP तकनीकों का उपयोग स्वास्थ्य सेवा में सुधार करने के लिए भी किया जा रहा है। NLP का उपयोग बीमारियों का पता लगाने में सुधार करने के लिए किया जा सकता है। स्वास्थ्य रिकॉर्ड का विश्लेषण किया जा सकता है और NLP अल्गोरिदम द्वारा लक्षण निकाले जा सकते हैं, जो तब संभावित निदान का सुझाव दे सकते हैं। इसका एक उदाहरण Amazon का Comprehend Medical प्लेटफ़ॉर्म है, जो स्वास्थ्य रिकॉर्ड का विश्लेषण करता है और बीमारियों और उपचारों को निकालता है। NLP के स्वास्थ्य सेवा अनुप्रयोग मानसिक स्वास्थ्य तक भी बढ़ते हैं। ऐसे ऐप हैं जैसे कि WoeBot, जो उपयोगकर्ताओं को चिंता प्रबंधन तकनीकों के माध्यम से चलता है, जो संज्ञानात्मक व्यवहार चिकित्सा पर आधारित हैं।












