ठूंठ एनएलपी (प्राकृतिक भाषा प्रसंस्करण) क्या है? - यूनाइट.एआई
हमसे जुडे

Artificial Intelligence

एनएलपी (प्राकृतिक भाषा प्रसंस्करण) क्या है?

mm
Updated on

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) तकनीकों और उपकरणों का अध्ययन और अनुप्रयोग है जो कंप्यूटर को मानव भाषा के बारे में प्रक्रिया, विश्लेषण, व्याख्या और तर्क करने में सक्षम बनाता है। एनएलपी एक अंतःविषय क्षेत्र है और यह भाषाविज्ञान और कंप्यूटर विज्ञान जैसे क्षेत्रों में स्थापित तकनीकों को जोड़ता है। इन तकनीकों का उपयोग एआई के साथ मिलकर चैटबॉट और गूगल असिस्टेंट और अमेज़ॅन के एलेक्सा जैसे डिजिटल असिस्टेंट बनाने के लिए किया जाता है।

आइए प्राकृतिक भाषा प्रसंस्करण के पीछे के तर्क, एनएलपी में उपयोग की जाने वाली कुछ तकनीकों और एनएलपी के लिए कुछ सामान्य उपयोग के मामलों का पता लगाने के लिए कुछ समय लें।

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) क्यों मायने रखता है?

कंप्यूटरों को मानव भाषा की व्याख्या करने के लिए, उन्हें ऐसे रूप में परिवर्तित करना होगा जिसमें कंप्यूटर हेरफेर कर सके। हालाँकि, यह टेक्स्ट डेटा को संख्याओं में परिवर्तित करने जितना आसान नहीं है। मानव भाषा से अर्थ निकालने के लिए, पाठ दस्तावेज़ बनाने वाले सैकड़ों या हजारों शब्दों से पैटर्न निकालना पड़ता है। यह कोई आसान काम नहीं है। ऐसे कुछ कठोर और तेज़ नियम हैं जिन्हें मानव भाषा की व्याख्या पर लागू किया जा सकता है। उदाहरण के लिए, शब्दों के बिल्कुल एक ही समूह का संदर्भ के आधार पर अलग-अलग अर्थ हो सकता है। मानव भाषा एक जटिल और अक्सर अस्पष्ट चीज़ है, और एक बयान को ईमानदारी या व्यंग्य के साथ कहा जा सकता है।

इसके बावजूद, कुछ सामान्य दिशानिर्देश हैं जिनका उपयोग शब्दों और वर्णों की व्याख्या करते समय किया जा सकता है, जैसे कि वर्ण "एस" का उपयोग यह दर्शाने के लिए किया जा रहा है कि कोई वस्तु बहुवचन है। इन सामान्य दिशानिर्देशों का उपयोग पाठ से अर्थ निकालने के लिए, एक मशीन लर्निंग एल्गोरिदम द्वारा व्याख्या की जा सकने वाली विशेषताओं को बनाने के लिए एक-दूसरे के साथ मिलकर किया जाना चाहिए।

प्राकृतिक भाषा प्रसंस्करण में असंरचित डेटा लेने और इसे संरचित डेटा में परिवर्तित करने में सक्षम विभिन्न एल्गोरिदम का अनुप्रयोग शामिल है। यदि इन एल्गोरिदम को गलत तरीके से लागू किया जाता है, तो कंप्यूटर अक्सर पाठ से सही अर्थ निकालने में विफल हो जाएगा। इसे अक्सर भाषाओं के बीच पाठ के अनुवाद में देखा जा सकता है, जहां वाक्य का सटीक अर्थ अक्सर खो जाता है। हालाँकि पिछले कुछ वर्षों में मशीनी अनुवाद में काफी सुधार हुआ है, फिर भी मशीनी अनुवाद त्रुटियाँ अक्सर होती रहती हैं।

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) तकनीकें

फोटो: विकीमीडिया कॉमन्स, पब्लिक डोमेन के माध्यम से तमूर (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

के बहुत सारे तकनीक प्राकृतिक भाषा प्रसंस्करण में उपयोग किए जाने वाले को दो श्रेणियों में से एक में रखा जा सकता है: वाक्यविन्यास या शब्दार्थ। सिंटैक्स तकनीकें वे हैं जो शब्दों के क्रम से संबंधित हैं, जबकि सिमेंटिक तकनीकें वे तकनीकें हैं जिनमें शब्दों के अर्थ शामिल होते हैं।

सिंटेक्स एनएलपी तकनीकें

वाक्यविन्यास के उदाहरणों में शामिल हैं:

  • lemmatization
  • रूपात्मक विभाजन
  • भाषण का भाग टैगिंग
  • पदच्छेद
  • वाक्य तोड़ना
  • स्टेमिंग
  • शब्द विभाजन

लेम्मटाइजेशन से तात्पर्य किसी शब्द के विभिन्न विभक्तियों को एक ही रूप में परिवर्तित करना है। लेम्मटाइजेशन काल और बहुवचन जैसी चीजों को लेता है और उन्हें सरल बनाता है, उदाहरण के लिए, "पैर" "पैर" बन सकते हैं और "पट्टियां" "धारी" बन सकती हैं। यह सरलीकृत शब्द रूप किसी एल्गोरिदम के लिए किसी दस्तावेज़ में शब्दों की व्याख्या करना आसान बनाता है।

रूपात्मक विभाजन शब्दों को रूपिम या किसी शब्द की आधार इकाइयों में विभाजित करने की प्रक्रिया है। ये इकाइयाँ मुफ़्त जैसी चीज़ें हैं रूपिम (जो शब्दों के रूप में अकेले खड़े हो सकते हैं) और उपसर्ग या प्रत्यय।

पार्ट-टू-स्पीच टैगिंग यह केवल यह पहचानने की प्रक्रिया है कि इनपुट दस्तावेज़ में प्रत्येक शब्द भाषण का कौन सा भाग है।

पदच्छेद एक वाक्य में सभी शब्दों का विश्लेषण करना और उन्हें उनके औपचारिक व्याकरण लेबल के साथ सहसंबंधित करना या सभी शब्दों के लिए व्याकरणिक विश्लेषण करना संदर्भित करता है।

वाक्य तोड़ना, या वाक्य सीमा विभाजन, यह निर्णय लेने को संदर्भित करता है कि एक वाक्य कहां शुरू होता है और कहां समाप्त होता है।

स्टेमिंग शब्दों को शब्द के मूल रूप तक संक्षिप्त करने की प्रक्रिया है। उदाहरण के लिए, कनेक्टेड, कनेक्शन और कनेक्शन सभी को "कनेक्ट" करने के लिए तैयार किया जाएगा।

शब्द विभाजन पाठ के बड़े टुकड़ों को छोटी इकाइयों में विभाजित करने की प्रक्रिया है, जो शब्द या स्टेमड/लेमेटाइज्ड इकाइयां हो सकती हैं।

सिमेंटिक एनएलपी तकनीकें

सिमेंटिक एनएलपी तकनीकों में निम्न तकनीकें शामिल हैं:

  • जिसका नाम एंटिटी रिकग्निशन रखा गया है
  • प्राकृतिक भाषा पीढ़ी
  • शब्द-बोध असंबद्धता

नामित संस्था मान्यता इसमें कुछ पाठ भागों को टैग करना शामिल है जिन्हें कई अलग-अलग पूर्व निर्धारित समूहों में से एक में रखा जा सकता है। पूर्व-निर्धारित श्रेणियों में दिनांक, शहर, स्थान, कंपनियाँ और व्यक्ति जैसी चीज़ें शामिल हैं।

प्राकृतिक भाषा पीढ़ी संरचित डेटा को प्राकृतिक भाषा में बदलने के लिए डेटाबेस का उपयोग करने की प्रक्रिया है। उदाहरण के लिए, मौसम के बारे में आँकड़े, जैसे तापमान और हवा की गति, को प्राकृतिक भाषा में संक्षेपित किया जा सकता है।

शब्द-बोध असंबद्धता एक पाठ के भीतर शब्दों को उस संदर्भ के आधार पर अर्थ निर्दिष्ट करने की प्रक्रिया है जिसमें शब्द दिखाई देते हैं।

एनएलपी के लिए गहन शिक्षण मॉडल

नियमित मल्टीलेयर परसेप्ट्रोन अनुक्रमिक डेटा की व्याख्या को संभालने में असमर्थ हैं, जहां जानकारी का क्रम महत्वपूर्ण है। अनुक्रमिक डेटा में क्रम के महत्व से निपटने के लिए, एक प्रकार के तंत्रिका नेटवर्क का उपयोग किया जाता है जो प्रशिक्षण में पिछले टाइमस्टेप से जानकारी को संरक्षित करता है।

आवर्तक तंत्रिका नेटवर्क तंत्रिका नेटवर्क के प्रकार हैं पिछले टाइमस्टेप्स से डेटा पर लूप करें, वर्तमान टाइमस्टेप के वजन की गणना करते समय उन्हें ध्यान में रखना। अनिवार्य रूप से, आरएनएन के तीन पैरामीटर होते हैं जिनका उपयोग फॉरवर्ड ट्रेनिंग पास के दौरान किया जाता है: पिछली छिपी हुई स्थिति पर आधारित एक मैट्रिक्स, वर्तमान इनपुट पर आधारित एक मैट्रिक्स, और एक मैट्रिक्स जो छिपी हुई स्थिति और आउटपुट के बीच होता है। क्योंकि आरएनएन पिछले टाइमस्टेप्स से जानकारी को ध्यान में रख सकते हैं, वे किसी शब्द के अर्थ की व्याख्या करते समय वाक्य में पहले के शब्दों को ध्यान में रखकर टेक्स्ट डेटा से प्रासंगिक पैटर्न निकाल सकते हैं।

टेक्स्ट डेटा को संसाधित करने के लिए उपयोग किया जाने वाला एक अन्य प्रकार का गहन शिक्षण आर्किटेक्चर है एक दीर्घकालिक अल्पकालिक मेमोरी (LSTM) नेटवर्क. LSTM नेटवर्क संरचना में RNN के समान हैं, लेकिन उनकी वास्तुकला में कुछ अंतरों के कारण वे RNN से बेहतर प्रदर्शन करते हैं। वे एक विशिष्ट समस्या से बचते हैं जो अक्सर आरएनएन का उपयोग करते समय उत्पन्न होती है जिसे कहा जाता है विस्फोटित ढाल समस्या.

ये गहरे तंत्रिका नेटवर्क या तो यूनिडायरेक्शनल या द्वि-दिशात्मक हो सकते हैं। द्वि-दिशात्मक नेटवर्क न केवल वर्तमान शब्द से पहले आने वाले शब्दों को, बल्कि उसके बाद आने वाले शब्दों को भी ध्यान में रखने में सक्षम हैं। हालाँकि इससे उच्च सटीकता प्राप्त होती है, यह कम्प्यूटेशनल रूप से अधिक महंगा है।

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के लिए मामलों का उपयोग करें

फोटो: मोहम्मद हसन पिक्साबे के माध्यम से, पिक्साबे लाइसेंस (https://pixabay.com/ Illustrations/chatbot-chat-application-artificial-3589528/)

क्योंकि प्राकृतिक भाषा प्रसंस्करण में मानव भाषाओं का विश्लेषण और हेरफेर शामिल है, इसमें अनुप्रयोगों की अविश्वसनीय रूप से विस्तृत श्रृंखला है। एनएलपी के संभावित अनुप्रयोगों में चैटबॉट, डिजिटल सहायक, भावना विश्लेषण, दस्तावेज़ संगठन, प्रतिभा भर्ती और स्वास्थ्य देखभाल शामिल हैं।

अमेज़ॅन के एलेक्सा और गूगल असिस्टेंट जैसे चैटबॉट और डिजिटल सहायक आवाज पहचान और संश्लेषण प्लेटफार्मों के उदाहरण हैं जो मुखर आदेशों की व्याख्या और प्रतिक्रिया करने के लिए एनएलपी का उपयोग करते हैं। ये डिजिटल सहायक विभिन्न प्रकार के कार्यों में लोगों की मदद करते हैं, जिससे उन्हें अपने कुछ संज्ञानात्मक कार्यों को किसी अन्य डिवाइस पर लोड करने और अन्य, अधिक महत्वपूर्ण चीजों के लिए अपनी कुछ दिमागी शक्ति को मुक्त करने की सुविधा मिलती है। व्यस्त सुबह में बैंक के लिए सबसे अच्छा रास्ता खोजने के बजाय, हम बस अपने डिजिटल सहायक से यह काम करवा सकते हैं।

भावनाओं का विश्लेषण किसी घटना के प्रति लोगों की प्रतिक्रियाओं और भावनाओं का अध्ययन करने के लिए एनएलपी तकनीकों का उपयोग किया जाता है, जैसा कि उनकी भाषा के उपयोग से संप्रेषित होता है। किसी कथन की भावना को पकड़ना, जैसे कि यह व्याख्या करना कि किसी उत्पाद की समीक्षा अच्छी है या बुरी, कंपनियों को इस बारे में पर्याप्त जानकारी प्रदान कर सकती है कि उनके उत्पाद को कैसे प्राप्त किया जा रहा है।

टेक्स्ट दस्तावेज़ों को स्वचालित रूप से व्यवस्थित करना एनएलपी का एक अन्य अनुप्रयोग है। Google और Yahoo जैसी कंपनियाँ ईमेल दस्तावेज़ों को वर्गीकृत करने के लिए एनएलपी एल्गोरिदम का उपयोग करती हैं, उन्हें "सामाजिक" या "प्रचार" जैसे उपयुक्त डिब्बे में डालती हैं। वे इन तकनीकों का उपयोग भी करते हैं स्पैम की पहचान करें और इसे अपने इनबॉक्स तक पहुंचने से रोकें।

समूहों ने एनएलपी तकनीकें भी विकसित की हैं जिनका उपयोग संभावित नौकरी की पहचान करने और प्रासंगिक कौशल के आधार पर उन्हें खोजने के लिए किया जा रहा है। आवेदकों की सूची को क्रमबद्ध करने में मदद के लिए नियुक्ति प्रबंधक एनएलपी तकनीकों का भी उपयोग कर रहे हैं।

स्वास्थ्य देखभाल को बेहतर बनाने के लिए एनएलपी तकनीकों का भी उपयोग किया जा रहा है। एनएलपी का उपयोग बीमारियों का पता लगाने में सुधार के लिए किया जा सकता है। स्वास्थ्य रिकॉर्ड का विश्लेषण किया जा सकता है और एनएलपी एल्गोरिदम द्वारा लक्षण निकाले जा सकते हैं, जिसका उपयोग संभावित निदान का सुझाव देने के लिए किया जा सकता है। इसका एक उदाहरण अमेज़ॅन का कॉम्प्रेहेंड मेडिकल प्लेटफ़ॉर्म है, जो स्वास्थ्य रिकॉर्ड का विश्लेषण करता है और बीमारियों और उपचारों को निकालता है। एनएलपी के स्वास्थ्य देखभाल अनुप्रयोग मानसिक स्वास्थ्य तक भी विस्तारित हैं। ऐप्स हैं जैसे WoeBoटी, जो संज्ञानात्मक व्यवहार थेरेपी पर आधारित विभिन्न प्रकार की चिंता प्रबंधन तकनीकों के माध्यम से उपयोगकर्ताओं से बात करता है।

विशेषज्ञता वाले ब्लॉगर और प्रोग्रामर मशीन लर्निंग और गहरी सीख विषय। डैनियल को उम्मीद है कि वह दूसरों को सामाजिक भलाई के लिए एआई की शक्ति का उपयोग करने में मदद करेगा।

Recent Posts