Connect with us

मशीन लर्निंग क्या है?

AI 101

मशीन लर्निंग क्या है?

mm

मशीन लर्निंग सबसे तेजी से बढ़ने वाले तकनीकी क्षेत्रों में से एक है, लेकिन “मशीन लर्निंग” शब्दों के बार-बार इस्तेमाल के बावजूद, यह समझना मुश्किल हो सकता है कि मशीन लर्निंग वास्तव में क्या है। मशीन लर्निंग केवल एक चीज को नहीं दर्शाता, यह एक व्यापक शब्द है जिसे कई अलग-अलग अवधारणाओं और तकनीकों पर लागू किया जा सकता है। मशीन लर्निंग को समझने का मतलब है मॉडल विश्लेषण, चर और एल्गोरिदम के विभिन्न रूपों से परिचित होना। आइए मशीन लर्निंग पर करीब से नज़र डालें ताकि यह बेहतर ढंग से समझ सकें कि इसमें क्या शामिल है।

मशीन लर्निंग क्या है?

हालांकि मशीन लर्निंग शब्द को कई अलग-अलग चीजों पर लागू किया जा सकता है, सामान्य तौर पर, यह शब्द एक कंप्यूटर को बिना स्पष्ट पंक्ति-दर-पंक्ति निर्देश प्राप्त किए कार्यों को करने में सक्षम बनाने को दर्शाता है। एक मशीन लर्निंग विशेषज्ञ को समस्या को हल करने के लिए आवश्यक सभी चरणों को लिखने की आवश्यकता नहीं होती क्योंकि कंप्यूटर डेटा के भीतर पैटर्न का विश्लेषण करके और इन पैटर्नों को नए डेटा के लिए सामान्यीकृत करके “सीखने” में सक्षम होता है। मशीन लर्निंग सिस्टम के तीन बुनियादी भाग होते हैं:

  • इनपुट
  • एल्गोरिदम
  • आउटपुट

इनपुट वह डेटा है जो मशीन लर्निंग सिस्टम में फीड किया जाता है, और इनपुट डेटा को लेबल और फीचर्स में विभाजित किया जा सकता है। फीचर्स प्रासंगिक चर होते हैं, वे चर जिनका पैटर्न सीखने और निष्कर्ष निकालने के लिए विश्लेषण किया जाएगा। इस बीच, लेबल डेटा के व्यक्तिगत उदाहरणों को दी गई कक्षाएं/विवरण होते हैं। फीचर्स और लेबल का उपयोग दो अलग-अलग प्रकार की मशीन लर्निंग समस्याओं में किया जा सकता है: सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग।

अनसुपरवाइज्ड बनाम सुपरवाइज्ड लर्निंग

सुपरवाइज्ड लर्निंग में, इनपुट डेटा के साथ एक ग्राउंड ट्रुथ (सही उत्तर) जुड़ा होता है। सुपरवाइज्ड लर्निंग समस्याओं में डेटासेट के हिस्से के रूप में सही आउटपुट मान होते हैं, इसलिए अपेक्षित कक्षाएं पहले से ज्ञात होती हैं। यह डेटा वैज्ञानिक के लिए एक टेस्ट डेटासेट पर डेटा का परीक्षण करके और यह देखकर कि कितने प्रतिशत आइटम सही ढंग से वर्गीकृत किए गए थे, एल्गोरिदम के प्रदर्शन की जांच करना संभव बनाता है। इसके विपरीत, अनसुपरवाइज्ड लर्निंग समस्याओं में ग्राउंड ट्रुथ लेबल संलग्न नहीं होते हैं। अनसुपरवाइज्ड लर्निंग कार्यों को करने के लिए प्रशिक्षित एक मशीन लर्निंग एल्गोरिदम को डेटा में प्रासंगिक पैटर्न स्वयं अनुमान लगाने में सक्षम होना चाहिए। सुपरवाइज्ड लर्निंग एल्गोरिदम का उपयोग आमतौर पर वर्गीकरण समस्याओं के लिए किया जाता है, जहां किसी के पास एक बड़ा डेटासेट होता है जो उदाहरणों से भरा होता है जिन्हें कई अलग-अलग वर्गों में से एक में वर्गीकृत किया जाना चाहिए। सुपरवाइज्ड लर्निंग का एक अन्य प्रकार रिग्रेशन कार्य है, जहां एल्गोरिदम द्वारा आउटपुट किया गया मान श्रेणीबद्ध होने के बजाय प्रकृति में निरंतर होता है। इस बीच, अनसुपरवाइज्ड लर्निंग एल्गोरिदम का उपयोग घनत्व अनुमान, क्लस्टरिंग और प्रतिनिधित्व लर्निंग जैसे कार्यों के लिए किया जाता है। इन तीन कार्यों के लिए मशीन लर्निंग मॉडल को डेटा की संरचना का अनुमान लगाने की आवश्यकता होती है, मॉडल को कोई पूर्वनिर्धारित वर्ग नहीं दिए जाते हैं। आइए अनसुपरवाइज्ड लर्निंग और सुपरवाइज्ड लर्निंग दोनों में उपयोग किए जाने वाले कुछ सबसे सामान्य एल्गोरिदम पर संक्षेप में नज़र डालें।

सुपरवाइज्ड लर्निंग के प्रकार

सामान्य सुपरवाइज्ड लर्निंग एल्गोरिदम में शामिल हैं:

  • नाइव बेयस
  • सपोर्ट वेक्टर मशीन
  • लॉजिस्टिक रिग्रेशन
  • रैंडम फॉरेस्ट
  • आर्टिफिशियल न्यूरल नेटवर्क

सपोर्ट वेक्टर मशीन ऐसे एल्गोरिदम हैं जो एक डेटासेट को विभिन्न वर्गों में विभाजित करते हैं। डेटा पॉइंट्स को रेखाएँ खींचकर क्लस्टर में समूहित किया जाता है जो वर्गों को एक-दूसरे से अलग करती हैं। रेखा के एक तरफ पाए जाने वाले बिंदु एक वर्ग के होंगे, जबकि रेखा के दूसरी तरफ के बिंदु एक अलग वर्ग के होंगे। सपोर्ट वेक्टर मशीन का उद्देश्य रेखा और रेखा के दोनों ओर पाए जाने वाले बिंदुओं के बीच की दूरी को अधिकतम करना है, और दूरी जितनी अधिक होगी, क्लासिफायर को उतना ही अधिक विश्वास होगा कि बिंदु एक वर्ग से संबंधित है न कि किसी अन्य वर्ग से। लॉजिस्टिक रिग्रेशन एक एल्गोरिदम है जिसका उपयोग बाइनरी वर्गीकरण कार्यों में किया जाता है जब डेटा पॉइंट्स को दो वर्गों में से एक के रूप में वर्गीकृत करने की आवश्यकता होती है। लॉजिस्टिक रिग्रेशन डेटा पॉइंट को या तो 1 या 0 लेबल करके काम करता है। यदि डेटा पॉइंट का अनुमानित मूल्य 0.49 या उससे कम है, तो इसे 0 के रूप में वर्गीकृत किया जाता है, जबकि यदि यह 0.5 या उससे अधिक है तो इसे 1 के रूप में वर्गीकृत किया जाता है। डिसीजन ट्री एल्गोरिदम डेटासेट को छोटे और छोटे टुकड़ों में विभाजित करके काम करते हैं। डेटा को विभाजित करने के लिए उपयोग किए जाने वाले सटीक मानदंड मशीन लर्निंग इंजीनियर पर निर्भर हैं, लेकिन लक्ष्य अंततः डेटा को एकल डेटा पॉइंट्स में विभाजित करना है, जिन्हें फिर एक कुंजी का उपयोग करके वर्गीकृत किया जाएगा। एक रैंडम फॉरेस्ट एल्गोरिदम अनिवार्य रूप से कई एकल डिसीजन ट्री क्लासिफायर एक साथ जुड़े हुए एक अधिक शक्तिशाली क्लासिफायर होते हैं। नाइव बेयस क्लासिफायर इस संभावना की गणना करता है कि एक पूर्व घटना के घटित होने की संभावना के आधार पर एक दिया गया डेटा पॉइंट घटित हुआ है। यह बेयस प्रमेय पर आधारित है और यह डेटा पॉइंट्स को उनकी गणना की गई संभावना के आधार पर वर्गों में रखता है। नाइव बेयस क्लासिफायर को लागू करते समय, यह माना जाता है कि सभी भविष्यवक्ताओं का क्लास परिणाम पर समान प्रभाव पड़ता है। एक आर्टिफिशियल न्यूरल नेटवर्क, या मल्टी-लेयर पर्सेप्ट्रॉन, मानव मस्तिष्क की संरचना और कार्य से प्रेरित मशीन लर्निंग एल्गोरिदम हैं। आर्टिफिशियल न्यूरल नेटवर्क को उनका नाम इस तथ्य से मिलता है कि वे कई नोड्स/न्यूरॉन्स से बने होते हैं जो एक साथ जुड़े होते हैं। प्रत्येक न्यूरॉन एक गणितीय फ़ंक्शन के साथ डेटा में हेरफेर करता है। आर्टिफिशियल न्यूरल नेटवर्क में, इनपुट लेयर, हिडन लेयर और आउटपुट लेयर होती हैं। न्यूरल नेटवर्क की हिडन लेयर वह जगह है जहां डेटा का वास्तव में व्याख्या किया जाता है और पैटर्न के लिए विश्लेषण किया जाता है। दूसरे शब्दों में, यह वह जगह है जहां एल्गोरिदम सीखता है। अधिक न्यूरॉन एक साथ जुड़कर अधिक जटिल नेटवर्क बनाते हैं जो अधिक जटिल पैटर्न सीखने में सक्षम होते हैं।

अनसुपरवाइज्ड लर्निंग के प्रकार

अनसुपरवाइज्ड लर्निंग एल्गोरिदम में शामिल हैं:

  • K-मीन्स क्लस्टरिंग
  • ऑटोएनकोडर
  • प्रिंसिपल कंपोनेंट एनालिसिस

K-मीन्स क्लस्टरिंग एक अनसुपरवाइज्ड वर्गीकरण तकनीक है, और यह डेटा के बिंदुओं को उनके फीचर्स के आधार पर क्लस्टर या समूहों में अलग करके काम करती है। K-मीन्स क्लस्टरिंग डेटा पॉइंट्स में पाए जाने वाले फीचर्स का विश्लेषण करती है और उनमें पैटर्न को अलग करती है जो किसी दिए गए वर्ग क्लस्टर में पाए जाने वाले डेटा पॉइंट्स को अन्य डेटा पॉइंट्स वाले क्लस्टर की तुलना में एक-दूसरे के समान बनाते हैं। यह क्लस्टर के संभावित केंद्रों, या सेंट्रोइड्स को डेटा के ग्राफ में रखकर और सेंट्रोइड की स्थिति को तब तक पुन: असाइन करके पूरा किया जाता है जब तक कि एक ऐसी स्थिति नहीं मिल जाती जो सेंट्रोइड और उन बिंदुओं के बीच की दूरी को कम कर देती है जो उस सेंट्रोइड के वर्ग से संबंधित हैं। शोधकर्ता वांछित क्लस्टरों की संख्या निर्दिष्ट कर सकते हैं। प्रिंसिपल कंपोनेंट एनालिसिस एक ऐसी तकनीक है जो फीचर्स/चर की बड़ी संख्या को एक छोटे फीचर स्पेस/कम फीचर्स में कम कर देती है। डेटा पॉइंट्स के “प्रिंसिपल कंपोनेंट्स” को संरक्षण के लिए

Blogger and programmer with specialties in Machine Learning and Deep Learning topics. Daniel hopes to help others use the power of AI for social good.