Refresh

This website www.unite.ai/hi/what-is-machine-learning/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

हमसे जुडे

एआई 101

मशीन लर्निंग क्या है?

mm
Updated on

मशीन लर्निंग सबसे तेजी से बढ़ते तकनीकी क्षेत्रों में से एक है, लेकिन "मशीन लर्निंग" शब्द कितनी बार उछाले जाते हैं, इसके बावजूद यह समझना मुश्किल हो सकता है कि मशीन लर्निंग क्या है।

मशीन लर्निंग यह केवल एक चीज़ को संदर्भित नहीं करता है, यह एक व्यापक शब्द है जिसे कई अलग-अलग अवधारणाओं और तकनीकों पर लागू किया जा सकता है। मशीन लर्निंग को समझने का अर्थ है मॉडल विश्लेषण, चर और एल्गोरिदम के विभिन्न रूपों से परिचित होना। आइए बेहतर ढंग से समझने के लिए मशीन लर्निंग पर करीब से नज़र डालें कि इसमें क्या शामिल है।

मशीन लर्निंग क्या है?

जबकि मशीन लर्निंग शब्द को कई अलग-अलग चीजों पर लागू किया जा सकता है, सामान्य तौर पर, यह शब्द कंप्यूटर को ऐसा करने के लिए स्पष्ट लाइन-दर-लाइन निर्देश प्राप्त किए बिना कार्य करने में सक्षम बनाता है। एक मशीन लर्निंग विशेषज्ञ को समस्या को हल करने के लिए आवश्यक सभी चरणों को लिखने की ज़रूरत नहीं है क्योंकि कंप्यूटर डेटा के भीतर पैटर्न का विश्लेषण करके और इन पैटर्न को नए डेटा में सामान्यीकृत करके "सीखने" में सक्षम है।

मशीन लर्निंग सिस्टम के तीन बुनियादी भाग होते हैं:

  • निविष्टियां
  • एल्गोरिदम
  • आउटपुट

इनपुट वह डेटा है जो मशीन लर्निंग सिस्टम में फीड किया जाता है, और इनपुट डेटा को लेबल और फीचर्स में विभाजित किया जा सकता है। विशेषताएँ प्रासंगिक चर हैं, वे चर जिनका विश्लेषण पैटर्न सीखने और निष्कर्ष निकालने के लिए किया जाएगा। इस बीच, लेबल डेटा के अलग-अलग उदाहरणों को दिए गए वर्ग/विवरण हैं।

सुविधाओं और लेबलों का उपयोग दो अलग-अलग प्रकार की मशीन सीखने की समस्याओं में किया जा सकता है: पर्यवेक्षित शिक्षण और गैर-पर्यवेक्षित शिक्षण।

अपर्यवेक्षित बनाम पर्यवेक्षित शिक्षण

In पर्यवेक्षित अध्ययन, इनपुट डेटा जमीनी सच्चाई के साथ है। पर्यवेक्षित शिक्षण समस्याओं में डेटासेट के हिस्से के रूप में सही आउटपुट मान होते हैं, इसलिए अपेक्षित कक्षाएं पहले से ज्ञात होती हैं। इससे डेटा वैज्ञानिक के लिए परीक्षण डेटासेट पर डेटा का परीक्षण करके और यह देखकर कि कितने प्रतिशत आइटम सही ढंग से वर्गीकृत किए गए थे, एल्गोरिदम के प्रदर्शन की जांच करना संभव हो जाता है।

इसके विपरीत, अप्रकाशित शिक्षा समस्याओं के साथ जमीनी सच्चाई का लेबल नहीं जुड़ा होता। बिना पर्यवेक्षित शिक्षण कार्यों को करने के लिए प्रशिक्षित एक मशीन लर्निंग एल्गोरिदम को अपने लिए डेटा में प्रासंगिक पैटर्न का अनुमान लगाने में सक्षम होना चाहिए।

पर्यवेक्षित शिक्षण एल्गोरिदम का उपयोग आम तौर पर वर्गीकरण समस्याओं के लिए किया जाता है, जहां किसी के पास उदाहरणों से भरा एक बड़ा डेटासेट होता है जिसे कई अलग-अलग वर्गों में से एक में क्रमबद्ध किया जाना चाहिए। एक अन्य प्रकार की पर्यवेक्षित शिक्षा एक प्रतिगमन कार्य है, जहां एल्गोरिदम द्वारा मूल्य आउटपुट श्रेणीबद्ध के बजाय प्रकृति में निरंतर होता है।

इस बीच, गैर-पर्यवेक्षित शिक्षण एल्गोरिदम का उपयोग घनत्व अनुमान, क्लस्टरिंग और प्रतिनिधित्व सीखने जैसे कार्यों के लिए किया जाता है। इन तीन कार्यों के लिए डेटा की संरचना का अनुमान लगाने के लिए मशीन लर्निंग मॉडल की आवश्यकता होती है, मॉडल को कोई पूर्वनिर्धारित कक्षाएं नहीं दी जाती हैं।

आइए बिना पर्यवेक्षित शिक्षण और पर्यवेक्षित शिक्षण दोनों में उपयोग किए जाने वाले कुछ सबसे सामान्य एल्गोरिदम पर एक संक्षिप्त नज़र डालें।

पर्यवेक्षित शिक्षण के प्रकार

सामान्य पर्यवेक्षित शिक्षण एल्गोरिदम में शामिल हैं:

  • भोले भाले
  • समर्थन वेक्टर मशीन
  • रसद प्रतिगमन
  • यादृच्छिक वन
  • कृत्रिम तंत्रिका नेटवर्क

समर्थन वेक्टर मशीन एल्गोरिदम हैं जो डेटासेट को विभिन्न वर्गों में विभाजित करते हैं। डेटा बिंदुओं को रेखाएँ खींचकर समूहों में समूहीकृत किया जाता है जो कक्षाओं को एक दूसरे से अलग करते हैं। रेखा के एक तरफ पाए जाने वाले बिंदु एक वर्ग के होंगे, जबकि रेखा के दूसरी तरफ के बिंदु एक अलग वर्ग के होंगे। सपोर्ट वेक्टर मशीनों का लक्ष्य रेखा और रेखा के दोनों ओर पाए जाने वाले बिंदुओं के बीच की दूरी को अधिकतम करना है, और दूरी जितनी अधिक होगी, क्लासिफायरियर को उतना ही अधिक विश्वास होगा कि बिंदु एक वर्ग का है, दूसरे वर्ग का नहीं।

रसद प्रतिगमन एक एल्गोरिथ्म है जिसका उपयोग बाइनरी वर्गीकरण कार्यों में किया जाता है जब डेटा बिंदुओं को दो वर्गों में से एक के रूप में वर्गीकृत करने की आवश्यकता होती है। लॉजिस्टिक रिग्रेशन डेटा बिंदु को 1 या 0 लेबल करके काम करता है। यदि डेटा बिंदु का अनुमानित मूल्य 0.49 या उससे नीचे है, तो इसे 0 के रूप में वर्गीकृत किया जाता है, जबकि यदि यह 0.5 या उससे ऊपर है तो इसे 1 के रूप में वर्गीकृत किया जाता है।

निर्णय वृक्ष एल्गोरिदम डेटासेट को छोटे और छोटे टुकड़ों में विभाजित करके संचालित करें। डेटा को विभाजित करने के लिए उपयोग किए जाने वाले सटीक मानदंड मशीन लर्निंग इंजीनियर पर निर्भर हैं, लेकिन लक्ष्य अंततः डेटा को एकल डेटा बिंदुओं में विभाजित करना है, जिसे बाद में एक कुंजी का उपयोग करके वर्गीकृत किया जाएगा।

एक रैंडम फ़ॉरेस्ट एल्गोरिदम अनिवार्य रूप से कई एकल निर्णय वृक्ष क्लासिफायरियर हैं जो एक अधिक शक्तिशाली क्लासिफायरियर में एक साथ जुड़े हुए हैं।

RSI नैवे बेस क्लासिफायर किसी पूर्व घटना के घटित होने की संभावना के आधार पर किसी दिए गए डेटा बिंदु के घटित होने की संभावना की गणना करता है। यह बेयस प्रमेय पर आधारित है और यह डेटा बिंदुओं को उनकी गणना की गई संभावना के आधार पर वर्गों में रखता है। Naive Bayes क्लासिफायरियर को लागू करते समय, यह माना जाता है कि सभी भविष्यवक्ताओं का कक्षा के परिणाम पर समान प्रभाव पड़ता है।

An कृत्रिम तंत्रिका नेटवर्क, या मल्टी-लेयर परसेप्ट्रॉन, मानव मस्तिष्क की संरचना और कार्य से प्रेरित मशीन लर्निंग एल्गोरिदम हैं। कृत्रिम तंत्रिका नेटवर्क को उनका नाम इस तथ्य से मिला है कि वे एक साथ जुड़े कई नोड्स/न्यूरॉन्स से बने होते हैं। प्रत्येक न्यूरॉन एक गणितीय फ़ंक्शन के साथ डेटा में हेरफेर करता है। कृत्रिम तंत्रिका नेटवर्क में, इनपुट परतें, छिपी हुई परतें और आउटपुट परतें होती हैं।

तंत्रिका नेटवर्क की छिपी हुई परत वह जगह है जहां पैटर्न के लिए डेटा की वास्तव में व्याख्या और विश्लेषण किया जाता है। दूसरे शब्दों में, यह वह जगह है जहां एल्गोरिदम सीखता है। अधिक न्यूरॉन्स एक साथ जुड़ने से अधिक जटिल नेटवर्क बनते हैं जो अधिक जटिल पैटर्न सीखने में सक्षम होते हैं।

अपर्यवेक्षित शिक्षण के प्रकार

अप्रशिक्षित शिक्षण एल्गोरिदम में शामिल हैं:

  • K- का अर्थ है क्लस्टरिंग
  • आटो चालक
  • प्रमुख कंपोनेंट विश्लेषण

K- का अर्थ है क्लस्टरिंग एक अपर्यवेक्षित वर्गीकरण तकनीक है, और यह डेटा के बिंदुओं को उनकी विशेषताओं के आधार पर समूहों या समूहों में अलग करके काम करती है। के-मीन्स क्लस्टरिंग डेटा बिंदुओं में पाई जाने वाली विशेषताओं का विश्लेषण करती है और उनमें पैटर्न को अलग करती है जो किसी दिए गए क्लास क्लस्टर में पाए जाने वाले डेटा बिंदुओं को अन्य डेटा बिंदुओं वाले क्लस्टर की तुलना में एक-दूसरे के समान बनाती है। यह डेटा के ग्राफ़ में क्लस्टर, या सेंट्रोइड के लिए संभावित केंद्रों को रखकर और सेंट्रोइड की स्थिति को फिर से निर्दिष्ट करके पूरा किया जाता है जब तक कि कोई स्थिति नहीं मिल जाती है जो सेंट्रोइड और उस सेंट्रोइड के वर्ग से संबंधित बिंदुओं के बीच की दूरी को कम कर देती है। शोधकर्ता समूहों की वांछित संख्या निर्दिष्ट कर सकता है।

प्रमुख कंपोनेंट विश्लेषण एक ऐसी तकनीक है जो बड़ी संख्या में फीचर्स/वेरिएबल्स को कम करके छोटे फीचर स्पेस/कम फीचर्स में बदल देती है। डेटा बिंदुओं के "प्रमुख घटकों" को संरक्षण के लिए चुना जाता है, जबकि अन्य सुविधाओं को एक छोटे प्रतिनिधित्व में निचोड़ा जाता है। मूल डेटा औषधियों के बीच संबंध संरक्षित है, लेकिन चूंकि डेटा बिंदुओं की जटिलता सरल है, इसलिए डेटा को परिमाणित करना और वर्णन करना आसान है।

आटो चालक तंत्रिका नेटवर्क के संस्करण हैं जिन्हें बिना पर्यवेक्षित शिक्षण कार्यों पर लागू किया जा सकता है। ऑटोएन्कोडर्स अनलेबल, फ्री-फॉर्म डेटा लेने और उन्हें डेटा में बदलने में सक्षम हैं जो एक तंत्रिका नेटवर्क उपयोग करने में सक्षम है, मूल रूप से अपना स्वयं का लेबल प्रशिक्षण डेटा बनाते हैं। एक ऑटोएनकोडर का लक्ष्य इनपुट डेटा को परिवर्तित करना और इसे यथासंभव सटीक रूप से पुनर्निर्माण करना है, इसलिए यह नेटवर्क के प्रोत्साहन में है कि वह यह निर्धारित करे कि कौन सी विशेषताएं सबसे महत्वपूर्ण हैं और उन्हें निकालें।

विशेषज्ञता वाले ब्लॉगर और प्रोग्रामर मशीन लर्निंग और गहरी सीख विषय। डैनियल को उम्मीद है कि वह दूसरों को सामाजिक भलाई के लिए एआई की शक्ति का उपयोग करने में मदद करेगा।