Connect with us

पर्यवेक्षित बनाम अप्रशिक्षित शिक्षा

AI 101

पर्यवेक्षित बनाम अप्रशिक्षित शिक्षा

mm

मशीन लर्निंग में, अधिकांश कार्यों को आसानी से दो अलग-अलग वर्गों में वर्गीकृत किया जा सकता है: पर्यवेक्षित शिक्षा समस्याएं या अप्रशिक्षित शिक्षा समस्याएं। पर्यवेक्षित शिक्षा में, डेटा में लेबल या वर्ग जोड़े जाते हैं, जबकि अप्रशिक्षित शिक्षा के मामले में डेटा अनलेबल होता है। आइए इस अंतर क्यों महत्वपूर्ण है और प्रत्येक प्रकार की शिक्षा से संबंधित कुछ एल्गोरिदम पर एक नज़दीकी नज़र डालें।

पर्यवेक्षित बनाम अप्रशिक्षित शिक्षा

अधिकांश मशीन लर्निंग कार्य पर्यवेक्षित शिक्षा के डोमेन में हैं। पर्यवेक्षित शिक्षा एल्गोरिदम में, डेटासेट में व्यक्तिगत उदाहरणों/डेटा बिंदुओं में एक वर्ग या लेबल सौंपा जाता है। इसका अर्थ है कि मशीन लर्निंग मॉडल सीख सकता है कि कौन सी विशेषताएं एक दिए गए वर्ग से संबंधित हैं और मशीन लर्निंग इंजीनियर मॉडल के प्रदर्शन की जांच कर सकता है यह देखकर कि कितने उदाहरण ठीक से वर्गीकृत किए गए थे। वर्गीकरण एल्गोरिदम जटिल पैटर्न को समझने के लिए उपयोग किए जा सकते हैं, बशर्ते डेटा उचित वर्गों के साथ लेबल किया गया हो। उदाहरण के लिए, एक मशीन-लर्निंग एल्गोरिदम “व्हिस्कर्स”, “पूंछ”, “पंजे” आदि जैसी विशेषताओं के आधार पर एक दूसरे से विभिन्न जानवरों को पहचानना सीख सकता है।
पर्यवेक्षित शिक्षा के विपरीत, अप्रशिक्षित शिक्षा में एक मॉडल बनाना शामिल है जो अनलेबल डेटा से पैटर्न निकालने में सक्षम है। दूसरे शब्दों में, कंप्यूटर इनपुट विशेषताओं का विश्लेषण करता है और स्वयं यह निर्धारित करता है कि सबसे महत्वपूर्ण विशेषताएं और पैटर्न क्या हैं। अप्रशिक्षित शिक्षा विभिन्न उदाहरणों के बीच अंतर्निहित समानताओं को खोजने का प्रयास करती है। यदि एक पर्यवेक्षित शिक्षा एल्गोरिदम ज्ञात वर्गों में डेटा बिंदुओं को रखने का लक्ष्य रखता है, तो अप्रशिक्षित शिक्षा एल्गोरिदम वस्तु उदाहरणों में सामान्य विशेषताओं की जांच करता है और इन विशेषताओं के आधार पर उन्हें समूहों में रखता है, मूल रूप से अपने वर्ग बनाता है।
पर्यवेक्षित शिक्षा एल्गोरिदम के उदाहरण रेखीय प्रतिगमन, लॉजिस्टिक प्रतिगमन, के-निकटतम पड़ोसी, निर्णय पेड़ और समर्थन वेक्टर मशीन हैं।
दूसरी ओर, अप्रशिक्षित शिक्षा एल्गोरिदम के कुछ उदाहरण मुख्य घटक विश्लेषण और के-साधन समूह हैं।

पर्यवेक्षित शिक्षा एल्गोरिदम

रेखीय प्रतिगमन एक एल्गोरिदम है जो दो विशेषताओं लेता है और उनके बीच संबंध को प्लॉट करता है। रेखीय प्रतिगमन अन्य संख्यात्मक चर के संबंध में संख्यात्मक मानों की भविष्यवाणी करने के लिए उपयोग किया जाता है। रेखीय प्रतिगमन का समीकरण Y = a + bX है, जहां b रेखा की ढलान है और a वह बिंदु है जहां y एक्स-अक्ष को पार करता है।
लॉजिस्टिक प्रतिगमन एक द्विआधारी वर्गीकरण एल्गोरिदम है। एल्गोरिदम संख्यात्मक विशेषताओं के बीच संबंध की जांच करता है और यह पता लगाता है कि उदाहरण को दो अलग-अलग वर्गों में से एक में वर्गीकृत करने की संभावना क्या है। संभावना मान “0” या “1” की ओर सिकुड़े हुए हैं। दूसरे शब्दों में, मजबूत संभावनाएं 0.99 की ओर बढ़ेंगी, जबकि कमजोर संभावनाएं 0 की ओर बढ़ेंगी।
के-निकटतम पड़ोसी प्रशिक्षण सेट में कुछ चुने हुए पड़ोसियों के सौंपे गए वर्गों के आधार पर नए डेटा बिंदुओं को एक वर्ग सौंपता है। एल्गोरिदम द्वारा माने जाने वाले पड़ोसियों की संख्या महत्वपूर्ण है, और बहुत कम या बहुत अधिक पड़ोसी बिंदुओं को गलत वर्गीकृत कर सकते हैं।
निर्णय पेड़ एक वर्गीकरण और प्रतिगमन एल्गोरिदम का एक प्रकार है। एक निर्णय पेड़ डेटासेट को छोटे और छोटे हिस्सों में विभाजित करके काम करता है जब तक कि उप-सेट विभाजित नहीं किए जा सकते और जो परिणाम होता है वह एक पेड़ है जिसमें नोड और पत्तियां होती हैं। नोड वह स्थान है जहां डेटा बिंदुओं के बारे में निर्णय विभिन्न फिल्टरिंग मानदंडों का उपयोग करके किए जाते हैं, जबकि पत्तियां उन उदाहरणों को सौंपी जाती हैं जिन्हें कुछ लेबल (एक वर्गीकृत डेटा बिंदु) सौंपा जाता है। निर्णय पेड़ एल्गोरिदम दोनों संख्यात्मक और श्रेणीबद्ध डेटा को संभाल सकते हैं। विशिष्ट चर/विशेषताओं पर पेड़ में विभाजन किए जाते हैं।
समर्थन वेक्टर मशीन एक वर्गीकरण एल्गोरिदम है जो डेटा बिंदुओं के बीच विभाजन, या पृथक्करण की रेखाएं खींचकर काम करता है। डेटा बिंदु विभाजन के आधार पर वर्गों में विभाजित किए जाते हैं कि वे किस हाइपरप्लेन के किस तरफ हैं। एक विमान पर कई हाइपरप्लेन खींचे जा सकते हैं, जो एक डेटासेट को कई वर्गों में विभाजित करते हैं। वर्गीकारक हाइपरप्लेन और उसके दोनों ओर के बिंदुओं के बीच की दूरी को अधिकतम करने का प्रयास करेगा, और जितनी अधिक दूरी होगी, रेखा और बिंदुओं के बीच, उतना ही अधिक वर्गीकारक आत्मविश्वासी होगा।

अप्रशिक्षित शिक्षा एल्गोरिदम

मुख्य घटक विश्लेषण एक तकनीक है जिसका उपयोग आयामों को कम करने के लिए किया जाता है, जिसका अर्थ है कि डेटा की जटिलता को एक सरल तरीके से प्रस्तुत किया जाता है। मुख्य घटक विश्लेषण एल्गोरिदम डेटा के लिए नए आयाम खोजता है जो ऑर्थोगोनल होते हैं। जबकि डेटा की आयामों को कम किया जाता है, डेटा के बीच परिवर्तनशीलता को यथासंभव अधिक संरक्षित किया जाना चाहिए। इसका अर्थ व्यावहारिक रूप से यह है कि यह डेटासेट में विशेषताओं को कम कर देता है जो अधिकांश डेटा का प्रतिनिधित्व करती हैं।
के-साधन समूह एक एल्गोरिदम है जो स्वचालित रूप से समान विशेषताओं के आधार पर डेटा बिंदुओं को समूहों में विभाजित करता है। डेटासेट में पैटर्न का विश्लेषण किया जाता है और डेटाबिंदु इन पैटर्न के आधार पर समूहों में विभाजित किए जाते हैं। मूल रूप से, के-साधन अपने आप अनलेबल डेटा से अपने वर्ग बनाता है। के-साधन एल्गोरिदम समूहों के केंद्र, या केंद्र बिंदुओं को सौंपकर काम करता है और केंद्र बिंदुओं को तब तक स्थानांतरित करता है जब तक कि केंद्र बिंदुओं के लिए इष्टतम स्थिति नहीं मिल जाती। इष्टतम स्थिति वह होगी जहां केंद्र बिंदुओं और समूह के भीतर आसपास के डेटा बिंदुओं के बीच की दूरी कम से कम होगी। के-साधन समूह में “के” से तात्पर्य केंद्र बिंदुओं की संख्या से है।

सारांश

निष्कर्ष में, आइए पर्यवेक्षित और अप्रशिक्षित शिक्षा के बीच मुख्य अंतरों पर जल्दी से गुजरें।
जैसा कि हमने पहले चर्चा की, पर्यवेक्षित शिक्षा कार्यों में इनपुट डेटा लेबल किया जाता है और वर्गों की संख्या ज्ञात होती है। दूसरी ओर, अप्रशिक्षित शिक्षा मामलों में इनपुट डेटा अनलेबल होता है और वर्गों की संख्या ज्ञात नहीं होती है। अप्रशिक्षित शिक्षा आमतौर पर कम गणनात्मक जटिलता वाली होती है, जबकि पर्यवेक्षित शिक्षा अधिक गणनात्मक जटिलता वाली होती है। जबकि पर्यवेक्षित शिक्षा परिणाम अत्यधिक सटीक होते हैं, अप्रशिक्षित शिक्षा परिणाम कम सटीक/मध्यम सटीक होते हैं।

Blogger and programmer with specialties in Machine Learning and Deep Learning topics. Daniel hopes to help others use the power of AI for social good.