AI 101
पर्यवेक्षित बनाम अप्रशिक्षित शिक्षा

मशीन लर्निंग में, अधिकांश कार्यों को आसानी से दो अलग-अलग वर्गों में वर्गीकृत किया जा सकता है: पर्यवेक्षित शिक्षा समस्याएं या अप्रशिक्षित शिक्षा समस्याएं। पर्यवेक्षित शिक्षा में, डेटा में लेबल या वर्ग जोड़े जाते हैं, जबकि अप्रशिक्षित शिक्षा के मामले में डेटा अनलेबल होता है। आइए इस अंतर क्यों महत्वपूर्ण है और प्रत्येक प्रकार की शिक्षा से संबंधित कुछ एल्गोरिदम पर एक नज़दीकी नज़र डालें।
पर्यवेक्षित बनाम अप्रशिक्षित शिक्षा
अधिकांश मशीन लर्निंग कार्य पर्यवेक्षित शिक्षा के डोमेन में हैं। पर्यवेक्षित शिक्षा एल्गोरिदम में, डेटासेट में व्यक्तिगत उदाहरणों/डेटा बिंदुओं में एक वर्ग या लेबल सौंपा जाता है। इसका अर्थ है कि मशीन लर्निंग मॉडल सीख सकता है कि कौन सी विशेषताएं एक दिए गए वर्ग से संबंधित हैं और मशीन लर्निंग इंजीनियर मॉडल के प्रदर्शन की जांच कर सकता है यह देखकर कि कितने उदाहरण ठीक से वर्गीकृत किए गए थे। वर्गीकरण एल्गोरिदम जटिल पैटर्न को समझने के लिए उपयोग किए जा सकते हैं, बशर्ते डेटा उचित वर्गों के साथ लेबल किया गया हो। उदाहरण के लिए, एक मशीन-लर्निंग एल्गोरिदम “व्हिस्कर्स”, “पूंछ”, “पंजे” आदि जैसी विशेषताओं के आधार पर एक दूसरे से विभिन्न जानवरों को पहचानना सीख सकता है।
पर्यवेक्षित शिक्षा के विपरीत, अप्रशिक्षित शिक्षा में एक मॉडल बनाना शामिल है जो अनलेबल डेटा से पैटर्न निकालने में सक्षम है। दूसरे शब्दों में, कंप्यूटर इनपुट विशेषताओं का विश्लेषण करता है और स्वयं यह निर्धारित करता है कि सबसे महत्वपूर्ण विशेषताएं और पैटर्न क्या हैं। अप्रशिक्षित शिक्षा विभिन्न उदाहरणों के बीच अंतर्निहित समानताओं को खोजने का प्रयास करती है। यदि एक पर्यवेक्षित शिक्षा एल्गोरिदम ज्ञात वर्गों में डेटा बिंदुओं को रखने का लक्ष्य रखता है, तो अप्रशिक्षित शिक्षा एल्गोरिदम वस्तु उदाहरणों में सामान्य विशेषताओं की जांच करता है और इन विशेषताओं के आधार पर उन्हें समूहों में रखता है, मूल रूप से अपने वर्ग बनाता है।
पर्यवेक्षित शिक्षा एल्गोरिदम के उदाहरण रेखीय प्रतिगमन, लॉजिस्टिक प्रतिगमन, के-निकटतम पड़ोसी, निर्णय पेड़ और समर्थन वेक्टर मशीन हैं।
दूसरी ओर, अप्रशिक्षित शिक्षा एल्गोरिदम के कुछ उदाहरण मुख्य घटक विश्लेषण और के-साधन समूह हैं।
पर्यवेक्षित शिक्षा एल्गोरिदम
रेखीय प्रतिगमन एक एल्गोरिदम है जो दो विशेषताओं लेता है और उनके बीच संबंध को प्लॉट करता है। रेखीय प्रतिगमन अन्य संख्यात्मक चर के संबंध में संख्यात्मक मानों की भविष्यवाणी करने के लिए उपयोग किया जाता है। रेखीय प्रतिगमन का समीकरण Y = a + bX है, जहां b रेखा की ढलान है और a वह बिंदु है जहां y एक्स-अक्ष को पार करता है।
लॉजिस्टिक प्रतिगमन एक द्विआधारी वर्गीकरण एल्गोरिदम है। एल्गोरिदम संख्यात्मक विशेषताओं के बीच संबंध की जांच करता है और यह पता लगाता है कि उदाहरण को दो अलग-अलग वर्गों में से एक में वर्गीकृत करने की संभावना क्या है। संभावना मान “0” या “1” की ओर सिकुड़े हुए हैं। दूसरे शब्दों में, मजबूत संभावनाएं 0.99 की ओर बढ़ेंगी, जबकि कमजोर संभावनाएं 0 की ओर बढ़ेंगी।
के-निकटतम पड़ोसी प्रशिक्षण सेट में कुछ चुने हुए पड़ोसियों के सौंपे गए वर्गों के आधार पर नए डेटा बिंदुओं को एक वर्ग सौंपता है। एल्गोरिदम द्वारा माने जाने वाले पड़ोसियों की संख्या महत्वपूर्ण है, और बहुत कम या बहुत अधिक पड़ोसी बिंदुओं को गलत वर्गीकृत कर सकते हैं।
निर्णय पेड़ एक वर्गीकरण और प्रतिगमन एल्गोरिदम का एक प्रकार है। एक निर्णय पेड़ डेटासेट को छोटे और छोटे हिस्सों में विभाजित करके काम करता है जब तक कि उप-सेट विभाजित नहीं किए जा सकते और जो परिणाम होता है वह एक पेड़ है जिसमें नोड और पत्तियां होती हैं। नोड वह स्थान है जहां डेटा बिंदुओं के बारे में निर्णय विभिन्न फिल्टरिंग मानदंडों का उपयोग करके किए जाते हैं, जबकि पत्तियां उन उदाहरणों को सौंपी जाती हैं जिन्हें कुछ लेबल (एक वर्गीकृत डेटा बिंदु) सौंपा जाता है। निर्णय पेड़ एल्गोरिदम दोनों संख्यात्मक और श्रेणीबद्ध डेटा को संभाल सकते हैं। विशिष्ट चर/विशेषताओं पर पेड़ में विभाजन किए जाते हैं।
समर्थन वेक्टर मशीन एक वर्गीकरण एल्गोरिदम है जो डेटा बिंदुओं के बीच विभाजन, या पृथक्करण की रेखाएं खींचकर काम करता है। डेटा बिंदु विभाजन के आधार पर वर्गों में विभाजित किए जाते हैं कि वे किस हाइपरप्लेन के किस तरफ हैं। एक विमान पर कई हाइपरप्लेन खींचे जा सकते हैं, जो एक डेटासेट को कई वर्गों में विभाजित करते हैं। वर्गीकारक हाइपरप्लेन और उसके दोनों ओर के बिंदुओं के बीच की दूरी को अधिकतम करने का प्रयास करेगा, और जितनी अधिक दूरी होगी, रेखा और बिंदुओं के बीच, उतना ही अधिक वर्गीकारक आत्मविश्वासी होगा।
अप्रशिक्षित शिक्षा एल्गोरिदम
मुख्य घटक विश्लेषण एक तकनीक है जिसका उपयोग आयामों को कम करने के लिए किया जाता है, जिसका अर्थ है कि डेटा की जटिलता को एक सरल तरीके से प्रस्तुत किया जाता है। मुख्य घटक विश्लेषण एल्गोरिदम डेटा के लिए नए आयाम खोजता है जो ऑर्थोगोनल होते हैं। जबकि डेटा की आयामों को कम किया जाता है, डेटा के बीच परिवर्तनशीलता को यथासंभव अधिक संरक्षित किया जाना चाहिए। इसका अर्थ व्यावहारिक रूप से यह है कि यह डेटासेट में विशेषताओं को कम कर देता है जो अधिकांश डेटा का प्रतिनिधित्व करती हैं।
के-साधन समूह एक एल्गोरिदम है जो स्वचालित रूप से समान विशेषताओं के आधार पर डेटा बिंदुओं को समूहों में विभाजित करता है। डेटासेट में पैटर्न का विश्लेषण किया जाता है और डेटाबिंदु इन पैटर्न के आधार पर समूहों में विभाजित किए जाते हैं। मूल रूप से, के-साधन अपने आप अनलेबल डेटा से अपने वर्ग बनाता है। के-साधन एल्गोरिदम समूहों के केंद्र, या केंद्र बिंदुओं को सौंपकर काम करता है और केंद्र बिंदुओं को तब तक स्थानांतरित करता है जब तक कि केंद्र बिंदुओं के लिए इष्टतम स्थिति नहीं मिल जाती। इष्टतम स्थिति वह होगी जहां केंद्र बिंदुओं और समूह के भीतर आसपास के डेटा बिंदुओं के बीच की दूरी कम से कम होगी। के-साधन समूह में “के” से तात्पर्य केंद्र बिंदुओं की संख्या से है।
सारांश
निष्कर्ष में, आइए पर्यवेक्षित और अप्रशिक्षित शिक्षा के बीच मुख्य अंतरों पर जल्दी से गुजरें।
जैसा कि हमने पहले चर्चा की, पर्यवेक्षित शिक्षा कार्यों में इनपुट डेटा लेबल किया जाता है और वर्गों की संख्या ज्ञात होती है। दूसरी ओर, अप्रशिक्षित शिक्षा मामलों में इनपुट डेटा अनलेबल होता है और वर्गों की संख्या ज्ञात नहीं होती है। अप्रशिक्षित शिक्षा आमतौर पर कम गणनात्मक जटिलता वाली होती है, जबकि पर्यवेक्षित शिक्षा अधिक गणनात्मक जटिलता वाली होती है। जबकि पर्यवेक्षित शिक्षा परिणाम अत्यधिक सटीक होते हैं, अप्रशिक्षित शिक्षा परिणाम कम सटीक/मध्यम सटीक होते हैं।












