AI 101
एन्सेम्बल लर्निंग क्या है?

मशीन लर्निंग की सबसे शक्तिशाली तकनीकों में से एक एन्सेम्बल लर्निंग है। एन्सेम्बल लर्निंग भविष्यवाणियों की विश्वसनीयता और सटीकता में सुधार के लिए कई मशीन लर्निंग मॉडल का उपयोग है। फिर भी, कई मशीन लर्निंग मॉडल के उपयोग से अधिक सटीक भविष्यवाणियाँ कैसे होती हैं? एन्सेम्बल लर्निंग मॉडल बनाने के लिए किस प्रकार की तकनीकों का उपयोग किया जाता है? हम इन सवालों के जवाब का पता लगाएंगे, एन्सेम्बल मॉडल के उपयोग के पीछे के तर्क और एन्सेम्बल मॉडल बनाने के प्राथमिक तरीकों पर एक नज़र डालेंगे।
एन्सेम्बल लर्निंग क्या है?
सीधे शब्दों में कहें, एन्सेम्बल लर्निंग कई मशीन लर्निंग मॉडल को प्रशिक्षित करने और उनके आउटपुट को एक साथ संयोजित करने की प्रक्रिया है। विभिन्न मॉडल एक इष्टतम भविष्यवाणी मॉडल बनाने के लिए आधार के रूप में उपयोग किए जाते हैं। व्यक्तिगत मशीन लर्निंग मॉडल के एक विविध सेट को संयोजित करने से समग्र मॉडल की स्थिरता में सुधार हो सकता है, जिससे अधिक सटीक भविष्यवाणियाँ होती हैं। एन्सेम्बल लर्निंग मॉडल अक्सर व्यक्तिगत मॉडल की तुलना में अधिक विश्वसनीय होते हैं, और परिणामस्वरूप, वे अक्सर कई मशीन लर्निंग प्रतियोगिताओं में पहला स्थान प्राप्त करते हैं। एक इंजीनियर एन्सेम्बल लर्निंग मॉडल बनाने के लिए विभिन्न तकनीकों का उपयोग कर सकता है। सरल एन्सेम्बल लर्निंग तकनीकों में विभिन्न मॉडल के आउटपुट का औसत निकालना जैसी चीजें शामिल हैं, जबकि अधिक जटिल विधियाँ और एल्गोरिदम भी हैं जो विशेष रूप से कई आधार शिक्षार्थियों/मॉडल की भविष्यवाणियों को संयोजित करने के लिए विकसित किए गए हैं।
एन्सेम्बल ट्रेनिंग विधियों का उपयोग क्यों करें?
मशीन लर्निंग मॉडल विभिन्न कारणों से एक दूसरे से भिन्न हो सकते हैं। विभिन्न मशीन लर्निंग मॉडल जनसंख्या डेटा के विभिन्न नमूनों पर काम कर सकते हैं, विभिन्न मॉडलिंग तकनीकों का उपयोग किया जा सकता है, और एक अलग परिकल्पना का उपयोग किया जा सकता है। कल्पना कीजिए कि आप बड़े समूह के लोगों के साथ एक ट्रिविया गेम खेल रहे हैं। यदि आप अकेले एक टीम में हैं, तो कुछ ऐसे विषय अवश्य होंगे जिनके बारे में आपको ज्ञान है और कई ऐसे विषय जिनके बारे में आपको कोई ज्ञान नहीं है। अब मान लीजिए कि आप अन्य लोगों के साथ एक टीम में खेल रहे हैं। आपकी तरह, उन्हें भी अपने स्वयं के विशेषज्ञता क्षेत्रों के बारे में कुछ ज्ञान होगा और अन्य विषयों का कोई ज्ञान नहीं होगा। फिर भी जब आपका ज्ञान संयोजित होता है, तो आपके पास अधिक क्षेत्रों के लिए अधिक सटीक अनुमान होते हैं, और उन विषयों की संख्या सिकुड़ जाती है जिनके बारे में आपकी टीम को ज्ञान का अभाव है। यह वही सिद्धांत है जो एन्सेम्बल लर्निंग के आधार में है, सटीकता बढ़ाने और त्रुटियों को कम करने के लिए विभिन्न टीम सदस्यों (व्यक्तिगत मॉडल) की भविष्यवाणियों को संयोजित करना। सांख्यिकीविदों ने सिद्ध किया है कि जब लोगों के एक समूह से संभावित उत्तरों की एक श्रृंखला के साथ किसी दिए गए प्रश्न का सही उत्तर अनुमान लगाने के लिए कहा जाता है, तो उनके सभी उत्तर एक संभाव्यता वितरण बनाते हैं। जो लोग वास्तव में सही उत्तर जानते हैं वे आत्मविश्वास के साथ सही उत्तर चुनेंगे, जबकि गलत उत्तर चुनने वाले लोग संभावित गलत उत्तरों की श्रृंखला में अपने अनुमान बिखेर देंगे। ट्रिविया गेम के उदाहरण पर वापस जाएं, यदि आप और आपके दो दोस्त जानते हैं कि सही उत्तर A है, तो आप तीनों A को वोट देंगे, जबकि आपकी टीम के अन्य तीन लोग जो उत्तर नहीं जानते हैं, वे गलती से B, C, D, या E का अनुमान लगाने की संभावना रखते हैं। परिणाम यह है कि A के पास तीन वोट हैं और अन्य उत्तरों के पास अधिकतम केवल एक या दो वोट होने की संभावना है। सभी मॉडल में कुछ मात्रा में त्रुटि होती है। एक मॉडल के लिए त्रुटियाँ दूसरे मॉडल द्वारा उत्पन्न त्रुटियों से भिन्न होंगी, क्योंकि मॉडल स्वयं ऊपर वर्णित कारणों से भिन्न हैं। जब सभी त्रुटियों की जांच की जाती है, तो वे एक या दूसरे उत्तर के आसपास केंद्रित नहीं होंगी, बल्कि चारों ओर बिखरी होंगी। अनिवार्य रूप से गलत अनुमान सभी संभावित गलत उत्तरों में फैले हुए हैं, जो एक दूसरे को रद्द कर देते हैं। इस बीच, विभिन्न मॉडलों के सही अनुमान सही, सटीक उत्तर के आसपास केंद्रित होंगे। जब एन्सेम्बल ट्रेनिंग विधियों का उपयोग किया जाता है, तो सही उत्तर अधिक विश्वसनीयता के साथ पाया जा सकता है।
सरल एन्सेम्बल ट्रेनिंग विधियाँ
सरल एन्सेम्बल ट्रेनिंग विधियों में आमतौर पर केवल सांख्यिकीय सारांश तकनीकों का अनुप्रयोग शामिल होता है, जैसे कि भविष्यवाणियों के एक सेट का बहुलक, माध्य या भारित औसत निर्धारित करना। बहुलक से तात्पर्य संख्याओं के एक सेट के भीतर सबसे अधिक बार आने वाले तत्व से है। बहुलक प्राप्त करने के लिए, व्यक्तिगत शिक्षण मॉडल अपनी भविष्यवाणियाँ लौटाते हैं और इन भविष्यवाणियों को अंतिम भविष्यवाणी की ओर वोट माना जाता है। भविष्यवाणियों का माध्य निर्धारित करना केवल भविष्यवाणियों के अंकगणितीय माध्य की गणना करके, निकटतम पूर्ण पूर्णांक तक पूर्णांकित करके किया जाता है। अंत में, एक भारित औसत की गणना भविष्यवाणियाँ बनाने के लिए उपयोग किए जाने वाले मॉडल को अलग-अलग भार निर्दिष्ट करके की जा सकती है, जहाँ भार उस मॉडल की मानी गई महत्वपूर्णता का प्रतिनिधित्व करते हैं। वर्ग भविष्यवाणी का संख्यात्मक प्रतिनिधित्व 0 से 1.0 तक के भार के साथ गुणा किया जाता है, फिर व्यक्तिगत भारित भविष्यवाणियों को एक साथ जोड़ा जाता है और परिणाम को निकटतम पूर्णांक तक पूर्णांकित किया जाता है।
उन्नत एन्सेम्बल ट्रेनिंग विधियाँ
तीन प्राथमिक उन्नत एन्सेम्बल ट्रेनिंग तकनीकें हैं, जिनमें से प्रत्येक को मशीन लर्निंग समस्या के एक विशिष्ट प्रकार से निपटने के लिए डिज़ाइन किया गया है। “बैगिंग” तकनीकों का उपयोग किसी मॉडल की भविष्यवाणियों के प्रसरण को कम करने के लिए किया जाता है, जहाँ प्रसरण से तात्पर्य है कि एक ही अवलोकन पर आधारित होने पर भविष्यवाणियों के परिणाम कितना भिन्न होते हैं। “बूस्टिंग” तकनीकों का उपयोग मॉडल के पूर्वाग्रह से निपटने के लिए किया जाता है। अंत में, “स्टैकिंग” का उपयोग सामान्य रूप से भविष्यवाणियों में सुधार के लिए किया जाता है। एन्सेम्बल लर्निंग विधियों को स्वयं आम तौर पर दो अलग-अलग समूहों में विभाजित किया जा सकता है: अनुक्रमिक विधियाँ और समानांतर एन्सेम्बल विधियाँ। अनुक्रमिक एन्सेम्बल विधियों को “अनुक्रमिक” नाम इसलिए मिला है क्योंकि आधार शिक्षार्थी/मॉडल अनुक्रमिक रूप से उत्पन्न होते हैं। अनुक्रमिक विधियों के मामले में, आवश्यक विचार यह है कि अधिक सटीक भविष्यवाणियाँ प्राप्त करने के लिए आधार शिक्षार्थियों के बीच निर्भरता का शोषण किया जाता है। गलत लेबल वाले उदाहरणों के भार समायोजित किए जाते हैं जबकि ठीक से लेबल किए गए उदाहरण समान भार बनाए रखते हैं। हर बार एक नया शिक्षार्थी उत्पन्न होने पर भार बदल जाते हैं और सटीकता (उम्मीद से) में सुधार होता है। अनुक्रमिक एन्सेम्बल मॉडल के विपरीत, समानांतर एन्सेम्बल विधियाँ आधार शिक्षार्थियों को समानांतर रूप से उत्पन्न करती हैं। समानांतर एन्सेम्बल लर्निंग करते समय, विचार यह है कि इस तथ्य का शोषण किया जाए कि आधार शिक्षार्थियों में स्वतंत्रता है, क्योंकि व्यक्तिगत शिक्षार्थियों की भविष्यवाणियों का औसत निकालकर सामान्य त्रुटि दर को कम किया जा सकता है। एन्सेम्बल ट्रेनिंग विधियाँ या तो सजातीय या विषमजातीय प्रकृति की हो सकती हैं। अधिकांश एन्सेम्बल लर्निंग विधियाँ सजातीय होती हैं, जिसका अर्थ है कि वे एक ही प्रकार के आधार शिक्षण मॉडल/एल्गोरिदम का उपयोग करती हैं। इसके विपरीत, विषमजातीय एन्सेम्बल विभिन्न शिक्षण एल्गोरिदम का उपयोग करते हैं, शिक्षार्थियों को विविधता और परिवर्तनशील बनाते हैं ताकि यह सुनिश्चित किया जा सके कि सटीकता यथासंभव अधिक हो।
एन्सेम्बल लर्निंग एल्गोरिदम के उदाहरण

एन्सेम्बल बूस्टिंग का दृश्यीकरण। फोटो: Sirakorn via Wikimedia Commons, CC BY SA 4.0, (https://commons.wikimedia.org/wiki/File:Ensemble_Boosting.svg)
अनुक्रमिक एन्सेम्बल विधियों के उदाहरणों में AdaBoost, <a href="https://en.wikipedia.org












