AI 101

рдЧреНрд░реЗрдбрд┐рдПрдВрдЯ рдмреВрд╕реНрдЯрд┐рдВрдЧ рдХреНрдпрд╛ рд╣реИ?

mm

एक आम प्रकार का मशीन लर्निंग मॉडल जो डेटा साइंस प्रतियोगिताओं में बहुत उपयोगी साबित हुआ है, वह है ग्रेडिएंट बूस्टिंग मॉडल। ग्रेडिएंट बूस्टिंग मूल रूप से कमजोर लर्निंग मॉडल्स को मजबूत लर्निंग मॉडल्स में बदलने की प्रक्रिया है। लेकिन यह कैसे सटीक रूप से हासिल किया जाता है? आइए ग्रेडिएंट बूस्टिंग एल्गोरिदम को करीब से देखें और समझें कि ग्रेडिएंट बूस्टिंग मॉडल कमजोर लर्नर्स को मजबूत लर्नर्स में कैसे बदलता है।

ग्रेडिएंट बूस्टिंग की परिभाषा

यह लेख आपको ग्रेडिएंट बूस्टिंग की मूल बातों के लिए एक अच्छी समझ प्रदान करने का उद्देश्य रखता है, बिना गहरे गणितीय विवरण के। एक बार जब आप ग्रेडिएंट बूस्टिंग के मूल सिद्धांतों को समझ लें, तो आप गहराई से जाने और एल्गोरिदम को संभव बनाने वाले गणित का अन्वेषण कर सकते हैं।

आइए शुरू करें कि “बूस्ट” करने का क्या अर्थ है। कमजोर लर्नर्स को मजबूत लर्नर्स में बदलने के लिए लर्निंग मॉडल के गुणों को समायोजित किया जाता है। लेकिन कौन सा लर्निंग एल्गोरिदम बूस्ट किया जा रहा है?

बूस्टिंग मॉडल्स काम करते हैं durch एक और सामान्य मशीन लर्निंग मॉडल, एक निर्णय पेड़ को बढ़ाने के द्वारा。

एक निर्णय पेड़ मॉडल डेटासेट को छोटे और छोटे हिस्सों में विभाजित करके काम करता है, और जब उप-सेट्स को और अधिक विभाजित नहीं किया जा सकता है, तो परिणाम एक पेड़ होता है जिसमें नोड्स और पत्तियां होती हैं। निर्णय पेड़ में नोड्स वह स्थान होते हैं जहां डेटा बिंदुओं के बारे में निर्णय लिए जाते हैं विभिन्न फिल्टरिंग मानदंडों का उपयोग करके। निर्णय पेड़ में पत्तियां वर्गीकृत डेटा बिंदु होती हैं। निर्णय पेड़ एल्गोरिदम संख्यात्मक और श्रेणीबद्ध दोनों प्रकार के डेटा को संभाल सकते हैं, और पेड़ में विभाजन विशिष्ट चर/विशेषताओं पर आधारित होते हैं।

बूस्टिंग मॉडल्स के प्रशिक्षण के तरीके का चित्रण।
फोटो: SeattleDataBuy via Wikimedia Commons, CC 4.0 (https://commons.wikimedia.org/wiki/File:Boosting.png)

बूस्टिंग एल्गोरिदम का एक प्रकार एडाबूस्ट एल्गोरिदम है। एडाबूस्ट एल्गोरिदम एक निर्णय पेड़ मॉडल को प्रशिक्षित करने और प्रत्येक अवलोकन को समान वजन देने से शुरू होता है। पहले पेड़ की सटीकता का मूल्यांकन करने के बाद, विभिन्न अवलोकनों के वजन समायोजित किए जाते हैं। जिन अवलोकनों को वर्गीकृत करना आसान था, उनके वजन कम कर दिए जाते हैं, जबकि जिन अवलोकनों को वर्गीकृत करना कठिन था, उनके वजन बढ़ा दिए जाते हैं। समायोजित वजन का उपयोग करके एक दूसरा पेड़ बनाया जाता है, जिसका उद्देश्य यह है कि दूसरे पेड़ की भविष्यवाणियां पहले पेड़ की भविष्यवाणियों से अधिक सटीक होंगी।

मॉडल अब मूल पेड़ और नए पेड़ (या पेड़ 1 + पेड़ 2) की भविष्यवाणियों से बना है। फिर से वर्गीकरण सटीकता का मूल्यांकन नए मॉडल के आधार पर किया जाता है। एक तीसरा पेड़ मॉडल के लिए गणना की गई त्रुटि के आधार पर बनाया जाता है, और वजन फिर से समायोजित किए जाते हैं। यह प्रक्रिया निर्धारित पुनरावृत्तियों की संख्या के लिए जारी रहती है, और अंतिम मॉडल एक एन्सेम्बल मॉडल है जो सभी पहले से निर्मित पेड़ों द्वारा की गई भविष्यवाणियों के भारित योग का उपयोग करता है।

उपरोक्त प्रक्रिया में निर्णय पेड़ और आधार भविष्यवाणी मॉडल/मॉडल्स का उपयोग किया जाता है, लेकिन बूस्टिंग दृष्टिकोण को विभिन्न मॉडलों जैसे कि मानक वर्गीकरणकर्ता और प्रतिगमन मॉडल के साथ भी लागू किया जा सकता है। मुख्य अवधारणाएं जिन्हें समझने की आवश्यकता है वह यह है कि बाद के भविष्यवाणीकर्ता पिछले लोगों द्वारा की गई गलतियों से सीखते हैं और भविष्यवाणीकर्ता क्रमिक रूप से बनाए जाते हैं।

बूस्टिंग एल्गोरिदम का प्राथमिक लाभ यह है कि वे अन्य मशीन लर्निंग मॉडल्स की तुलना में वर्तमान भविष्यवाणियों को खोजने में कम समय लेते हैं। हालांकि, बूस्टिंग एल्गोरिदम का उपयोग करते समय सावधानी बरतने की आवश्यकता है, क्योंकि वे ओवरफिटिंग के प्रति संवेदनशील होते हैं।

ग्रेडिएंट बूस्टिंग

अब हम ग्रेडिएंट बूस्टिंग मॉडल्स पर एक नज़र डालेंगे, जो सबसे आम बूस्टिंग एल्गोरिदम में से एक हैं। ग्रेडिएंट बूस्टिंग मॉडल (जीबीएम) उच्च सटीकता के लिए जाने जाते हैं और एडाबूस्ट में उपयोग किए जाने वाले सामान्य सिद्धांतों को बढ़ाते हैं।

ग्रेडिएंट बूस्टिंग मॉडल और एडाबूस्ट के बीच मुख्य अंतर यह है कि जीबीएम डेटा बिंदुओं की गलत पहचान करने वाले शिक्षार्थियों की गणना के लिए एक अलग विधि का उपयोग करते हैं। एडाबूस्ट भारित डेटा बिंदुओं की जांच करके मॉडल के प्रदर्शन का मूल्यांकन करता है, जबकि जीबीएम ग्रेडिएंट का उपयोग करके शिक्षार्थियों की सटीकता का निर्धारण करते हैं और एक हानि फंक्शन को मॉडल पर लागू करते हैं। हानि फंक्शन मॉडल के फिट की सटीकता को मापने का एक तरीका है, एक त्रुटि की गणना करता है और मॉडल को उस त्रुटि को कम करने के लिए अनुकूलित करता है। जीबीएम उपयोगकर्ता को एक निर्दिष्ट हानि फंक्शन को अपने वांछित लक्ष्य के आधार पर अनुकूलित करने की अनुमति देते हैं।

सबसे आम हानि फंक्शन – मीन स्क्वायर्ड एरर (एमएसई) – को उदाहरण के रूप में लेते हुए, ग्रेडिएंट डिसेंट का उपयोग एक पूर्वनिर्धारित लर्निंग दर के आधार पर भविष्यवाणियों को अपडेट करने के लिए किया जाता है, जिसका उद्देश्य हानि को कम करना है।

इसे स्पष्ट करने के लिए:

नई मॉडल भविष्यवाणियां = आउटपुट वेरिएबल – पुरानी अपूर्ण भविष्यवाणियां।

एक अधिक सांख्यिकीय अर्थ में, जीबीएम मॉडल के अवशेषों में प्रासंगिक पैटर्न खोजने का प्रयास करते हैं, मॉडल को उस पैटर्न के अनुसार फिट करने के लिए समायोजित करते हैं और अवशेषों को शून्य के करीब लाने का प्रयास करते हैं। यदि आप मॉडल की भविष्यवाणियों पर प्रतिगमन करते हैं, तो अवशेष शून्य (परिपूर्ण फिट) के आसपास वितरित किए जाएंगे, और जीबीएम उन अवशेषों के भीतर पैटर्न खोजते हैं और मॉडल को उन पैटर्न के आसपास अपडेट करते हैं।

दूसरे शब्दों में, भविष्यवाणियां इस तरह से अपडेट की जाती हैं कि सभी अवशेषों का योग शून्य के करीब हो, जिसका अर्थ है कि भविष्यवाणी किए गए मूल्य वास्तविक मूल्यों के बहुत करीब होंगे।

नोट करें कि जीबीएम द्वारा कई अन्य हानि फंक्शन (जैसे कि लॉगरिदमिक हानि) का भी उपयोग किया जा सकता है। एमएसई को ऊपरी उद्देश्य की सादगी के लिए चुना गया था।

ग्रेडिएंट बूस्टिंग मॉडल्स पर विविधताएं

ग्रेडिएंट बूस्टिंग मॉडल लालची एल्गोरिदम हैं जो डेटासेट पर ओवरफिटिंग के प्रति संवेदनशील होते हैं। इसे कई अलग-अलग तरीकों से सुरक्षित किया जा सकता है जो जीबीएम के प्रदर्शन में सुधार कर सकते हैं।

जीबीएम को चार अलग-अलग तरीकों से नियंत्रित किया जा सकता है: श्रिंकेज, ट्री प्रतिबंध, स्टोकास्टिक ग्रेडिएंट बूस्टिंग, और दंडित लर्निंग।

श्रिंकेज

जैसा कि पहले उल्लेख किया गया है, जीबीएम में भविष्यवाणियां क्रमिक रूप से जोड़ी जाती हैं। “श्रिंकेज” में, प्रत्येक पेड़ के योगदान को समग्र योग में समायोजित किया जाता है। वजन लागू किए जाते हैं जो एल्गोरिदम की लर्निंग दर को धीमा करते हैं, जिसका अर्थ है कि मॉडल को अधिक पेड़ जोड़ने की आवश्यकता होती है, जो आमतौर पर मॉडल की मजबूती और प्रदर्शन में सुधार करता है। हालांकि, व्यापार-ऑफ यह है कि मॉडल को प्रशिक्षित करने में अधिक समय लगता है।

ट्री प्रतिबंध

पेड़ को विभिन्न ट्वीक्स जैसे कि पेड़ में अधिक गहराई जोड़ना या पेड़ में नोड्स या पत्तियों की संख्या बढ़ाना के साथ प्रतिबंधित करना मॉडल को ओवरफिटिंग से बचाने में मदद कर सकता है। प्रत्येक विभाजन के लिए न्यूनतम अवलोकनों की संख्या पर प्रतिबंध लगाने से भी समान प्रभाव पड़ता है। फिर से, व्यापार-ऑफ यह है कि मॉडल को प्रशिक्षित करने में अधिक समय लगता है।

यादृच्छिक नमूनाकरण

व्यक्तिगत शिक्षार्थियों को एक यादृच्छिक प्रक्रिया के माध्यम से बनाया जा सकता है, जो प्रशिक्षण डेटासेट के यादृच्छिक उप-नमूनों पर आधारित है। इसका परिणाम पेड़ों के बीच संबंधों को कम करने के रूप में होता है, जो ओवरफिटिंग से बचाव करता है। डेटासेट को पेड़ बनाने से पहले या पेड़ में विभाजन पर विचार करने से पहले उप-नमूना किया जा सकता है।

दंडित लर्निंग

मॉडल की संरचना को सीमित करने के अलावा, एक प्रतिगमन पेड़ का उपयोग किया जा सकता है। प्रतिगमन पेड़ में प्रत्येक पत्ती से जुड़े संख्यात्मक मान होते हैं, जो वजन के रूप में कार्य करते हैं और सामान्य नियमितीकरण कार्यों जैसे कि एल1 और एल2 नियमितीकरण के साथ समायोजित किए जा सकते हैं।

рдмреНрд▓реЙрдЧрд░ рдФрд░ рдкреНрд░реЛрдЧреНрд░рд╛рдорд░ рдЬрд┐рдирдХреА рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдореИрд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рд╡рд┐рд╖рдпреЛрдВ рдореЗрдВ рд╣реИред рдбреИрдирд┐рдпрд▓ рджреВрд╕рд░реЛрдВ рдХреЛ рд╕рд╛рдорд╛рдЬрд┐рдХ рдХрд▓реНрдпрд╛рдг рдХреЗ рд▓рд┐рдП рдПрдЖрдИ рдХреА рд╢рдХреНрддрд┐ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реИред