ठूंठ निर्णय वृक्ष क्या है? - यूनाइट.एआई
हमसे जुडे
एआई मास्टरक्लास:

एआई 101

निर्णय वृक्ष क्या है?

mm
Updated on

निर्णय वृक्ष क्या है?

A निर्णय वृक्ष एक उपयोगी मशीन लर्निंग एल्गोरिदम है जिसका उपयोग प्रतिगमन और वर्गीकरण दोनों कार्यों के लिए किया जाता है। "निर्णय वृक्ष" नाम इस तथ्य से आता है कि एल्गोरिदम डेटासेट को छोटे और छोटे भागों में विभाजित करता रहता है जब तक कि डेटा को एकल उदाहरणों में विभाजित नहीं किया जाता है, जिन्हें तब वर्गीकृत किया जाता है। यदि आप एल्गोरिथम के परिणामों की कल्पना करें, तो श्रेणियों को जिस तरह से विभाजित किया गया है वह एक पेड़ और कई पत्तियों जैसा होगा।

यह निर्णय वृक्ष की एक त्वरित परिभाषा है, लेकिन आइए गहराई से जानें कि निर्णय वृक्ष कैसे काम करते हैं। निर्णय वृक्ष कैसे संचालित होते हैं, साथ ही उनके उपयोग के मामलों की बेहतर समझ होने से आपको यह जानने में सहायता मिलेगी कि आपकी मशीन सीखने की परियोजनाओं के दौरान उनका उपयोग कब करना है।

निर्णय वृक्ष का प्रारूप

एक निर्णय वृक्ष है बहुत कुछ फ्लोचार्ट की तरह। फ़्लोचार्ट का उपयोग करने के लिए आप चार्ट के शुरुआती बिंदु, या रूट से शुरू करते हैं और फिर उस शुरुआती नोड के फ़िल्टरिंग मानदंडों का उत्तर देने के तरीके के आधार पर आप अगले संभावित नोड्स में से एक पर जाते हैं। यह प्रक्रिया तब तक दोहराई जाती है जब तक कि कोई अंत न आ जाए।

निर्णय वृक्ष अनिवार्य रूप से एक ही तरीके से काम करते हैं, वृक्ष में प्रत्येक आंतरिक नोड किसी न किसी प्रकार का परीक्षण/फ़िल्टरिंग मानदंड होता है। बाहर के नोड्स, पेड़ के अंतिम बिंदु, प्रश्न में डेटापॉइंट के लिए लेबल हैं और उन्हें "पत्तियां" करार दिया गया है। वे शाखाएँ जो आंतरिक नोड्स से अगले नोड तक ले जाती हैं, वे विशेषताएँ या विशेषताओं का संयोजन हैं। डेटापॉइंट्स को वर्गीकृत करने के लिए उपयोग किए जाने वाले नियम वे पथ हैं जो जड़ से पत्तियों तक चलते हैं।

निर्णय वृक्षों के लिए एल्गोरिदम

निर्णय वृक्ष एक एल्गोरिथम दृष्टिकोण पर काम करते हैं जो विभिन्न मानदंडों के आधार पर डेटासेट को अलग-अलग डेटा बिंदुओं में विभाजित करता है। ये विभाजन अलग-अलग वेरिएबल्स, या डेटासेट की विभिन्न विशेषताओं के साथ किए जाते हैं। उदाहरण के लिए, यदि लक्ष्य यह निर्धारित करना है कि इनपुट सुविधाओं द्वारा कुत्ते या बिल्ली का वर्णन किया जा रहा है या नहीं, तो जिन चरों पर डेटा विभाजित किया गया है वे "पंजे" और "छाल" जैसी चीजें हो सकते हैं।

तो वास्तव में डेटा को शाखाओं और पत्तियों में विभाजित करने के लिए कौन से एल्गोरिदम का उपयोग किया जाता है? ऐसी कई विधियाँ हैं जिनका उपयोग किसी पेड़ को विभाजित करने के लिए किया जा सकता है, लेकिन विभाजन की सबसे आम विधि संभवतः एक तकनीक है जिसे "" कहा जाता है।पुनरावर्ती बाइनरी विभाजन”। विभाजन की इस विधि को निष्पादित करते समय, प्रक्रिया रूट से शुरू होती है और डेटासेट में सुविधाओं की संख्या संभावित विभाजन की संभावित संख्या का प्रतिनिधित्व करती है। एक फ़ंक्शन का उपयोग यह निर्धारित करने के लिए किया जाता है कि प्रत्येक संभावित विभाजन की लागत कितनी सटीकता होगी, और विभाजन उन मानदंडों का उपयोग करके किया जाता है जो कम से कम सटीकता का त्याग करते हैं। यह प्रक्रिया पुनरावर्ती रूप से की जाती है और समान सामान्य रणनीति का उपयोग करके उप-समूह बनाए जाते हैं।

ताकि विभाजन की लागत निर्धारित करें, एक लागत फ़ंक्शन का उपयोग किया जाता है। प्रतिगमन कार्यों और वर्गीकरण कार्यों के लिए एक अलग लागत फ़ंक्शन का उपयोग किया जाता है। दोनों लागत कार्यों का लक्ष्य यह निर्धारित करना है कि किन शाखाओं में सबसे समान प्रतिक्रिया मूल्य हैं, या सबसे समरूप शाखाएँ हैं। विचार करें कि आप एक निश्चित वर्ग के परीक्षण डेटा को कुछ पथों का अनुसरण करना चाहते हैं और यह सहज ज्ञान युक्त है।

पुनरावर्ती बाइनरी विभाजन के लिए प्रतिगमन लागत फ़ंक्शन के संदर्भ में, लागत की गणना करने के लिए उपयोग किया जाने वाला एल्गोरिदम इस प्रकार है:

योग(y – भविष्यवाणी)^2

डेटा बिंदुओं के किसी विशेष समूह के लिए पूर्वानुमान उस समूह के लिए प्रशिक्षण डेटा की प्रतिक्रियाओं का माध्य है। सभी संभावित विभाजनों की लागत निर्धारित करने के लिए सभी डेटा बिंदुओं को लागत फ़ंक्शन के माध्यम से चलाया जाता है और सबसे कम लागत वाले विभाजन का चयन किया जाता है।

वर्गीकरण के लिए लागत फ़ंक्शन के संबंध में, फ़ंक्शन इस प्रकार है:

जी = योग(पीके * (1 – पीके))

यह गिनी स्कोर है, और यह विभाजन की प्रभावशीलता का माप है, जो इस पर आधारित है कि विभाजन के परिणामस्वरूप समूहों में विभिन्न वर्गों के कितने उदाहरण हैं। दूसरे शब्दों में, यह बताता है कि विभाजन के बाद समूह कितने मिश्रित हैं। एक इष्टतम विभाजन तब होता है जब विभाजन से उत्पन्न सभी समूहों में केवल एक वर्ग के इनपुट होते हैं। यदि एक इष्टतम विभाजन बनाया गया है तो "पीके" मान या तो 0 या 1 होगा और जी शून्य के बराबर होगा। आप अनुमान लगाने में सक्षम हो सकते हैं कि सबसे खराब स्थिति विभाजन वह है जहां द्विआधारी वर्गीकरण के मामले में विभाजन में वर्गों का 50-50 प्रतिनिधित्व होता है। इस स्थिति में, "pk" मान 0.5 होगा और G भी 0.5 होगा।

विभाजन प्रक्रिया तब समाप्त हो जाती है जब सभी डेटा बिंदुओं को पत्तियों में बदल दिया जाता है और वर्गीकृत किया जाता है। हालाँकि, हो सकता है कि आप पेड़ की वृद्धि को जल्दी रोकना चाहें। बड़े जटिल पेड़ों में ओवरफिटिंग का खतरा होता है, लेकिन इससे निपटने के लिए कई अलग-अलग तरीकों का इस्तेमाल किया जा सकता है। ओवरफिटिंग को कम करने का एक तरीका न्यूनतम संख्या में डेटा बिंदुओं को निर्दिष्ट करना है जिनका उपयोग लीफ बनाने के लिए किया जाएगा। ओवरफिटिंग को नियंत्रित करने का एक अन्य तरीका पेड़ को एक निश्चित अधिकतम गहराई तक सीमित करना है, जो यह नियंत्रित करता है कि जड़ से पत्ती तक पथ कितनी देर तक फैल सकता है।

निर्णय वृक्षों के निर्माण में शामिल एक अन्य प्रक्रिया काट रहा है। प्रूनिंग उन विशेषताओं वाली शाखाओं को हटाकर निर्णय वृक्ष के प्रदर्शन को बढ़ाने में मदद कर सकती है जिनमें मॉडल के लिए कम पूर्वानुमानित शक्ति/थोड़ा महत्व होता है। इस तरह, पेड़ की जटिलता कम हो जाती है, इसके ओवरफिट होने की संभावना कम हो जाती है, और मॉडल की पूर्वानुमानित उपयोगिता बढ़ जाती है।

छंटाई करते समय, प्रक्रिया या तो पेड़ के शीर्ष पर या पेड़ के नीचे से शुरू हो सकती है। हालाँकि, छंटाई का सबसे आसान तरीका पत्तियों से शुरू करना और उस नोड को गिराने का प्रयास करना है जिसमें उस पत्ते के भीतर सबसे आम वर्ग होता है। यदि ऐसा करने पर मॉडल की सटीकता ख़राब नहीं होती है, तो परिवर्तन संरक्षित रहता है। प्रूनिंग करने के लिए अन्य तकनीकों का उपयोग किया जाता है, लेकिन ऊपर वर्णित विधि - कम त्रुटि वाली प्रूनिंग - संभवतः निर्णय वृक्ष की प्रूनिंग की सबसे आम विधि है।

निर्णय वृक्षों का उपयोग करने के लिए विचार

निर्णय के पेड़ अक्सर उपयोगी होते हैं जब वर्गीकरण करने की आवश्यकता होती है लेकिन गणना समय एक बड़ी बाधा है। निर्णय वृक्ष यह स्पष्ट कर सकते हैं कि चुने गए डेटासेट में कौन सी विशेषताएँ सबसे अधिक पूर्वानुमानित शक्ति का उपयोग करती हैं। इसके अलावा, कई मशीन लर्निंग एल्गोरिदम के विपरीत जहां डेटा को वर्गीकृत करने के लिए उपयोग किए जाने वाले नियमों की व्याख्या करना कठिन हो सकता है, निर्णय पेड़ व्याख्या योग्य नियमों को प्रस्तुत कर सकते हैं। निर्णय वृक्ष भी श्रेणीबद्ध और निरंतर दोनों चर का उपयोग करने में सक्षम हैं, जिसका अर्थ है कि एल्गोरिदम की तुलना में कम प्रीप्रोसेसिंग की आवश्यकता होती है, जो केवल इन चर प्रकारों में से एक को संभाल सकते हैं।

निरंतर विशेषताओं के मूल्यों को निर्धारित करने के लिए उपयोग किए जाने पर निर्णय वृक्ष बहुत अच्छा प्रदर्शन नहीं करते हैं। निर्णय वृक्षों की एक और सीमा यह है कि, वर्गीकरण करते समय, यदि कुछ प्रशिक्षण उदाहरण हैं लेकिन कई कक्षाएं हैं तो निर्णय वृक्ष गलत हो जाता है।

विशेषज्ञता वाले ब्लॉगर और प्रोग्रामर मशीन लर्निंग और गहरी सीख विषय। डैनियल को उम्मीद है कि वह दूसरों को सामाजिक भलाई के लिए एआई की शक्ति का उपयोग करने में मदद करेगा।