Connect with us

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХреНрдпрд╛ рд╣реИ?

AI 101

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХреНрдпрд╛ рд╣реИ?

mm

मशीन लर्निंग तकनीकी क्षेत्रों में सबसे तेजी से बढ़ते क्षेत्रों में से एक है, लेकिन इसके बावजूद कि “मशीन लर्निंग” शब्द कितनी बार फेंके जाते हैं, यह समझना मुश्किल हो सकता है कि मशीन लर्निंग वास्तव में क्या है, सटीक रूप से।

मशीन लर्निंग किसी एक चीज को नहीं दर्शाता, यह एक छतरी शब्द है जिसे कई अलग-अलग अवधारणाओं और तकनीकों पर लागू किया जा सकता है। मशीन लर्निंग को समझने का अर्थ है मॉडल विश्लेषण, चर, और एल्गोरिदम के विभिन्न रूपों से परिचित होना। आइए मशीन लर्निंग को करीब से देखें ताकि हमें यह समझने में मदद मिले कि यह क्या शामिल करता है।

मशीन लर्निंग क्या है?

जबकि मशीन लर्निंग शब्द को कई अलग-अलग चीजों पर लागू किया जा सकता है,一般 तौर पर, शब्द का अर्थ है कि कंप्यूटर को स्पष्ट रूप से निर्देश दिए बिना कार्यों को करने में सक्षम बनाना। एक मशीन लर्निंग विशेषज्ञ को समस्या को हल करने के लिए आवश्यक सभी चरणों को लिखने की आवश्यकता नहीं है क्योंकि कंप्यूटर डेटा के भीतर पैटर्न का विश्लेषण करके और नए डेटा पर इन पैटर्न को सामान्य करके “सीखने” में सक्षम है।

मशीन लर्निंग सिस्टम में तीन मूलभूत भाग होते हैं:

  • इनपुट
  • एल्गोरिदम
  • आउटपुट

इनपुट वे डेटा हैं जो मशीन लर्निंग सिस्टम में डाले जाते हैं, और इनपुट डेटा को लेबल और फीचर्स में विभाजित किया जा सकता है। फीचर्स वे प्रासंगिक चर हैं जिन्हें पैटर्न सीखने और निष्कर्ष निकालने के लिए विश्लेषण किया जाएगा। दूसरी ओर, लेबल वे वर्ग/विवरण हैं जो डेटा के व्यक्तिगत उदाहरणों को दिए जाते हैं।

फीचर्स और लेबल का उपयोग दो प्रकार के मशीन लर्निंग समस्याओं में किया जा सकता है: पर्यवेक्षित लर्निंग और अपर्यवेक्षित लर्निंग।

अपर्यवेक्षित बनाम पर्यवेक्षित लर्निंग

पर्यवेक्षित लर्निंग में, इनपुट डेटा एक ग्राउंड ट्रुथ के साथ आता है। पर्यवेक्षित लर्निंग समस्याओं में डेटासेट के हिस्से के रूप में सही आउटपुट मान होते हैं, इसलिए अपेक्षित वर्ग पहले से ही जाने जाते हैं। यह डेटा वैज्ञानिक को परीक्षण डेटासेट पर डेटा का परीक्षण करके और देखकर कि कितने आइटम सही ढंग से वर्गीकृत किए गए हैं, एल्गोरिदम के प्रदर्शन की जांच करने में सक्षम बनाता है।

दूसरी ओर, अपर्यवेक्षित लर्निंग समस्याओं में ग्राउंड ट्रुथ लेबल नहीं होते हैं। एक मशीन लर्निंग एल्गोरिदम जो अपर्यवेक्षित लर्निंग कार्यों को करने के लिए प्रशिक्षित किया गया है, उसे स्वयं डेटा में प्रासंगिक पैटर्न का अनुमान लगाने में सक्षम होना चाहिए।

पर्यवेक्षित लर्निंग एल्गोरिदम आमतौर पर वर्गीकरण समस्याओं के लिए उपयोग किए जाते हैं, जहां आपके पास एक बड़ा डेटासेट होता है जिसे कई अलग-अलग वर्गों में विभाजित किया जाना है। पर्यवेक्षित लर्निंग का एक अन्य प्रकार प्रगति कार्य है, जहां एल्गोरिदम द्वारा उत्पादित मान निरंतर प्रकृति का होता है, श्रेणीबद्ध के बजाय।

दूसरी ओर, अपर्यवेक्षित लर्निंग एल्गोरिदम घनत्व अनुमान, क्लस्टरिंग, और प्रतिनिधित्व सीखने जैसे कार्यों के लिए उपयोग किए जाते हैं। इन तीन कार्यों के लिए मशीन लर्निंग मॉडल को डेटा की संरचना का अनुमान लगाने की आवश्यकता होती है, मॉडल को पहले से परिभाषित वर्ग नहीं दिए जाते हैं।

आइए दोनों पर्यवेक्षित लर्निंग और अपर्यवेक्षित लर्निंग में उपयोग किए जाने वाले कुछ सबसे सामान्य एल्गोरिदम पर एक नज़र डालें।

पर्यवेक्षित लर्निंग के प्रकार

सामान्य पर्यवेक्षित लर्निंग एल्गोरिदम में शामिल हैं:

  • नेव बेस
  • सपोर्ट वेक्टर मशीन
  • लॉजिस्टिक रिग्रेशन
  • रैंडम फॉरेस्ट
  • आर्टिफिशियल न्यूरल नेटवर्क

सपोर्ट वेक्टर मशीन एल्गोरिदम हैं जो डेटासेट को विभिन्न वर्गों में विभाजित करते हैं। डेटा बिंदु समूहों में एकत्रित किए जाते हैं जो वर्गों को एक दूसरे से अलग करने वाली रेखाएं खींचकर क्लस्टर में होते हैं। एक तरफ रेखा के बिंदु एक वर्ग से संबंधित होंगे, जबकि दूसरी तरफ के बिंदु एक अलग वर्ग से संबंधित होंगे। सपोर्ट वेक्टर मशीन रेखा और दोनों तरफ के बिंदुओं के बीच की दूरी को अधिकतम करने का लक्ष्य रखती है, और जितनी अधिक दूरी होगी, उतना ही अधिक वर्गीकरणकर्ता को विश्वास होगा कि बिंदु एक वर्ग से संबंधित है और दूसरे वर्ग से नहीं।

लॉजिस्टिक रिग्रेशन एक एल्गोरिदम है जो द्विआयामी वर्गीकरण कार्यों में उपयोग किया जाता है जब डेटा बिंदुओं को दो वर्गों में से एक में वर्गीकृत करने की आवश्यकता होती है। लॉजिस्टिक रिग्रेशन डेटा बिंदु को 1 या 0 के रूप में लेबल करके काम करता है। यदि डेटा बिंदु का अनुमानित मान 0.49 या उससे कम है, तो इसे 0 के रूप में वर्गीकृत किया जाता है, जबकि यदि यह 0.5 या अधिक है, तो इसे 1 के रूप में वर्गीकृत किया जाता है।

निर्णय पेड़ एल्गोरिदम डेटासेट को छोटे और छोटे टुकड़ों में विभाजित करके काम करते हैं। डेटा को विभाजित करने के लिए उपयोग किए जाने वाले मानदंड मशीन लर्निंग इंजीनियर पर निर्भर करते हैं, लेकिन लक्ष्य अंततः डेटा को एकल डेटा बिंदुओं में विभाजित करना है, जिन्हें फिर एक कुंजी का उपयोग करके वर्गीकृत किया जाएगा।

एक रैंडम फॉरेस्ट एल्गोरिदम मूल रूप से कई एकल निर्णय पेड़ वर्गीकरणकर्ता हैं जो एक साथ जुड़कर एक अधिक शक्तिशाली वर्गीकरणकर्ता बनाते हैं।

नेव बेस क्लासिफायर एक दिए गए डेटा बिंदु के होने की संभावना की गणना करता है जो एक पूर्व घटना के होने की संभावना पर आधारित है। यह बेयस के सिद्धांत पर आधारित है और यह डेटा बिंदुओं को उनकी गणना की गई संभावना के आधार पर वर्गों में रखता है। नेव बेस क्लासिफायर लागू करते समय, यह माना जाता है कि सभी पूर्वनिर्धारक वर्ग परिणाम पर समान प्रभाव डालते हैं।

एक आर्टिफिशियल न्यूरल नेटवर्क, या मल्टी-लेयर परसेप्ट्रॉन, मशीन लर्निंग एल्गोरिदम हैं जो मानव मस्तिष्क की संरचना और कार्य से प्रेरित हैं। आर्टिफिशियल न्यूरल नेटवर्क को उनके नाम मिलते हैं क्योंकि वे कई नोड्स/न्यूरॉन्स से बने होते हैं जो एक साथ जुड़े होते हैं। प्रत्येक न्यूरॉन डेटा को एक गणितीय फ़ंक्शन के साथ मैनिप्युलेट करता है। आर्टिफिशियल न्यूरल नेटवर्क में, इनपुट लेयर, हिडन लेयर और आउटपुट लेयर होती हैं।

न्यूरल नेटवर्क की हिडन लेयर वह जगह है जहां डेटा वास्तव में विश्लेषण किया जाता है और पैटर्न के लिए खोजा जाता है। दूसरे शब्दों में, यह वह जगह है जहां एल्गोरिदम सीखता है। अधिक न्यूरॉन्स को एक साथ जोड़कर अधिक जटिल नेटवर्क बनाए जा सकते हैं जो अधिक जटिल पैटर्न सीखने में सक्षम होते हैं।

अपर्यवेक्षित लर्निंग के प्रकार

अपर्यवेक्षित लर्निंग एल्गोरिदम में शामिल हैं:

  • की-मीन्स क्लस्टरिंग
  • ऑटोएनकोडर
  • प्रिंसिपल कंपोनेंट विश्लेषण

की-मीन्स क्लस्टरिंग एक अपर्यवेक्षित वर्गीकरण तकनीक है, और यह डेटा बिंदुओं को उनकी विशेषताओं के आधार पर क्लस्टर या समूहों में विभाजित करके काम करती है। की-मीन्स क्लस्टरिंग डेटा बिंदुओं में पाए जाने वाले विशेषताओं का विश्लेषण करती है और उनमें पैटर्न की पहचान करती है जो एक दिए गए क्लस्टर में डेटा बिंदुओं को एक दूसरे के समान बनाती है, उन क्लस्टरों की तुलना में जिनमें अन्य डेटा बिंदु होते हैं। यह ग्राफ में क्लस्टर के संभावित केंद्रों को रखकर और केंद्र की स्थिति को तब तक पुनः स्थापित करके प्राप्त किया जाता है जब तक कि एक स्थिति नहीं मिल जाती जो केंद्र और उस केंद्र की कक्षा से संबंधित बिंदुओं के बीच की दूरी को कम करती है। शोधकर्ता वांछित क्लस्टर की संख्या निर्दिष्ट कर सकते हैं।

प्रिंसिपल कंपोनेंट विश्लेषण एक तकनीक है जो बड़ी संख्या में विशेषताओं/चरों को एक छोटे से विशेषता स्थान/कम विशेषताओं में कम कर देती है। डेटा बिंदुओं के “प्रिंसिपल कंपोनेंट” का चयन संरक्षण के लिए किया जाता है, जबकि अन्य विशेषताओं को एक छोटे प्रतिनिधित्व में संकुचित किया जाता है। मूल डेटा बिंदुओं के बीच संबंध संरक्षित है, लेकिन चूंकि डेटा बिंदुओं की जटिलता सरल है, डेटा को मात्रा देना और वर्णन करना आसान हो जाता है।

ऑटोएनकोडर अपर्यवेक्षित लर्निंग कार्यों पर लागू किए जा सकने वाले न्यूरल नेटवर्क के संस्करण हैं। ऑटोएनकोडर अकेले, अनलेबल्ड, फ्री-फॉर्म डेटा लेने में सक्षम हैं और उन्हें एक न्यूरल नेटवर्क द्वारा उपयोग किए जा सकने वाले डेटा में परिवर्तित कर सकते हैं, मूल रूप से अपना खुद का लेबल वाला प्रशिक्षण डेटा बना सकते हैं। ऑटोएनकोडर का लक्ष्य इनपुट डेटा को परिवर्तित करना और इसे यथासंभव सटीक रूप से पुनर्निर्माण करना है, इसलिए नेटवर्क के लिए यह प्रोत्साहन है कि यह तय करे कि कौन सी विशेषताएं सबसे महत्वपूर्ण हैं और उन्हें निकालें।

рдмреНрд▓реЙрдЧрд░ рдФрд░ рдкреНрд░реЛрдЧреНрд░рд╛рдорд░ рдЬрд┐рдирдХреА рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдореИрд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рд╡рд┐рд╖рдпреЛрдВ рдореЗрдВ рд╣реИред рдбреИрдирд┐рдпрд▓ рджреВрд╕рд░реЛрдВ рдХреЛ рд╕рд╛рдорд╛рдЬрд┐рдХ рдХрд▓реНрдпрд╛рдг рдХреЗ рд▓рд┐рдП рдПрдЖрдИ рдХреА рд╢рдХреНрддрд┐ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реИред