ठूंठ KNN (K-निकटतम पड़ोसी) क्या है? - यूनाइट.एआई
हमसे जुडे
एआई मास्टरक्लास:

एआई 101

KNN (K-निकटतम पड़ोसी) क्या है?

mm
Updated on

K-निकटतम पड़ोसी (KNN) क्या है?

के-नियरेस्ट नेबर्स एक मशीन लर्निंग तकनीक और एल्गोरिदम है प्रतिगमन और वर्गीकरण दोनों कार्यों के लिए उपयोग किया जा सकता है. K-निकटतम पड़ोसी जाँच डेटा बिंदुओं की चुनी गई संख्या के लेबल लक्ष्य डेटा बिंदु को घेरना, ताकि डेटा बिंदु जिस वर्ग में आता है, उसके बारे में भविष्यवाणी की जा सके। के-नियरेस्ट नेबर्स (केएनएन) एक वैचारिक रूप से सरल लेकिन बहुत शक्तिशाली एल्गोरिदम है, और उन कारणों से, यह सबसे लोकप्रिय मशीन लर्निंग एल्गोरिदम में से एक है। आइए KNN एल्गोरिथम में गहराई से उतरें और देखें कि यह वास्तव में कैसे काम करता है। केएनएन कैसे संचालित होता है इसकी अच्छी समझ होने से आप केएनएन के सर्वोत्तम और सबसे खराब उपयोग के मामलों की सराहना कर सकेंगे।

K-निकटतम पड़ोसियों का अवलोकन (KNN)

फोटो: विकिमीडिया कॉमन्स के माध्यम से एंटी अजंकी अंज, सीसी बाय एसए 3.0 (https://commons.wikimedia.org/wiki/File:KnnClassification.svg)

आइए 2डी विमान पर एक डेटासेट की कल्पना करें। ग्राफ़ पर डेटा बिंदुओं का एक समूह चित्रित करें, जो ग्राफ़ के साथ छोटे समूहों में फैला हुआ है। केएनएन डेटा बिंदुओं के वितरण की जांच करता है और, मॉडल को दिए गए तर्कों के आधार पर, यह डेटा बिंदुओं को समूहों में अलग करता है। फिर इन समूहों को एक लेबल सौंपा जाता है। केएनएन मॉडल जो प्राथमिक धारणा बनाता है वह यह है कि डेटा बिंदु/उदाहरण जो एक-दूसरे के करीब मौजूद हैं, अत्यधिक समान हैं, जबकि यदि कोई डेटा बिंदु दूसरे समूह से बहुत दूर है तो यह उन डेटा बिंदुओं से भिन्न होता है।

KNN मॉडल ग्राफ़ पर दो बिंदुओं के बीच की दूरी का उपयोग करके समानता की गणना करता है। बिंदुओं के बीच की दूरी जितनी अधिक होगी, वे उतने ही कम समान होंगे। बिंदुओं के बीच की दूरी की गणना करने के कई तरीके हैं, लेकिन सबसे आम दूरी मीट्रिक सिर्फ यूक्लिडियन दूरी (एक सीधी रेखा में दो बिंदुओं के बीच की दूरी) है।

केएनएन एक पर्यवेक्षित शिक्षण एल्गोरिदम है, जिसका अर्थ है कि डेटासेट में उदाहरणों में उन्हें निर्दिष्ट लेबल होना चाहिए/उनकी कक्षाएं ज्ञात होनी चाहिए। KNN के बारे में जानने योग्य दो अन्य महत्वपूर्ण बातें हैं। सबसे पहले, केएनएन एक गैर-पैरामीट्रिक एल्गोरिदम है। इसका मतलब यह है कि जब मॉडल का उपयोग किया जाता है तो डेटासेट के बारे में कोई धारणा नहीं बनाई जाती है। बल्कि, मॉडल पूरी तरह से उपलब्ध कराए गए डेटा से बनाया गया है। दूसरा, KNN का उपयोग करते समय डेटासेट को प्रशिक्षण और परीक्षण सेट में विभाजित नहीं किया जाता है। केएनएन प्रशिक्षण और परीक्षण सेट के बीच कोई सामान्यीकरण नहीं करता है, इसलिए जब मॉडल को भविष्यवाणियां करने के लिए कहा जाता है तो सभी प्रशिक्षण डेटा का भी उपयोग किया जाता है।

KNN एल्गोरिथम कैसे संचालित होता है

एक KNN एल्गोरिथ्म तीन मुख्य चरणों से होकर गुजरता है:

  1. पड़ोसियों की चुनी हुई संख्या पर K सेट करना।
  2. प्रदान किए गए/परीक्षण उदाहरण और डेटासेट उदाहरणों के बीच की दूरी की गणना करना।
  3. परिकलित दूरियों को क्रमबद्ध करना.
  4. शीर्ष K प्रविष्टियों के लेबल प्राप्त करना।
  5. परीक्षण उदाहरण के बारे में एक भविष्यवाणी लौटाना।

पहले चरण में, K को उपयोगकर्ता द्वारा चुना जाता है और यह एल्गोरिदम को बताता है कि लक्ष्य उदाहरण जिस समूह से संबंधित है, उसके बारे में निर्णय देते समय कितने पड़ोसियों (कितने आसपास के डेटा बिंदु) पर विचार किया जाना चाहिए। दूसरे चरण में, ध्यान दें कि मॉडल लक्ष्य उदाहरण और डेटासेट में प्रत्येक उदाहरण के बीच की दूरी की जांच करता है। फिर दूरियों को एक सूची में जोड़ा जाता है और क्रमबद्ध किया जाता है। बाद में, क्रमबद्ध सूची की जाँच की जाती है और शीर्ष K तत्वों के लेबल वापस कर दिए जाते हैं। दूसरे शब्दों में, यदि K को 5 पर सेट किया गया है, तो मॉडल लक्ष्य डेटा बिंदु के शीर्ष 5 निकटतम डेटा बिंदुओं के लेबल की जाँच करता है। लक्ष्य डेटा बिंदु के बारे में भविष्यवाणी प्रस्तुत करते समय, यह मायने रखता है कि कार्य एक है या नहीं प्रतीपगमन or वर्गीकरण काम। प्रतिगमन कार्य के लिए, शीर्ष K लेबल के माध्य का उपयोग किया जाता है, जबकि वर्गीकरण के मामले में शीर्ष K लेबल के मोड का उपयोग किया जाता है।

KNN को अंजाम देने के लिए उपयोग किए जाने वाले सटीक गणितीय ऑपरेशन चुनी गई दूरी मीट्रिक के आधार पर भिन्न होते हैं। यदि आप इस बारे में अधिक जानना चाहते हैं कि मेट्रिक्स की गणना कैसे की जाती है, तो आप कुछ सबसे सामान्य दूरी मेट्रिक्स के बारे में पढ़ सकते हैं, जैसे कि इयूक्लिडियन, मैनहट्टन, तथा मिंकोवस्की.

K का मान क्यों मायने रखता है?

KNN का उपयोग करते समय मुख्य सीमा यह है कि K के अनुचित मान (पड़ोसियों की गलत संख्या पर विचार किया जाना) को चुना जा सकता है। यदि ऐसा होता है, तो लौटाए गए पूर्वानुमान काफी हद तक ख़राब हो सकते हैं। यह बहुत महत्वपूर्ण है कि, KNN एल्गोरिथ्म का उपयोग करते समय, K के लिए उचित मान चुना जाए। आप K के लिए एक ऐसा मान चुनना चाहते हैं जो मॉडल की अनदेखी डेटा पर भविष्यवाणियां करने की क्षमता को अधिकतम करता है जबकि त्रुटियों की संख्या को कम करता है।

फोटो: विकिमीडिया कॉमन्स के माध्यम से एगोर153, सीसी बाय एसए 3.0 (https://en.wikipedia.org/wiki/File:Map1NN.png)

K के कम मूल्यों का मतलब है कि KNN द्वारा प्रदान की गई भविष्यवाणियाँ कम स्थिर और विश्वसनीय हैं। ऐसा क्यों है इसका अंतर्ज्ञान पाने के लिए, एक ऐसे मामले पर विचार करें जहां हमारे पास एक लक्ष्य डेटा बिंदु के आसपास 7 पड़ोसी हैं। आइए मान लें कि KNN मॉडल 2 के K मान के साथ काम कर रहा है (हम इसे भविष्यवाणी करने के लिए दो निकटतम पड़ोसियों को देखने के लिए कह रहे हैं)। यदि अधिकांश पड़ोसी (सात में से पांच) नीले वर्ग के हैं, लेकिन दो निकटतम पड़ोसी लाल हैं, तो मॉडल भविष्यवाणी करेगा कि क्वेरी उदाहरण लाल है। मॉडल के अनुमान के बावजूद, ऐसे परिदृश्य में नीला एक बेहतर अनुमान होगा।

यदि यह मामला है, तो हम केवल उच्चतम K मान ही क्यों नहीं चुन सकते? ऐसा इसलिए है क्योंकि मॉडल को बहुत सारे पड़ोसियों पर विचार करने के लिए कहने से सटीकता भी कम हो जाएगी। जैसे-जैसे केएनएन मॉडल जिस दायरे पर विचार करता है वह बढ़ता है, यह अंततः उन डेटा बिंदुओं पर विचार करना शुरू कर देगा जो लक्ष्य डेटा बिंदु की तुलना में अन्य समूहों के करीब हैं और गलत वर्गीकरण होना शुरू हो जाएगा। उदाहरण के लिए, भले ही जो बिंदु शुरू में चुना गया था वह उपरोक्त लाल क्षेत्रों में से एक में था, यदि K को बहुत अधिक सेट किया गया था, तो मॉडल बिंदुओं पर विचार करने के लिए अन्य क्षेत्रों में पहुंच जाएगा। KNN मॉडल का उपयोग करते समय, K के विभिन्न मानों को यह देखने का प्रयास किया जाता है कि कौन सा मान मॉडल को सर्वोत्तम प्रदर्शन देता है।

केएनएन के पक्ष और विपक्ष

आइए केएनएन मॉडल के कुछ फायदे और नुकसान की जांच करें।

पेशेवरों:

कुछ अन्य पर्यवेक्षित शिक्षण एल्गोरिदम के विपरीत, केएनएन का उपयोग प्रतिगमन और वर्गीकरण दोनों कार्यों के लिए किया जा सकता है।

KNN अत्यधिक सटीक और उपयोग में सरल है। इसकी व्याख्या करना, समझना और लागू करना आसान है।

केएनएन डेटा के बारे में कोई धारणा नहीं बनाता है, जिसका अर्थ है कि इसका उपयोग विभिन्न प्रकार की समस्याओं के लिए किया जा सकता है।

विपक्ष:

KNN अधिकांश या सभी डेटा संग्रहीत करता है, जिसका अर्थ है कि मॉडल को बहुत अधिक मेमोरी की आवश्यकता होती है और यह कम्प्यूटेशनल रूप से महंगा है। बड़े डेटासेट के कारण पूर्वानुमानों में भी लंबा समय लग सकता है।

KNN डेटासेट के पैमाने के प्रति बहुत संवेदनशील साबित होता है और इसे अन्य मॉडलों की तुलना में अप्रासंगिक सुविधाओं द्वारा आसानी से ख़त्म किया जा सकता है।

K-निकटतम पड़ोसियों का सारांश (KNN)

K-निकटतम पड़ोसी सबसे सरल मशीन लर्निंग एल्गोरिदम में से एक है। केएनएन कितना सरल होने के बावजूद, अवधारणा में, यह एक शक्तिशाली एल्गोरिदम भी है जो अधिकांश समस्याओं पर काफी उच्च सटीकता देता है। जब आप KNN का उपयोग करते हैं, तो उच्चतम सटीकता प्रदान करने वाली संख्या खोजने के लिए K के विभिन्न मानों के साथ प्रयोग करना सुनिश्चित करें।

विशेषज्ञता वाले ब्लॉगर और प्रोग्रामर मशीन लर्निंग और गहरी सीख विषय। डैनियल को उम्मीद है कि वह दूसरों को सामाजिक भलाई के लिए एआई की शक्ति का उपयोग करने में मदद करेगा।