- शब्दावली (ए से डी)
- एआई क्षमता नियंत्रण
- एआईओपीएस
- एल्बमनेशन
- संपत्ति प्रदर्शन
- स्वयंभू
- backpropagation
- बेयस प्रमेय
- बड़ा डेटा
- चैटबॉट: एक शुरुआती मार्गदर्शिका
- कम्प्यूटेशनल सोच
- Computer Vision
- असमंजस का जाल
- संवादी तंत्रिका नेटवर्क
- साइबर सुरक्षा
- डेटा फैब्रिक
- डेटा स्टोरीटेलिंग
- डाटा विज्ञान
- विवरण भण्डारण
- निर्णय वृक्ष
- Deepfakes
- गहरी सीख
- दीप सुदृढीकरण सीखना
- देवोप्स
- देवसेकऑप्स
- प्रसार मॉडल
- डिजिटल ट्विन
- आयाम की कमी
- शब्दावली (ई से के)
- शब्दावली (बाएं से क्यू)
- शब्दावली (आर से ज़ेड)
एआई 101
KNN (K-निकटतम पड़ोसी) क्या है?
विषय - सूची
K-निकटतम पड़ोसी (KNN) क्या है?
के-नियरेस्ट नेबर्स एक मशीन लर्निंग तकनीक और एल्गोरिदम है प्रतिगमन और वर्गीकरण दोनों कार्यों के लिए उपयोग किया जा सकता है. K-निकटतम पड़ोसी जाँच डेटा बिंदुओं की चुनी गई संख्या के लेबल लक्ष्य डेटा बिंदु को घेरना, ताकि डेटा बिंदु जिस वर्ग में आता है, उसके बारे में भविष्यवाणी की जा सके। के-नियरेस्ट नेबर्स (केएनएन) एक वैचारिक रूप से सरल लेकिन बहुत शक्तिशाली एल्गोरिदम है, और उन कारणों से, यह सबसे लोकप्रिय मशीन लर्निंग एल्गोरिदम में से एक है। आइए KNN एल्गोरिथम में गहराई से उतरें और देखें कि यह वास्तव में कैसे काम करता है। केएनएन कैसे संचालित होता है इसकी अच्छी समझ होने से आप केएनएन के सर्वोत्तम और सबसे खराब उपयोग के मामलों की सराहना कर सकेंगे।
K-निकटतम पड़ोसियों का अवलोकन (KNN)
आइए 2डी विमान पर एक डेटासेट की कल्पना करें। ग्राफ़ पर डेटा बिंदुओं का एक समूह चित्रित करें, जो ग्राफ़ के साथ छोटे समूहों में फैला हुआ है। केएनएन डेटा बिंदुओं के वितरण की जांच करता है और, मॉडल को दिए गए तर्कों के आधार पर, यह डेटा बिंदुओं को समूहों में अलग करता है। फिर इन समूहों को एक लेबल सौंपा जाता है। केएनएन मॉडल जो प्राथमिक धारणा बनाता है वह यह है कि डेटा बिंदु/उदाहरण जो एक-दूसरे के करीब मौजूद हैं, अत्यधिक समान हैं, जबकि यदि कोई डेटा बिंदु दूसरे समूह से बहुत दूर है तो यह उन डेटा बिंदुओं से भिन्न होता है।
KNN मॉडल ग्राफ़ पर दो बिंदुओं के बीच की दूरी का उपयोग करके समानता की गणना करता है। बिंदुओं के बीच की दूरी जितनी अधिक होगी, वे उतने ही कम समान होंगे। बिंदुओं के बीच की दूरी की गणना करने के कई तरीके हैं, लेकिन सबसे आम दूरी मीट्रिक सिर्फ यूक्लिडियन दूरी (एक सीधी रेखा में दो बिंदुओं के बीच की दूरी) है।
केएनएन एक पर्यवेक्षित शिक्षण एल्गोरिदम है, जिसका अर्थ है कि डेटासेट में उदाहरणों में उन्हें निर्दिष्ट लेबल होना चाहिए/उनकी कक्षाएं ज्ञात होनी चाहिए। KNN के बारे में जानने योग्य दो अन्य महत्वपूर्ण बातें हैं। सबसे पहले, केएनएन एक गैर-पैरामीट्रिक एल्गोरिदम है। इसका मतलब यह है कि जब मॉडल का उपयोग किया जाता है तो डेटासेट के बारे में कोई धारणा नहीं बनाई जाती है। बल्कि, मॉडल पूरी तरह से उपलब्ध कराए गए डेटा से बनाया गया है। दूसरा, KNN का उपयोग करते समय डेटासेट को प्रशिक्षण और परीक्षण सेट में विभाजित नहीं किया जाता है। केएनएन प्रशिक्षण और परीक्षण सेट के बीच कोई सामान्यीकरण नहीं करता है, इसलिए जब मॉडल को भविष्यवाणियां करने के लिए कहा जाता है तो सभी प्रशिक्षण डेटा का भी उपयोग किया जाता है।
KNN एल्गोरिथम कैसे संचालित होता है
एक KNN एल्गोरिथ्म तीन मुख्य चरणों से होकर गुजरता है:
- पड़ोसियों की चुनी हुई संख्या पर K सेट करना।
- प्रदान किए गए/परीक्षण उदाहरण और डेटासेट उदाहरणों के बीच की दूरी की गणना करना।
- परिकलित दूरियों को क्रमबद्ध करना.
- शीर्ष K प्रविष्टियों के लेबल प्राप्त करना।
- परीक्षण उदाहरण के बारे में एक भविष्यवाणी लौटाना।
पहले चरण में, K को उपयोगकर्ता द्वारा चुना जाता है और यह एल्गोरिदम को बताता है कि लक्ष्य उदाहरण जिस समूह से संबंधित है, उसके बारे में निर्णय देते समय कितने पड़ोसियों (कितने आसपास के डेटा बिंदु) पर विचार किया जाना चाहिए। दूसरे चरण में, ध्यान दें कि मॉडल लक्ष्य उदाहरण और डेटासेट में प्रत्येक उदाहरण के बीच की दूरी की जांच करता है। फिर दूरियों को एक सूची में जोड़ा जाता है और क्रमबद्ध किया जाता है। बाद में, क्रमबद्ध सूची की जाँच की जाती है और शीर्ष K तत्वों के लेबल वापस कर दिए जाते हैं। दूसरे शब्दों में, यदि K को 5 पर सेट किया गया है, तो मॉडल लक्ष्य डेटा बिंदु के शीर्ष 5 निकटतम डेटा बिंदुओं के लेबल की जाँच करता है। लक्ष्य डेटा बिंदु के बारे में भविष्यवाणी प्रस्तुत करते समय, यह मायने रखता है कि कार्य एक है या नहीं प्रतीपगमन or वर्गीकरण काम। प्रतिगमन कार्य के लिए, शीर्ष K लेबल के माध्य का उपयोग किया जाता है, जबकि वर्गीकरण के मामले में शीर्ष K लेबल के मोड का उपयोग किया जाता है।
KNN को अंजाम देने के लिए उपयोग किए जाने वाले सटीक गणितीय ऑपरेशन चुनी गई दूरी मीट्रिक के आधार पर भिन्न होते हैं। यदि आप इस बारे में अधिक जानना चाहते हैं कि मेट्रिक्स की गणना कैसे की जाती है, तो आप कुछ सबसे सामान्य दूरी मेट्रिक्स के बारे में पढ़ सकते हैं, जैसे कि इयूक्लिडियन, मैनहट्टन, तथा मिंकोवस्की.
K का मान क्यों मायने रखता है?
KNN का उपयोग करते समय मुख्य सीमा यह है कि K के अनुचित मान (पड़ोसियों की गलत संख्या पर विचार किया जाना) को चुना जा सकता है। यदि ऐसा होता है, तो लौटाए गए पूर्वानुमान काफी हद तक ख़राब हो सकते हैं। यह बहुत महत्वपूर्ण है कि, KNN एल्गोरिथ्म का उपयोग करते समय, K के लिए उचित मान चुना जाए। आप K के लिए एक ऐसा मान चुनना चाहते हैं जो मॉडल की अनदेखी डेटा पर भविष्यवाणियां करने की क्षमता को अधिकतम करता है जबकि त्रुटियों की संख्या को कम करता है।
K के कम मूल्यों का मतलब है कि KNN द्वारा प्रदान की गई भविष्यवाणियाँ कम स्थिर और विश्वसनीय हैं। ऐसा क्यों है इसका अंतर्ज्ञान पाने के लिए, एक ऐसे मामले पर विचार करें जहां हमारे पास एक लक्ष्य डेटा बिंदु के आसपास 7 पड़ोसी हैं। आइए मान लें कि KNN मॉडल 2 के K मान के साथ काम कर रहा है (हम इसे भविष्यवाणी करने के लिए दो निकटतम पड़ोसियों को देखने के लिए कह रहे हैं)। यदि अधिकांश पड़ोसी (सात में से पांच) नीले वर्ग के हैं, लेकिन दो निकटतम पड़ोसी लाल हैं, तो मॉडल भविष्यवाणी करेगा कि क्वेरी उदाहरण लाल है। मॉडल के अनुमान के बावजूद, ऐसे परिदृश्य में नीला एक बेहतर अनुमान होगा।
यदि यह मामला है, तो हम केवल उच्चतम K मान ही क्यों नहीं चुन सकते? ऐसा इसलिए है क्योंकि मॉडल को बहुत सारे पड़ोसियों पर विचार करने के लिए कहने से सटीकता भी कम हो जाएगी। जैसे-जैसे केएनएन मॉडल जिस दायरे पर विचार करता है वह बढ़ता है, यह अंततः उन डेटा बिंदुओं पर विचार करना शुरू कर देगा जो लक्ष्य डेटा बिंदु की तुलना में अन्य समूहों के करीब हैं और गलत वर्गीकरण होना शुरू हो जाएगा। उदाहरण के लिए, भले ही जो बिंदु शुरू में चुना गया था वह उपरोक्त लाल क्षेत्रों में से एक में था, यदि K को बहुत अधिक सेट किया गया था, तो मॉडल बिंदुओं पर विचार करने के लिए अन्य क्षेत्रों में पहुंच जाएगा। KNN मॉडल का उपयोग करते समय, K के विभिन्न मानों को यह देखने का प्रयास किया जाता है कि कौन सा मान मॉडल को सर्वोत्तम प्रदर्शन देता है।
केएनएन के पक्ष और विपक्ष
आइए केएनएन मॉडल के कुछ फायदे और नुकसान की जांच करें।
पेशेवरों:
कुछ अन्य पर्यवेक्षित शिक्षण एल्गोरिदम के विपरीत, केएनएन का उपयोग प्रतिगमन और वर्गीकरण दोनों कार्यों के लिए किया जा सकता है।
KNN अत्यधिक सटीक और उपयोग में सरल है। इसकी व्याख्या करना, समझना और लागू करना आसान है।
केएनएन डेटा के बारे में कोई धारणा नहीं बनाता है, जिसका अर्थ है कि इसका उपयोग विभिन्न प्रकार की समस्याओं के लिए किया जा सकता है।
विपक्ष:
KNN अधिकांश या सभी डेटा संग्रहीत करता है, जिसका अर्थ है कि मॉडल को बहुत अधिक मेमोरी की आवश्यकता होती है और यह कम्प्यूटेशनल रूप से महंगा है। बड़े डेटासेट के कारण पूर्वानुमानों में भी लंबा समय लग सकता है।
KNN डेटासेट के पैमाने के प्रति बहुत संवेदनशील साबित होता है और इसे अन्य मॉडलों की तुलना में अप्रासंगिक सुविधाओं द्वारा आसानी से ख़त्म किया जा सकता है।
K-निकटतम पड़ोसियों का सारांश (KNN)
K-निकटतम पड़ोसी सबसे सरल मशीन लर्निंग एल्गोरिदम में से एक है। केएनएन कितना सरल होने के बावजूद, अवधारणा में, यह एक शक्तिशाली एल्गोरिदम भी है जो अधिकांश समस्याओं पर काफी उच्च सटीकता देता है। जब आप KNN का उपयोग करते हैं, तो उच्चतम सटीकता प्रदान करने वाली संख्या खोजने के लिए K के विभिन्न मानों के साथ प्रयोग करना सुनिश्चित करें।
विशेषज्ञता वाले ब्लॉगर और प्रोग्रामर मशीन लर्निंग और गहरी सीख विषय। डैनियल को उम्मीद है कि वह दूसरों को सामाजिक भलाई के लिए एआई की शक्ति का उपयोग करने में मदद करेगा।
शायद तुम पसंद करोगे
एआई अनुसंधान में नई सीमा के रूप में पुनरुत्पादकता पर पुनर्विचार
मशीन लर्निंग इंजीनियर - कौशल और कैरियर पथ
एआई को परीक्षणों में धोखाधड़ी से रोकने का संघर्ष
विनियामक हस्तक्षेप के बिना, एआई उत्पादों की कीमत अधिक होने की संभावना है
Google बिना खोज परिणामों के GPT-3 जैसी क्वेरी प्रणाली की परिकल्पना करता है
फ्यू-शॉट लर्निंग क्या है?