ठूंठ ओवरफिटिंग क्या है? - यूनाइट.एआई
हमसे जुडे
एआई मास्टरक्लास:

एआई 101

ओवरफिटिंग क्या है?

mm
Updated on

ओवरफिटिंग क्या है?

जब आप एक तंत्रिका नेटवर्क को प्रशिक्षित करते हैं, तो आपको ओवरफिटिंग से बचना होगा। ओवरफिटिंग मशीन लर्निंग और सांख्यिकी के भीतर एक मुद्दा है जहां एक मॉडल प्रशिक्षण डेटासेट के पैटर्न को बहुत अच्छी तरह से सीखता है, प्रशिक्षण डेटा सेट को पूरी तरह से समझाता है लेकिन डेटा के अन्य सेटों के लिए अपनी पूर्वानुमानित शक्ति को सामान्य बनाने में विफल रहता है।

दूसरे तरीके से कहें तो, ओवरफिटिंग मॉडल के मामले में यह अक्सर प्रशिक्षण डेटासेट पर अत्यधिक उच्च सटीकता दिखाएगा लेकिन भविष्य में मॉडल के माध्यम से एकत्र और चलाए जाने वाले डेटा पर कम सटीकता दिखाएगा। यह ओवरफिटिंग की एक त्वरित परिभाषा है, लेकिन आइए ओवरफिटिंग की अवधारणा पर अधिक विस्तार से विचार करें। आइए देखें कि ओवरफिटिंग कैसे होती है और इससे कैसे बचा जा सकता है।

"फिट" और अंडरफिटिंग को समझना

अंडरफ़िटिंग की अवधारणा पर एक नज़र डालना सहायक है और "फिटआम तौर पर ओवरफिटिंग पर चर्चा करते समय। जब हम किसी मॉडल को प्रशिक्षित करते हैं तो हम एक ऐसा ढांचा विकसित करने का प्रयास कर रहे होते हैं जो उन वस्तुओं का वर्णन करने वाली विशेषताओं के आधार पर डेटासेट के भीतर वस्तुओं की प्रकृति, या वर्ग की भविष्यवाणी करने में सक्षम हो। एक मॉडल को डेटासेट के भीतर एक पैटर्न की व्याख्या करने और इस पैटर्न के आधार पर भविष्य के डेटा बिंदुओं की कक्षाओं की भविष्यवाणी करने में सक्षम होना चाहिए। मॉडल प्रशिक्षण सेट की विशेषताओं के बीच संबंध को जितना बेहतर समझाएगा, हमारा मॉडल उतना ही अधिक "फिट" होगा।

नीली रेखा एक ऐसे मॉडल की भविष्यवाणियों का प्रतिनिधित्व करती है जो कम फिट बैठता है, जबकि हरी रेखा एक बेहतर फिट मॉडल का प्रतिनिधित्व करती है। फोटो: विकिमीडिया कॉमन्स के माध्यम से पेप रोका, सीसी बाय एसए 3.0, (https://commons.wikimedia.org/wiki/File:Reg_ls_curvil%C3%ADnia.svg)

एक मॉडल जो प्रशिक्षण डेटा की विशेषताओं के बीच संबंध को खराब तरीके से समझाता है और इस प्रकार भविष्य के डेटा उदाहरणों को सटीक रूप से वर्गीकृत करने में विफल रहता है अंडरफिटिंग प्रशिक्षण डेटा. यदि आप सुविधाओं और लेबलों के वास्तविक प्रतिच्छेदन के विरुद्ध एक अंडरफिटिंग मॉडल के अनुमानित संबंध का रेखांकन करते हैं, तो भविष्यवाणियां लक्ष्य से भटक जाएंगी। यदि हमारे पास लेबल किए गए प्रशिक्षण सेट के वास्तविक मूल्यों के साथ एक ग्राफ होता, तो एक गंभीर रूप से अंडरफिटिंग मॉडल अधिकांश डेटा बिंदुओं को काफी हद तक मिस कर देता। बेहतर फिट वाला मॉडल डेटा बिंदुओं के केंद्र के माध्यम से एक रास्ता काट सकता है, जिसमें व्यक्तिगत डेटा बिंदु अनुमानित मूल्यों से केवल थोड़ा सा दूर होंगे।

अंडरफिटिंग अक्सर तब हो सकती है जब एक सटीक मॉडल बनाने के लिए अपर्याप्त डेटा होता है, या जब गैर-रेखीय डेटा के साथ एक रैखिक मॉडल डिजाइन करने का प्रयास किया जाता है। अधिक प्रशिक्षण डेटा या अधिक सुविधाएँ अक्सर अंडरफिटिंग को कम करने में मदद करेंगी।

तो हम ऐसा मॉडल क्यों नहीं बनाएंगे जो प्रशिक्षण डेटा के हर बिंदु को पूरी तरह से समझाए? निश्चित रूप से पूर्ण सटीकता वांछनीय है? एक ऐसा मॉडल बनाना जिसने प्रशिक्षण डेटा के पैटर्न को बहुत अच्छी तरह से सीख लिया हो, जो ओवरफिटिंग का कारण बनता है। मॉडल के माध्यम से आपके द्वारा चलाया जाने वाला प्रशिक्षण डेटा सेट और अन्य, भविष्य के डेटासेट बिल्कुल समान नहीं होंगे। वे संभवतः कई मामलों में बहुत समान होंगे, लेकिन वे प्रमुख मायनों में भिन्न भी होंगे। इसलिए, एक ऐसा मॉडल डिज़ाइन करना जो प्रशिक्षण डेटासेट को पूरी तरह से समझाता है, इसका मतलब है कि आप उन सुविधाओं के बीच संबंध के बारे में एक सिद्धांत के साथ समाप्त होते हैं जो अन्य डेटासेट के लिए अच्छी तरह से सामान्यीकृत नहीं होता है।

ओवरफिटिंग को समझना

ओवरफिटिंग तब होती है जब कोई मॉडल प्रशिक्षण डेटासेट के भीतर विवरण बहुत अच्छी तरह से सीखता है, जिससे बाहरी डेटा पर भविष्यवाणियां करने पर मॉडल को नुकसान होता है। ऐसा तब हो सकता है जब मॉडल न केवल डेटासेट की विशेषताओं को सीखता है, बल्कि यह यादृच्छिक उतार-चढ़ाव भी सीखता है शोर डेटासेट के भीतर, इन यादृच्छिक/महत्वहीन घटनाओं को महत्व देते हुए।

जब नॉनलाइनियर मॉडल का उपयोग किया जाता है तो ओवरफिटिंग होने की अधिक संभावना होती है, क्योंकि डेटा सुविधाओं को सीखते समय वे अधिक लचीले होते हैं। नॉनपैरामेट्रिक मशीन लर्निंग एल्गोरिदम में अक्सर विभिन्न पैरामीटर और तकनीकें होती हैं जिन्हें डेटा के प्रति मॉडल की संवेदनशीलता को सीमित करने के लिए लागू किया जा सकता है और इस तरह ओवरफिटिंग को कम किया जा सकता है। उदहारण के लिए, निर्णय वृक्ष मॉडल ओवरफिटिंग के प्रति अत्यधिक संवेदनशील हैं, लेकिन मॉडल द्वारा सीखे गए कुछ विवरणों को बेतरतीब ढंग से हटाने के लिए प्रूनिंग नामक तकनीक का उपयोग किया जा सकता है।

यदि आप एक्स और वाई अक्षों पर मॉडल की भविष्यवाणियों का रेखांकन करते हैं, तो आपके पास भविष्यवाणी की एक रेखा होगी जो आगे और पीछे टेढ़ी-मेढ़ी होती है, जो इस तथ्य को दर्शाती है कि मॉडल ने डेटासेट में सभी बिंदुओं को फिट करने के लिए बहुत कठिन प्रयास किया है। इसकी व्याख्या.

ओवरफिटिंग को नियंत्रित करना

जब हम किसी मॉडल को प्रशिक्षित करते हैं, तो हम आदर्श रूप से चाहते हैं कि मॉडल में कोई त्रुटि न हो। जब मॉडल का प्रदर्शन प्रशिक्षण डेटासेट में सभी डेटा बिंदुओं पर सही भविष्यवाणी करने की दिशा में परिवर्तित होता है, तो फिट बेहतर होता जा रहा है। एक अच्छी फिट वाला मॉडल ओवरफिटिंग के बिना लगभग सभी प्रशिक्षण डेटासेट को समझाने में सक्षम है।

एक मॉडल के प्रशिक्षण के रूप में समय के साथ उसके प्रदर्शन में सुधार होता है। जैसे-जैसे प्रशिक्षण का समय बीतता जाएगा, मॉडल की त्रुटि दर कम होती जाएगी, लेकिन यह केवल एक निश्चित बिंदु तक ही घटती है। जिस बिंदु पर परीक्षण सेट पर मॉडल का प्रदर्शन फिर से बढ़ना शुरू होता है वह आमतौर पर वह बिंदु होता है जिस पर ओवरफिटिंग हो रही होती है। किसी मॉडल के लिए सबसे उपयुक्त होने के लिए, हम प्रशिक्षण सेट पर सबसे कम नुकसान के बिंदु पर मॉडल का प्रशिक्षण बंद करना चाहते हैं, इससे पहले कि त्रुटि फिर से बढ़ने लगे। पूरे प्रशिक्षण समय के दौरान मॉडल के प्रदर्शन का रेखांकन करके और नुकसान सबसे कम होने पर प्रशिक्षण रोककर इष्टतम रोक बिंदु का पता लगाया जा सकता है। हालाँकि, ओवरफिटिंग को नियंत्रित करने की इस पद्धति में एक जोखिम यह है कि परीक्षण प्रदर्शन के आधार पर प्रशिक्षण के लिए समापन बिंदु निर्दिष्ट करने का मतलब है कि परीक्षण डेटा कुछ हद तक प्रशिक्षण प्रक्रिया में शामिल हो जाता है, और यह पूरी तरह से "अछूते" डेटा के रूप में अपनी स्थिति खो देता है।

ऐसे कुछ अलग-अलग तरीके हैं जिनसे कोई ओवरफिटिंग से निपट सकता है। ओवरफिटिंग को कम करने का एक तरीका पुनः नमूनाकरण रणनीति का उपयोग करना है, जो मॉडल की सटीकता का अनुमान लगाकर संचालित होता है। आप a का भी उपयोग कर सकते हैं सत्यापन परीक्षण सेट के अतिरिक्त डेटासेट और परीक्षण डेटासेट के बजाय सत्यापन सेट के विरुद्ध प्रशिक्षण सटीकता को प्लॉट करें। इससे आपका परीक्षण डेटासेट अदृश्य रहता है। एक लोकप्रिय पुन: नमूनाकरण विधि के-फोल्ड्स क्रॉस-वैलिडेशन है। यह तकनीक आपको अपने डेटा को उन उप-समूहों में विभाजित करने में सक्षम बनाती है जिन पर मॉडल को प्रशिक्षित किया जाता है, और फिर उप-समूहों पर मॉडल के प्रदर्शन का विश्लेषण यह अनुमान लगाने के लिए किया जाता है कि मॉडल बाहरी डेटा पर कैसा प्रदर्शन करेगा।

अनदेखे डेटा पर किसी मॉडल की सटीकता का अनुमान लगाने के लिए क्रॉस-वैलिडेशन का उपयोग करना सबसे अच्छे तरीकों में से एक है, और जब इसे वैलिडेशन डेटासेट के साथ जोड़ा जाता है तो ओवरफिटिंग को अक्सर न्यूनतम रखा जा सकता है।

विशेषज्ञता वाले ब्लॉगर और प्रोग्रामर मशीन लर्निंग और गहरी सीख विषय। डैनियल को उम्मीद है कि वह दूसरों को सामाजिक भलाई के लिए एआई की शक्ति का उपयोग करने में मदद करेगा।