рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

YOLOv7: рд╕рдмрд╕реЗ рдЙрдиреНрдирдд рд╡рд╕реНрддреБ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рд╡рд╛рд▓рд╛ рдЕрд▓реНрдЧреЛрд░рд┐рдереНрдо?

mm

6 जुलाई 2022 को एआई इतिहास में एक महत्वपूर्ण दिन के रूप में चिह्नित किया जाएगा, क्योंकि इस दिन YOLOv7 जारी किया गया था। इसके लॉन्च के बाद से, YOLOv7 कंप्यूटर विजन डेवलपर समुदाय में सबसे गर्म विषय रहा है, और सही कारणों से। YOLOv7 को पहले से ही वस्तु का पता लगाने वाले उद्योग में एक मील का पत्थर माना जा रहा है।

YOLOv7 पेपर प्रकाशित होने के तुरंत बाद, यह सबसे तेज़ और सबसे सटीक वास्तविक समय वस्तु का पता लगाने वाला मॉडल साबित हुआ। लेकिन YOLOv7 अपने पूर्ववर्तियों से कैसे बेहतर है? YOLOv7 को कंप्यूटर विजन कार्यों को करने में इतना कुशल बनाने वाला क्या है?

इस लेख में, हम YOLOv7 मॉडल का विश्लेषण करने का प्रयास करेंगे और यह जानने का प्रयास करेंगे कि YOLOv7 इतना कुशल क्यों है। लेकिन इससे पहले कि हम इसका उत्तर दे सकें, हमें वस्तु का पता लगाने के इतिहास को देखना होगा।

वस्तु का पता लगाने क्या है?

वस्तु का पता लगाने कंप्यूटर विजन की एक शाखा है जो एक छवि या वीडियो फ़ाइल में वस्तुओं की पहचान और स्थान निर्धारित करती है। वस्तु का पता लगाने वाले मॉडल को दो अलग-अलग श्रेणियों में वर्गीकृत किया जा सकता है, एकल-शॉट डिटेक्टर, और मल्टी-शॉट डिटेक्टर।

वास्तविक समय वस्तु का पता लगाने

वास्तविक समय वस्तु का पता लगाने वाले मॉडल वास्तविक समय में वस्तुओं की पहचान और स्थान निर्धारित करने का प्रयास करते हैं। वास्तविक समय वस्तु का पता लगाने वाले मॉडल वीडियो विश्लेषण, स्वायत्त वाहन, वस्तु गणना, मल्टी-वस्तु ट्रैकिंग, और बहुत कुछ के लिए बहुत कुशल हैं।

वास्तविक समय वस्तु का पता लगाने वाले मॉडल पारंपरिक छवि पता लगाने वाले मॉडल से एक कदम आगे हैं। जबकि पूर्व का उपयोग वीडियो फ़ाइलों में वस्तुओं को ट्रैक करने के लिए किया जाता है, बाद वाला एक स्थिर फ्रेम जैसे एक छवि में वस्तुओं की पहचान और स्थान निर्धारित करता है।

वास्तविक समय वस्तु का पता लगाने वाले मॉडल वीडियो विश्लेषण, स्वायत्त वाहन, वस्तु गणना, मल्टी-वस्तु ट्रैकिंग, और बहुत कुछ के लिए बहुत कुशल हैं।

YOLO क्या है?

YOLO या “आप केवल एक बार देखते हैं” वास्तविक समय वस्तु का पता लगाने वाले मॉडल का एक परिवार है। YOLO की अवधारणा पहली बार 2016 में जोसेफ रेडमोन द्वारा पेश की गई थी, और यह तुरंत ही कंप्यूटर विजन उद्योग में एक मानक बन गया।

YOLO अल्गोरिथ्म की मूल अवधारणा यह है कि यह वास्तविक समय में भविष्यवाणी करने के लिए एक एंड-टू-एंड न्यूरल नेटवर्क का उपयोग करता है। YOLO पिछले वस्तु का पता लगाने वाले मॉडल से अलग था क्योंकि यह वस्तु का पता लगाने के लिए एक अलग दृष्टिकोण का प्रस्ताव करता था।

YOLO अल्गोरिथ्म की वजह से यह इतना कुशल क्यों है?

YOLO की तुलना में, वस्तु का पता लगाने वाले अल्गोरिथ्म पहले क्षेत्र प्रस्ताव नेटवर्क का उपयोग करते थे जो संभावित क्षेत्रों का पता लगाने के लिए उपयोग किया जाता था। पहचान प्रक्रिया तब प्रत्येक क्षेत्र पर अलग से की जाती थी। इसके परिणामस्वरूप, ये मॉडल अक्सर एक ही छवि पर कई पुनरावृत्तियां करते थे, और इसलिए कम सटीकता और उच्च कार्यान्वयन समय। दूसरी ओर, YOLO अल्गोरिथ्म एक एकल पूरी तरह से जुड़े हुए परत का उपयोग करता है जो एक बार में भविष्यवाणी करता है।

YOLO कैसे काम करता है?

YOLO अल्गोरिथ्म को काम करने के तीन चरण हैं।

वस्तु का पता लगाने को एकल रिग्रेशन समस्या के रूप में पुनः परिभाषित करना

YOLO अल्गोरिथ्म वस्तु का पता लगाने को एकल रिग्रेशन समस्या के रूप में पुनः परिभाषित करने का प्रयास करता है, जिसमें छवि पिक्सल, वर्ग संभावनाएं, और बाउंडिंग बॉक्स समन्वय शामिल हैं। इसलिए, अल्गोरिथ्म को केवल एक बार छवि देखने की आवश्यकता होती है ताकि लक्ष्य वस्तुओं की भविष्यवाणी और स्थान निर्धारित किया जा सके।

छवि को वैश्विक रूप से कारण

इसके अलावा, जब YOLO अल्गोरिथ्म भविष्यवाणी करता है, तो यह छवि को वैश्विक रूप से कारण करता है। यह क्षेत्र प्रस्ताव-आधारित और स्लाइडिंग तकनीकों से अलग है क्योंकि YOLO अल्गोरिथ्म प्रशिक्षण और परीक्षण के दौरान पूरी छवि को देखता है और वर्गों और उनके दिखने के बीच संदर्भ संबंधों के बारे में संदर्भ जानकारी को एन्कोड करता है।

YOLO से पहले, फास्ट आर-सीएनएन वस्तु का पता लगाने वाला एक लोकप्रिय अल्गोरिथ्म था जो छवि में बड़े संदर्भ को देखने में असमर्थ था क्योंकि यह छवि में पृष्ठभूमि पैच को वस्तु के रूप में गलत समझता था। YOLO फास्ट आर-सीएनएन अल्गोरिथ्म की तुलना में 50% अधिक सटीक है जब पृष्ठभूमि त्रुटियों की बात आती है।

वस्तुओं का प्रतिनिधित्व करने वाले सामान्यीकरण

अंत में, YOLO अल्गोरिथ्म वस्तुओं के प्रतिनिधित्व को सामान्य बनाने का प्रयास करता है। इसके परिणामस्वरूप, जब YOLO अल्गोरिथ्म को एक डेटासेट पर चलाया गया जिसमें प्राकृतिक छवियां थीं और परिणामों के लिए परीक्षण किया गया, तो YOLO मौजूदा आर-सीएनएन मॉडलों को एक व्यापक अंतर से पार कर गया। यह इसलिए है क्योंकि YOLO बहुत सामान्य है और इसके टूटने की संभावना कम है जब इसे अप्रत्याशित इनपुट या नए डोमेन पर लागू किया जाता है।

YOLOv7: क्या नया है?

अब जब हमें वास्तविक समय वस्तु का पता लगाने वाले मॉडल और YOLO अल्गोरिथ्म की मूल बातें समझ में आ गई हैं, तो यह समय है YOLOv7 अल्गोरिथ्म पर चर्चा करने का।

प्रशिक्षण प्रक्रिया को अनुकूलित करना

YOLOv7 अल्गोरिथ्म न केवल मॉडल वास्तुकला को अनुकूलित करने का प्रयास करता है, बल्कि यह प्रशिक्षण प्रक्रिया को भी अनुकूलित करने का प्रयास करता है। यह अनुकूलन मॉड्यूल और विधियों का उपयोग करके वस्तु का पता लगाने की सटीकता में सुधार करने और प्रशिक्षण की लागत को मजबूत करने का प्रयास करता है, जबकि हस्तक्षेप लागत को बनाए रखता है। इन अनुकूलन मॉड्यूल को प्रशिक्षण योग्य बैग ऑफ फ्रीबीज के रूप में जाना जाता है।

मोटे से महीन लीड गाइडेड लेबल असाइनमेंट

YOLOv7 अल्गोरिथ्म एक नए मोटे से महीन लीड गाइडेड लेबल असाइनमेंट का उपयोग करने की योजना बना रहा है, जो पारंपरिक डायनामिक लेबल असाइनमेंट के बजाय। यह इसलिए है क्योंकि डायनामिक लेबल असाइनमेंट के साथ, एक मॉडल को कई आउटपुट परतों के साथ प्रशिक्षित करने से कुछ समस्याएं होती हैं, जिनमें से सबसे आम यह है कि विभिन्न शाखाओं और उनके आउटपुट के लिए डायनामिक लक्ष्य कैसे असाइन किए जाएं।

मॉडल पुनः पैरामीटरीकरण

मॉडल पुनः पैरामीटरीकरण वस्तु का पता लगाने में एक महत्वपूर्ण अवधारणा है, और इसका उपयोग आमतौर पर कुछ मुद्दों के साथ किया जाता है। YOLOv7 अल्गोरिथ्म ग्रेडिएंट प्रोपेगेशन पाथ का उपयोग करके मॉडल पुनः पैरामीटरीकरण नीतियों का विश्लेषण करने की योजना बना रहा है जो विभिन्न परतों में नेटवर्क के लिए लागू होती हैं।

विस्तार और यौगिक स्केलिंग

YOLOv7 अल्गोरिथ्म विस्तार और यौगिक स्केलिंग विधियों की भी शुरुआत करता है ताकि वास्तविक समय वस्तु का पता लगाने के लिए पैरामीटर और गणना का प्रभावी उपयोग किया जा सके।

YOLOv7: संबंधित कार्य

वास्तविक समय वस्तु का पता लगाने

YOLO वर्तमान में उद्योग मानक है, और अधिकांश वास्तविक समय वस्तु का पता लगाने वाले मॉडल YOLO अल्गोरिथ्म और FCOS (पूरी तरह से संवोल्यूशनल वन-स्टेज ऑब्जेक्ट-डिटेक्शन) का उपयोग करते हैं। एक राज्य-ऑफ-द-आर्ट वास्तविक समय वस्तु का पता लगाने वाले मॉडल में आमतौर पर निम्नलिखित विशेषताएं होती हैं

  • मजबूत और तेज नेटवर्क वास्तुकला।
  • एक प्रभावी सुविधा एकीकरण विधि।
  • एक सटीक वस्तु का पता लगाने वाली विधि।
  • एक मजबूत हानि कार्य।
  • एक कुशल लेबल असाइनमेंट विधि।
  • एक कुशल प्रशिक्षण विधि।

YOLOv7 अल्गोरिथ्म स्व-पर्यवेक्षित शिक्षा और ज्ञान संचार विधियों का उपयोग नहीं करता है जिन्हें अक्सर बड़ी मात्रा में डेटा की आवश्यकता होती है। इसके बजाय, YOLOv7 अल्गोरिथ्म एक प्रशिक्षण योग्य बैग ऑफ फ्रीबीज विधि का उपयोग करता है।

मॉडल पुनः पैरामीटरीकरण

मॉडल पुनः पैरामीटरीकरण तकनीकों को एक समूह तकनीक के रूप में माना जाता है जो कई गणना मॉड्यूल को हस्तक्षेप चरण में मिलाती है। इस तकनीक को और विभाजित किया जा सकता है मॉडल-स्तरीय समूह, और मॉड्यूल-स्तरीय समूह।

अब, अंतिम हस्तक्षेप मॉडल प्राप्त करने के लिए, मॉडल-स्तरीय पुनः पैरामीटरीकरण तकनीक दो अभ्यासों का उपयोग करती है। पहला अभ्यास विभिन्न प्रशिक्षण डेटा का उपयोग करके कई समान मॉडलों को प्रशिक्षित करता है, और फिर प्रशिक्षित मॉडलों के वजन को औसत करता है। वैकल्पिक रूप से, दूसरा अभ्यास प्रशिक्षण के दौरान मॉडलों के वजन को औसत करता है।

मॉड्यूल-स्तरीय पुनः पैरामीटरीकरण हाल के दिनों में बहुत लोकप्रिय हो रहा है क्योंकि यह प्रशिक्षण के दौरान एक मॉड्यूल को विभिन्न मॉड्यूल शाखाओं में विभाजित करता है, और फिर हस्तक्षेप के दौरान इन विभिन्न शाखाओं को एक समान मॉड्यूल में एकीकृत करता है।

हालांकि, पुनः पैरामीटरीकरण तकनीकों को सभी प्रकार की वास्तुकला पर लागू नहीं किया जा सकता है। यही कारण है कि YOLOv7 अल्गोरिथ्म विभिन्न वास्तुकला के लिए उपयुक्त रणनीतियों को डिज़ाइन करने के लिए नए मॉडल पुनः पैरामीटरीकरण तकनीकों का उपयोग करता है।

मॉडल स्केलिंग

मॉडल स्केलिंग मॉडल के गुणों को समायोजित करने की प्रक्रिया है ताकि यह विभिन्न कंप्यूटिंग डिवाइसों पर फिट हो सके। मॉडल स्केलिंग आमतौर पर गहराई (डेप्थ), रिज़ॉल्यूशन, स्टेज, और चौड़ाई जैसे विभिन्न कारकों का उपयोग करती है। इन कारकों का एक संतुलित व्यापार-बंद करने के लिए नेटवर्क पैरामीटर, हस्तक्षेप गति, गणना, और मॉडल की सटीकता पर महत्वपूर्ण भूमिका होती है।

मॉडल स्केलिंग के लिए सबसे आम तरीकों में से एक नेटवर्क आर्किटेक्चर सर्च (NAS) है जो बिना किसी जटिल नियमों के खोज इंजन से उपयुक्त स्केलिंग कारकों की खोज करता है। NAS का उपयोग करने का एक बड़ा नुकसान यह है कि यह स्केलिंग कारकों की खोज के लिए एक महंगा दृष्टिकोण है।

लगभग हर मॉडल पुनः पैरामीटरीकरण मॉडल व्यक्तिगत और अद्वितीय स्केलिंग कारकों का विश्लेषण स्वतंत्र रूप से करता है, और इसके अलावा, यह इन कारकों को स्वतंत्र रूप से अनुकूलित करता है। यह इसलिए है क्योंकि NAS आर्किटेक्चर गैर-संबंधित स्केलिंग कारकों के साथ काम करता है।

यह ध्यान देने योग्य है कि संकलन-आधारित मॉडल जैसे VoVNet या DenseNet मॉडल की गहराई को स्केल करने पर कुछ परतों के इनपुट चौड़ाई को बदलते हैं। YOLOv7 एक प्रस्तावित संकलन-आधारित वास्तुकला पर काम करता है, और इसलिए यह एक यौगिक स्केलिंग विधि का उपयोग करता है।

उपरोक्त आंकड़े में विभिन्न मॉडलों के विस्तारित कुशल परत समूहन नेटवर्क (E-ELAN) की तुलना की गई है। प्रस्तावित E-ELAN विधि मूल वास्तुकला के ग्रेडिएंट प्रसार मार्ग को बनाए रखती है, लेकिन समूह संवोल्यूशनल द्वारा जोड़े गए सुविधाओं की कार्डिनैलिटी को बढ़ाने का प्रयास करती है। यह प्रक्रिया विभिन्न मानचित्रों द्वारा सीखी गई सुविधाओं को बढ़ा सकती है और गणना और पैरामीटर का उपयोग अधिक कुशल बना सकती है।

YOLOv7 आर्किटेक्चर

YOLOv7 मॉडल YOLOv4, YOLO-R, और स्केल्ड YOLOv4 मॉडलों का उपयोग अपने आधार के रूप में करता है। YOLOv7 इन मॉडलों पर प्रयोगों का परिणाम है जो परिणामों में सुधार करने और मॉडल को अधिक सटीक बनाने के लिए किए गए थे।

विस्तारित कुशल परत समूहन नेटवर्क या E-ELAN

E-ELAN YOLOv7 मॉडल का मूलभूत निर्माण खंड है, और यह मौजूदा नेटवर्क कुशलता मॉडल से व्युत्पन्न है, मुख्य रूप से ELAN।

एक कुशल वास्तुकला को डिज़ाइन करते समय मुख्य विचार पैरामीटर, गणना घनत्व, और गणना की मात्रा होती है। अन्य मॉडल इनपुट/आउटपुट चैनल अनुपात, वास्तुकला नेटवर्क में शाखाएं, नेटवर्क हस्तक्षेप गति, संवोल्यूशनल नेटवर्क के टेंसर में तत्वों की संख्या, और अधिक जैसे कारकों पर भी विचार करते हैं।

CSPVoNet मॉडल उपरोक्त सभी पैरामीटर पर विचार करता है, और यह विभिन्न परतों के वजन को सक्षम करके विविध सुविधाओं को सीखने के लिए ग्रेडिएंट पथ का विश्लेषण भी करता है। यह दृष्टिकोण हस्तक्षेप को तेज़ और अधिक सटीक बनाने की अनुमति देता है। ELAN वास्तुकला एक कुशल नेटवर्क डिज़ाइन करने का प्रयास करती है जो सबसे छोटे ग्रेडिएंट पथ को नियंत्रित करती है ताकि नेटवर्क अधिक प्रभावी ढंग से सीखने और अभिसरण में सक्षम हो।

ELAN पहले से ही एक स्थिर चरण पर पहुंच गया है, जो कि गणनात्मक ब्लॉकों की स्टैकिंग संख्या और ग्रेडिएंट पथ की लंबाई की परवाह किए बिना है। स्थिर अवस्था तब नष्ट हो सकती है यदि गणनात्मक ब्लॉक असीमित रूप से ढेर किए जाते हैं, और पैरामीटर उपयोग दर कम हो जाएगी। प्रस्तावित E-ELAN वास्तुकला इस मुद्दे को हल कर सकती है क्योंकि यह विस्तार, शफलिंग, और मर्जिंग कार्डिनैलिटी का उपयोग करके नेटवर्क की सीखने की क्षमता को लगातार बढ़ाने का प्रयास करती है, जबकि मूल ग्रेडिएंट पथ को बनाए रखती है।

इसके अलावा, जब E-ELAN और ELAN की वास्तुकला की तुलना की जाती है, तो केवल गणनात्मक ब्लॉक में अंतर है, जबकि संक्रमण परत की वास्तुकला अपरिवर्तित रहती है।

E-ELAN गणनात्मक ब्लॉक की कार्डिनैलिटी को विस्तारित करने और समूह संवोल्यूशनल का उपयोग करके चैनल को विस्तारित करने का प्रस्ताव करता है। फीचर मैप तब ग्रुप पैरामीटर के अनुसार गणना की जाती है और समूहों में शफल की जाती है, और फिर कार्डिनैलिटी प्रदर्शन करने के लिए एक साथ जोड़ी जाती है। प्रत्येक समूह में चैनलों की संख्या मूल वास्तुकला में समान रहती है।

संकलन-आधारित मॉडल के लिए मॉडल स्केलिंग

मॉडल स्केलिंग मॉडल के गुणों को समायोजित करने में मदद करती है ताकि यह विभिन्न सेवा आवश्यकताओं के अनुसार विभिन्न पैमानों पर मॉडल उत्पन्न कर सके।

आंकड़े में संकलन-आधारित मॉडल के लिए मॉडल स्केलिंग का वर्णन किया गया है। जैसा कि आप आंकड़े (a) और (b) में देख सकते हैं, मॉडल की गहराई में वृद्धि के साथ गणनात्मक ब्लॉक की आउटपुट चौड़ाई बढ़ जाती है। परिणामस्वरूप, प्रसार परत के इनपुट चौड़ाई बढ़ जाती है। यदि यह विधि संकलन-आधारित वास्तुकला पर लागू की जाती है, तो स्केलिंग प्रक्रिया गहराई में की जाती है, जैसा कि आंकड़े (c) में दिखाया गया है।

इसलिए, यह निष्कर्ष निकाला जा सकता है कि संकलन-आधारित मॉडल के लिए स्केलिंग कारकों को स्वतंत्र रूप से विश्लेषण नहीं किया जा सकता है, और इसके बजाय उन्हें एक साथ विचार किया जाना चाहिए। इसलिए, संकलन-आधारित मॉडल के लिए, संयुक्त मॉडल स्केलिंग विधि का उपयोग करना उचित है। इसके अलावा, जब गहराई कारक को स्केल किया जाता है, तो ब्लॉक के आउटपुट चैनल को भी स्केल किया जाना चाहिए।

प्रशिक्षण योग्य बैग ऑफ फ्रीबीज

प्रशिक्षण योग्य बैग ऑफ फ्रीबीज एक शब्द है जो डेवलपर्स द्वारा उन विधियों या तकनीकों का वर्णन करने के लिए उपयोग किया जाता है जो प्रशिक्षण रणनीति या लागत को बदलने का प्रयास करती हैं ताकि मॉडल की सटीकता में सुधार किया जा सके। तो YOLOv7 में प्रशिक्षण योग्य बैग ऑफ फ्रीबीज क्या हैं? आइए देखें।

योजनाबद्ध पुनः पैरामीटरीकृत संवोल्यूशनल

YOLOv7 अल्गोरिथ्म ग्रेडिएंट प्रवाह प्रसार मार्गों का उपयोग करके यह निर्धारित करने का प्रयास करता है कि नेटवर्क को पुनः पैरामीटरीकृत संवोल्यूशनल के साथ कैसे आदर्श रूप से जोड़ा जाए। यह दृष्टिकोण YOLOv7 द्वारा RepConv अल्गोरिथ्म के खिलाफ एक प्रयास है जो VGG मॉडल पर शानदार प्रदर्शन करता है, लेकिन DenseNet और ResNet मॉडल पर सीधे लागू होने पर खराब प्रदर्शन करता है।

RepConv अल्गोरिथ्म एक संवोल्यूशनल परत में 3×3 संवोल्यूशनल और 1×1 संवोल्यूशनल को जोड़ता है। यदि हम अल्गोरिथ्म, इसके प्रदर्शन, और वास्तुकला का विश्लेषण करेंगे, तो हम देखेंगे कि RepConv DenseNet में संकलन और ResNet में शेष को नष्ट कर देता है।

उपरोक्त छवि एक योजनाबद्ध पुनः पैरामीटरीकृत मॉडल को दर्शाती है। यह देखा जा सकता है कि YOLOv7 अल्गोरिथ्म ने पाया कि नेटवर्क में एक परत जिसमें संकलन या शेष संबंध होते हैं, RepConv अल्गोरिथ्म में एक पहचान संबंध होना स्वीकार्य नहीं है। परिणामस्वरूप, यह RepConvN के साथ स्विच करने के लिए स्वीकार्य है जिसमें कोई पहचान संबंध नहीं है।

मोटे के लिए सहायक और महीन के लिए लीड हानि

गहरी पर्यवेक्षण कंप्यूटर विज्ञान की एक शाखा है जो अक्सर गहरे नेटवर्क के प्रशिक्षण प्रक्रिया में उपयोग की जाती है। गहरी पर्यवेक्षण का मूल सिद्धांत यह है कि यह नेटवर्क की मध्य परतों में एक अतिरिक्त सहायक सिर जोड़ता है, साथ ही साथ शैली वजन के साथ सहायक हानि के साथ। YOLOv7 अल्गोरिथ्म लीड सिर को अंतिम आउटपुट के लिए जिम्मेदार सिर के रूप में संदर्भित करता है, और सहायक सिर सहायक प्रशिक्षण के लिए जिम्मेदार सिर है।

आगे, YOLOv7 एक अलग लेबल असाइनमेंट विधि का उपयोग करता है। पारंपरिक रूप से, लेबल असाइनमेंट का उपयोग लेबल उत्पन्न करने के लिए किया जाता था जो सीधे ग्राउंड ट्रुथ से संबंधित थे और एक निर्धारित नियम सेट के आधार पर। हालांकि, हाल के वर्षों में, भविष्यवाणी इनपुट की वितरण और गुणवत्ता एक विश्वसनीय लेबल उत्पन्न करने में एक महत्वपूर्ण भूमिका निभाती है। YOLOv7 बाउंडिंग बॉक्स और ग्राउंड ट्रुथ की भविष्यवाणियों का उपयोग करके वस्तु के लिए एक नरम लेबल उत्पन्न करता है।

इसके अलावा, YOLOv7 की नई लेबल असाइनमेंट विधि लीड सिर की भविष्यवाणियों का उपयोग लीड और सहायक सिर दोनों के लिए मार्गदर्शन के रूप में करती है। लेबल असाइनमेंट विधि में दो प्रस्तावित रणनीतियां हैं।

लीड सिर गाइडेड लेबल असाइनर

रणनीति लीड सिर की भविष्यवाणी परिणामों और ग्राउंड ट्रुथ के आधार पर गणना करती है, और फिर अनुकूलन का उपयोग करके नरम लेबल उत्पन्न करती है। ये नरम लेबल लीड सिर और सहायक सिर दोनों के लिए प्रशिक्षण मॉडल के रूप में उपयोग किए जाते हैं।

रणनीति यह मानती है कि क्योंकि लीड सिर की अधिक सीखने की क्षमता है, इसलिए यह लेबल उत्पन्न करने में अधिक प्रतिनिधित्व करने वाला होना चाहिए, और स्रोत और लक्ष्य के बीच संबंध।

मोटे से महीन लीड सिर गाइडेड लेबल असाइनर

यह रणनीति भी लीड सिर की भविष्यवाणी परिणामों और ग्राउंड ट्रुथ के आधार पर गणना करती है, और फिर अनुकूलन का उपयोग करके नरम लेबल उत्पन्न करती है। हालांकि, एक महत्वपूर्ण अंतर है। इस रणनीति में, दो सेट नरम लेबल होते हैं, मोटे स्तर, और महीन लेबल।

मोटे लेबल को सकारात्मक नमूना असाइनमेंट प्रक्रिया की सीमाओं को शिथिल करके उत्पन्न किया जाता है जो अधिक ग्रिड को सकारात्मक लक्ष्य के रूप में मानता है। यह सहायक सिर की कमजोर सीखने की ताकत के कारण जानकारी के नुकसान के जोखिम से बचने के लिए किया जाता है।

उपरोक्त आंकड़ा YOLOv7 अल्गोरिथ्म में प्रशिक्षण योग्य बैग ऑफ फ्रीबीज का उपयोग दर्शाता है। यह सहायक सिर के लिए मोटे और लीड सिर के लिए महीन को दर्शाता है। जब हम मॉडल की तुलना सहायक सिर (b) के साथ मॉडल से करते हैं, तो हम देखते हैं कि योजना (b) में एक सहायक सिर है, जबकि यह (a) में नहीं है।

आंकड़ा (c) सामान्य स्वतंत्र लेबल असाइनर को दर्शाता है, जबकि आंकड़े (d) और (e) क्रमशः लीड गाइडेड असाइनर और मोटे से महीन लीड गाइडेड असाइनर को दर्शाते हैं जो YOLOv7 द्वारा उपयोग किए जाते हैं।

अन्य प्रशिक्षण योग्य बैग ऑफ फ्रीबीज

उपरोक्त के अलावा, YOLOv7 अल्गोरिथ्म अतिरिक्त बैग ऑफ फ्रीबीज का उपयोग करता है, हालांकि वे मूल रूप से उन्हें प्रस्तावित नहीं किया गया था। वे हैं

  • बैच नॉर्मलाइजेशन इन कॉन्व-बीएन-एक्टिवेशन प्रौद्योगिकी: यह रणनीति एक संवोल्यूशनल परत को सीधे बैच नॉर्मलाइजेशन परत से जोड़ने के लिए उपयोग की जाती है।
  • अनुमानित ज्ञान इन YOLOR: YOLOv7 इस रणनीति को संवोल्यूशनल फीचर मैप के साथ जोड़ता है।
  • EMA मॉडल: EMA मॉडल का उपयोग YOLOv7 में अंतिम संदर्भ मॉडल के रूप में किया जाता है, हालांकि इसका प्राथमिक उपयोग मीन टीचर विधि में किया जाता है।

YOLOv7: प्रयोग

प्रयोग सेटअप

YOLOv7 अल्गोरिथ्म माइक्रोसॉफ्ट COCO डेटासेट का उपयोग करके अपने वस्तु का पता लगाने वाले मॉडल को प्रशिक्षित और सत्यापित करता है, और इनमें से सभी प्रयोग पूर्व-प्रशिक्षित मॉडल का उपयोग नहीं करते हैं। डेवलपर्स ने 2017 प्रशिक्षण डेटासेट का उपयोग प्रशिक्षण के लिए किया, और 2017 सत्यापन डेटासेट का उपयोग हाइपरपैरामीटर के चयन के लिए किया। अंत में, YOLOv7 वस्तु का पता लगाने वाले परिणामों का प्रदर्शन राज्य-ऑफ-द-आर्ट वस्तु का पता लगाने वाले अल्गोरिथ्म के साथ तुलना की जाती है।

डेवलपर्स ने एज जीपीयू (YOLOv7-टिनी) के लिए एक बुनियादी मॉडल, सामान्य जीपीयू (YOLOv7), और क्लाउड जीपीयू (YOLOv7-W6) के लिए एक बुनियादी मॉडल को डिज़ाइन किया। इसके अलावा, YOLOv7 अल्गोरिथ्म विभिन्न सेवा आवश्यकताओं के अनुसार मॉडल स्केलिंग के लिए एक बुनियादी मॉडल का भी उपयोग करता है, और विभिन्न मॉडल प्राप्त करता है। YOLOv7 अल्गोरिथ्म गर्दन पर स्टैक स्केलिंग करता है, और प्रस्तावित यौगिक का उपयोग करके मॉडल की गहराई और चौड़ाई को स्केल करता है।

बेसलाइन

YOLOv7 अल्गोरिथ्म पिछले YOLO मॉडल और YOLOR वस्तु का पता लगाने वाले अल्गोरिथ्म का उपयोग अपने बेसलाइन के रूप में करता है।

उपरोक्त आंकड़े में YOLOv7 मॉडल के बेसलाइन की तुलना अन्य वस्तु का पता लगाने वाले मॉडलों के साथ की जाती है, और परिणाम बहुत स्पष्ट हैं। जब YOLOv4 अल्गोरिथ्म की तुलना में YOLOv7 की जाती है, तो YOLOv7 न केवल 75% कम पैरामीटर का उपयोग करता है, बल्कि यह 15% कम गणना का उपयोग करता है और 0.4% अधिक सटीकता प्रदान करता है।

राज्य-ऑफ-द-आर्ट वस्तु का पता लगाने वाले मॉडल के साथ तुलना

उपरोक्त आंकड़े में YOLOv7 को मोबाइल और सामान्य जीपीयू के लिए राज्य-ऑफ-द-आर्ट वस्तु का पता लगाने वाले मॉडल के साथ तुलना की जाती है। यह देखा जा सकता है कि YOLOv7 अल्गोरिथ्म द्वारा प्रस्तावित विधि का सबसे अच्छा गति-सटीकता व्यापार-बंद स्कोर है।

अभिलाषा अध्ययन: प्रस्तावित यौगिक स्केलिंग विधि

उपरोक्त आंकड़े में विभिन्न रणनीतियों का उपयोग करके मॉडल को स्केल करने के परिणामों की तुलना की जाती है। YOLOv7 मॉडल की गहराई को 1.5 गुना और चौड़ाई को 1.25 गुना स्केल करता है।

जब इसे केवल गहराई को स्केल करने वाले मॉडल के साथ तुलना की जाती है, तो YOLOv7 मॉडल 0.5% बेहतर प्रदर्शन करता है, जबकि कम पैरामीटर और गणना शक्ति का उपयोग करता है। दूसरी ओर, जब इसे केवल गहराई को स्केल करने वाले मॉडल के साथ तुलना की जाती है, तो YOLOv7 की सटीकता 0.2% में सुधार होती है, लेकिन पैरामीटर को 2.9% और गणना को 1.2% स्केल करने की आवश्यकता होती है।

प्रस्तावित योजनाबद्ध पुनः पैरामीटरीकृत मॉडल

अपने प्रस्तावित पुनः पैरामीटरीकृत मॉडल की सामान्यता को सत्यापित करने के लिए, YOLOv7 अल्गोरिथ्म इसे संयोजन-आधारित और शेष-आधारित मॉडल पर सत्यापन के लिए उपयोग करता है। सत्यापन प्रक्रिया के लिए, YOLOv7 अल्गोरिथ्म 3-स्टैक्ड ELAN को संयोजन-आधारित मॉडल के लिए और CSPDarknet को शेष-आधारित मॉडल के लिए उपयोग करता है।

संयोजन-आधारित मॉडल के लिए, अल्गोरिथ्म 3-स्टैक्ड ELAN में 3×3 संवोल्यूशनल परतों को RepConv से बदल देता है। नीचे दिए गए आंकड़े में योजनाबद्ध RepConv और 3-स्टैक्ड ELAN की विस्तृत कॉन्फ़िगरेशन दिखाई गई है।

इसके अलावा, जब शेष-आधारित मॉडल की बात आती है, तो YOLOv7 अल्गोरिथ्म एक उल्टे डार्क ब्लॉक का उपयोग करता है क्योंकि मूल डार्क ब्लॉक में 3×3 संवोल्यूशनल ब्लॉक नहीं है। नीचे दिए गए आंकड़े में उल्टे CSPDarknet की वास्तुकला दिखाई गई है जो 3×3 और 1×1 संवोल्यूशनल परतों की स्थिति को उल्टा करता है।

प्रस्तावित सहायक हानि के लिए सहायक सिर

सहायक सिर के लिए सहायक हानि के लिए, YOLOv7 मॉडल सहायक सिर और लीड सिर के लिए स्वतंत्र लेबल असाइनमेंट विधियों की तुलना करता है।

उपरोक्त आंकड़े में प्रस्तावित सहायक सिर के परिणाम शामिल हैं। यह देखा जा सकता है कि मॉडल का समग्र प्रदर्शन सहायक हानि में वृद्धि के साथ बढ़ता है। इसके अलावा, YOLOv7 द्वारा प्रस्तावित लीड गाइडेड लेबल असाइनमेंट स्वतंत्र लीड असाइनमेंट रणनीतियों की तुलना में बेहतर प्रदर्शन करता है।

YOLOv7 परिणाम

उपरोक्त प्रयोगों के आधार पर, यहाँ YOLOv7 के प्रदर्शन के परिणाम हैं जब इसे अन्य वस्तु का पता लगाने वाले अल्गोरिथ्म के साथ तुलना की जाती है।

उपरोक्त आंकड़े में YOLOv7 मॉडल की तुलना अन्य वस्तु का पता लगाने वाले अल्गोरिथ्म के साथ की जाती है, और यह स्पष्ट रूप से देखा जा सकता है कि YOLOv7 अन्य वस्तु का पता लगाने वाले मॉडलों को औसत सटीकता (AP) वीएस बैच हस्तक्षेप के मामले में पार करता है।

इसके अलावा, नीचे दिए गए आंकड़े में YOLOv7 के प्रदर्शन की तुलना वास्तविक समय वस्तु का पता लगाने वाले अल्गोरिथ्म के साथ की जाती है। एक बार फिर, YOLOv7 अन्य मॉडलों को समग्र प्रदर्शन, सटीकता, और कुशलता के मामले में पार करता है।

यहाँ YOLOv7 परिणामों और प्रदर्शन से कुछ अतिरिक्त अवलोकन हैं।

  1. YOLOv7-टिनी YOLO परिवार में सबसे छोटा मॉडल है, जिसमें 6 मिलियन पैरामीटर हैं। YOLOv7-टिनी की औसत सटीकता 35.2% है, और यह YOLOv4-टिनी मॉडल को समान पैरामीटर के साथ पार करता है।
  2. YOLOv7 मॉडल में 37 मिलियन पैरामीटर हैं, और यह उच्च पैरामीटर वाले मॉडल जैसे YOLov4 को पार करता है।
  3. YOLOv7 मॉडल 5 से 160 एफपीएस के बीच में सबसे उच्च मैप और एफपीएस दर है।

निष्कर्ष

YOLO या “आप केवल एक बार देखते हैं” आधुनिक कंप्यूटर विजन में राज्य-ऑफ-द-आर्ट वस्तु का पता लगाने वाला मॉडल है। YOLO अल्गोरिथ्म अपनी उच्च सटीकता और कुशलता के लिए जाना जाता है, और इसके परिणामस्वरूप, यह वास्तविक समय वस्तु का पता लगाने वाले उद्योग में व्यापक अनुप्रयोग पाता है। जब से पहला YOLO अल्गोरिथ्म 2016 में पेश किया गया था, प्रयोगों ने डेवलपर्स को मॉडल को निरंतर रूप से सुधारने की अनुमति दी है।

YOLOv7 मॉडल YOLO परिवार में最新 जोड़ है, और यह अब तक का सबसे शक्तिशाली YOLO अल्गोरिथ्म है। इस लेख में, हमने YOLOv7 के मूल सिद्धांतों पर चर्चा की है, और यह समझने का प्रयास किया है कि YOLOv7 इतना कुशल क्यों है।

рдПрдХ рдЗрдВрдЬреАрдирд┐рдпрд░ рдкреЗрд╢реЗ рд╕реЗ, рдПрдХ рд▓реЗрдЦрдХ рджрд┐рд▓ рд╕реЗред рдХреБрдирд╛рд▓ рдПрдХ рддрдХрдиреАрдХреА рд▓реЗрдЦрдХ рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рдПрдЖрдИ рдФрд░ рдПрдордПрд▓ рдХреЗ рдкреНрд░рддрд┐ рдЧрд╣рд░рд╛ рдкреНрдпрд╛рд░ рдФрд░ рд╕рдордЭ рд╣реИ, рдЬреЛ рдЕрдкрдиреЗ рдЖрдХрд░реНрд╖рдХ рдФрд░ рдЬрд╛рдирдХрд╛рд░реАрдкреВрд░реНрдг рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЗрди рдХреНрд╖реЗрддреНрд░реЛрдВ рдореЗрдВ рдЬрдЯрд┐рд▓ рдЕрд╡рдзрд╛рд░рдгрд╛рдУрдВ рдХреЛ рд╕рд░рд▓ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдорд░реНрдкрд┐рдд рд╣реИрдВред