कृत्रिम बुद्धिमत्ता

YOLOv7: सबसे उन्नत ऑब्जेक्ट डिटेक्शन एल्गोरिदम?

प्रकाशित

5 महीने पहले

जुलाई 24, 2023

6 जुलाई 2022 को AI इतिहास में एक मील के पत्थर के रूप में चिह्नित किया जाएगा क्योंकि इसी दिन YOLOv7 जारी किया गया था। अपने लॉन्च के बाद से, YOLOv7 सबसे गर्म विषय रहा है कंप्यूटर दृष्टी डेवलपर समुदाय, और सही कारणों से। YOLOv7 को पहले से ही ऑब्जेक्ट डिटेक्शन उद्योग में एक मील का पत्थर माना जा रहा है।

कुछ ही समय बाद YOLOv7 पेपर प्रकाशित हुआ, यह सबसे तेज़ और सबसे सटीक वास्तविक समय आपत्ति पहचान मॉडल के रूप में सामने आया। लेकिन YOLOv7 अपने पूर्ववर्तियों से कैसे प्रतिस्पर्धा करता है? कंप्यूटर विज़न कार्यों को करने में YOLOv7 को इतना कुशल क्या बनाता है?

इस लेख में हम YOLOv7 मॉडल का विश्लेषण करने का प्रयास करेंगे, और इसका उत्तर ढूंढने का प्रयास करेंगे कि YOLOv7 अब उद्योग मानक क्यों बन रहा है? लेकिन इससे पहले कि हम इसका उत्तर दे सकें, हमें वस्तु पहचान के संक्षिप्त इतिहास पर एक नज़र डालनी होगी।

ऑब्जेक्ट डिटेक्शन क्या है?

ऑब्जेक्ट डिटेक्शन कंप्यूटर विज़न की एक शाखा है जो किसी छवि या वीडियो फ़ाइल में वस्तुओं की पहचान करता है और उनका पता लगाता है। ऑब्जेक्ट डिटेक्शन सेल्फ-ड्राइविंग कारों, मॉनिटर निगरानी और यहां तक कि रोबोटिक्स सहित कई अनुप्रयोगों का बिल्डिंग ब्लॉक है।

एक ऑब्जेक्ट डिटेक्शन मॉडल को दो अलग-अलग श्रेणियों में वर्गीकृत किया जा सकता है, एकल-शॉट डिटेक्टर, और मल्टी-शॉट डिटेक्टर।

वास्तविक समय वस्तु का पता लगाना

वास्तव में यह समझने के लिए कि YOLOv7 कैसे काम करता है, हमारे लिए YOLOv7 के मुख्य उद्देश्य को समझना आवश्यक है, "वास्तविक समय वस्तु का पता लगाना". रियल टाइम ऑब्जेक्ट डिटेक्शन आधुनिक कंप्यूटर विज़न का एक प्रमुख घटक है। रियल टाइम ऑब्जेक्ट डिटेक्शन मॉडल वास्तविक समय में रुचि की वस्तुओं को पहचानने और उनका पता लगाने का प्रयास करते हैं। रियल टाइम ऑब्जेक्ट डिटेक्शन मॉडल ने डेवलपर्स के लिए वीडियो या लाइव सर्विलांस इनपुट जैसे चलती फ्रेम में रुचि की वस्तुओं को ट्रैक करना वास्तव में कुशल बना दिया है।

रियल टाइम ऑब्जेक्ट डिटेक्शन मॉडल अनिवार्य रूप से पारंपरिक इमेज डिटेक्शन मॉडल से एक कदम आगे हैं। जबकि पूर्व का उपयोग वीडियो फ़ाइलों में वस्तुओं को ट्रैक करने के लिए किया जाता है, बाद वाला एक छवि जैसे स्थिर फ्रेम के भीतर वस्तुओं का पता लगाता है और उनकी पहचान करता है।

परिणामस्वरूप, रियल टाइम ऑब्जेक्ट डिटेक्शन मॉडल वीडियो एनालिटिक्स, स्वायत्त वाहन, ऑब्जेक्ट काउंटिंग, मल्टी-ऑब्जेक्ट ट्रैकिंग और बहुत कुछ के लिए वास्तव में कुशल हैं।

योलो क्या है?

योलो या "आप केवल एक बार देखें"वास्तविक समय वस्तु पहचान मॉडल का एक परिवार है। YOLO अवधारणा पहली बार 2016 में जोसेफ रेडमन द्वारा पेश की गई थी, और यह लगभग तुरंत ही शहर में चर्चा का विषय बन गया था क्योंकि यह मौजूदा ऑब्जेक्ट डिटेक्शन एल्गोरिदम की तुलना में बहुत तेज़ और अधिक सटीक था। YOLO एल्गोरिथम को कंप्यूटर विज़न उद्योग में एक मानक बनने में ज़्यादा समय नहीं लगा।

YOLO एल्गोरिदम द्वारा प्रस्तावित मौलिक अवधारणा वास्तविक समय में भविष्यवाणियां करने के लिए बाउंडिंग बॉक्स और क्लास संभावनाओं का उपयोग करके एंड-टू-एंड न्यूरल नेटवर्क का उपयोग करना है। YOLO पिछले ऑब्जेक्ट डिटेक्शन मॉडल से इस मायने में अलग था कि इसने क्लासिफायर को पुन: उपयोग करके ऑब्जेक्ट डिटेक्शन करने के लिए एक अलग दृष्टिकोण प्रस्तावित किया था।

दृष्टिकोण में परिवर्तन ने काम किया क्योंकि YOLO जल्द ही उद्योग मानक बन गया क्योंकि स्वयं और अन्य वास्तविक समय ऑब्जेक्ट डिटेक्शन एल्गोरिदम के बीच प्रदर्शन अंतर महत्वपूर्ण था। लेकिन क्या कारण था कि YOLO इतना कुशल था?

जब YOLO से तुलना की जाती है, तो ऑब्जेक्ट डिटेक्शन एल्गोरिदम तब रुचि के संभावित क्षेत्रों का पता लगाने के लिए क्षेत्र प्रस्ताव नेटवर्क का उपयोग करते थे। फिर मान्यता प्रक्रिया प्रत्येक क्षेत्र पर अलग से की गई। परिणामस्वरूप, ये मॉडल अक्सर एक ही छवि पर कई पुनरावृत्तियों का प्रदर्शन करते हैं, और इसलिए सटीकता की कमी और उच्च निष्पादन समय होता है। दूसरी ओर, YOLO एल्गोरिथ्म एक बार में भविष्यवाणी करने के लिए एक पूरी तरह से जुड़ी हुई परत का उपयोग करता है।

योलो कैसे काम करता है?

ऐसे तीन चरण हैं जो बताते हैं कि YOLO एल्गोरिदम कैसे काम करता है।

एकल प्रतिगमन समस्या के रूप में ऑब्जेक्ट डिटेक्शन को फिर से तैयार करना

RSI YOLO एल्गोरिथ्म ऑब्जेक्ट डिटेक्शन को एकल प्रतिगमन समस्या के रूप में फिर से परिभाषित करने का प्रयास करता है, जिसमें छवि पिक्सेल, वर्ग संभावनाओं और बाउंडिंग बॉक्स निर्देशांक शामिल हैं। इसलिए, छवियों में लक्ष्य वस्तुओं की भविष्यवाणी और पता लगाने के लिए एल्गोरिदम को छवि को केवल एक बार देखना होता है।

विश्व स्तर पर छवि का कारण बनता है

इसके अलावा, जब YOLO एल्गोरिदम भविष्यवाणी करता है, तो यह विश्व स्तर पर छवि का कारण बनता है. यह क्षेत्र प्रस्ताव-आधारित और स्लाइडिंग तकनीकों से अलग है क्योंकि YOLO एल्गोरिदम डेटासेट पर प्रशिक्षण और परीक्षण के दौरान पूरी छवि देखता है, और कक्षाओं के बारे में प्रासंगिक जानकारी को एन्कोड करने में सक्षम है, और वे कैसे दिखाई देते हैं।

YOLO से पहले, फास्ट आर-सीएनएन सबसे लोकप्रिय ऑब्जेक्ट डिटेक्शन एल्गोरिदम में से एक था जो छवि में बड़े संदर्भ को नहीं देख सकता था क्योंकि यह किसी छवि में पृष्ठभूमि पैच को ऑब्जेक्ट समझने की गलती करता था। फास्ट आर-सीएनएन एल्गोरिदम की तुलना में, YOLO 50% अधिक सटीक है जब पृष्ठभूमि त्रुटियों की बात आती है।

वस्तुओं के प्रतिनिधित्व को सामान्यीकृत करता है

अंत में, YOLO एल्गोरिथ्म का लक्ष्य किसी छवि में वस्तुओं के प्रतिनिधित्व को सामान्य बनाना भी है। परिणामस्वरूप, जब एक YOLO एल्गोरिदम को प्राकृतिक छवियों के साथ डेटासेट पर चलाया गया, और परिणामों के लिए परीक्षण किया गया, तो YOLO ने मौजूदा R-CNN मॉडल को बड़े अंतर से बेहतर प्रदर्शन किया। ऐसा इसलिए है क्योंकि YOLO अत्यधिक सामान्यीकरण योग्य है, अप्रत्याशित इनपुट या नए डोमेन पर लागू होने पर इसके टूटने की संभावना कम थी।

YOLOv7: नया क्या है?

अब जब हमें इस बात की बुनियादी समझ हो गई है कि वास्तविक समय ऑब्जेक्ट डिटेक्शन मॉडल क्या हैं, और YOLO एल्गोरिदम क्या है, तो यह YOLOv7 एल्गोरिदम पर चर्चा करने का समय है।

प्रशिक्षण प्रक्रिया का अनुकूलन

YOLOv7 एल्गोरिदम न केवल मॉडल आर्किटेक्चर को अनुकूलित करने का प्रयास करता है, बल्कि इसका उद्देश्य प्रशिक्षण प्रक्रिया को भी अनुकूलित करना है। इसका उद्देश्य हस्तक्षेप लागत को बनाए रखते हुए, ऑब्जेक्ट डिटेक्शन की सटीकता में सुधार करने, प्रशिक्षण की लागत को मजबूत करने के लिए अनुकूलन मॉड्यूल और तरीकों का उपयोग करना है। इन अनुकूलन मॉड्यूल को एक के रूप में संदर्भित किया जा सकता है निःशुल्क उपहारों का प्रशिक्षण योग्य थैला।

मोटे से बारीक लीड गाइडेड लेबल असाइनमेंट

YOLOv7 एल्गोरिदम पारंपरिक के बजाय एक नए मोटे से बारीक लीड गाइडेड लेबल असाइनमेंट का उपयोग करने की योजना बना रहा है डायनेमिक लेबल असाइनमेंट। ऐसा इसलिए है क्योंकि डायनेमिक लेबल असाइनमेंट के साथ, कई आउटपुट परतों वाले मॉडल को प्रशिक्षित करने से कुछ समस्याएं पैदा होती हैं, जिनमें से सबसे आम है विभिन्न शाखाओं और उनके आउटपुट के लिए डायनेमिक लक्ष्य कैसे निर्दिष्ट करें।

मॉडल पुन: पैरामीटरीकरण

ऑब्जेक्ट डिटेक्शन में मॉडल री-पैरामीट्रिज़ेशन एक महत्वपूर्ण अवधारणा है, और इसका उपयोग आमतौर पर प्रशिक्षण के दौरान कुछ मुद्दों के साथ किया जाता है। YOLOv7 एल्गोरिथम की अवधारणा का उपयोग करने की योजना बना रहा है मॉडल पुन: पैरामीट्रिजेशन नीतियों का विश्लेषण करने के लिए ग्रेडिएंट प्रसार पथ नेटवर्क में विभिन्न परतों पर लागू।

विस्तार और यौगिक स्केलिंग

YOLOv7 एल्गोरिदम भी परिचय देता है विस्तारित और मिश्रित स्केलिंग विधियाँ वास्तविक समय वस्तु का पता लगाने के लिए मापदंडों और संगणनाओं का उपयोग और प्रभावी ढंग से उपयोग करना।

YOLOv7 : संबंधित कार्य

वास्तविक समय वस्तु का पता लगाना

YOLO वर्तमान में उद्योग मानक है, और अधिकांश वास्तविक समय ऑब्जेक्ट डिटेक्टर YOLO एल्गोरिदम और FCOS (फुल कन्वोल्यूशनल वन-स्टेज ऑब्जेक्ट-डिटेक्शन) को तैनात करते हैं। अत्याधुनिक रियल टाइम ऑब्जेक्ट डिटेक्टर में आमतौर पर निम्नलिखित विशेषताएं होती हैं

मजबूत और तेज़ नेटवर्क आर्किटेक्चर।
एक प्रभावी सुविधा एकीकरण विधि.
एक सटीक वस्तु पहचान विधि.
एक मजबूत हानि समारोह.
एक कुशल लेबल असाइनमेंट विधि.
एक कुशल प्रशिक्षण पद्धति.

YOLOv7 एल्गोरिदम स्व-पर्यवेक्षित शिक्षण और आसवन विधियों का उपयोग नहीं करता है जिसके लिए अक्सर बड़ी मात्रा में डेटा की आवश्यकता होती है। इसके विपरीत, YOLOv7 एल्गोरिथ्म एक प्रशिक्षण योग्य बैग-ऑफ-फ्रीबीज़ विधि का उपयोग करता है।

मॉडल पुन: पैरामीटरीकरण

मॉडल री-पैरामीटराइजेशन तकनीक को एक सामूहिक तकनीक के रूप में माना जाता है जो एक हस्तक्षेप चरण में कई कम्प्यूटेशनल मॉड्यूल को मर्ज करता है। तकनीक को आगे दो श्रेणियों में विभाजित किया जा सकता है, मॉडल-स्तरीय पहनावा, और मॉड्यूल-स्तरीय पहनावा।

अब, अंतिम हस्तक्षेप मॉडल प्राप्त करने के लिए, मॉडल-स्तरीय पुनर्मूल्यांकन तकनीक दो प्रथाओं का उपयोग करती है। पहला अभ्यास कई समान मॉडलों को प्रशिक्षित करने के लिए विभिन्न प्रशिक्षण डेटा का उपयोग करता है, और फिर प्रशिक्षित मॉडलों के वजन का औसत करता है। वैकल्पिक रूप से, अन्य अभ्यास विभिन्न पुनरावृत्तियों के दौरान मॉडलों के वजन का औसत करता है।

मॉड्यूल स्तर का पुन: पैरामीटरीकरण हाल ही में अत्यधिक लोकप्रियता प्राप्त कर रहा है क्योंकि यह प्रशिक्षण चरण के दौरान एक मॉड्यूल को विभिन्न मॉड्यूल शाखाओं, या अलग-अलग समान शाखाओं में विभाजित करता है, और फिर हस्तक्षेप करते समय इन विभिन्न शाखाओं को एक समकक्ष मॉड्यूल में एकीकृत करने के लिए आगे बढ़ता है।

हालाँकि, पुन: पैरामीटरीकरण तकनीकों को सभी प्रकार की वास्तुकला पर लागू नहीं किया जा सकता है। यही कारण है कि YOLOv7 एल्गोरिदम संबंधित रणनीतियों को डिजाइन करने के लिए नए मॉडल पुन: पैरामीटरीकरण तकनीकों का उपयोग करता है विभिन्न आर्किटेक्चर के लिए उपयुक्त।

मॉडल स्केलिंग

मॉडल स्केलिंग किसी मौजूदा मॉडल को ऊपर या नीचे स्केल करने की प्रक्रिया है ताकि यह विभिन्न कंप्यूटिंग उपकरणों में फिट हो सके। मॉडल स्केलिंग आम तौर पर विभिन्न कारकों का उपयोग करती है जैसे परतों की संख्या(गहराई), इनपुट छवियों का आकार(संकल्प), फ़ीचर पिरामिडों की संख्या(मंच), और चैनलों की संख्या(चौडाई). ये कारक नेटवर्क मापदंडों, हस्तक्षेप गति, गणना और मॉडल की सटीकता के लिए संतुलित व्यापार सुनिश्चित करने में महत्वपूर्ण भूमिका निभाते हैं।

सबसे अधिक उपयोग की जाने वाली स्केलिंग विधियों में से एक है एनएएस या नेटवर्क आर्किटेक्चर सर्च जो बिना किसी जटिल नियम के स्वचालित रूप से खोज इंजन से उपयुक्त स्केलिंग कारकों की खोज करता है। एनएएस का उपयोग करने का प्रमुख नकारात्मक पहलू यह है कि उपयुक्त स्केलिंग कारकों की खोज के लिए यह एक महंगा तरीका है।

लगभग हर मॉडल पुन: पैरामीटरीकरण मॉडल व्यक्तिगत और अद्वितीय स्केलिंग कारकों का स्वतंत्र रूप से विश्लेषण करता है, और इसके अलावा, इन कारकों को स्वतंत्र रूप से अनुकूलित भी करता है। ऐसा इसलिए है क्योंकि NAS आर्किटेक्चर गैर-सहसंबद्ध स्केलिंग कारकों के साथ काम करता है।

यह ध्यान देने योग्य है कि कॉन्सटेनेशन-आधारित मॉडल पसंद करते हैं VoVNet or डेंसनेट जब मॉडल की गहराई मापी जाती है तो कुछ परतों की इनपुट चौड़ाई बदलें। YOLOv7 प्रस्तावित कॉन्सटेनेशन-आधारित आर्किटेक्चर पर काम करता है, और इसलिए एक कंपाउंड स्केलिंग विधि का उपयोग करता है।

ऊपर उल्लिखित चित्र तुलना करता है विस्तारित कुशल परत एकत्रीकरण नेटवर्क (ई-एलन) विभिन्न मॉडलों का। प्रस्तावित ई-ईएलएएन विधि मूल आर्किटेक्चर के ग्रेडिएंट ट्रांसमिशन पथ को बनाए रखती है, लेकिन इसका उद्देश्य समूह कनवल्शन का उपयोग करके अतिरिक्त सुविधाओं की कार्डिनैलिटी को बढ़ाना है। यह प्रक्रिया विभिन्न मानचित्रों द्वारा सीखी गई विशेषताओं को बढ़ा सकती है, और गणना और मापदंडों के उपयोग को और अधिक कुशल बना सकती है।

YOLOv7 आर्किटेक्चर

YOLOv7 मॉडल अपने आधार के रूप में YOLOv4, YOLO-R और स्केल्ड YOLOv4 मॉडल का उपयोग करता है। YOLOv7 परिणामों को बेहतर बनाने और मॉडल को अधिक सटीक बनाने के लिए इन मॉडलों पर किए गए प्रयोगों का परिणाम है।

विस्तारित कुशल परत एकत्रीकरण नेटवर्क या ई-ईएलएएन

E-ELAN YOLOv7 मॉडल का मूलभूत निर्माण खंड है, और यह नेटवर्क दक्षता पर पहले से मौजूद मॉडलों से लिया गया है, मुख्य रूप से एलन।

एक कुशल वास्तुकला को डिजाइन करते समय मुख्य विचार मापदंडों की संख्या, कम्प्यूटेशनल घनत्व और गणना की मात्रा हैं। अन्य मॉडल भी इनपुट/आउटपुट चैनल अनुपात के प्रभाव, आर्किटेक्चर नेटवर्क में शाखाएं, नेटवर्क हस्तक्षेप गति, कन्वेन्शनल नेटवर्क के टेंसर में तत्वों की संख्या और बहुत कुछ जैसे कारकों पर विचार करते हैं।

RSI सीएसपीवोनेट मॉडल न केवल उपर्युक्त मापदंडों पर विचार करता है, बल्कि यह विभिन्न परतों के वजन को सक्षम करके अधिक विविध विशेषताओं को सीखने के लिए ग्रेडिएंट पथ का विश्लेषण भी करता है। यह दृष्टिकोण हस्तक्षेपों को बहुत तेज़ और सटीक होने की अनुमति देता है। वेग आर्किटेक्चर का उद्देश्य सबसे छोटे सबसे लंबे ग्रेडिएंट पथ को नियंत्रित करने के लिए एक कुशल नेटवर्क डिजाइन करना है ताकि नेटवर्क सीखने और अभिसरण में अधिक प्रभावी हो सके।

कम्प्यूटेशनल ब्लॉकों की स्टैकिंग संख्या और ग्रेडिएंट पथ की लंबाई की परवाह किए बिना ELAN पहले से ही एक स्थिर चरण में पहुंच गया है। यदि कम्प्यूटेशनल ब्लॉकों को असीमित रूप से स्टैक्ड किया जाता है, तो स्थिर स्थिति नष्ट हो सकती है, और पैरामीटर उपयोग दर कम हो जाएगी। प्रस्तावित ई-ईएलएएन आर्किटेक्चर समस्या का समाधान कर सकता है क्योंकि यह विस्तार, फेरबदल और विलय कार्डिनैलिटी का उपयोग करता है मूल ग्रेडिएंट पथ को बनाए रखते हुए नेटवर्क की सीखने की क्षमता को लगातार बढ़ाना।

इसके अलावा, जब E-ELAN की वास्तुकला की तुलना ELAN से की जाती है, एकमात्र अंतर कम्प्यूटेशनल ब्लॉक में है, जबकि संक्रमण परत की वास्तुकला अपरिवर्तित है।

ई-ईएलएएन कम्प्यूटेशनल ब्लॉकों की कार्डिनैलिटी का विस्तार करने और चैनल का उपयोग करके विस्तार करने का प्रस्ताव करता है समूह कनवल्शन. फिर फीचर मैप की गणना की जाएगी, और समूह पैरामीटर के अनुसार समूहों में फेरबदल किया जाएगा, और फिर एक साथ संयोजित किया जाएगा। प्रत्येक समूह में चैनलों की संख्या मूल वास्तुकला के समान ही रहेगी। अंत में, कार्डिनैलिटी निष्पादित करने के लिए फ़ीचर मानचित्रों के समूह जोड़े जाएंगे।

कॉनटेनेशन आधारित मॉडल के लिए मॉडल स्केलिंग

मॉडल स्केलिंग से मदद मिलती है मॉडलों की विशेषताओं को समायोजित करना जो विभिन्न हस्तक्षेप गति को पूरा करने के लिए आवश्यकताओं के अनुसार और विभिन्न पैमानों के मॉडल तैयार करने में मदद करता है।

यह आंकड़ा विभिन्न संयोजन-आधारित मॉडलों के लिए मॉडल स्केलिंग के बारे में बात करता है। जैसा कि आप चित्र (ए) और (बी) में देख सकते हैं, मॉडल की गहराई स्केलिंग में वृद्धि के साथ कम्प्यूटेशनल ब्लॉक की आउटपुट चौड़ाई बढ़ जाती है। परिणामस्वरूप, ट्रांसमिशन परतों की इनपुट चौड़ाई बढ़ जाती है। यदि इन विधियों को कॉन्सटेनेशन-आधारित आर्किटेक्चर पर लागू किया जाता है तो स्केलिंग प्रक्रिया गहराई से की जाती है, और इसे चित्र (सी) में दर्शाया गया है।

इस प्रकार यह निष्कर्ष निकाला जा सकता है कि संयोजन-आधारित मॉडल के लिए स्केलिंग कारकों का स्वतंत्र रूप से विश्लेषण करना संभव नहीं है, बल्कि उन पर एक साथ विचार या विश्लेषण किया जाना चाहिए। इसलिए, एक संयोजन आधारित मॉडल के लिए, संबंधित कंपाउंड मॉडल स्केलिंग विधि का उपयोग करना उपयुक्त है. इसके अतिरिक्त, जब गहराई कारक को स्केल किया जाता है, तो ब्लॉक के आउटपुट चैनल को भी स्केल किया जाना चाहिए।

निःशुल्क वस्तुओं का प्रशिक्षणयोग्य थैला

मुफ़्त चीज़ों का एक थैला एक शब्द है जिसका उपयोग डेवलपर्स वर्णन करने के लिए करते हैं विधियों या तकनीकों का एक सेट जो प्रशिक्षण रणनीति या लागत को बदल सकता है मॉडल सटीकता को बढ़ावा देने के प्रयास में। तो YOLOv7 में मुफ़्त उपहारों के ये प्रशिक्षण योग्य बैग क्या हैं? चलो देखते हैं।

नियोजित पुन: पैरामीटरीकृत कनवल्शन

YOLOv7 एल्गोरिथ्म निर्धारित करने के लिए ढाल प्रवाह प्रसार पथ का उपयोग करता है पुन: पैरामीटरयुक्त कनवल्शन के साथ किसी नेटवर्क को आदर्श रूप से कैसे संयोजित किया जाए. YOlov7 का यह दृष्टिकोण प्रतिकार करने का एक प्रयास है RepConv एल्गोरिथ्म हालाँकि इसने VGG मॉडल पर शांत प्रदर्शन किया है, लेकिन सीधे DenseNet और ResNet मॉडल पर लागू होने पर खराब प्रदर्शन करता है।

एक संकेंद्रित परत में कनेक्शन की पहचान करने के लिए, RepConv एल्गोरिदम 3×3 कनवल्शन और 1×1 कनवल्शन को जोड़ता है. यदि हम एल्गोरिदम, उसके प्रदर्शन और आर्किटेक्चर का विश्लेषण करते हैं तो हम देखेंगे कि RepConv नष्ट कर देता है DenseNet में संयोजन, और ResNet में अवशिष्ट.

ऊपर दी गई छवि एक नियोजित पुन: पैरामीटरयुक्त मॉडल को दर्शाती है। यह देखा जा सकता है कि YOLov7 एल्गोरिदम ने पाया कि कॉन्सटेनेशन या अवशिष्ट कनेक्शन वाले नेटवर्क में एक परत का RepConv एल्गोरिदम में पहचान कनेक्शन नहीं होना चाहिए। परिणामस्वरूप, बिना किसी पहचान कनेक्शन के RepConvN के साथ स्विच करना स्वीकार्य है।

सहायक के लिए मोटा और सीसा हानि के लिए बढ़िया

गहन पर्यवेक्षण कंप्यूटर विज्ञान की एक शाखा है जिसका उपयोग अक्सर गहरे नेटवर्क की प्रशिक्षण प्रक्रिया में किया जाता है। गहन पर्यवेक्षण का मूल सिद्धांत यह है कि नेटवर्क की मध्य परतों में एक अतिरिक्त सहायक हेड जोड़ता है इसके मार्गदर्शक के रूप में सहायक हानि के साथ उथले नेटवर्क भार के साथ। YOLOv7 एल्गोरिथ्म उस हेड को संदर्भित करता है जो लीड हेड के रूप में अंतिम आउटपुट के लिए जिम्मेदार है, और सहायक हेड वह हेड है जो प्रशिक्षण में सहायता करता है।

आगे बढ़ते हुए, YOLOv7 लेबल असाइनमेंट के लिए एक अलग विधि का उपयोग करता है। परंपरागत रूप से, लेबल असाइनमेंट का उपयोग सीधे जमीनी सच्चाई का हवाला देकर और दिए गए नियमों के सेट के आधार पर लेबल उत्पन्न करने के लिए किया जाता है। हालाँकि, हाल के वर्षों में, पूर्वानुमान इनपुट का वितरण और गुणवत्ता एक विश्वसनीय लेबल उत्पन्न करने में महत्वपूर्ण भूमिका निभाती है। YOLOv7 ऑब्जेक्ट का एक सॉफ्ट लेबल उत्पन्न करता है बाउंडिंग बॉक्स और जमीनी सच्चाई की भविष्यवाणियों का उपयोग करके।

इसके अलावा, YOLOv7 एल्गोरिदम की नई लेबल असाइनमेंट विधि लीड और सहायक हेड दोनों को निर्देशित करने के लिए लीड हेड की भविष्यवाणियों का उपयोग करती है। लेबल असाइनमेंट पद्धति में दो प्रस्तावित रणनीतियाँ हैं।

लीड हेड गाइडेड लेबल असाइनर

रणनीति लीड हेड के पूर्वानुमान परिणामों और जमीनी सच्चाई के आधार पर गणना करती है, और फिर सॉफ्ट लेबल उत्पन्न करने के लिए अनुकूलन का उपयोग करती है। फिर इन सॉफ्ट लेबलों का उपयोग लीड हेड और सहायक हेड दोनों के लिए प्रशिक्षण मॉडल के रूप में किया जाता है।

रणनीति इस धारणा पर काम करती है कि क्योंकि लीड हेड में सीखने की क्षमता अधिक होती है, इसलिए जो लेबल उत्पन्न होता है वह अधिक प्रतिनिधि होना चाहिए, और स्रोत और लक्ष्य के बीच सहसंबंधित होना चाहिए।

मोटे से बढ़िया लीड हेड गाइडेड लेबल असाइनर

यह रणनीति लीड हेड के पूर्वानुमान परिणामों और जमीनी सच्चाई के आधार पर गणना भी करती है, और फिर सॉफ्ट लेबल उत्पन्न करने के लिए अनुकूलन का उपयोग करती है। हालाँकि, एक महत्वपूर्ण अंतर है। इस रणनीति में, सॉफ्ट लेबल के दो सेट हैं, मोटे स्तर, और बढ़िया लेबल.

मोटे लेबल का निर्माण सकारात्मक नमूने की बाधाओं को शिथिल करके किया जाता है

असाइनमेंट प्रक्रिया जो अधिक ग्रिडों को सकारात्मक लक्ष्य मानती है। यह सहायक प्रमुख की कमजोर सीखने की क्षमता के कारण जानकारी खोने के जोखिम से बचने के लिए किया जाता है।

ऊपर दिया गया चित्र YOLOv7 एल्गोरिथम में मुफ़्त उपहारों के एक प्रशिक्षित बैग के उपयोग की व्याख्या करता है। यह सहायक सिर के लिए मोटे और मुख्य सिर के लिए बारीक को दर्शाता है। जब हम सहायक हेड (बी) वाले मॉडल की तुलना सामान्य मॉडल (ए) से करते हैं, तो हम देखेंगे कि (बी) में स्कीमा में एक सहायक हेड है, जबकि यह (ए) में नहीं है।

चित्र (सी) सामान्य स्वतंत्र लेबल असाइनर को दर्शाता है जबकि चित्र (डी) और चित्र (ई) क्रमशः लीड गाइडेड असाइनर और YOLOv7 द्वारा उपयोग किए जाने वाले मोटे-से-फाइन लीड गाइडेड असाइनर को दर्शाते हैं।

निःशुल्क वस्तुओं का अन्य प्रशिक्षण योग्य थैला

ऊपर उल्लिखित लोगों के अलावा, YOLOv7 एल्गोरिथ्म मुफ्त के अतिरिक्त बैग का उपयोग करता है, हालांकि वे मूल रूप से उनके द्वारा प्रस्तावित नहीं किए गए थे। वे हैं

कनव-बीएन-सक्रियण प्रौद्योगिकी में बैच सामान्यीकरण: इस रणनीति का उपयोग कन्वेन्शनल परत को सीधे बैच सामान्यीकरण परत से जोड़ने के लिए किया जाता है।
योलोर में निहित ज्ञान: YOLOv7 रणनीति को कनवल्शनल फीचर मैप के साथ जोड़ता है।
ईएमए मॉडल: EMA मॉडल का उपयोग YOLOv7 में अंतिम संदर्भ मॉडल के रूप में किया जाता है, हालांकि इसका प्राथमिक उपयोग माध्य शिक्षक पद्धति में किया जाना है।

YOLOv7 : प्रयोग

प्रयोगिक व्यवस्था

YOLOv7 एल्गोरिथम का उपयोग करता है प्रशिक्षण और सत्यापन के लिए Microsoft COCO डेटासेट उनका ऑब्जेक्ट डिटेक्शन मॉडल, और ये सभी प्रयोग पूर्व-प्रशिक्षित मॉडल का उपयोग नहीं करते हैं। डेवलपर्स ने प्रशिक्षण के लिए 2017 ट्रेन डेटासेट का उपयोग किया, और हाइपरपैरामीटर का चयन करने के लिए 2017 सत्यापन डेटासेट का उपयोग किया। अंत में, YOLOv7 ऑब्जेक्ट डिटेक्शन परिणामों के प्रदर्शन की तुलना ऑब्जेक्ट डिटेक्शन के लिए अत्याधुनिक एल्गोरिदम से की जाती है।

डेवलपर्स ने इसके लिए एक बुनियादी मॉडल डिज़ाइन किया है एज जीपीयू (YOLOv7-टिनी), सामान्य जीपीयू (YOLOv7), और क्लाउड जीपीयू (YOLOv7-W6). इसके अलावा, YOLOv7 एल्गोरिदम विभिन्न सेवा आवश्यकताओं के अनुसार मॉडल स्केलिंग के लिए एक बुनियादी मॉडल का भी उपयोग करता है, और विभिन्न मॉडल प्राप्त करता है। YOLOv7 एल्गोरिदम के लिए स्टैक स्केलिंग गर्दन पर की जाती है, और प्रस्तावित यौगिकों का उपयोग मॉडल की गहराई और चौड़ाई को बढ़ाने के लिए किया जाता है।

आधार रेखा

YOLOv7 एल्गोरिदम पिछले YOLO मॉडल का उपयोग करता है, और YOLOR ऑब्जेक्ट डिटेक्शन एल्गोरिदम को इसकी आधार रेखा के रूप में उपयोग करता है।

उपरोक्त आंकड़ा YOLOv7 मॉडल की आधार रेखा की तुलना अन्य ऑब्जेक्ट डिटेक्शन मॉडल से करता है, और परिणाम काफी स्पष्ट हैं। जब तुलना की गई YOLOv4 एल्गोरिदम, YOLOv7 न केवल 75% कम पैरामीटर का उपयोग करता है, बल्कि यह 15% कम गणना का भी उपयोग करता है, और इसमें 0.4% अधिक सटीकता है।

अत्याधुनिक ऑब्जेक्ट डिटेक्टर मॉडल के साथ तुलना

उपरोक्त आंकड़ा परिणाम दिखाता है जब YOLOv7 की तुलना मोबाइल और सामान्य GPU के लिए अत्याधुनिक ऑब्जेक्ट डिटेक्शन मॉडल से की जाती है। यह देखा जा सकता है कि YOLOv7 एल्गोरिदम द्वारा प्रस्तावित विधि में सबसे अच्छा गति-सटीकता ट्रेड-ऑफ स्कोर है।

पृथक्करण अध्ययन: प्रस्तावित यौगिक स्केलिंग विधि

ऊपर दिखाया गया आंकड़ा मॉडल को बढ़ाने के लिए विभिन्न रणनीतियों का उपयोग करने के परिणामों की तुलना करता है। YOLOv7 मॉडल में स्केलिंग रणनीति कम्प्यूटेशनल ब्लॉक की गहराई को 1.5 गुना और चौड़ाई को 1.25 गुना बढ़ा देती है।

जब इसकी तुलना केवल गहराई मापने वाले मॉडल से की जाती है, तो YOLOv7 मॉडल कम मापदंडों और गणना शक्ति का उपयोग करते हुए 0.5% बेहतर प्रदर्शन करता है। दूसरी ओर, जब उन मॉडलों के साथ तुलना की जाती है जो केवल गहराई बढ़ाते हैं, तो YOLOv7 की सटीकता में 0.2% का सुधार होता है, लेकिन मापदंडों की संख्या को 2.9% और गणना को 1.2% बढ़ाने की आवश्यकता होती है।

प्रस्तावित नियोजित पुन: पैरामीटरयुक्त मॉडल

इसके प्रस्तावित पुन: पैरामीटरयुक्त मॉडल की व्यापकता को सत्यापित करने के लिए YOLOv7 एल्गोरिदम सत्यापन के लिए अवशिष्ट-आधारित और संयोजन आधारित मॉडल पर इसका उपयोग करता है. सत्यापन प्रक्रिया के लिए, YOLOv7 एल्गोरिथम का उपयोग किया जाता है 3-स्टैक्ड ELAN कॉन्सटेनेशन-आधारित मॉडल के लिए, और सीएसपीडार्कनेट अवशिष्ट-आधारित मॉडल के लिए।

कॉन्सटेनेशन-आधारित मॉडल के लिए, एल्गोरिदम 3-स्टैक्ड ELAN में 3×3 कनवल्शनल परतों को RepConv से बदल देता है। नीचे दिया गया चित्र नियोजित RepConv और 3-स्टैक्ड ELAN का विस्तृत कॉन्फ़िगरेशन दिखाता है।

इसके अलावा, अवशिष्ट-आधारित मॉडल के साथ काम करते समय, YOLOv7 एल्गोरिदम एक उलटे डार्क ब्लॉक का उपयोग करता है क्योंकि मूल डार्क ब्लॉक में 3×3 कनवल्शन ब्लॉक नहीं होता है। नीचे दिया गया आंकड़ा उलटे सीएसपीडार्कनेट की वास्तुकला को दर्शाता है जो 3×3 और 1×1 कनवल्शनल परत की स्थिति को उलट देता है।

सहायक प्रमुख के लिए प्रस्तावित सहायक हानि

सहायक हेड के लिए सहायक हानि के लिए, YOLOv7 मॉडल सहायक हेड और लीड हेड विधियों के लिए स्वतंत्र लेबल असाइनमेंट की तुलना करता है।

उपरोक्त चित्र में प्रस्तावित सहायक शीर्ष पर अध्ययन के परिणाम शामिल हैं। यह देखा जा सकता है कि सहायक हानि में वृद्धि के साथ मॉडल का समग्र प्रदर्शन बढ़ता है। इसके अलावा, YOLOv7 मॉडल द्वारा प्रस्तावित लीड गाइडेड लेबल असाइनमेंट स्वतंत्र लीड असाइनमेंट रणनीतियों से बेहतर प्रदर्शन करता है।

YOLOv7 परिणाम

उपरोक्त प्रयोगों के आधार पर, अन्य ऑब्जेक्ट डिटेक्शन एल्गोरिदम की तुलना में YOLov7 के प्रदर्शन का परिणाम यहां दिया गया है।

उपरोक्त आंकड़ा YOLOv7 मॉडल की तुलना अन्य ऑब्जेक्ट डिटेक्शन एल्गोरिदम से करता है, और यह स्पष्ट रूप से देखा जा सकता है कि YOLOv7 अन्य ऑब्जेक्ट डिटेक्शन मॉडल से आगे निकल जाता है। औसत परिशुद्धता (एपी) बनाम बैच हस्तक्षेप.

इसके अलावा, नीचे दिया गया आंकड़ा YOLOv7 बनाम अन्य वास्तविक समय आपत्ति पहचान एल्गोरिदम के प्रदर्शन की तुलना करता है। एक बार फिर, YOLOv7 समग्र प्रदर्शन, सटीकता और दक्षता के मामले में अन्य मॉडलों से आगे निकल गया है।

यहां YOLOv7 परिणामों और प्रदर्शनों से कुछ अतिरिक्त टिप्पणियां दी गई हैं।

YOLOv7-Tiny 6 मिलियन से अधिक मापदंडों के साथ, YOLO परिवार का सबसे छोटा मॉडल है। YOLOv7-Tiny की औसत परिशुद्धता 35.2% है, और यह तुलनीय मापदंडों के साथ YOLOv4-Tiny मॉडल से बेहतर प्रदर्शन करता है।
YOLOv7 मॉडल में 37 मिलियन से अधिक पैरामीटर हैं, और यह YOLov4 जैसे उच्च पैरामीटर वाले मॉडल से बेहतर प्रदर्शन करता है।
YOLOv7 मॉडल में 5 से 160 एफपीएस की सीमा में उच्चतम एमएपी और एफपीएस दर है।

निष्कर्ष

YOLO या यू ओनली लुक वन्स आधुनिक कंप्यूटर विज़न में अत्याधुनिक ऑब्जेक्ट डिटेक्शन मॉडल है। YOLO एल्गोरिदम अपनी उच्च सटीकता और दक्षता के लिए जाना जाता है, और परिणामस्वरूप, इसे वास्तविक समय ऑब्जेक्ट डिटेक्शन उद्योग में व्यापक अनुप्रयोग मिलता है। 2016 में पहला YOLO एल्गोरिदम पेश किए जाने के बाद से, प्रयोगों ने डेवलपर्स को मॉडल में लगातार सुधार करने की अनुमति दी है।

YOLOv7 मॉडल YOLO परिवार में नवीनतम जुड़ाव है, और यह अब तक का सबसे शक्तिशाली YOLo एल्गोरिदम है। इस लेख में, हमने YOLOv7 के बुनियादी सिद्धांतों के बारे में बात की है, और यह समझाने की कोशिश की है कि YOLOv7 को इतना कुशल क्या बनाता है।

अगला

लर्निंग कर्व को नेविगेट करना: मेमोरी रिटेंशन के साथ एआई का संघर्ष

मिस न करें

मेटा का लामा 2 ओपनएआई के चैटजीपीटी को चुनौती देता है: एआई विकास में एक नया युग

कुणाल केजरीवाल

"पेशे से एक इंजीनियर, दिल से एक लेखक"। कुणाल एआई और एमएल के प्रति गहरा प्रेम और समझ रखने वाले एक तकनीकी लेखक हैं, जो अपने आकर्षक और सूचनात्मक दस्तावेज़ीकरण के माध्यम से इन क्षेत्रों में जटिल अवधारणाओं को सरल बनाने के लिए समर्पित हैं।

यूनाइट.एआई

YOLOv7: सबसे उन्नत ऑब्जेक्ट डिटेक्शन एल्गोरिदम?

कृत्रिम बुद्धिमत्ता

YOLOv7: सबसे उन्नत ऑब्जेक्ट डिटेक्शन एल्गोरिदम?

विषय - सूची

ऑब्जेक्ट डिटेक्शन क्या है?

वास्तविक समय वस्तु का पता लगाना

योलो क्या है?

योलो कैसे काम करता है?