рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдмреЗрд╣рддрд░ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкреНрд░рджрд░реНрд╢рди рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╕реАрдПрдирдПрди-рдЖрдзрд╛рд░рд┐рдд рдЗрдореЗрдЬ рд░реАрд╕рд╛рдЗрдЬрд┐рдВрдЧ

गूगल रिसर्च ने एक नई विधि का प्रस्ताव दिया है जो प्री-प्रोसेसिंग चरण में डेटा सेट में छवियों को कम करने के तरीके में सुधार करके इमेज-आधारित कंप्यूटर विजन प्रशिक्षण कार्यप्रवाह की दक्षता और सटीकता में सुधार कर सकती है।
इस पेपर लर्निंग टू रीसाइज़ इमेजेज़ फॉर कंप्यूटर विजन टास्क्स में, शोधकर्ता होसैन तालेबी और पेमन मिलानफार एक सीएनएन का उपयोग करके एक नई हाइब्रिड इमेज रीसाइजिंग आर्किटेक्चर बनाने के लिए एक सीएनएन का उपयोग करते हैं जो चार लोकप्रिय कंप्यूटर विजन डेटासेट पर मान्यता परिणामों में एक उल्लेखनीय सुधार प्रदान करता है।

मान्यता और रीसाइजिंग के लिए प्रस्तावित संयुक्त फ्रेमवर्क। स्रोत: https://arxiv.org/pdf/2103.09950.pdf
इस पेपर में यह देखा गया है कि स्वचालित मशीन लर्निंग पाइपलाइनों में वर्तमान में उपयोग किए जाने वाले रीस्केलिंग/रीसाइजिंग तरीके दशकों पुराने हैं और अक्सर केवल बुनियादी बिलिनियर, बाइक्यूबिक और निकटतम पड़ोसी रीसाइजिंग का उपयोग करते हैं – तरीके जो सभी पिक्सेलों के साथ भेदभावपूर्ण व्यवहार करते हैं।
इसके विपरीत, प्रस्तावित विधि एक सीएनएन के माध्यम से इमेज डेटा को बढ़ाती है और उस इनपुट को अंततः मॉडल की आर्किटेक्चर से गुजरने वाली रीसाइज़ की गई छवियों में शामिल करती है।
एआई प्रशिक्षण में इमेज प्रतिबंध
एक मॉडल को प्रशिक्षित करने के लिए जो छवियों के साथ काम करता है, एक मशीन लर्निंग फ्रेमवर्क में एक प्री-प्रोसेसिंग चरण शामिल होगा, जहां विभिन्न आकारों, रंग स्थानों और रिज़ॉल्यूशन (जो प्रशिक्षण डेटासेट में योगदान देंगे) की विविध छवियों को संगत आयामों और एक स्थिर, एकल प्रारूप में सिस्टमatically क्रॉप और रीसाइज़ किया जाता है।
आम तौर पर यह पीएनजी प्रारूप के आसपास कुछ समझौता शामिल करेगा, जहां प्रोसेसिंग समय/संसाधनों, फ़ाइल आकार और छवि गुणवत्ता के बीच एक समझौता स्थापित किया जाएगा।
अधिकांश मामलों में, प्रोसेस्ड छवि के अंतिम आयाम बहुत छोटे होते हैं। नीचे हम उनमें से एक को 80×80 रिज़ॉल्यूशन पर देखते हैं जिस पर कुछ प्रारंभिक डीपफ़ेक्स डेटासेट उत्पन्न किए गए थे:

चूंकि चेहरे (और अन्य संभावित विषय) शायद ही कभी आवश्यक वर्ग अनुपात में फिट होते हैं, इसलिए छवियों को होमोजेनाइज़ करने के लिए काली पट्टियां जोड़नी पड़ सकती हैं (या अपशिष्ट स्थान की अनुमति दी जा सकती है), जिससे वास्तविक उपयोगी छवि डेटा कम हो जाता है:

यहां चेहरे को एक बड़े छवि क्षेत्र से निकाला गया है जब तक कि इसे आर्थिक रूप से फसल नहीं किया जा सकता है ताकि पूरे चेहरे के क्षेत्र को शामिल किया जा सके। हालांकि, जैसा कि दाईं ओर देखा गया है, शेष क्षेत्र का एक बड़ा हिस्सा प्रशिक्षण के दौरान उपयोग नहीं किया जाएगा, जो रीसाइज़ की गई डेटा की छवि गुणवत्ता के महत्व को और भी बढ़ा देता है।
जैसा कि हाल के वर्षों में जीपीयू क्षमताओं में सुधार हुआ है, नए पीढ़ी के एनवीडिया कार्ड के साथ वीडियो-रैम (वीआरएएम) की बढ़ती मात्रा के साथ, औसत योगदान छवि आकार बढ़ने लगे हैं, हालांकि 224×224 पिक्सेल अभी भी काफी मानक है (उदाहरण के लिए, यह रेसनेट-50 डेटासेट का आकार है)।

एक अनरेसाइज्ड 224×244 पिक्सेल छवि।
वीआरएएम में बैच फिटिंग
छवियों को एक ही आकार का होना चाहिए क्योंकि ग्रेडिएंट डिसेंट, मॉडल को बेहतर बनाने की विधि, एकरूप प्रशिक्षण डेटा की आवश्यकता होती है।
छवियों को इतना छोटा होने का कारण यह है कि उन्हें प्रशिक्षण के दौरान वीआरएएम में छोटे बैचों में लोड (पूरी तरह से डीकंप्रेस) किया जाना चाहिए, आमतौर पर 6-24 छवियों के बीच प्रति बैच। बहुत कम छवियां प्रति बैच, और पर्याप्त समूह सामग्री नहीं है जो अच्छी तरह से सामान्य कर सके, इसके अलावा प्रशिक्षण समय को बढ़ाता है; बहुत अधिक, और मॉडल आवश्यक विशेषताओं और विवरण प्राप्त करने में विफल हो सकता है (नीचे देखें)।
इस ‘लाइव लोडिंग’ प्रशिक्षण वास्तुकला के इस खंड को लेटेंट स्पेस कहा जाता है। यह वह स्थान है जहां सुविधाओं को बार-बार एक ही डेटा (अर्थात् एक ही छवियों) से निकाला जाता है जब तक कि मॉडल एक ऐसी स्थिति में नहीं पहुंच जाता है जहां यह सभी सामान्य ज्ञान प्राप्त कर लेता है जिसकी उसे बाद में समान प्रकार के अनदेखे डेटा पर परिवर्तन करने की आवश्यकता होती है।
यह प्रक्रिया आमतौर पर दिनों में लेती है, हालांकि यह एक उपयोगी सामान्यीकरण प्राप्त करने के लिए एक महीने या अधिक समय तक लगातार और अनवरत उच्च मात्रा में 24/7 संज्ञानात्मक प्रक्रिया ले सकती है। वीआरएएम आकार में वृद्धि केवल एक बिंदु तक ही सहायक है, क्योंकि छवि रिज़ॉल्यूशन में भी न्यूनतम वृद्धि प्रोसेसिंग क्षमता पर एक क्रमिक प्रभाव डाल सकती है, और संबंधित प्रभाव जो हमेशा अनुकूल नहीं हो सकते हैं।
बड़े बैच आकार को समायोजित करने के लिए बड़े वीआरएएम क्षमता का उपयोग करना भी एक मिश्रित आशीर्वाद है, क्योंकि इस द्वारा प्राप्त बड़ी प्रशिक्षण गति सटीक परिणामों की कमी से ऑफसेट हो सकती है।
अतः, चूंकि प्रशिक्षण वास्तुकला इतनी सीमित है, इसलिए मौजूदा पाइपलाइन की सीमाओं के भीतर कुछ भी जो सुधार प्रभावित कर सकता है वह एक उल्लेखनीय उपलब्धि है।
कैसे श्रेष्ठ डाउनसाइजिंग मदद करती है
प्रशिक्षण डेटासेट में शामिल की जाने वाली छवि की अंतिम गुणवत्ता को प्रशिक्षण के परिणाम पर सुधार प्रभाव डालने के लिए सिद्ध किया गया है, विशेष रूप से वस्तु मान्यता कार्यों में। 2018 में मैक्स प्लैंक इंस्टीट्यूट फॉर इंटेलिजेंट सिस्टम के शोधकर्ताओं ने दावा किया कि रीसैंपलिंग विधि का चयन प्रशिक्षण प्रदर्शन और परिणामों पर đáng ध्यान देने योग्य प्रभाव डालता है।
इसके अलावा, गूगल (नई पेपर के लेखकों द्वारा सह-लिखित) से पिछला काम यह पाया गया है कि डेटासेट छवियों में संपीड़न कलाकृतियों पर नियंत्रण बनाए रखने से वर्गीकरण सटीकता में सुधार किया जा सकता है।
नए रीसैम्पलर में निर्मित सीएनएन मॉडल बिलिनियर रीसाइजिंग के साथ एक ‘स्किप कनेक्शन’ सुविधा को जोड़ती है जो रीसाइज्ड छवि में प्रशिक्षित नेटवर्क के आउटपुट को शामिल कर सकती है।
एक पारंपरिक एनकोडर/डीकोडर आर्किटेक्चर के विपरीत, नई प्रस्तावित विधि न केवल एक फीड-फॉरवर्ड बोतलनेक के रूप में कार्य कर सकती है, बल्कि किसी भी लक्ष्य आकार और/या पहलू अनुपात के लिए अप-स्केलिंग के लिए एक इनवर्स बोतलनेक के रूप में भी कार्य कर सकती है। इसके अलावा, ‘मानक’ रीसैंपलिंग विधि को किसी अन्य उपयुक्त पारंपरिक विधि के साथ बदला जा सकता है, जैसे कि लांकज़ोस।
उच्च आवृत्ति विवरण
नई विधि ऐसी छवियों का उत्पादन करती है जो प्रभावी रूप से प्रशिक्षण प्रक्रिया द्वारा अंततः मान्यता प्राप्त किए जाने वाले कुंजी विशेषताओं को स्रोत छवि में ‘बेक’ करती हैं। सौंदर्य के संदर्भ में, परिणाम असामान्य हैं:

गूगल रिसर्च इमेज डाउनसैंपलिंग/रीसाइजिंग विधि के परिणाम चार नेटवर्क – इन्सेप्शन वी2; डेन्सनेट-121; रेसनेट-50; और मोबाइलनेट-वी2 पर लागू किए गए।
शोधकर्ता यह नोट करते हैं कि इन प्रारंभिक प्रयोगों को विशेष रूप से इमेज मान्यता कार्यों के लिए अनुकूलित किया गया है, और उनके सीएनएन-संचालित ‘लर्न्ड रीसाइज़र’ ने ऐसे कार्यों में सुधार की त्रुटि दर हासिल की है। शोधकर्ता भविष्य में इस विधि को अन्य प्रकार के इमेज-आधारित कंप्यूटर विजन अनुप्रयोगों पर लागू करने का इरादा रखते हैं।













