Connect with us

рдмреЗрд╣рддрд░ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкреНрд░рджрд░реНрд╢рди рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╕реАрдПрдирдПрди-рдЖрдзрд╛рд░рд┐рдд рдЗрдореЗрдЬ рд░реАрд╕рд╛рдЗрдЬрд┐рдВрдЧ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдмреЗрд╣рддрд░ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкреНрд░рджрд░реНрд╢рди рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╕реАрдПрдирдПрди-рдЖрдзрд╛рд░рд┐рдд рдЗрдореЗрдЬ рд░реАрд╕рд╛рдЗрдЬрд┐рдВрдЧ

mm

गूगल रिसर्च ने एक नई विधि का प्रस्ताव दिया है जो प्री-प्रोसेसिंग चरण में डेटा सेट में छवियों को कम करने के तरीके में सुधार करके इमेज-आधारित कंप्यूटर विजन प्रशिक्षण कार्यप्रवाह की दक्षता और सटीकता में सुधार कर सकती है।

इस पेपर लर्निंग टू रीसाइज़ इमेजेज़ फॉर कंप्यूटर विजन टास्क्स में, शोधकर्ता होसैन तालेबी और पेमन मिलानफार एक सीएनएन का उपयोग करके एक नई हाइब्रिड इमेज रीसाइजिंग आर्किटेक्चर बनाने के लिए एक सीएनएन का उपयोग करते हैं जो चार लोकप्रिय कंप्यूटर विजन डेटासेट पर मान्यता परिणामों में एक उल्लेखनीय सुधार प्रदान करता है।

рдорд╛рдиреНрдпрддрд╛ рдФрд░ рд░реАрд╕рд╛рдЗрдЬрд┐рдВрдЧ рдХреЗ рд▓рд┐рдП рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рд╕рдВрдпреБрдХреНрдд рдлреНрд░реЗрдорд╡рд░реНрдХред

मान्यता और रीसाइजिंग के लिए प्रस्तावित संयुक्त फ्रेमवर्क। स्रोत: https://arxiv.org/pdf/2103.09950.pdf

इस पेपर में यह देखा गया है कि स्वचालित मशीन लर्निंग पाइपलाइनों में वर्तमान में उपयोग किए जाने वाले रीस्केलिंग/रीसाइजिंग तरीके दशकों पुराने हैं और अक्सर केवल बुनियादी बिलिनियर, बाइक्यूबिक और निकटतम पड़ोसी रीसाइजिंग का उपयोग करते हैं – तरीके जो सभी पिक्सेलों के साथ भेदभावपूर्ण व्यवहार करते हैं।

इसके विपरीत, प्रस्तावित विधि एक सीएनएन के माध्यम से इमेज डेटा को बढ़ाती है और उस इनपुट को अंततः मॉडल की आर्किटेक्चर से गुजरने वाली रीसाइज़ की गई छवियों में शामिल करती है।

एआई प्रशिक्षण में इमेज प्रतिबंध

एक मॉडल को प्रशिक्षित करने के लिए जो छवियों के साथ काम करता है, एक मशीन लर्निंग फ्रेमवर्क में एक प्री-प्रोसेसिंग चरण शामिल होगा, जहां विभिन्न आकारों, रंग स्थानों और रिज़ॉल्यूशन (जो प्रशिक्षण डेटासेट में योगदान देंगे) की विविध छवियों को संगत आयामों और एक स्थिर, एकल प्रारूप में सिस्टमatically क्रॉप और रीसाइज़ किया जाता है।

आम तौर पर यह पीएनजी प्रारूप के आसपास कुछ समझौता शामिल करेगा, जहां प्रोसेसिंग समय/संसाधनों, फ़ाइल आकार और छवि गुणवत्ता के बीच एक समझौता स्थापित किया जाएगा।

अधिकांश मामलों में, प्रोसेस्ड छवि के अंतिम आयाम बहुत छोटे होते हैं। नीचे हम उनमें से एक को 80×80 रिज़ॉल्यूशन पर देखते हैं जिस पर कुछ प्रारंभिक डीपफ़ेक्स डेटासेट उत्पन्न किए गए थे:

рдпрд╣ 80x80 рд░рд┐рдЬрд╝реЙрд▓реНрдпреВрд╢рди рд╣реИ рдЬрд┐рд╕ рдкрд░ рдХреБрдЫ рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдбреАрдкрдлрд╝реЗрдХреНрд╕ рдбреЗрдЯрд╛рд╕реЗрдЯ рдЙрддреНрдкрдиреНрди рдХрд┐рдП рдЧрдП рдереЗред

चूंकि चेहरे (और अन्य संभावित विषय) शायद ही कभी आवश्यक वर्ग अनुपात में फिट होते हैं, इसलिए छवियों को होमोजेनाइज़ करने के लिए काली पट्टियां जोड़नी पड़ सकती हैं (या अपशिष्ट स्थान की अनुमति दी जा सकती है), जिससे वास्तविक उपयोगी छवि डेटा कम हो जाता है:

рдпрд╣рд╛рдВ рдЪреЗрд╣рд░реЗ рдХреЛ рдПрдХ рдмрдбрд╝реЗ рдЫрд╡рд┐ рдХреНрд╖реЗрддреНрд░ рд╕реЗ рдирд┐рдХрд╛рд▓рд╛ рдЧрдпрд╛ рд╣реИ рдЬрдм рддрдХ рдХрд┐ рдЗрд╕реЗ рдЖрд░реНрдерд┐рдХ рд░реВрдк рд╕реЗ рдлрд╕рд▓ рдирд╣реАрдВ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рддрд╛рдХрд┐ рдкреВрд░реЗ рдЪреЗрд╣рд░реЗ рдХреЗ рдХреНрд╖реЗрддреНрд░ рдХреЛ рд╢рд╛рдорд┐рд▓ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХреЗред рд╣рд╛рд▓рд╛рдВрдХрд┐, рдЬреИрд╕рд╛ рдХрд┐ рджрд╛рдИрдВ рдУрд░ рджреЗрдЦрд╛ рдЧрдпрд╛ рд╣реИ, рд╢реЗрд╖ рдХреНрд╖реЗрддреНрд░ рдХрд╛ рдПрдХ рдмрдбрд╝рд╛ рд╣рд┐рд╕реНрд╕рд╛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рджреМрд░рд╛рди рдЙрдкрдпреЛрдЧ рдирд╣реАрдВ рдХрд┐рдпрд╛ рдЬрд╛рдПрдЧрд╛, рдЬреЛ рд░реАрд╕рд╛рдЗрдЬрд╝ рдХреА рдЧрдИ рдбреЗрдЯрд╛ рдХреА рдЫрд╡рд┐ рдЧреБрдгрд╡рддреНрддрд╛ рдХреЗ рдорд╣рддреНрд╡ рдХреЛ рдФрд░ рднреА рдмрдврд╝рд╛ рджреЗрддрд╛ рд╣реИред

यहां चेहरे को एक बड़े छवि क्षेत्र से निकाला गया है जब तक कि इसे आर्थिक रूप से फसल नहीं किया जा सकता है ताकि पूरे चेहरे के क्षेत्र को शामिल किया जा सके। हालांकि, जैसा कि दाईं ओर देखा गया है, शेष क्षेत्र का एक बड़ा हिस्सा प्रशिक्षण के दौरान उपयोग नहीं किया जाएगा, जो रीसाइज़ की गई डेटा की छवि गुणवत्ता के महत्व को और भी बढ़ा देता है।

जैसा कि हाल के वर्षों में जीपीयू क्षमताओं में सुधार हुआ है, नए पीढ़ी के एनवीडिया कार्ड के साथ वीडियो-रैम (वीआरएएम) की बढ़ती मात्रा के साथ, औसत योगदान छवि आकार बढ़ने लगे हैं, हालांकि 224×224 पिक्सेल अभी भी काफी मानक है (उदाहरण के लिए, यह रेसनेट-50 डेटासेट का आकार है)।

рдПрдХ рдЕрдирд░реЗрд╕рд╛рдЗрдЬреНрдб 224x244 рдкрд┐рдХреНрд╕реЗрд▓ рдЫрд╡рд┐ред

एक अनरेसाइज्ड 224×244 पिक्सेल छवि।

वीआरएएम में बैच फिटिंग

छवियों को एक ही आकार का होना चाहिए क्योंकि ग्रेडिएंट डिसेंट, मॉडल को बेहतर बनाने की विधि, एकरूप प्रशिक्षण डेटा की आवश्यकता होती है।

छवियों को इतना छोटा होने का कारण यह है कि उन्हें प्रशिक्षण के दौरान वीआरएएम में छोटे बैचों में लोड (पूरी तरह से डीकंप्रेस) किया जाना चाहिए, आमतौर पर 6-24 छवियों के बीच प्रति बैच। बहुत कम छवियां प्रति बैच, और पर्याप्त समूह सामग्री नहीं है जो अच्छी तरह से सामान्य कर सके, इसके अलावा प्रशिक्षण समय को बढ़ाता है; बहुत अधिक, और मॉडल आवश्यक विशेषताओं और विवरण प्राप्त करने में विफल हो सकता है (नीचे देखें)।

इस ‘लाइव लोडिंग’ प्रशिक्षण वास्तुकला के इस खंड को लेटेंट स्पेस कहा जाता है। यह वह स्थान है जहां सुविधाओं को बार-बार एक ही डेटा (अर्थात् एक ही छवियों) से निकाला जाता है जब तक कि मॉडल एक ऐसी स्थिति में नहीं पहुंच जाता है जहां यह सभी सामान्य ज्ञान प्राप्त कर लेता है जिसकी उसे बाद में समान प्रकार के अनदेखे डेटा पर परिवर्तन करने की आवश्यकता होती है।

यह प्रक्रिया आमतौर पर दिनों में लेती है, हालांकि यह एक उपयोगी सामान्यीकरण प्राप्त करने के लिए एक महीने या अधिक समय तक लगातार और अनवरत उच्च मात्रा में 24/7 संज्ञानात्मक प्रक्रिया ले सकती है। वीआरएएम आकार में वृद्धि केवल एक बिंदु तक ही सहायक है, क्योंकि छवि रिज़ॉल्यूशन में भी न्यूनतम वृद्धि प्रोसेसिंग क्षमता पर एक क्रमिक प्रभाव डाल सकती है, और संबंधित प्रभाव जो हमेशा अनुकूल नहीं हो सकते हैं।

बड़े बैच आकार को समायोजित करने के लिए बड़े वीआरएएम क्षमता का उपयोग करना भी एक मिश्रित आशीर्वाद है, क्योंकि इस द्वारा प्राप्त बड़ी प्रशिक्षण गति सटीक परिणामों की कमी से ऑफसेट हो सकती है।

अतः, चूंकि प्रशिक्षण वास्तुकला इतनी सीमित है, इसलिए मौजूदा पाइपलाइन की सीमाओं के भीतर कुछ भी जो सुधार प्रभावित कर सकता है वह एक उल्लेखनीय उपलब्धि है।

कैसे श्रेष्ठ डाउनसाइजिंग मदद करती है

प्रशिक्षण डेटासेट में शामिल की जाने वाली छवि की अंतिम गुणवत्ता को प्रशिक्षण के परिणाम पर सुधार प्रभाव डालने के लिए सिद्ध किया गया है, विशेष रूप से वस्तु मान्यता कार्यों में। 2018 में मैक्स प्लैंक इंस्टीट्यूट फॉर इंटेलिजेंट सिस्टम के शोधकर्ताओं ने दावा किया कि रीसैंपलिंग विधि का चयन प्रशिक्षण प्रदर्शन और परिणामों पर đáng ध्यान देने योग्य प्रभाव डालता है।

इसके अलावा, गूगल (नई पेपर के लेखकों द्वारा सह-लिखित) से पिछला काम यह पाया गया है कि डेटासेट छवियों में संपीड़न कलाकृतियों पर नियंत्रण बनाए रखने से वर्गीकरण सटीकता में सुधार किया जा सकता है।

рдЧреВрдЧрд▓ рд░рд┐рд╕рд░реНрдЪ рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдбрд╛рдЙрдирд╕реИрдВрдкрд▓рд┐рдВрдЧ рдЕрд▓реНрдЧреЛрд░рд┐рджрдо рдХреЗ рд▓рд┐рдП рд╕реАрдПрдирдПрди рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ред

गूगल रिसर्च प्रस्तावित डाउनसैंपलिंग अल्गोरिदम के लिए सीएनएन आर्किटेक्चर।

नए रीसैम्पलर में निर्मित सीएनएन मॉडल बिलिनियर रीसाइजिंग के साथ एक ‘स्किप कनेक्शन’ सुविधा को जोड़ती है जो रीसाइज्ड छवि में प्रशिक्षित नेटवर्क के आउटपुट को शामिल कर सकती है।

एक पारंपरिक एनकोडर/डीकोडर आर्किटेक्चर के विपरीत, नई प्रस्तावित विधि न केवल एक फीड-फॉरवर्ड बोतलनेक के रूप में कार्य कर सकती है, बल्कि किसी भी लक्ष्य आकार और/या पहलू अनुपात के लिए अप-स्केलिंग के लिए एक इनवर्स बोतलनेक के रूप में भी कार्य कर सकती है। इसके अलावा, ‘मानक’ रीसैंपलिंग विधि को किसी अन्य उपयुक्त पारंपरिक विधि के साथ बदला जा सकता है, जैसे कि लांकज़ोस।

उच्च आवृत्ति विवरण

नई विधि ऐसी छवियों का उत्पादन करती है जो प्रभावी रूप से प्रशिक्षण प्रक्रिया द्वारा अंततः मान्यता प्राप्त किए जाने वाले कुंजी विशेषताओं को स्रोत छवि में ‘बेक’ करती हैं। सौंदर्य के संदर्भ में, परिणाम असामान्य हैं:

рдЧреВрдЧрд▓ рд░рд┐рд╕рд░реНрдЪ рдЗрдореЗрдЬ рдбрд╛рдЙрдирд╕реИрдВрдкрд▓рд┐рдВрдЧ/рд░реАрд╕рд╛рдЗрдЬрд┐рдВрдЧ рд╡рд┐рдзрд┐ рдХреЗ рдкрд░рд┐рдгрд╛рдо рдЪрд╛рд░ рдиреЗрдЯрд╡рд░реНрдХ - рдЗрдиреНрд╕реЗрдкреНрд╢рди рд╡реА2; рдбреЗрдиреНрд╕рдиреЗрдЯ-121; рд░реЗрд╕рдиреЗрдЯ-50; рдФрд░ рдореЛрдмрд╛рдЗрд▓рдиреЗрдЯ-рд╡реА2 рдкрд░ рд▓рд╛рдЧреВ рдХрд┐рдП рдЧрдПред

गूगल रिसर्च इमेज डाउनसैंपलिंग/रीसाइजिंग विधि के परिणाम चार नेटवर्क – इन्सेप्शन वी2; डेन्सनेट-121; रेसनेट-50; और मोबाइलनेट-वी2 पर लागू किए गए।

शोधकर्ता यह नोट करते हैं कि इन प्रारंभिक प्रयोगों को विशेष रूप से इमेज मान्यता कार्यों के लिए अनुकूलित किया गया है, और उनके सीएनएन-संचालित ‘लर्न्ड रीसाइज़र’ ने ऐसे कार्यों में सुधार की त्रुटि दर हासिल की है। शोधकर्ता भविष्य में इस विधि को अन्य प्रकार के इमेज-आधारित कंप्यूटर विजन अनुप्रयोगों पर लागू करने का इरादा रखते हैं।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai