कृत्रिम बुद्धिमत्ता

बेहतर मशीन लर्निंग प्रदर्शन के माध्यम से सीएनएन-आधारित इमेज रीसाइजिंग

Published August 19, 2021

Updated April 28, 2026

Martin Anderson

गूगल रिसर्च ने एक नई विधि का प्रस्ताव दिया है जो प्री-प्रोसेसिंग चरण में डेटा सेट में छवियों को कम करने के तरीके में सुधार करके इमेज-आधारित कंप्यूटर विजन प्रशिक्षण कार्यप्रवाह की दक्षता और सटीकता में सुधार कर सकती है।

इस पेपर लर्निंग टू रीसाइज़ इमेजेज़ फॉर कंप्यूटर विजन टास्क्स में, शोधकर्ता होसैन तालेबी और पेमन मिलानफार एक सीएनएन का उपयोग करके एक नई हाइब्रिड इमेज रीसाइजिंग आर्किटेक्चर बनाने के लिए एक सीएनएन का उपयोग करते हैं जो चार लोकप्रिय कंप्यूटर विजन डेटासेट पर मान्यता परिणामों में एक उल्लेखनीय सुधार प्रदान करता है।

मान्यता और रीसाइजिंग के लिए प्रस्तावित संयुक्त फ्रेमवर्क। स्रोत: https://arxiv.org/pdf/2103.09950.pdf

इस पेपर में यह देखा गया है कि स्वचालित मशीन लर्निंग पाइपलाइनों में वर्तमान में उपयोग किए जाने वाले रीस्केलिंग/रीसाइजिंग तरीके दशकों पुराने हैं और अक्सर केवल बुनियादी बिलिनियर, बाइक्यूबिक और निकटतम पड़ोसी रीसाइजिंग का उपयोग करते हैं – तरीके जो सभी पिक्सेलों के साथ भेदभावपूर्ण व्यवहार करते हैं।

इसके विपरीत, प्रस्तावित विधि एक सीएनएन के माध्यम से इमेज डेटा को बढ़ाती है और उस इनपुट को अंततः मॉडल की आर्किटेक्चर से गुजरने वाली रीसाइज़ की गई छवियों में शामिल करती है।

एआई प्रशिक्षण में इमेज प्रतिबंध

एक मॉडल को प्रशिक्षित करने के लिए जो छवियों के साथ काम करता है, एक मशीन लर्निंग फ्रेमवर्क में एक प्री-प्रोसेसिंग चरण शामिल होगा, जहां विभिन्न आकारों, रंग स्थानों और रिज़ॉल्यूशन (जो प्रशिक्षण डेटासेट में योगदान देंगे) की विविध छवियों को संगत आयामों और एक स्थिर, एकल प्रारूप में सिस्टमatically क्रॉप और रीसाइज़ किया जाता है।

आम तौर पर यह पीएनजी प्रारूप के आसपास कुछ समझौता शामिल करेगा, जहां प्रोसेसिंग समय/संसाधनों, फ़ाइल आकार और छवि गुणवत्ता के बीच एक समझौता स्थापित किया जाएगा।

अधिकांश मामलों में, प्रोसेस्ड छवि के अंतिम आयाम बहुत छोटे होते हैं। नीचे हम उनमें से एक को 80×80 रिज़ॉल्यूशन पर देखते हैं जिस पर कुछ प्रारंभिक डीपफ़ेक्स डेटासेट उत्पन्न किए गए थे:

यह 80x80 रिज़ॉल्यूशन है जिस पर कुछ प्रारंभिक डीपफ़ेक्स डेटासेट उत्पन्न किए गए थे।

चूंकि चेहरे (और अन्य संभावित विषय) शायद ही कभी आवश्यक वर्ग अनुपात में फिट होते हैं, इसलिए छवियों को होमोजेनाइज़ करने के लिए काली पट्टियां जोड़नी पड़ सकती हैं (या अपशिष्ट स्थान की अनुमति दी जा सकती है), जिससे वास्तविक उपयोगी छवि डेटा कम हो जाता है:

यहां चेहरे को एक बड़े छवि क्षेत्र से निकाला गया है जब तक कि इसे आर्थिक रूप से फसल नहीं किया जा सकता है ताकि पूरे चेहरे के क्षेत्र को शामिल किया जा सके। हालांकि, जैसा कि दाईं ओर देखा गया है, शेष क्षेत्र का एक बड़ा हिस्सा प्रशिक्षण के दौरान उपयोग नहीं किया जाएगा, जो रीसाइज़ की गई डेटा की छवि गुणवत्ता के महत्व को और भी बढ़ा देता है।

जैसा कि हाल के वर्षों में जीपीयू क्षमताओं में सुधार हुआ है, नए पीढ़ी के एनवीडिया कार्ड के साथ वीडियो-रैम (वीआरएएम) की बढ़ती मात्रा के साथ, औसत योगदान छवि आकार बढ़ने लगे हैं, हालांकि 224×224 पिक्सेल अभी भी काफी मानक है (उदाहरण के लिए, यह रेसनेट-50 डेटासेट का आकार है)।

एक अनरेसाइज्ड 224×244 पिक्सेल छवि।

वीआरएएम में बैच फिटिंग

छवियों को एक ही आकार का होना चाहिए क्योंकि ग्रेडिएंट डिसेंट, मॉडल को बेहतर बनाने की विधि, एकरूप प्रशिक्षण डेटा की आवश्यकता होती है।

छवियों को इतना छोटा होने का कारण यह है कि उन्हें प्रशिक्षण के दौरान वीआरएएम में छोटे बैचों में लोड (पूरी तरह से डीकंप्रेस) किया जाना चाहिए, आमतौर पर 6-24 छवियों के बीच प्रति बैच। बहुत कम छवियां प्रति बैच, और पर्याप्त समूह सामग्री नहीं है जो अच्छी तरह से सामान्य कर सके, इसके अलावा प्रशिक्षण समय को बढ़ाता है; बहुत अधिक, और मॉडल आवश्यक विशेषताओं और विवरण प्राप्त करने में विफल हो सकता है (नीचे देखें)।

इस ‘लाइव लोडिंग’ प्रशिक्षण वास्तुकला के इस खंड को लेटेंट स्पेस कहा जाता है। यह वह स्थान है जहां सुविधाओं को बार-बार एक ही डेटा (अर्थात् एक ही छवियों) से निकाला जाता है जब तक कि मॉडल एक ऐसी स्थिति में नहीं पहुंच जाता है जहां यह सभी सामान्य ज्ञान प्राप्त कर लेता है जिसकी उसे बाद में समान प्रकार के अनदेखे डेटा पर परिवर्तन करने की आवश्यकता होती है।

यह प्रक्रिया आमतौर पर दिनों में लेती है, हालांकि यह एक उपयोगी सामान्यीकरण प्राप्त करने के लिए एक महीने या अधिक समय तक लगातार और अनवरत उच्च मात्रा में 24/7 संज्ञानात्मक प्रक्रिया ले सकती है। वीआरएएम आकार में वृद्धि केवल एक बिंदु तक ही सहायक है, क्योंकि छवि रिज़ॉल्यूशन में भी न्यूनतम वृद्धि प्रोसेसिंग क्षमता पर एक क्रमिक प्रभाव डाल सकती है, और संबंधित प्रभाव जो हमेशा अनुकूल नहीं हो सकते हैं।

बड़े बैच आकार को समायोजित करने के लिए बड़े वीआरएएम क्षमता का उपयोग करना भी एक मिश्रित आशीर्वाद है, क्योंकि इस द्वारा प्राप्त बड़ी प्रशिक्षण गति सटीक परिणामों की कमी से ऑफसेट हो सकती है।

अतः, चूंकि प्रशिक्षण वास्तुकला इतनी सीमित है, इसलिए मौजूदा पाइपलाइन की सीमाओं के भीतर कुछ भी जो सुधार प्रभावित कर सकता है वह एक उल्लेखनीय उपलब्धि है।

कैसे श्रेष्ठ डाउनसाइजिंग मदद करती है

प्रशिक्षण डेटासेट में शामिल की जाने वाली छवि की अंतिम गुणवत्ता को प्रशिक्षण के परिणाम पर सुधार प्रभाव डालने के लिए सिद्ध किया गया है, विशेष रूप से वस्तु मान्यता कार्यों में। 2018 में मैक्स प्लैंक इंस्टीट्यूट फॉर इंटेलिजेंट सिस्टम के शोधकर्ताओं ने दावा किया कि रीसैंपलिंग विधि का चयन प्रशिक्षण प्रदर्शन और परिणामों पर đáng ध्यान देने योग्य प्रभाव डालता है।

इसके अलावा, गूगल (नई पेपर के लेखकों द्वारा सह-लिखित) से पिछला काम यह पाया गया है कि डेटासेट छवियों में संपीड़न कलाकृतियों पर नियंत्रण बनाए रखने से वर्गीकरण सटीकता में सुधार किया जा सकता है।

गूगल रिसर्च प्रस्तावित डाउनसैंपलिंग अल्गोरिदम के लिए सीएनएन आर्किटेक्चर।

नए रीसैम्पलर में निर्मित सीएनएन मॉडल बिलिनियर रीसाइजिंग के साथ एक ‘स्किप कनेक्शन’ सुविधा को जोड़ती है जो रीसाइज्ड छवि में प्रशिक्षित नेटवर्क के आउटपुट को शामिल कर सकती है।

एक पारंपरिक एनकोडर/डीकोडर आर्किटेक्चर के विपरीत, नई प्रस्तावित विधि न केवल एक फीड-फॉरवर्ड बोतलनेक के रूप में कार्य कर सकती है, बल्कि किसी भी लक्ष्य आकार और/या पहलू अनुपात के लिए अप-स्केलिंग के लिए एक इनवर्स बोतलनेक के रूप में भी कार्य कर सकती है। इसके अलावा, ‘मानक’ रीसैंपलिंग विधि को किसी अन्य उपयुक्त पारंपरिक विधि के साथ बदला जा सकता है, जैसे कि लांकज़ोस।

उच्च आवृत्ति विवरण

नई विधि ऐसी छवियों का उत्पादन करती है जो प्रभावी रूप से प्रशिक्षण प्रक्रिया द्वारा अंततः मान्यता प्राप्त किए जाने वाले कुंजी विशेषताओं को स्रोत छवि में ‘बेक’ करती हैं। सौंदर्य के संदर्भ में, परिणाम असामान्य हैं:

गूगल रिसर्च इमेज डाउनसैंपलिंग/रीसाइजिंग विधि के परिणाम चार नेटवर्क – इन्सेप्शन वी2; डेन्सनेट-121; रेसनेट-50; और मोबाइलनेट-वी2 पर लागू किए गए।

शोधकर्ता यह नोट करते हैं कि इन प्रारंभिक प्रयोगों को विशेष रूप से इमेज मान्यता कार्यों के लिए अनुकूलित किया गया है, और उनके सीएनएन-संचालित ‘लर्न्ड रीसाइज़र’ ने ऐसे कार्यों में सुधार की त्रुटि दर हासिल की है। शोधकर्ता भविष्य में इस विधि को अन्य प्रकार के इमेज-आधारित कंप्यूटर विजन अनुप्रयोगों पर लागू करने का इरादा रखते हैं।

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

बेहतर मशीन लर्निंग प्रदर्शन के माध्यम से सीएनएन-आधारित इमेज रीसाइजिंग

एआई प्रशिक्षण में इमेज प्रतिबंध

वीआरएएम में बैच फिटिंग

कैसे श्रेष्ठ डाउनसाइजिंग मदद करती है

उच्च आवृत्ति विवरण

You may like