ठूंठ कंप्यूटर विज़न क्या है? - यूनाइट.एआई
हमसे जुडे
एआई मास्टरक्लास:

एआई 101

कंप्यूटर विजन क्या है?

mm
Updated on

कंप्यूटर विजन क्या है?

कंप्यूटर विज़न एल्गोरिदम इस समय दुनिया की सबसे परिवर्तनकारी और शक्तिशाली एआई प्रणालियों में से एक है। कंप्यूटर विज़न सिस्टम स्वायत्त वाहनों, रोबोट नेविगेशन, चेहरे की पहचान प्रणालियों और बहुत कुछ में उपयोग देखें। हालाँकि, कंप्यूटर विज़न एल्गोरिदम वास्तव में क्या हैं? वे कैसे काम करते हैं? इन सवालों का जवाब देने के लिए, हम कंप्यूटर विज़न, कंप्यूटर विज़न एल्गोरिदम और कंप्यूटर विज़न सिस्टम के अनुप्रयोगों के पीछे के सिद्धांत में गहराई से उतरेंगे।

कंप्यूटर विज़न सिस्टम कैसे काम करते हैं?

कंप्यूटर विज़न सिस्टम कैसे काम करते हैं, इसकी पूरी तरह से सराहना करने के लिए, आइए सबसे पहले इस बात पर चर्चा करें कि मनुष्य वस्तुओं को कैसे पहचानते हैं। हम वस्तुओं को कैसे पहचानते हैं, इसके लिए न्यूरोसाइकोलॉजी की सबसे अच्छी व्याख्या एक मॉडल है जो प्रारंभिक चरण का वर्णन करता है वस्तु मान्यता जहां वस्तुओं के मूल घटकों, जैसे रूप, रंग और गहराई की व्याख्या सबसे पहले मस्तिष्क द्वारा की जाती है। आंख से मस्तिष्क में प्रवेश करने वाले संकेतों का विश्लेषण पहले किसी वस्तु के किनारों को बाहर निकालने के लिए किया जाता है, और इन किनारों को एक अधिक जटिल प्रतिनिधित्व में एक साथ जोड़ दिया जाता है जो वस्तु के रूप को पूरा करता है।

कंप्यूटर दृष्टि प्रणाली मानव दृश्य प्रणाली के समान ही काम करती है, पहले किसी वस्तु के किनारों को समझती है और फिर इन किनारों को वस्तु के रूप में एक साथ जोड़ती है। बड़ा अंतर यह है कि क्योंकि कंप्यूटर छवियों की व्याख्या संख्याओं के रूप में करते हैं, कंप्यूटर विज़न सिस्टम को छवि बनाने वाले व्यक्तिगत पिक्सेल की व्याख्या करने के लिए किसी तरीके की आवश्यकता होती है। कंप्यूटर विज़न सिस्टम छवि में पिक्सेल को मान निर्दिष्ट करेगा और पिक्सेल के एक क्षेत्र और पिक्सेल के दूसरे क्षेत्र के बीच मानों में अंतर की जांच करके, कंप्यूटर किनारों को समझ सकता है। उदाहरण के लिए, यदि विचाराधीन छवि ग्रेस्केल है, तो मान काले (0 द्वारा दर्शाया गया) से सफेद (255 द्वारा दर्शाया गया) तक होंगे। एक दूसरे के निकट पिक्सेल के मानों की सीमा में अचानक परिवर्तन एक बढ़त का संकेत देगा।

पिक्सेल मानों की तुलना करने का यह मूल सिद्धांत रंगीन छवियों के साथ भी किया जा सकता है, जिसमें कंप्यूटर विभिन्न आरजीबी रंग चैनलों के बीच अंतर की तुलना करता है। तो जान लें कि हम जानते हैं कि एक कंप्यूटर विज़न सिस्टम किसी छवि की व्याख्या करने के लिए पिक्सेल मानों की जांच कैसे करता है, आइए कंप्यूटर विज़न सिस्टम की वास्तुकला पर एक नज़र डालें।

कनवल्शनल न्यूरल नेटवर्क्स (सीएनएन)

कंप्यूटर विज़न कार्यों में प्रयुक्त AI का प्राथमिक प्रकार एक है दृढ़ तंत्रिका नेटवर्क पर आधारित. वास्तव में कनवल्शन क्या है?

कनवल्शन गणितीय प्रक्रियाएं हैं जिनका उपयोग नेटवर्क पिक्सेल के बीच मानों में अंतर निर्धारित करने के लिए करता है। यदि आप पिक्सेल मानों की एक ग्रिड की कल्पना करते हैं, तो इस मुख्य ग्रिड पर ले जाए जा रहे एक छोटे ग्रिड की कल्पना करें। दूसरे ग्रिड के नीचे के मूल्यों का विश्लेषण नेटवर्क द्वारा किया जा रहा है, इसलिए नेटवर्क एक समय में केवल कुछ मुट्ठी भर पिक्सल की जांच कर रहा है। इसे अक्सर "स्लाइडिंग विंडो" तकनीक कहा जाता है। स्लाइडिंग विंडो द्वारा विश्लेषण किए जा रहे मानों को नेटवर्क द्वारा संक्षेपित किया जाता है, जो छवि की जटिलता को कम करने में मदद करता है और नेटवर्क के लिए पैटर्न निकालना आसान बनाता है।

कन्वेन्शनल न्यूरल नेटवर्क हैं दो अलग-अलग खंडों में विभाजित, कन्वेन्शनल सेक्शन और पूरी तरह से जुड़ा हुआ सेक्शन। नेटवर्क की संकेंद्रित परतें फ़ीचर एक्सट्रैक्टर हैं, जिनका काम छवि के भीतर पिक्सेल का विश्लेषण करना और उनका प्रतिनिधित्व तैयार करना है, जिससे तंत्रिका नेटवर्क की सघन रूप से जुड़ी परतें पैटर्न सीख सकती हैं। कनवल्शनल परतें केवल पिक्सेल की जांच करने और किनारों जैसी छवि की निम्न-स्तरीय विशेषताओं को निकालने से शुरू होती हैं। बाद में संकेंद्रित परतें किनारों को एक साथ जोड़कर अधिक जटिल आकृतियाँ बनाती हैं। अंत तक, नेटवर्क को उम्मीद है कि छवि के किनारों और विवरणों का एक प्रतिनिधित्व होगा जिसे वह पूरी तरह से जुड़ी हुई परतों तक पहुंचा सकता है।

छवि एनोटेशन

जबकि एक दृढ़ तंत्रिका नेटवर्क स्वयं छवियों से पैटर्न निकाल सकता है, छवियों को एनोटेट करके कंप्यूटर विज़न सिस्टम की सटीकता में काफी सुधार किया जा सकता है। छवि एनोटेशन छवि में मेटाडेटा जोड़ने की प्रक्रिया है जो छवि में महत्वपूर्ण वस्तुओं का पता लगाने में क्लासिफायरियर की सहायता करती है। जब भी कंप्यूटर विज़न सिस्टम को अत्यधिक सटीक होने की आवश्यकता होती है, जैसे कि एक स्वायत्त वाहन या रोबोट को नियंत्रित करते समय, छवि एनोटेशन का उपयोग महत्वपूर्ण होता है।

ऐसे कई तरीके हैं जिनसे कंप्यूटर विज़न क्लासिफायरियर के प्रदर्शन को बेहतर बनाने के लिए छवियों को एनोटेट किया जा सकता है। छवि एनोटेशन अक्सर बाउंडिंग बॉक्स के साथ किया जाता है, एक बॉक्स जो लक्ष्य ऑब्जेक्ट के किनारों को घेरता है और कंप्यूटर को बॉक्स के भीतर अपना ध्यान केंद्रित करने के लिए कहता है। सिमेंटिक सेगमेंटेशन एक अन्य प्रकार की छवि एनोटेशन है, जो एक छवि में प्रत्येक पिक्सेल को एक छवि वर्ग निर्दिष्ट करके संचालित होता है। दूसरे शब्दों में, प्रत्येक पिक्सेल जिसे "घास" या "पेड़" माना जा सकता है, उसे उन वर्गों से संबंधित माना जाएगा। तकनीक पिक्सेल-स्तरीय परिशुद्धता प्रदान करती है, लेकिन सरल बाउंडिंग बॉक्स बनाने की तुलना में सिमेंटिक सेगमेंटेशन एनोटेशन बनाना अधिक जटिल और समय लेने वाला है। पंक्तियाँ और बिंदु जैसी अन्य एनोटेशन विधियाँ भी मौजूद हैं।

विशेषज्ञता वाले ब्लॉगर और प्रोग्रामर मशीन लर्निंग और गहरी सीख विषय। डैनियल को उम्मीद है कि वह दूसरों को सामाजिक भलाई के लिए एआई की शक्ति का उपयोग करने में मदद करेगा।