कृत्रिम बुद्धिमत्ता

कंप्यूटर एक फोटो से 200 प्रजातियों के पक्षियों की पहचान करने में सक्षम

Published November 4, 2019

Updated April 27, 2026

Alex McFarland

ड्यूक विश्वविद्यालय के शोधकर्ताओं ने मशीन लर्निंग का उपयोग करके एक कंप्यूटर को 200 विभिन्न प्रजातियों के पक्षियों की पहचान करने के लिए प्रशिक्षित किया। कंप्यूटर को पहचान प्रक्रिया पूरी करने के लिए केवल एक फोटो की आवश्यकता होती है। एक मानव के लिए, अक्सर एक दूसरे से विभिन्न प्रजातियों की पहचान करने के लिए वर्षों की पक्षी देखने की आवश्यकता होती है।

शोध का नेतृत्व ड्यूक कंप्यूटर साइंस पीएचडी छात्र चाओफैन चेन और स्नातक ऑस्कर ली ने किया था। इसमें प्रेडिक्शन एनालिसिस लैब के अन्य टीम सदस्यों ने भी काम किया था, जिसका निर्देशन ड्यूक प्रोफेसर सिंथिया रुडिन ने किया था।

एआई अपनी सोच दिखा रहा है

पहचान प्रक्रिया प्रभावशाली होने के बावजूद, एक अधिक महत्वपूर्ण पहलू है। एआई अपनी सोच दिखा सकता है, जिससे अनुभवहीन पक्षी देखने वाले को भी प्रक्रिया समझने में मदद मिलती है।

गहरे तंत्रिका नेटवर्क, या मस्तिष्क के कार्यों पर आधारित एल्गोरिदम, 11,788 फोटो के साथ प्रशिक्षित किए गए थे। फोटो में 200 विभिन्न प्रजातियों के पक्षी शामिल थे, जिनमें बत्तख से लेकर ह्यूमिंगबर्ड तक शामिल थे।

शोधकर्ताओं की टीम को विशेष रूप से नेटवर्क को चोंच या पंख के पंखों की पहचान करने के लिए प्रशिक्षित करने की आवश्यकता नहीं थी। इसके बजाय, नेटवर्क एक पक्षी की तस्वीर ले सकता है और छवि में कertain पैटर्न की पहचान कर सकता है। यह फिर उन पैटर्न को ले सकता है और पहले से मौजूद पैटर्न की पहचान कर सकता है जो वह पहले ही विशिष्ट प्रजातियों की विशेषताओं में मिल चुका है।

टीम के अनुसार, नेटवर्क फिर कुछ विशेषताओं की पहचान करने वाले एक श्रृंखला के हीट मैप बनाता है। उदाहरण के लिए, यह एक सामान्य युद्धपथ और एक हुडेड युद्धपथ के बीच अंतर बता सकता है, साथ ही साथ मास्क वाले सिर और पीले पेट जैसी विशेषताएं। यह फिर दिखाता है कि इन विशेषताओं ने पहचान में मदद की।

अन्य प्रणालियों के विपरीत

तंत्रिका नेटवर्क 84% समय तक सही प्रजाति की पहचान करने में सक्षम था। यह कुछ सबसे अच्छा प्रदर्शन करने वाली प्रणालियों के समान है। अंतर यह है कि वे प्रणालियां इस तरह से सोच प्रक्रिया की व्याख्या नहीं करती हैं।

रुडिन के अनुसार, इस परियोजना का सबसे क्रांतिकारी पहलू यह है कि यह गहरे तंत्रिका नेटवर्क को एक छवि देखने के लिए दृश्य प्रदान करता है।

यह तकनीक वर्तमान में सोशल मीडिया साइट्स पर उपयोग की जा रही है, जिसमें निगरानी कैमरों में संदिग्ध अपराधियों की पहचान करने और स्वायत्त वाहनों को यातायात संकेतों और पैदल यात्रियों की पहचान करने में मदद करने के लिए उपयोग किया जा रहा है।

गहरे शिक्षण सॉफ्टवेयर को अक्सर डेटा से सीखने के लिए विशेष रूप से प्रोग्राम करने की आवश्यकता नहीं होती है, जो पारंपरिक सॉफ्टवेयर के मामले में नहीं है। हालांकि, प्रक्रिया हमेशा स्पष्ट या दिखाई नहीं देती है, इसलिए यह अक्सर समझाना मुश्किल हो जाता है कि एल्गोरिदम “सोचते” हैं जब वे एक छवि को वर्गीकृत करते हैं।

भविष्य में

रुडिन और अन्य वर्तमान में एआई के लिए नए गहरे शिक्षण मॉडल पर काम कर रहे हैं, जो क्षेत्र को आगे बढ़ा रहे हैं। नए मॉडल अपने तर्क और पहचान प्रक्रिया की व्याख्या कर सकते हैं। यह शोधकर्ताओं को शुरू से अंत तक देखने में मदद करता है, और यह गलती या समस्या के पीछे के कारण की पहचान करना आसान बनाता है।

रुडिन और उनकी टीम चिकित्सा क्षेत्र में एल्गोरिदम का उपयोग करने पर काम करेंगे। यह मेडिकल इमेज जैसे मैमोग्राम में कertain समस्या क्षेत्रों की पहचान कर सकता है। यह चिकित्सा पेशेवरों को गांठ, कैल्सीफिकेशन और स्तन कैंसर के अन्य संकेतों का पता लगाने में मदद करेगा।

रुडिन के अनुसार, नेटवर्क डॉक्टरों के निदान करने के तरीके की नकल करता है।

“यह मामला-आधारित तर्क है,” रुडिन ने कहा। “हम आशा करते हैं कि हम चिकित्सकों या रोगियों को बेहतर ढंग से समझा सकते हैं कि उनकी छवि को नेटवर्क द्वारा घातक या हानिरहित के रूप में वर्गीकृत क्यों किया गया था।”

टीम वैंकूवर में 12 दिसंबर को न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम्स (न्यूरलआईपीएस2019) के तीस-तीसरे सम्मेलन में अपने शोध के बारे में एक पत्र प्रस्तुत करेगी।

अध्ययन में ड्यूक के डैनियल ताओ और अलीना बार्नर और एमआईटी लिंकन लेबोरेटरी के जोनाथन सू भी शामिल हैं।

Alex McFarland

एलेक्स मैकफारलैंड एक एआई पत्रकार और लेखक हैं जो कृत्रिम बुद्धिमत्ता में नवीनतम विकासों का अन्वेषण कर रहे हैं। उन्होंने विश्वभर के कई एआई स्टार्टअप्स और प्रकाशनों के साथ सहयोग किया है।