रोबोटिक्स

“स्पेशल-एआई” में प्रगति से रोबोट्स को मानव की तरह भौतिक पर्यावरण को समझने में सक्षम बनाता है

Published July 17, 2020

Updated April 28, 2026

Alex McFarland

एमआईटी के इंजीनियर रोबोट्स को उच्च-स्तरीय कमांड का पालन करने की क्षमता देने के लिए काम कर रहे हैं, जैसे कि किसी व्यक्ति के लिए किसी आइटम को पुनः प्राप्त करने के लिए दूसरे कमरे में जाना। इसके लिए संभव होने के लिए, रोबोट्स को मानव की तरह अपने भौतिक पर्यावरण को समझने में सक्षम होने की आवश्यकता होगी।

लुका कार्लोन एमआईटी में एयरोनॉटिक्स और एस्ट्रोनॉटिक्स के सहायक प्रोफेसर हैं।

“दुनिया में कोई भी निर्णय लेने के लिए, आपको अपने आसपास के पर्यावरण का एक मानसिक मॉडल होना चाहिए,” कार्लोने कहते हैं। “यह मानवों के लिए इतना आसान है। लेकिन रोबोट्स के लिए यह एक दर्दनाक कठिन समस्या है, जहां यह एक कैमरे के माध्यम से देखे जाने वाले पिक्सेल मानों को दुनिया की समझ में बदलने के बारे में है।”

इस चुनौती का सामना करने के लिए, शोधकर्ताओं ने मानवों के भौतिक पर्यावरण को कैसे समझते और नेविगेट करते हैं, इसके आधार पर रोबोट्स के लिए स्थानिक धारणा का एक प्रतिनिधित्व मॉडल किया।

3डी डायनामिक सीन ग्राफ

नया मॉडल 3डी डायनामिक सीन ग्राफ कहलाता है, और यह एक रोबोट को अपने भौतिक पर्यावरण का 3डी मैप बनाने में सक्षम बनाता है, जिसमें वस्तुएं और उनके सेमेंटिक लेबल शामिल हैं। रोबोट लोगों, कमरों, दीवारों और पर्यावरण में अन्य संरचनाओं को भी मैप आउट कर सकता है।

मॉडल फिर रोबोट को 3डी मैप से जानकारी निकालने की अनुमति देता है, जो वस्तुओं, कमरों और लोगों की गति को स्थित करने के लिए उपयोग की जा सकती है।

“पर्यावरण का यह संकुचित प्रतिनिधित्व उपयोगी है क्योंकि यह हमारे रोबोट को जल्दी से निर्णय लेने और अपने मार्ग की योजना बनाने की अनुमति देता है,” कार्लोने कहते हैं। “यह मानवों द्वारा किए जाने वाले काम से बहुत दूर नहीं है। यदि आपको अपने घर से एमआईटी तक मार्ग की योजना बनाने की आवश्यकता है, तो आप हर एक स्थिति की योजना नहीं बनाते हैं जिसे आपको लेने की आवश्यकता है। आप बस सड़कों और लैंडमार्क के स्तर पर सोचते हैं, जो आपको अपने मार्ग को तेजी से योजना बनाने में मदद करता है।”

कार्लोने के अनुसार, इस मॉडल पर निर्भर रोबोट घरेलू कार्यों से बहुत अधिक कर सकते हैं। वे कारखानों में लोगों के साथ काम करने और आपदा स्थल पर बचे लोगों को खोजने के लिए भी उपयोग किए जा सकते हैं।

https://www.youtube.com/watch?time_continue=39&v=SWbofjhyPzI&feature=emb_logo

वर्तमान विधियों बनाम नया मॉडल

रोबोटिक दृष्टि और नेविगेशन के लिए वर्तमान तरीके मुख्य रूप से 3डी मैपिंग पर केंद्रित होते हैं जो रोबोट्स को वास्तविक समय में अपने पर्यावरण को तीन आयामों में पुनर्निर्माण करने की अनुमति देते हैं, या सेमेंटिक सेगमेंटेशन, जो तब होता है जब रोबोट्स पर्यावरण में विशेषताओं को सेमेंटिक वस्तुओं के रूप में वर्गीकृत करते हैं, जैसे कि एक कार बनाम एक साइकिल। सेमेंटिक सेगमेंटेशन अक्सर 2डी छवियों पर किया जाता है।

स्थानिक धारणा का यह नया मॉडल पहला है जो वास्तविक समय में पर्यावरण का 3डी मैप बनाता है और एक ही समय में 3डी मैप में वस्तुओं, लोगों और संरचनाओं को लेबल करता है।

इस नए मॉडल को प्राप्त करने के लिए, शोधकर्ताओं ने किमेरा नामक एक ओपन-सोर्स लाइब्रेरी पर भरोसा किया। किमेरा पहले同ी टीम द्वारा एक पर्यावरण का 3डी ज्यामितीय मॉडल बनाने के लिए विकसित किया गया था, जबकि एक ही समय में यह कोडिंग किया गया था कि वस्तु क्या हो सकती है, जैसे कि एक कुर्सी बनाम एक डेस्क।

“जैसे कि पौराणिक प्राणी जो विभिन्न जानवरों का मिश्रण है, हम चाहते थे कि किमेरा 3डी में मैपिंग और सेमेंटिक समझ का मिश्रण हो,” कार्लोने कहते हैं।

किमेरा ने रोबोट के कैमरे से छवियों और ऑनबोर्ड सेंसर से जड़त्व माप का उपयोग करके दृश्य को वास्तविक समय में 3डी मेष के रूप में पुनर्निर्माण किया। इसके लिए, किमेरा ने एक न्यूरल नेटवर्क का उपयोग किया जिसे वास्तविक दुनिया की लाखों छवियों पर प्रशिक्षित किया गया था। यह फिर प्रत्येक पिक्सेल के लेबल की भविष्यवाणी कर सकता था और उन्हें 3डी में प्रोजेक्ट करने के लिए रे-कास्टिंग का उपयोग कर सकता था।

इस तकनीक के माध्यम से, रोबोट का पर्यावरण एक त्रि-आयामी जाल में मैप किया जा सकता है जहां प्रत्येक चेहरा रंग-कोडित होता है, जो वस्तुओं, संरचनाओं या पर्यावरण में लोगों के एक हिस्से के रूप में पहचाना जाता है।

3डी मेश से 3डी डायनामिक “सीन ग्राफ”

चूंकि 3डी सेमेंटिक मेश मॉडल को बहुत अधिक गणना शक्ति की आवश्यकता होती है और यह समय लेने वाला है, इसलिए शोधकर्ताओं ने किमेरा का उपयोग 3डी डायनामिक “सीन ग्राफ” के परिणामस्वरूप अल्गोरिदम विकसित करने के लिए किया।

3डी सेमेंटिक मेश को विभिन्न सेमेंटिक परतों में तोड़ दिया जाता है, और रोबोट फिर एक दृश्य को एक परत के माध्यम से देख सकता है। परतें वस्तुओं और लोगों से लेकर खुले स्थान और संरचनाओं तक, कमरों, गलियारों, हॉल और पूरे भवनों तक जाती हैं।

यह परत विधि रोबोट को अपने फोकस को संकीर्ण करने की अनुमति देती है, न कि अरबों बिंदुओं और चेहरों का विश्लेषण करने के लिए। यह परत विधि एल्गोरिदम को वास्तविक समय में पर्यावरण में लोगों और उनकी गति को ट्रैक करने की अनुमति भी देती है।

नया मॉडल एक फोटो-वास्तविक सिम्युलेटर में परीक्षण किया गया था जो एक रोबोट को एक कार्यालय पर्यावरण में चलते हुए लोगों के साथ नेविगेट करने का अनुकरण करता है।

“हम मानवों द्वारा उपयोग किए जाने वाले मानसिक मॉडल के समान मानसिक मॉडल वाले रोबोट्स को सक्षम बना रहे हैं,” कार्लोने कहते हैं। “इसका कई अनुप्रयोगों पर प्रभाव पड़ सकता है, जिनमें स्व-ड्राइविंग कार, खोज और बचाव, सहयोगी विनिर्माण और घरेलू रोबोटिक्स शामिल हैं।

कार्लोने के साथ लीड ऑथर और एमआईटी ग्रेजुएट स्टूडेंट एंटोनी रोसिनोल थे।

“हमारा दृष्टिकोण हाल ही में गहरे शिक्षण में हुई प्रगति और समानांतर स्थानीयकरण और मैपिंग पर दशकों के शोध के कारण संभव हुआ है,” रोसिनोल कहते हैं। “इस काम के साथ, हम रोबोटिक्स और बड़े पैमाने पर वर्चुअल और ऑगमेंटेड रियलिटी में महान संभावनाओं के साथ स्थानिक-एआई नामक एक नए युग की ओर कदम बढ़ा रहे हैं।”

शोध रोबोटिक्स: साइंस एंड सिस्टम्स वर्चुअल कॉन्फ़्रेंस में प्रस्तुत किया गया था।

Alex McFarland

एलेक्स मैकफारलैंड एक एआई पत्रकार और लेखक हैं जो कृत्रिम बुद्धिमत्ता में नवीनतम विकासों का अन्वेषण कर रहे हैं। उन्होंने विश्वभर के कई एआई स्टार्टअप्स और प्रकाशनों के साथ सहयोग किया है।