рд░реЛрдмреЛрдЯрд┐рдХреНрд╕
“рд╕реНрдкреЗрд╢рд▓-рдПрдЖрдИ” рдореЗрдВ рдкреНрд░рдЧрддрд┐ рд╕реЗ рд░реЛрдмреЛрдЯреНрд╕ рдХреЛ рдорд╛рдирд╡ рдХреА рддрд░рд╣ рднреМрддрд┐рдХ рдкрд░реНрдпрд╛рд╡рд░рдг рдХреЛ рд╕рдордЭрдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рдмрдирд╛рддрд╛ рд╣реИ

एमआईटी के इंजीनियर रोबोट्स को उच्च-स्तरीय कमांड का पालन करने की क्षमता देने के लिए काम कर रहे हैं, जैसे कि किसी व्यक्ति के लिए किसी आइटम को पुनः प्राप्त करने के लिए दूसरे कमरे में जाना। इसके लिए संभव होने के लिए, रोबोट्स को मानव की तरह अपने भौतिक पर्यावरण को समझने में सक्षम होने की आवश्यकता होगी।
लुका कार्लोन एमआईटी में एयरोनॉटिक्स और एस्ट्रोनॉटिक्स के सहायक प्रोफेसर हैं।
“दुनिया में कोई भी निर्णय लेने के लिए, आपको अपने आसपास के पर्यावरण का एक मानसिक मॉडल होना चाहिए,” कार्लोने कहते हैं। “यह मानवों के लिए इतना आसान है। लेकिन रोबोट्स के लिए यह एक दर्दनाक कठिन समस्या है, जहां यह एक कैमरे के माध्यम से देखे जाने वाले पिक्सेल मानों को दुनिया की समझ में बदलने के बारे में है।”
इस चुनौती का सामना करने के लिए, शोधकर्ताओं ने मानवों के भौतिक पर्यावरण को कैसे समझते और नेविगेट करते हैं, इसके आधार पर रोबोट्स के लिए स्थानिक धारणा का एक प्रतिनिधित्व मॉडल किया।
3डी डायनामिक सीन ग्राफ
नया मॉडल 3डी डायनामिक सीन ग्राफ कहलाता है, और यह एक रोबोट को अपने भौतिक पर्यावरण का 3डी मैप बनाने में सक्षम बनाता है, जिसमें वस्तुएं और उनके सेमेंटिक लेबल शामिल हैं। रोबोट लोगों, कमरों, दीवारों और पर्यावरण में अन्य संरचनाओं को भी मैप आउट कर सकता है।
मॉडल फिर रोबोट को 3डी मैप से जानकारी निकालने की अनुमति देता है, जो वस्तुओं, कमरों और लोगों की गति को स्थित करने के लिए उपयोग की जा सकती है।
“पर्यावरण का यह संकुचित प्रतिनिधित्व उपयोगी है क्योंकि यह हमारे रोबोट को जल्दी से निर्णय लेने और अपने मार्ग की योजना बनाने की अनुमति देता है,” कार्लोने कहते हैं। “यह मानवों द्वारा किए जाने वाले काम से बहुत दूर नहीं है। यदि आपको अपने घर से एमआईटी तक मार्ग की योजना बनाने की आवश्यकता है, तो आप हर एक स्थिति की योजना नहीं बनाते हैं जिसे आपको लेने की आवश्यकता है। आप बस सड़कों और लैंडमार्क के स्तर पर सोचते हैं, जो आपको अपने मार्ग को तेजी से योजना बनाने में मदद करता है।”
कार्लोने के अनुसार, इस मॉडल पर निर्भर रोबोट घरेलू कार्यों से बहुत अधिक कर सकते हैं। वे कारखानों में लोगों के साथ काम करने और आपदा स्थल पर बचे लोगों को खोजने के लिए भी उपयोग किए जा सकते हैं।
https://www.youtube.com/watch?time_continue=39&v=SWbofjhyPzI&feature=emb_logo
वर्तमान विधियों बनाम नया मॉडल
रोबोटिक दृष्टि और नेविगेशन के लिए वर्तमान तरीके मुख्य रूप से 3डी मैपिंग पर केंद्रित होते हैं जो रोबोट्स को वास्तविक समय में अपने पर्यावरण को तीन आयामों में पुनर्निर्माण करने की अनुमति देते हैं, या सेमेंटिक सेगमेंटेशन, जो तब होता है जब रोबोट्स पर्यावरण में विशेषताओं को सेमेंटिक वस्तुओं के रूप में वर्गीकृत करते हैं, जैसे कि एक कार बनाम एक साइकिल। सेमेंटिक सेगमेंटेशन अक्सर 2डी छवियों पर किया जाता है।
स्थानिक धारणा का यह नया मॉडल पहला है जो वास्तविक समय में पर्यावरण का 3डी मैप बनाता है और एक ही समय में 3डी मैप में वस्तुओं, लोगों और संरचनाओं को लेबल करता है।
इस नए मॉडल को प्राप्त करने के लिए, शोधकर्ताओं ने किमेरा नामक एक ओपन-सोर्स लाइब्रेरी पर भरोसा किया। किमेरा पहले同ी टीम द्वारा एक पर्यावरण का 3डी ज्यामितीय मॉडल बनाने के लिए विकसित किया गया था, जबकि एक ही समय में यह कोडिंग किया गया था कि वस्तु क्या हो सकती है, जैसे कि एक कुर्सी बनाम एक डेस्क।
“जैसे कि पौराणिक प्राणी जो विभिन्न जानवरों का मिश्रण है, हम चाहते थे कि किमेरा 3डी में मैपिंग और सेमेंटिक समझ का मिश्रण हो,” कार्लोने कहते हैं।
किमेरा ने रोबोट के कैमरे से छवियों और ऑनबोर्ड सेंसर से जड़त्व माप का उपयोग करके दृश्य को वास्तविक समय में 3डी मेष के रूप में पुनर्निर्माण किया। इसके लिए, किमेरा ने एक न्यूरल नेटवर्क का उपयोग किया जिसे वास्तविक दुनिया की लाखों छवियों पर प्रशिक्षित किया गया था। यह फिर प्रत्येक पिक्सेल के लेबल की भविष्यवाणी कर सकता था और उन्हें 3डी में प्रोजेक्ट करने के लिए रे-कास्टिंग का उपयोग कर सकता था।
इस तकनीक के माध्यम से, रोबोट का पर्यावरण एक त्रि-आयामी जाल में मैप किया जा सकता है जहां प्रत्येक चेहरा रंग-कोडित होता है, जो वस्तुओं, संरचनाओं या पर्यावरण में लोगों के एक हिस्से के रूप में पहचाना जाता है।
3डी मेश से 3डी डायनामिक “सीन ग्राफ”
चूंकि 3डी सेमेंटिक मेश मॉडल को बहुत अधिक गणना शक्ति की आवश्यकता होती है और यह समय लेने वाला है, इसलिए शोधकर्ताओं ने किमेरा का उपयोग 3डी डायनामिक “सीन ग्राफ” के परिणामस्वरूप अल्गोरिदम विकसित करने के लिए किया।
3डी सेमेंटिक मेश को विभिन्न सेमेंटिक परतों में तोड़ दिया जाता है, और रोबोट फिर एक दृश्य को एक परत के माध्यम से देख सकता है। परतें वस्तुओं और लोगों से लेकर खुले स्थान और संरचनाओं तक, कमरों, गलियारों, हॉल और पूरे भवनों तक जाती हैं।
यह परत विधि रोबोट को अपने फोकस को संकीर्ण करने की अनुमति देती है, न कि अरबों बिंदुओं और चेहरों का विश्लेषण करने के लिए। यह परत विधि एल्गोरिदम को वास्तविक समय में पर्यावरण में लोगों और उनकी गति को ट्रैक करने की अनुमति भी देती है।
नया मॉडल एक फोटो-वास्तविक सिम्युलेटर में परीक्षण किया गया था जो एक रोबोट को एक कार्यालय पर्यावरण में चलते हुए लोगों के साथ नेविगेट करने का अनुकरण करता है।
“हम मानवों द्वारा उपयोग किए जाने वाले मानसिक मॉडल के समान मानसिक मॉडल वाले रोबोट्स को सक्षम बना रहे हैं,” कार्लोने कहते हैं। “इसका कई अनुप्रयोगों पर प्रभाव पड़ सकता है, जिनमें स्व-ड्राइविंग कार, खोज और बचाव, सहयोगी विनिर्माण और घरेलू रोबोटिक्स शामिल हैं।
कार्लोने के साथ लीड ऑथर और एमआईटी ग्रेजुएट स्टूडेंट एंटोनी रोसिनोल थे।
“हमारा दृष्टिकोण हाल ही में गहरे शिक्षण में हुई प्रगति और समानांतर स्थानीयकरण और मैपिंग पर दशकों के शोध के कारण संभव हुआ है,” रोसिनोल कहते हैं। “इस काम के साथ, हम रोबोटिक्स और बड़े पैमाने पर वर्चुअल और ऑगमेंटेड रियलिटी में महान संभावनाओं के साथ स्थानिक-एआई नामक एक नए युग की ओर कदम बढ़ा रहे हैं।”
शोध रोबोटिक्स: साइंस एंड सिस्टम्स वर्चुअल कॉन्फ़्रेंस में प्रस्तुत किया गया था।












