Connect with us

इंटेल लैब्स दो नए एआई मॉडल के साथ कंप्यूटर विजन विकास में प्रगति कर रहा है

घोषणाएँ

इंटेल लैब्स दो नए एआई मॉडल के साथ कंप्यूटर विजन विकास में प्रगति कर रहा है

mm

वीआई-डेप्थ 1.0 और मिडास 3.1 ओपन सोर्स एआई मॉडल कंप्यूटर विजन के लिए गहराई अनुमान में सुधार करते हैं।

गहराई अनुमान एक चुनौतीपूर्ण कंप्यूटर विजन कार्य है जो रोबोटिक्स, ऑगमेंटेड रियलिटी (एआर) और वर्चुअल रियलिटी (वीआर) में विभिन्न अनुप्रयोगों के निर्माण के लिए आवश्यक है। मौजूदा समाधान अक्सर दूरी का सही अनुमान लगाने में संघर्ष करते हैं, जो दृश्य नेविगेशन के लिए गति की योजना बनाने और बाधाओं से बचने के लिए एक महत्वपूर्ण पहलू है। इंटेल लैब्स के शोधकर्ता इस मुद्दे को संबोधित करने के लिए मोनोक्यूलर गहराई अनुमान के लिए दो एआई मॉडल जारी करके इस मुद्दे को संबोधित कर रहे हैं: एक दृश्य-जड़त्व गहराई अनुमान के लिए और दूसरा मजबूत सापेक्ष गहराई अनुमान (आरडीई) के लिए।

नया आरडीई मॉडल, मिडास संस्करण 3.1, केवल एक छवि का उपयोग करके मजबूत सापेक्ष गहराई का अनुमान लगाता है। इसके एक बड़े और विविध डेटासेट पर प्रशिक्षण के कारण, यह विभिन्न कार्यों और वातावरणों पर कुशलता से प्रदर्शन कर सकता है। मिडास का नवीनतम संस्करण अपने बड़े प्रशिक्षण सेट और अद्यतन एन्कोडर बैकबोन के साथ आरडीई के लिए मॉडल सटीकता में लगभग 30% सुधार करता है।

मिडास को कई परियोजनाओं में शामिल किया गया है, जिनमें से सबसे उल्लेखनीय स्टेबल डिफ्यूजन 2.0 है, जहां यह गहराई-से-छवि सुविधा को सक्षम बनाता है जो एक इनपुट छवि की गहराई का अनुमान लगाता है और फिर पाठ और गहराई जानकारी दोनों का उपयोग करके नए छवियों का उत्पादन करता है। उदाहरण के लिए, डिजिटल निर्माता स्कॉटी फॉक्स ने स्टेबल डिफ्यूजन और मिडास के संयोजन का उपयोग करके एक 360-डिग्री वीआर वातावरण बनाया। यह प्रौद्योगिकी नए वर्चुअल अनुप्रयोगों को जन्म दे सकती है, जिनमें अदालती मामलों के लिए अपराध स्थल पुनर्निर्माण, स्वास्थ्य देखभाल के लिए चिकित्सीय वातावरण और इमर्सिव गेमिंग अनुभव शामिल हैं।

जबकि आरडीई की अच्छी सामान्यता है और यह उपयोगी है, पैमाने की कमी इसकी उपयोगिता को कम कर देती है जो डाउनस्ट्रीम कार्यों के लिए मीट्रिक गहराई की आवश्यकता होती है, जैसे कि मैपिंग, योजना, नेविगेशन, वस्तु पहचान, 3डी पुनर्निर्माण और छवि संपादन। इंटेल लैब्स के शोधकर्ता इस मुद्दे को संबोधित करने के लिए वीआई-डेप्थ जारी करके इस मुद्दे को संबोधित कर रहे हैं, जो एक और एआई मॉडल है जो सटीक गहराई अनुमान प्रदान करता है।

वीआई-डेप्थ एक दृश्य-जड़त्व गहराई अनुमान पाइपलाइन है जो मोनोक्यूलर गहराई अनुमान और दृश्य-जड़त्व ओडोमेट्री (वीआईओ) को एक साथ जोड़कर मेट्रिक स्केल के साथ घने गहराई अनुमान उत्पन्न करता है। यह दृष्टिकोण सटीक गहराई अनुमान प्रदान करता है, जो दृश्य पुनर्निर्माण, मैपिंग और वस्तु हेरफेर में मदद कर सकता है।

जड़त्व डेटा को शामिल करने से पैमाने की अस्पष्टता का समाधान करने में मदद मिल सकती है। अधिकांश मोबाइल डिवाइस पहले से ही जड़त्व मापन इकाइयों (आईएमयू) को शामिल करते हैं। वैश्विक संरेखण उचित वैश्विक पैमाने का निर्धारण करता है, जबकि घने पैमाने संरेखण (एसएमएल) स्थानीय रूप से काम करता है और क्षेत्रों को सही मेट्रिक गहराई की ओर धकेलता है या खींचता है। एसएमएल नेटवर्क मिडास को एन्कोडर बैकबोन के रूप में उपयोग करता है। मॉड्यूलर पाइपलाइन में, वीआई-डेप्थ डेटा-चालित गहराई अनुमान को मिडास सापेक्ष गहराई पूर्वानुमान मॉडल के साथ-साथ आईएमयू सेंसर माप इकाई के साथ जोड़ती है। डेटा स्रोतों के संयोजन से वीआई-डेप्थ एक छवि में प्रत्येक पिक्सेल के लिए अधिक विश्वसनीय घने मेट्रिक गहराई उत्पन्न कर सकता है।

मिडास 3.1 और वीआई-डेप्थ 1.0 गिटहब पर ओपन सोर्स एमआईटी लाइसेंस के तहत उपलब्ध हैं।

अधिक जानकारी के लिए, “विजन ट्रांसफॉर्मर्स फॉर डेंस प्रेडिक्शन” और “टूवर्ड्स रोबस्ट मोनोक्यूलर डेप्थ एस्टीमेशन: मिक्सिंग डेटासेट्स फॉर जीरो-शॉट क्रॉस-डेटासेट ट्रांसफर” देखें।

डैनियल एक बड़ा समर्थक है कि कैसे एआई अंततः सब कुछ बदल देगा। वह प्रौद्योगिकी को सांस लेता है और नए गैजेट्स आजमाने के लिए जीता है।