घोषणाएं

इंटेल लैब्स ने दो नए एआई मॉडल के साथ कंप्यूटर विजन विकास को आगे बढ़ाया

प्रकाशित

1 साल पहले

मार्च २०,२०२१

VI-गहराई 1.0 और MiDaS 3.1 ओपन सोर्स AI मॉडल कंप्यूटर दृष्टि के लिए गहराई अनुमान में सुधार करते हैं।

गहराई का आकलन एक चुनौतीपूर्ण कंप्यूटर विज़न कार्य है जो रोबोटिक्स, संवर्धित वास्तविकता (एआर) और आभासी वास्तविकता (वीआर) में अनुप्रयोगों की एक विस्तृत श्रृंखला बनाने के लिए आवश्यक है। मौजूदा समाधान अक्सर दूरियों का सही अनुमान लगाने में संघर्ष करते हैं, जो दृश्य नेविगेशन की बात आने पर योजना की गति में मदद करने और बाधाओं से बचने में एक महत्वपूर्ण पहलू है। इंटेल लैब्स के शोधकर्ता मोनोकुलर गहराई अनुमान के लिए दो एआई मॉडल जारी करके इस मुद्दे को संबोधित कर रहे हैं: एक दृश्य-जड़त्वीय गहराई अनुमान के लिए और एक मजबूत सापेक्ष गहराई अनुमान (आरडीई) के लिए।

नवीनतम RDE मॉडल, MiDaS संस्करण 3.1, इनपुट के रूप में केवल एक छवि का उपयोग करके मजबूत सापेक्ष गहराई की भविष्यवाणी करता है। बड़े और विविध डेटासेट पर इसके प्रशिक्षण के कारण, यह व्यापक श्रेणी के कार्यों और वातावरणों पर कुशलतापूर्वक प्रदर्शन कर सकता है। MiDaS का नवीनतम संस्करण अपने बड़े प्रशिक्षण सेट और अद्यतन एनकोडर बैकबोन के साथ RDE के लिए मॉडल सटीकता में लगभग 30% सुधार करता है।

MiDaS को कई परियोजनाओं में शामिल किया गया है, विशेष रूप से स्टेबल डिफ्यूजन 2.0, जहां यह गहराई से छवि सुविधा को सक्षम करता है जो इनपुट छवि की गहराई का अनुमान लगाता है और फिर टेक्स्ट और गहराई जानकारी दोनों का उपयोग करके नई छवियां उत्पन्न करता है। उदाहरण के लिए, डिजिटल निर्माता स्कॉटी फॉक्स 360-डिग्री वीआर वातावरण बनाने के लिए स्टेबल डिफ्यूजन और MiDaS के संयोजन का उपयोग किया गया। यह तकनीक नए आभासी अनुप्रयोगों को जन्म दे सकती है, जिसमें अदालती मामलों के लिए अपराध स्थल का पुनर्निर्माण, स्वास्थ्य देखभाल के लिए चिकित्सीय वातावरण और इमर्सिव गेमिंग अनुभव शामिल हैं।

जबकि आरडीई में अच्छी सामान्यीकरण क्षमता है और यह उपयोगी है, पैमाने की कमी से मीट्रिक गहराई की आवश्यकता वाले डाउनस्ट्रीम कार्यों, जैसे मैपिंग, योजना, नेविगेशन, ऑब्जेक्ट पहचान, 3 डी पुनर्निर्माण और छवि संपादन के लिए इसकी उपयोगिता कम हो जाती है। इंटेल लैब्स के शोधकर्ता एक अन्य एआई मॉडल VI-डेप्थ जारी करके इस मुद्दे का समाधान कर रहे हैं जो सटीक गहराई अनुमान प्रदान करता है।

VI-गहराई एक दृश्य-जड़त्वीय गहराई अनुमान पाइपलाइन है जो मीट्रिक पैमाने के साथ सघन गहराई अनुमान उत्पन्न करने के लिए मोनोक्युलर गहराई अनुमान और दृश्य-जड़त्वीय ओडोमेट्री (VIO) को एकीकृत करती है। यह दृष्टिकोण सटीक गहराई का अनुमान प्रदान करता है, जो दृश्य पुनर्निर्माण, मानचित्रण और ऑब्जेक्ट हेरफेर में सहायता कर सकता है।

जड़त्वीय डेटा को शामिल करने से पैमाने की अस्पष्टता को हल करने में मदद मिल सकती है। अधिकांश मोबाइल उपकरणों में पहले से ही जड़त्वीय माप इकाइयाँ (IMUs) होती हैं। वैश्विक संरेखण उचित वैश्विक पैमाने को निर्धारित करता है, जबकि सघन पैमाने का संरेखण (एसएमएल) स्थानीय रूप से संचालित होता है और क्षेत्रों को सही मीट्रिक गहराई की ओर धकेलता या खींचता है। एसएमएल नेटवर्क एनकोडर बैकबोन के रूप में MiDaS का लाभ उठाता है। मॉड्यूलर पाइपलाइन में, VI-गहराई IMU सेंसर माप इकाई के साथ-साथ MiDaS सापेक्ष गहराई भविष्यवाणी मॉडल के साथ डेटा-संचालित गहराई अनुमान को जोड़ती है। डेटा स्रोतों का संयोजन VI-गहराई को एक छवि में प्रत्येक पिक्सेल के लिए अधिक विश्वसनीय सघन मीट्रिक गहराई उत्पन्न करने की अनुमति देता है।

एमआईडीएएस 3.1 और VI-गहराई 1.0 GitHub पर ओपन सोर्स MIT लाइसेंस के तहत उपलब्ध हैं।

अधिक जानकारी के लिए देखें "सघन भविष्यवाणी के लिए विज़न ट्रांसफार्मर" तथा "मजबूत मोनोकुलर गहराई अनुमान की ओर: शून्य-शॉट क्रॉस-डेटासेट स्थानांतरण के लिए डेटासेट का मिश्रण".