ठूंठ स्टीफन मिलर, फ़्यूज़न में इंजीनियरिंग के सह-संस्थापक और एसवीपी - साक्षात्कार श्रृंखला - यूनाइट.एआई
हमसे जुडे

साक्षात्कार

स्टीफन मिलर, फ़्यूज़न में इंजीनियरिंग के सह-संस्थापक और एसवीपी - साक्षात्कार श्रृंखला

mm

प्रकाशित

 on

स्टीफन मिलर इंजीनियरिंग के सह-संस्थापक और एसवीपी हैं भय, एक 3डी इमेजिंग और कंप्यूटर विज़न कंपनी, कॉक्स ऑटोमोटिव समूह का हिस्सा। फ़्यूज़न की स्थापना से पहले वह स्टैनफोर्ड विश्वविद्यालय में कंप्यूटर विज्ञान का अध्ययन करने वाले पीएचडी छात्र थे, और यूसी बर्कले में अपने स्नातक अध्ययन के दौरान कपड़े धोने की तह और सर्जिकल गाँठ बांधने जैसे व्यक्तिगत रोबोटिक्स पर काम किया था। वह गूगल हर्ट्ज़ फेलो, एसएपी स्टैनफोर्ड ग्रेजुएट फेलो और एनएसएफ फेलो के पूर्व छात्र हैं।

क्या आप बता सकते हैं कि फ़्यूज़न क्या है और यह 3डी डेटा को आसानी से कैप्चर करने और विज़ुअलाइज़ेशन को कैसे सक्षम बनाता है?

भय एक कंप्यूटर विज़न कंपनी है जो AI-संचालित, 3D ग्राहक अनुभव प्रदान करती है। हम लोगों को एक साधारण स्मार्टफोन ऐप के माध्यम से 3डी छवियां खींचने में सक्षम बनाते हैं जो अधिकांश एंड्रॉइड और आईओएस उपकरणों पर चलता है। ऐप में चरण-दर-चरण मार्गदर्शन है और इसे तकनीकी कौशल की परवाह किए बिना किसी के भी उपयोग के लिए डिज़ाइन किया गया है। छवि को कैप्चर करने में एक या दो मिनट का समय लगता है। वहां से हमारा AI इंजन, ALIS, 3D छवियों का विश्लेषण कर सकता है और उस दृश्य डेटा को कार्रवाई योग्य जानकारी में बदल सकता है। फिलहाल हम कारों की बाहरी क्षति का निदान करने के लिए 3डी छवियों का उपयोग करने पर ध्यान केंद्रित कर रहे हैं।

क्या आप बता सकते हैं कि एल्गोरिदम 3डी छवियां बनाने के लिए स्मार्टफोन के एकल कैमरे को सक्षम करने के लिए फ़ाइल प्रारूप .fyuse का उपयोग कैसे करते हैं?

मुझे फ़ोटो और वीडियो के साथ-साथ .fyuse प्रारूप पर विचार करना उपयोगी लगता है। एक तस्वीर एक निश्चित कोण से समय के एक क्षण को कैद करती है, और एक वीडियो एक रेखीय समयरेखा में उन क्षणों की एक श्रृंखला को कैद करता है। इसके विपरीत, एक .fyuse छवि वह कैप्चर करती है जिसे हम "अंतरिक्ष में एक क्षण" कहना पसंद करते हैं। एक दर्शक एक कोण या रैखिक समयरेखा तक ही सीमित नहीं है: वे न केवल किसी चीज़ का एक पक्ष देख सकते हैं, बल्कि उसके चारों ओर भी देख सकते हैं।

.फ़्यूज़ छवि बनाने के लिए, फ़ोटोग्राफ़र अपने विषय को सेल फ़ोन कैमरे से एक दिशा में घेरता है। वैकल्पिक रूप से, फ़्यूज़न तकनीक निश्चित इमेजिंग समाधानों और ड्रोन जैसे गैर-पारंपरिक इमेजिंग समाधानों के साथ भी संगत है।

हमारा .fyuse फ़ाइल स्वरूप इन छवियों को जीवंत बनाता है। यह हल्का है और जटिल, बहुआयामी अन्तरक्रियाशीलता को सक्षम बनाता है। यह लैपटॉप, टैबलेट और स्मार्टफ़ोन के साथ भी पूरी तरह से संगत है जो रोजमर्रा के उपयोगकर्ता के पास पहले से ही मौजूद है।

क्या आप फ़्यूज़न के साथ कैप्चर किए गए और विश्लेषण किए गए कुछ डेटा पर चर्चा कर सकते हैं?

कारों के साथ, ALIS वाहन के हर हिस्से को पहचानता है, और फिर यह निर्धारित कर सकता है कि कहां क्षति हुई है, क्षति का आकार और गंभीरता, और संभावित झूठी सकारात्मकता को खत्म कर सकता है, जैसे कि सड़क से निकली गंदगी। जिस तकनीक को हमने विकसित और पेटेंट कराया है, वह अन्य समस्याओं का समाधान कर सकती है, लेकिन अभी हमारा ध्यान इसी पर केंद्रित है।

क्या आप चर्चा कर सकते हैं कि AI-आधारित लाइटफील्ड इंफॉर्मेशन सूट (ALIS) क्या है?

ALIS प्रत्येक फ़्यूज़न उत्पाद के पीछे का इंजन है। यह हल्की 3डी इमेजिंग और गहरी दृश्य समझ को सक्षम बनाता है। तीन भाग हैं जो ALIS बनाते हैं: कैप्चर, इंजन और व्यूअर। कैप्चर मॉड्यूल में, मोबाइल एप्लिकेशन में अंतर्निहित ट्यूटोरियल और अनुकूलन योग्य वर्कफ़्लो शामिल हैं जो उपयोगकर्ताओं को बाज़ार में अधिकांश स्मार्टफ़ोन का उपयोग करके उच्च-गुणवत्ता वाली 3D छवियों को कैप्चर करने की अनुमति देते हैं। फ़्यूज़न का इमेज कैप्चर डीएसएलआर, ड्रोन और कई अन्य उपकरणों का भी समर्थन करता है।

दूसरे चरण में, इंजन, ALIS उन 3D छवियों का विश्लेषण करता है और उन्हें कार्रवाई योग्य जानकारी में बदल देता है, जैसे कि हमारे ग्राहकों के लिए आवश्यक क्षति के प्रकार। यह अपने द्वारा पाए गए नुकसान की उच्च-रिज़ॉल्यूशन वाली 2डी छवियां बनाकर अपने निष्कर्षों के लिए बैकअप भी प्रदान कर सकता है।

अंत में, व्यूअर .fyuse फ़ाइल स्वरूप प्रदर्शित करता है। .fyuse पेटेंटेड और हल्का है, और तेज़ लोड समय के साथ एक इमर्सिव 3D अनुभव प्रदान करता है। हम .fyuse के साथ ऑडियो, वीडियो और निश्चित रूप से 2D छवियों सहित सभी प्रकार के अनुभवों को जोड़ने में सक्षम हैं।

फ़्यूज़न एआर और वीआर दोनों तैयार है, आपको क्या लगता है कि भविष्य में ये एप्लिकेशन कितने बड़े होंगे?

संवर्धित वास्तविकता एक अरब डॉलर का उद्योग है जो अधिक मुख्यधारा बनता जा रहा है, और शक्तिशाली नए मोबाइल उपकरणों और कम-विलंबता नेटवर्क के कारण परिवेश को 3डी में कैप्चर करना और भी आसान हो गया है। जैसे-जैसे ये प्रौद्योगिकियां मुख्यधारा में आती हैं, ऑनलाइन अनुभवों के प्रति ग्राहकों की अपेक्षाएं उतनी ही तेजी से बढ़ेंगी जितनी सामग्री निर्माता रख सकते हैं।

विशेष रूप से ऑटो उद्योग में, कार खरीदारी तेजी से ऑनलाइन होने के कारण, अगले कुछ वर्षों में हमें एआर, वीआर और 3डी लिस्टिंग में रुचि बढ़ने की उम्मीद है। लक्ष्य एक साधारण वाहन विवरण पृष्ठ (वीडीपी) को वाहन अनुभव पृष्ठ (वीईपी) में बदलना है, जिससे बड़े और छोटे दोनों ऑटो डीलरों को आगे बढ़ने में मदद मिलेगी। यह लिस्टिंग पर 3डी लोगो और रिच मीडिया टैग जोड़ने से लेकर कुछ भी हो सकता है, या खरीदारों को कार की डिक्की में वस्तुतः गोल्फ क्लबों का एक सेट रखने की अनुमति देना, यह देखने के लिए कि वे अंदर कैसे फिट होते हैं।

यह देखना रोमांचक होगा कि इस प्रकार के एप्लिकेशन मुख्यधारा के उपयोग में कैसे अपना काम करना शुरू करते हैं। मुझे नहीं लगता कि यह लंबा इंतजार होगा.

क्या आप 3डी बनाम 2डी छवियों के उपयोग से ईकॉमर्स में देखे गए क्लिकथ्रू दर और राजस्व में सुधार पर चर्चा कर सकते हैं?

मैं थोक और खुदरा ऑटो बिक्री से सबसे अधिक परिचित हूं। 3डी इमेजरी ने ऑनलाइन खरीदारों के लिए भरोसे का एक नया स्तर तैयार किया है, जो कारों जैसी बड़ी कीमत वाली वस्तुओं के लिए विशेष रूप से महत्वपूर्ण है।

हमारे आंतरिक डेटा से संकेत मिलता है कि 3डी छवियां उपयोगकर्ता की व्यस्तता और वाहन विवरण पृष्ठों पर बिताए गए समय को बढ़ाती हैं, जिसके परिणामस्वरूप कार की बिक्री में वृद्धि देखी गई है। वाहन का जीवंत 3डी अनुभव प्रदान करने से विक्रेता के प्रति विश्वास बढ़ने से उसके प्रति सकारात्मक भावना भी पैदा होती है।

फ़्यूज़न के साथ विकल्पों में से एक स्थानीय या क्लाउड पर डेटा संसाधित करना है, क्या आप प्रत्येक के लाभों पर चर्चा कर सकते हैं?

स्थानीय स्तर पर, एज एआई डेवलपर्स को काफी बाधाओं के भीतर काम करने के लिए मजबूर करता है, खासकर मोबाइल फोन के उपयोग के मामले में। किसी भी एआई डेवलपर के लिए मानक चिंताओं के अलावा-नेटवर्क कितना अनुकूलित है? परिणाम कितने विश्वसनीय हैं?—कुछ व्यावहारिक चिंताएँ स्पष्ट सीमाएँ निर्धारित करती हैं। मेमोरी दबाव, बैटरी खत्म होना, आपकी प्रक्रिया की उपयोगकर्ता या ऑपरेटिंग सिस्टम द्वारा पृष्ठभूमि में होने की संभावना, आदि और यह माना जा रहा है कि तुलनीय सीपीयू और जीपीयू किनारे पर उपलब्ध थे। यहां तक ​​कि फ्लैगशिप डिवाइसों के लिए भी ऐसा कम ही होता है।

आपको प्रत्येक संभावित कोने के मामले के लिए योजना बनाने की आवश्यकता है; जबकि, क्लाउड में, किसी भी समाधान की निगरानी की जा सकती है और उसे ठीक किया जा सकता है।

लेकिन सामूहिक रूप से कहें तो, एज एआई को सही "ऑटोस्केलिंग" समाधान माना जा सकता है: प्रत्येक नए उपयोगकर्ता के लिए, आपके पास एक पूरी तरह से नई मशीन है। यदि आपने अपने नेटवर्क को पूरी तरह से किनारे पर चलाने के लिए अनुकूलित किया है, तो आप आसानी से दो या दो मिलियन ग्राहकों को सेवा दे सकते हैं।

जबकि सबसे मजबूत हार्डवेयर हमेशा क्लाउड पर मौजूद रहेगा, यह आम तौर पर स्वीकार किया जाता है कि डेटा राजा है। जितना अधिक डेटा, और यह कच्चे के जितना करीब होगा, उतना बेहतर होगा। किनारे पर एआई के पास बिना किसी प्रतिबंध के असंसाधित, कच्चे इनपुट डेटा तक पहुंच है। जबकि क्लाउड एआई समाधान के लिए, इनपुट डेटा को या तो संसाधित (संपीड़ित, आंशिक) या विशाल होना चाहिए, जिस बिंदु पर बैंडविड्थ एक गंभीर चिंता का विषय बन जाता है।

क्योंकि यह उपयोगकर्ता के सबसे करीब है, एज एआई संभावनाओं की एक श्रृंखला खोलता है जो क्लाउड एआई नहीं खोलता है। यदि इसे वास्तविक समय में चलाने के लिए अनुकूलित किया गया है, तो यह वास्तविक समय में प्रतिक्रिया प्रदान कर सकता है। इसका मतलब है कि आप ऐसे समाधान बना सकते हैं जो न केवल डेटा ग्रहण करें, बल्कि उपयोगकर्ताओं को प्रदान करने के लिए प्रोत्साहित करें बेहतर डेटा.

5G कंप्यूटर विज़न प्रौद्योगिकी अनुप्रयोगों में तेजी से विकास कैसे सक्षम करेगा?

तेज़ कनेक्शन गति पर आप अधिक प्रोसेसिंग को क्लाउड पर ले जा सकते हैं, जो सभी प्रकार के नए कंप्यूटर विज़न अनुप्रयोगों के लिए संभावनाएं खोलता है। हालाँकि, यह वास्तव में आवेदन पर निर्भर करता है और इसे कितने व्यापक रूप से अपनाया जाएगा।

5G का खंडित प्रभाव हो सकता है और डिजिटल विभाजन और बढ़ सकता है, क्योंकि दुनिया के कुछ हिस्सों में तेज़ और तेज कनेक्टिविटी है जबकि अन्य क्षेत्रों में धीमी कनेक्टिविटी जारी रहेगी। 5जी तक पहुंच वाले लोगों पर केंद्रित अनुप्रयोगों से स्पष्ट रूप से लाभ होगा। लेकिन अधिक व्यापक रूप से अपनाए गए अनुप्रयोगों को अनिवार्य रूप से एक ही एप्लिकेशन के दो संस्करण बनने के लिए समय और धन खर्च करने के बीच चयन करना पड़ सकता है, या एक संस्करण के साथ रहना होगा जो कम मजबूत है लेकिन लगभग किसी भी कनेक्शन पर चल सकता है।

फ़्यूज़न भविष्य में 5G रोलआउट का लाभ उठाने के लिए क्या कदम उठा रहा है?

मैं यह कहकर इसकी प्रस्तावना करना चाहता हूं कि फ़्यूज़न ने यह सुनिश्चित करने में काफी समय बिताया है कि ग्राहक खराब बैंडविड्थ उपलब्धता वाले पुराने फोन पर भी हमारे एप्लिकेशन तक पहुंच सकते हैं। अकेले मैनहेम के साथ हमारी तकनीक ने दस लाख से अधिक कारों की छवि बनाई है, और अन्यथा हम इसे हासिल नहीं कर पाते।

जैसा कि कहा गया है, हम अभी जो देख रहे हैं उससे हम बहुत उत्साहित हैं - यह बढ़ती प्रोसेसिंग गति, 5जी कनेक्टिविटी और कैमरा फोन में किसी क्रांति से कम नहीं है। यह सब एक साथ रखें और आपको कुछ नए विकास मिलेंगे, दुर्भाग्य से मैं अभी तक आपके साथ साझा नहीं कर सकता।

क्या फ़्यूज़न के बारे में कुछ और है जो आप साझा करना चाहेंगे?

यह कंप्यूटर विज़न में काम करने का एक बहुत ही रोमांचक समय है - एक अनुशासन के रूप में हम कई वर्षों तक भविष्य की तकनीक के रूप में चर्चा के बाद मुख्यधारा में आ रहे हैं। फ़्यूज़न तेजी से बढ़ रहा है और हम दुनिया भर से कंप्यूटर विज़न वैज्ञानिकों को काम पर रख रहे हैं। हमारी टीम के सदस्य कहीं से भी काम कर सकते हैं लेकिन पोट्रेरो हिल में हमारे कार्यालयों में उनका हमेशा स्वागत किया जाता है।

बेहतरीन साक्षात्कार के लिए धन्यवाद, जो पाठक अधिक जानना चाहते हैं, उन्हें अवश्य आना चाहिए संलयन.

Unity.AI का संस्थापक भागीदार और सदस्य फोर्ब्स प्रौद्योगिकी परिषद, एंटोनी एक है भविष्यवादी जो एआई और रोबोटिक्स के भविष्य को लेकर उत्साहित हैं।

के संस्थापक भी हैं सिक्योरिटीज.io, एक वेबसाइट जो विघटनकारी प्रौद्योगिकी में निवेश पर केंद्रित है।