ठूंठ इंगो मियर्सवा, रैपिडमाइनर, इंक के संस्थापक और अध्यक्ष - साक्षात्कार श्रृंखला - यूनाइट.एआई
हमसे जुडे

साक्षात्कार

इंगो मियर्सवा, रैपिडमाइनर, इंक के संस्थापक और अध्यक्ष - साक्षात्कार श्रृंखला

mm
Updated on

इंगो मिर्स्वा रैपिडमाइनर, इंक. के संस्थापक और अध्यक्ष हैं। RapidMiner एक खुले और विस्तार योग्य डेटा विज्ञान मंच के माध्यम से उद्यम में कृत्रिम बुद्धिमत्ता लाता है। एनालिटिक्स टीमों के लिए निर्मित, रैपिडमाइनर डेटा तैयारी से लेकर मशीन लर्निंग तक संपूर्ण डेटा विज्ञान जीवनचक्र को एकीकृत करता है भविष्य कहनेवाला मॉडल परिनियोजन. 625,000 से अधिक एनालिटिक्स पेशेवर राजस्व बढ़ाने, लागत कम करने और जोखिमों से बचने के लिए रैपिडमाइनर उत्पादों का उपयोग करते हैं।

रैपिडमाइनर को लॉन्च करने के पीछे आपकी प्रेरणा क्या थी?

मैंने कई वर्षों तक डेटा विज्ञान परामर्श व्यवसाय में काम किया था और मुझे एक ऐसे मंच की आवश्यकता महसूस हुई जो डेटा विज्ञान में औपचारिक शिक्षा के बिना लोगों के लिए अधिक सहज और सुलभ हो। उस समय के कई मौजूदा समाधान कोडिंग और स्क्रिप्टिंग पर निर्भर थे और वे उपयोगकर्ता के अनुकूल नहीं थे। इसके अलावा, उन प्लेटफार्मों के भीतर विकसित किए गए समाधानों को प्रबंधित करना और बनाए रखना डेटा को कठिन बना देता है। मूल रूप से, मुझे एहसास हुआ कि इन परियोजनाओं को इतना कठिन होने की आवश्यकता नहीं है, इसलिए हमने किसी को भी एक महान डेटा वैज्ञानिक बनने की अनुमति देने के लिए रैपिडमाइनर प्लेटफ़ॉर्म बनाना शुरू कर दिया।

क्या आप उस पूर्ण पारदर्शिता शासन पर चर्चा कर सकते हैं जिसका उपयोग वर्तमान में रैपिडमाइनर द्वारा किया जा रहा है?

जब आप किसी मॉडल की व्याख्या नहीं कर सकते, तो उसे ट्यून करना, भरोसा करना और अनुवाद करना काफी कठिन होता है। डेटा विज्ञान का बहुत सारा काम परिणामों को दूसरों तक संचारित करना है ताकि हितधारक समझ सकें कि प्रक्रियाओं में सुधार कैसे किया जाए। इसके लिए विश्वास और गहरी समझ की आवश्यकता है। इसके अलावा, विश्वास और अनुवाद के मुद्दों के कारण किसी मॉडल को उत्पादन में लाने के लिए कॉर्पोरेट आवश्यकताओं पर काबू पाना बहुत कठिन हो सकता है। हम यह लड़ाई कुछ अलग तरीकों से लड़ रहे हैं:

एक विज़ुअल डेटा विज्ञान प्लेटफ़ॉर्म के रूप में, रैपिडमाइनर स्वाभाविक रूप से सभी डेटा पाइपलाइनों और मॉडलों के लिए एक अत्यधिक उपभोग्य प्रारूप में एक स्पष्टीकरण तैयार करता है जिसे डेटा वैज्ञानिकों या गैर-डेटा वैज्ञानिकों द्वारा समझा जा सकता है। यह मॉडल को पारदर्शी बनाता है और उपयोगकर्ताओं को मॉडल के व्यवहार को समझने और उसकी ताकत और कमजोरियों का मूल्यांकन करने और संभावित पूर्वाग्रहों का पता लगाने में मदद करता है।

इसके अलावा, प्लेटफ़ॉर्म में बनाए गए सभी मॉडल उपयोगकर्ता के लिए व्यापक विज़ुअलाइज़ेशन के साथ आते हैं - आमतौर पर मॉडल बनाने वाले उपयोगकर्ता - मॉडल अंतर्दृष्टि प्राप्त करने, मॉडल व्यवहार को समझने और मॉडल पूर्वाग्रहों का मूल्यांकन करने के लिए।

रैपिडमाइनर मॉडल स्पष्टीकरण भी प्रदान करता है - उत्पादन में होने पर भी: एक मॉडल द्वारा बनाई गई प्रत्येक भविष्यवाणी के लिए, रैपिडमाइनर उन प्रभाव कारकों को उत्पन्न करता है और जोड़ता है जो उत्पादन में उस मॉडल द्वारा किए गए निर्णयों के लिए प्रेरित या प्रभावित करते हैं।

अंत में - और यह मेरे लिए व्यक्तिगत रूप से बहुत महत्वपूर्ण है क्योंकि कुछ साल पहले मैं इसे हमारी इंजीनियरिंग टीमों के साथ चला रहा था - रैपिडमाइनर एक अत्यंत शक्तिशाली मॉडल सिम्युलेटर क्षमता भी प्रदान करता है, जो उपयोगकर्ताओं को प्रदान किए गए इनपुट डेटा के आधार पर मॉडल व्यवहार का अनुकरण और निरीक्षण करने की अनुमति देता है। उपयोगकर्ता द्वारा. इनपुट डेटा को बहुत आसानी से सेट और बदला जा सकता है, जिससे उपयोगकर्ता विभिन्न काल्पनिक या वास्तविक दुनिया के मामलों पर मॉडल के पूर्वानुमानित व्यवहार को समझ सकता है। सिम्युलेटर उन कारकों को भी प्रदर्शित करता है जो मॉडल के निर्णय को प्रभावित करते हैं। उपयोगकर्ता - इस मामले में एक व्यावसायिक उपयोगकर्ता या डोमेन विशेषज्ञ भी - मॉडल व्यवहार को समझ सकता है, वास्तविक परिणामों या डोमेन ज्ञान के विरुद्ध मॉडल के निर्णय को मान्य कर सकता है और मुद्दों की पहचान कर सकता है। सिम्युलेटर आपको वास्तविक दुनिया का अनुकरण करने और भविष्य पर एक नज़र डालने की अनुमति देता है - वास्तव में आपके भविष्य पर।

रैपिडमाइनर गहन शिक्षण का उपयोग कैसे करता है?

रैपिडमाइनर द्वारा कुछ चीज़ों को गहराई से सीखने का उपयोग जिस पर हमें बहुत गर्व है। गहन शिक्षण को लागू करना बहुत कठिन हो सकता है और गैर-डेटा-वैज्ञानिक अक्सर विशेषज्ञ समर्थन के बिना उन नेटवर्क को स्थापित करने में संघर्ष करते हैं। रैपिडमाइनर इस प्रक्रिया को सभी प्रकार के उपयोगकर्ताओं के लिए यथासंभव सरल बनाता है। उदाहरण के लिए, डीप लर्निंग हमारे ऑटो मशीन लर्निंग (एमएल) उत्पाद का हिस्सा है जिसे रैपिडमाइनर गो कहा जाता है। यहां उपयोगकर्ता को उन प्रकार के परिष्कृत मॉडलों का उपयोग करने के लिए गहन शिक्षण के बारे में कुछ भी जानने की आवश्यकता नहीं है। इसके अलावा, पावर उपयोगकर्ता गहराई तक जा सकते हैं और रैपिडमाइनर के साथ बनाए जा रहे विज़ुअल वर्कफ़्लो से ही टेन्सरफ़्लो, केरास, या डीप लर्निंग4जे जैसी लोकप्रिय डीप लर्निंग लाइब्रेरी का उपयोग कर सकते हैं। यह बिल्डिंग ब्लॉक्स के साथ खेलने जैसा है और कम डेटा विज्ञान कौशल वाले उपयोगकर्ताओं के लिए अनुभव को सरल बनाता है। इस दृष्टिकोण के माध्यम से हमारे उपयोगकर्ता विभिन्न सक्रियण कार्यों और उपयोगकर्ता द्वारा परिभाषित परतों और नोड्स की संख्या, विभिन्न संख्या में नोड्स के साथ कई परतों के साथ लचीले नेटवर्क आर्किटेक्चर का निर्माण कर सकते हैं, और विभिन्न प्रशिक्षण तकनीकों में से चुन सकते हैं।

अन्य किस प्रकार की मशीन लर्निंग का उपयोग किया जाता है?

उन सभी को! हम रैपिडमाइनर प्लेटफ़ॉर्म के हिस्से के रूप में सैकड़ों अलग-अलग शिक्षण एल्गोरिदम प्रदान करते हैं - वह सब कुछ जो आप व्यापक रूप से उपयोग की जाने वाली डेटा विज्ञान प्रोग्रामिंग भाषाओं पायथन और आर में लागू कर सकते हैं। दूसरों के अलावा, रैपिडमाइनर नेव बेयस, सामान्यीकृत रैखिक मॉडल जैसे प्रतिगमन, क्लस्टरिंग जैसे तरीकों की पेशकश करता है के-मीन्स, एफपी-ग्रोथ, डिसीज़न ट्रीज़, रैंडम फ़ॉरेस्ट, पैरेललाइज़्ड डीप लर्निंग और ग्रेडिएंट बूस्टेड ट्रीज़ के रूप में। ये और बहुत कुछ रैपिडमाइनर की मॉडलिंग लाइब्रेरी का हिस्सा हैं और इन्हें एक क्लिक से इस्तेमाल किया जा सकता है।

क्या आप चर्चा कर सकते हैं कि ऑटो मॉडल उपयोग किए जाने वाले इष्टतम मूल्यों को कैसे जानता है?

रैपिडमाइनर ऑटोमॉडल उपयोगकर्ताओं के हर काम में तेजी लाने और सटीक, ध्वनि मॉडल बनाने को सुनिश्चित करने के लिए बुद्धिमान स्वचालन का उपयोग करता है। इसमें उदाहरण चयन और स्वचालित बाहरी निष्कासन, दिनांक या पाठ जैसे जटिल डेटा प्रकारों के लिए फीचर इंजीनियरिंग, और इष्टतम सुविधाओं का चयन करने और नए निर्माण करने के लिए पूर्ण बहुउद्देश्यीय स्वचालित फीचर इंजीनियरिंग शामिल है। ऑटो मॉडल में डेटा में सामान्य समस्याओं को ठीक करने के लिए अन्य डेटा सफाई विधियां भी शामिल हैं जैसे कि लापता मान, डेटा कॉलम की गुणवत्ता और मूल्य का आकलन करके डेटा प्रोफाइलिंग, डेटा सामान्यीकरण और विभिन्न अन्य परिवर्तन।

ऑटो मॉडल डेटा गुणवत्ता मेटा डेटा भी निकालता है - उदाहरण के लिए, एक कॉलम एक आईडी की तरह कितना व्यवहार करता है या क्या बहुत सारे लापता मान हैं। इस मेटा डेटा का उपयोग उपयोगकर्ताओं को 'इष्टतम मूल्यों का उपयोग करने' और डेटा गुणवत्ता के मुद्दों से निपटने में स्वचालित करने और सहायता करने में बुनियादी मेटा डेटा के अतिरिक्त किया जाता है।

अधिक विवरण के लिए, हमने इसे अपने ऑटो मॉडल ब्लूप्रिंट में मैप किया है। (अतिरिक्त संदर्भ के लिए नीचे दी गई छवि)

ऐसे चार बुनियादी चरण हैं जहां स्वचालन लागू किया जाता है:

- डेटा तैयारी: सहसंबंध, लापता मान और स्थिरता जैसी सामान्य गुणवत्ता समस्याओं की पहचान करने के लिए डेटा का स्वचालित विश्लेषण।
- पूर्ण सत्यापन और प्रदर्शन तुलना सहित स्वचालित मॉडल चयन और अनुकूलन, जो दिए गए डेटा के लिए सर्वोत्तम मशीन सीखने की तकनीक का सुझाव देता है और इष्टतम पैरामीटर निर्धारित करता है।
- मॉडल द्वारा अनुमानित वांछित परिणाम प्राप्त करने के लिए विशिष्ट (अनुदेशात्मक) क्रियाओं को निर्धारित करने में मदद करने के लिए मॉडल सिमुलेशन।
- मॉडल परिनियोजन और संचालन चरण में, उपयोगकर्ताओं को बिना किसी अतिरिक्त कार्य की आवश्यकता के स्वचालित रूप से बहाव, पूर्वाग्रह और व्यावसायिक प्रभाव जैसे कारक दिखाए जाते हैं।

कंप्यूटर पूर्वाग्रह किसी भी प्रकार के एआई के साथ एक मुद्दा है, क्या परिणामों में पूर्वाग्रह को रोकने के लिए कोई नियंत्रण मौजूद है?

हाँ, नैतिक डेटा विज्ञान के लिए यह वास्तव में अत्यंत महत्वपूर्ण है। पहले उल्लिखित शासन सुविधाएँ यह सुनिश्चित करती हैं कि उपयोगकर्ता हमेशा देख सकें कि मॉडल निर्माण के लिए किस डेटा का उपयोग किया गया है, इसे कैसे रूपांतरित किया गया है, और क्या डेटा चयन में कोई पूर्वाग्रह है। इसके अलावा, बहाव का पता लगाने के लिए हमारी सुविधाएं पूर्वाग्रह का पता लगाने के लिए एक और शक्तिशाली उपकरण हैं। यदि उत्पादन में कोई मॉडल इनपुट डेटा में बहुत अधिक बहाव दर्शाता है, तो यह एक संकेत हो सकता है कि दुनिया नाटकीय रूप से बदल गई है। हालाँकि, यह एक संकेतक भी हो सकता है कि प्रशिक्षण डेटा में गंभीर पूर्वाग्रह था। भविष्य में, हम एक कदम आगे जाकर मशीन लर्निंग मॉडल बनाने पर विचार कर रहे हैं जिसका उपयोग अन्य मॉडलों में पूर्वाग्रह का पता लगाने के लिए किया जा सकता है।

क्या आप रैपिडमाइनर एआई क्लाउड पर चर्चा कर सकते हैं और यह खुद को प्रतिस्पर्धी उत्पादों से कैसे अलग करता है?

डेटा विज्ञान परियोजना की आवश्यकताएं बड़ी, जटिल और गणना गहन हो सकती हैं, जिसने क्लाउड प्रौद्योगिकी के उपयोग को डेटा वैज्ञानिकों के लिए इतनी आकर्षक रणनीति बना दिया है। दुर्भाग्य से, विभिन्न देशी क्लाउड-आधारित डेटा विज्ञान प्लेटफ़ॉर्म आपको उस विशेष क्लाउड विक्रेता की क्लाउड सेवाओं और डेटा स्टोरेज पेशकशों से जोड़ते हैं।

रैपिडमाइनर एआई क्लाउड केवल रैपिडमाइनर प्लेटफॉर्म की हमारी क्लाउड सेवा डिलीवरी है। यह पेशकश किसी भी ग्राहक के परिवेश के अनुरूप बनाई जा सकती है, भले ही उनकी क्लाउड रणनीति कुछ भी हो। यह इन दिनों महत्वपूर्ण है क्योंकि क्लाउड डेटा प्रबंधन के लिए अधिकांश व्यवसायों का दृष्टिकोण वर्तमान माहौल में बहुत तेज़ी से विकसित हो रहा है। लचीलापन वास्तव में रैपिडमाइनर एआई क्लाउड को अलग करता है। यह किसी भी क्लाउड सेवा, निजी क्लाउड स्टैक या हाइब्रिड सेटअप में चल सकता है। हम क्लाउड पोर्टेबल, क्लाउड अज्ञेयवादी, मल्टी-क्लाउड हैं - आप इसे जो भी कहना चाहें।

रैपिडमाइनर एआई क्लाउड भी बहुत कम परेशानी वाला है, बेशक, हम ग्राहकों के लिए तैनाती के सभी या कुछ हिस्सों को प्रबंधित करने की क्षमता प्रदान करते हैं ताकि वे एआई के साथ अपना व्यवसाय चलाने पर ध्यान केंद्रित कर सकें, न कि दूसरे तरीके से। यहां एक ऑन-डिमांड विकल्प भी है, जो आपको छोटी परियोजनाओं के लिए आवश्यकतानुसार वातावरण तैयार करने की अनुमति देता है।

RapidMiner Radoop डेटा विज्ञान के पीछे की कुछ जटिलताओं को समाप्त करता है, क्या आप हमें बता सकते हैं कि Radoop डेवलपर्स को कैसे लाभ पहुँचाता है?  

राडूप मुख्य रूप से गैर-डेवलपर्स के लिए है जो बड़े डेटा की क्षमता का दोहन करना चाहते हैं। RapidMiner Radoop कोड-मुक्त तरीके से सीधे Hadoop के अंदर RapidMiner वर्कफ़्लो को निष्पादित करता है। हम स्पार्क में रैपिडमाइनर निष्पादन इंजन को भी एम्बेड कर सकते हैं ताकि कोड-केंद्रित दृष्टिकोण से आने वाली जटिलता के बिना पूर्ण वर्कफ़्लो को स्पार्क में धकेलना आसान हो।

क्या कोई सरकारी संस्था संभावित महामारी की भविष्यवाणी करने के लिए डेटा का विश्लेषण करने के लिए रैपिडमाइनर का उपयोग करने में सक्षम होगी, जैसे कि कैसे Bluedot संचालित होता है?

एक सामान्य डेटा विज्ञान और मशीन लर्निंग प्लेटफॉर्म के रूप में, रैपिडमाइनर का उद्देश्य मॉडल निर्माण और प्रबंधन प्रक्रिया को सुव्यवस्थित करना और बढ़ाना है, इससे कोई फर्क नहीं पड़ता कि डेटा साइंस/मशीन लर्निंग समस्या के केंद्र में कौन सा विषय या डोमेन है। हालांकि हमारा ध्यान महामारी की भविष्यवाणी करने पर नहीं है, सही डेटा के साथ एक विषय विशेषज्ञ (जैसे इस मामले में एक वायरोलॉजिस्ट या महामारी विशेषज्ञ) एक मॉडल बनाने के लिए मंच का उपयोग कर सकता है जो महामारी की सटीक भविष्यवाणी कर सकता है। वास्तव में, कई शोधकर्ता रैपिडमाइनर का उपयोग करते हैं - और हमारा मंच शैक्षणिक उद्देश्यों के लिए निःशुल्क है।

क्या कुछ और है जो आप रैपिडमाइनर के बारे में साझा करना चाहेंगे?

इसे आज़माइए! आप आश्चर्यचकित हो सकते हैं कि डेटा विज्ञान कितना आसान हो सकता है और एक अच्छा प्लेटफ़ॉर्म आपकी और आपकी टीम की उत्पादकता में कितना सुधार कर सकता है।

इस महान साक्षात्कारकर्ता के लिए धन्यवाद, जो पाठक अधिक जानना चाहते हैं उन्हें अवश्य आना चाहिए RapidMiner.

Unity.AI का संस्थापक भागीदार और सदस्य फोर्ब्स प्रौद्योगिकी परिषद, एंटोनी एक है भविष्यवादी जो एआई और रोबोटिक्स के भविष्य को लेकर उत्साहित हैं।

के संस्थापक भी हैं सिक्योरिटीज.io, एक वेबसाइट जो विघटनकारी प्रौद्योगिकी में निवेश पर केंद्रित है।