рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░
рдбреЙ. рд╕реНрдЯрд╛рд╡реНрд░реЛрд╕ рдкрд╛рдкрдбреЛрдкреЛрд▓реЛрд╕, рд╕рдВрд╕реНрдерд╛рдкрдХ рдФрд░ рд╕реАрдИрдУ, рдЯрд╛рдЗрд▓рдбреАрдмреА – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

टाइलडीबी एक आधुनिक डेटाबेस है जो सभी डेटा मोडलिटी, कोड और कंप्यूट में एक ही उत्पाद में एकीकृत है। टाइलडीबी मई 2017 में एमआईटी और इंटेल लैब्स से निकला था।
टाइलडीबी इंक की स्थापना करने से पहले, डॉ स्टाव्रोस पापडोपोलोस इंटेल पैरेलल कंप्यूटिंग लैब में एक वरिष्ठ अनुसंधान वैज्ञानिक थे और एमआईटी सीएसएआईएल में इंटेल साइंस एंड टेक्नोलॉजी सेंटर फॉर बिग डेटा के सदस्य थे। उन्होंने लगभग दो साल हांगकांग विश्वविद्यालय के कंप्यूटर साइंस एंड इंजीनियरिंग विभाग में एक विजिटिंग असिस्टेंट प्रोफेसर के रूप में बिताए। स्टाव्रोस ने अपनी पीएचडी की डिग्री हांगकांग विश्वविद्यालय में प्रोफेसर डिमित्रिस पापडियास के मार्गदर्शन में कंप्यूटर साइंस में प्राप्त की और चीनी विश्वविद्यालय हांगकांग में प्रोफेसर यूफेई ताओ के साथ एक पोस्टडॉक फेलो पद धारण किया।
आप पहले इंटेल पैरेलल कंप्यूटिंग लैब में वरिष्ठ अनुसंधान वैज्ञानिक थे और एमआईटी सीएसएआईएल में इंटेल साइंस एंड टेक्नोलॉजी सेंटर (आईएसटीसी) के सदस्य थे। क्या आप हमें इस अवधि के दौरान अपने जीवन के कुछ प्रमुख आकर्षण साझा कर सकते हैं?
इंटेल लैब्स और एमआईटी में अपने समय के दौरान, मुझे दो अलग-अलग वैज्ञानिक क्षेत्रों में प्रतिष्ठित लोगों के साथ सहयोग करने का एक अनोखा अवसर मिला: उच्च-प्रदर्शन कंप्यूटिंग (इंटेल में) और डेटाबेस (एमआईटी में)। मैंने जो ज्ञान और विशेषज्ञता प्राप्त की, वह मेरे दृष्टिकोण को आकार देने में महत्वपूर्ण थी एक नए प्रकार की डेटाबेस प्रणाली बनाने के लिए, जिसे मैंने अंततः आईएसटीसी के भीतर एक शोध परियोजना के रूप में बनाया और जो टाइलडीबी बन गई।
क्या आप टाइलडीबी के पीछे के दृष्टिकोण को समझा सकते हैं और यह आधुनिक डेटाबेस परिदृश्य को कैसे क्रांतिकारी बनाने का लक्ष्य रखता है?
पिछले कुछ वर्षों में, मशीन लर्निंग और जेनरेटिव एआई अनुप्रयोगों में एक बड़ा उछाल आया है जो संगठनों को बेहतर निर्णय लेने में मदद करते हैं। प्रत्येक दिन, संगठन अपने डेटा में नए पैटर्न की खोज कर रहे हैं और फिर इस जानकारी का उपयोग प्रतिस्पर्धी लाभ प्राप्त करने के लिए कर रहे हैं। ये पैटर्न डेटा की एक बढ़ती श्रृंखला से उभरते हैं जिन्हें संग्रहीत और प्रबंधित किया जाना चाहिए ताकि उन्हें उपयोग किया जा सके। पारंपरिक टेबुलर डेटा से लेकर अधिक जटिल डेटा स्रोतों जैसे सोशल पोस्ट, ईमेल, छवियों, वीडियो और सेंसर डेटा तक, डेटा से अर्थ निकालने के लिए समग्र विश्लेषण की आवश्यकता होती है। डेटा प्रकारों में वृद्धि के साथ, यह कार्य अधिक कठिन होता जा रहा है, जो एक नए प्रकार के डेटाबेस की मांग कर रहा है। यही कारण है कि टाइलडीबी बनाया गया था।
क्यों यह संगठनों के लिए अपने डेटा इन्फ्रास्ट्रक्चर को उन्नत विश्लेषण और मशीन लर्निंग क्षमताओं के विकास से पहले प्राथमिकता देना महत्वपूर्ण है?
एआई को अपनाने के उत्साह के बीच एक महत्वपूर्ण और अक्सर अनदेखी सच्चाई यह है – किसी भी एआई पहल की सफलता अंतर्निहित डेटा इन्फ्रास्ट्रक्चर की गुणवत्ता और प्रदर्शन से जुड़ी हुई है।
समस्या यह है कि जटिल डेटा जो प्राकृतिक रूप से तालिकाओं के रूप में प्रस्तुत नहीं किया जाता है, उसे “असंरचित” माना जाता है और यह आमतौर पर या तो विशेष डेटा प्रारूपों में फ्लैट फाइलों के रूप में संग्रहीत किया जाता है या विभिन्न, विशिष्ट डेटाबेस द्वारा प्रबंधित किया जाता है। डेटा वैज्ञानिकों को डेटा को एकत्र करने के लिए बड़ी मात्रा में समय बिताना पड़ता है। अनुमानित है कि 80-90 प्रतिशत डेटा वैज्ञानिकों का समय अपने डेटा को साफ करने और एआई एल्गोरिदम को प्रशिक्षित करने और भविष्यसूचक क्षमताओं को प्राप्त करने के लिए तैयार करने में बिताया जाता है। इसके अलावा, इसका मतलब है कि केवल 10-20 प्रतिशत डेटा वैज्ञानिकों का समय अंतर्दृष्टि बनाने में बिताया जाता है।
क्या आप बता सकते हैं कि संगठनों को एआई और एमएल अनुप्रयोगों पर अधिक ध्यान केंद्रित करने के साथ-साथ एक मजबूत डेटाबेस इन्फ्रास्ट्रक्चर की उपेक्षा करने से क्या सामान्य जाल में फंस सकते हैं?
संगठन चमकती नई चीजों पर ध्यान केंद्रित करते हैं। बड़े भाषा मॉडल, वेक्टर डेटाबेस और जेनरेटिव एआई ऐप्स जो डेटा इन्फ्रास्ट्रक्चर के शीर्ष पर बनाए गए हैं, वर्तमान में इसके उदाहरण हैं, जो विश्लेषणात्मक सफलता के लिए महत्वपूर्ण अंतर्निहित डेटा इन्फ्रास्ट्रक्चर को संबोधित करने के लिए नहीं हैं। सरल शब्दों में, यदि आपका संगठन ऐसा करता है, तो आप अपने डेटा इन्फ्रास्ट्रक्चर को एक साथ रखने में बहुत समय बिता सकते हैं और अंतर्दृष्टि प्राप्त करने के अवसरों को छोड़ सकते हैं या पूरी तरह से चूक सकते हैं।
क्या आप बता सकते हैं कि एक डेटाबेस ‘अनुकूलनीय’ क्या बनाता है और आधुनिक डेटा विश्लेषण के लिए यह अनुकूलन क्यों आवश्यक है?
एक अनुकूलनीय डेटाबेस वह है जो सभी डेटा – इसकी मॉडलिटी की परवाह किए बिना – को एकजुट रूप से संग्रहीत करने के लिए आकार बदल सकता है। एक अनुकूलनीय डेटाबेस “असंरचित” डेटा को संरचना प्रदान करता है। अनुमानित है कि 80 प्रतिशत या अधिक विश्व के डेटा गैर-टेबुलर, या “असंरचित” हैं, और अधिकांश एआई/एमएल मॉडल (包括 एलएलएम) इस प्रकार के डेटा पर प्रशिक्षित होते हैं।
टाइलडीबी डेटा को बहुस्तरीय सरणियों में संग्रहीत करता है। यह प्रारूप पारंपरिक डेटाबेस की तुलना में प्रदर्शन और लागत प्रभावशीलता में सुधार कैसे करता है?
बहुस्तरीय सरणी डेटाबेस की मूल ताकत यह है कि यह लगभग किसी भी डेटा मॉडलिटी और अनुप्रयोग को समायोजित कर सकता है। एक वेक्टर, उदाहरण के लिए, एक एकल-आयामी सरणी है। इस “असंरचित” डेटा को संरचना प्रदान करके, आप अपने डेटा इन्फ्रास्ट्रक्चर को समेकित कर सकते हैं, लागत में महत्वपूर्ण कमी कर सकते हैं, सिलोस को समाप्त कर सकते हैं, उत्पादकता बढ़ा सकते हैं और सुरक्षा में सुधार कर सकते हैं। आगे बढ़कर, जब कंप्यूट इन्फ्रास्ट्रक्चर को डेटा प्रबंधन इन्फ्रास्ट्रक्चर के साथ जोड़ा जाता है, तो आप अपने डेटा से तुरंत मूल्य निकाल सकते हैं।
क्या कुछ उल्लेखनीय उपयोग के मामले हैं जहां टाइलडीबी ने डेटा प्रबंधन और विश्लेषण प्रदर्शन में महत्वपूर्ण सुधार किया है?
टाइलडीबी का पहला उपयोग मामला विशाल जीनोमिक डेटा के भंडारण, प्रबंधन और विश्लेषण के लिए था, जो एक पारंपरिक, तालिका डेटाबेस में मॉडलिंग और संग्रहीत करने के लिए बहुत मुश्किल और महंगा है। हमने कई मामलों में अन्य डेटाबेस और विशेष समाधानों पर 100 गुना तेजी से अद्भुत प्रदर्शन लाभ देखे। हालांकि, हमारे बहुस्तरीय सरणी मॉडल सार्वभौमिक है और अन्य डेटा मॉडलिटी को भी कुशलता से पकड़ सकता है। उदाहरण के लिए, टाइलडीबी जैव चिकित्सा इमेजिंग, उपग्रह इमेजिंग, एकल-कोशिका ट्रांसक्रिप्टोमिक्स और लिडार और सोनार जैसे पॉइंट क्लाउड डेटा को संभालने में उत्कृष्ट है।
टाइलडीबी इंटरऑपरेबिलिटी के लिए ओपन-सोर्स टूल्स प्रदान करता है। ओपन-सोर्स दृष्टिकोण वैज्ञानिक और डेटा विज्ञान समुदायों को कैसे लाभान्वित करता है?
हम टाइलडीबी में ओपन-सोर्स के बड़े समर्थक हैं। कोर लाइब्रेरी और डेटा फॉर्मेट विशिष्टीकरण दोनों ओपन-सोर्स हैं। इसके अलावा, हमारे जीवन विज्ञान प्रसाद, जो कोर सरणी पुस्तकालय के ऊपर बने हैं, भी ओपन-सोर्स हैं। इसमें टाइलडीबी-एसओएमए शामिल है, जो एकल-कोशिका डेटा प्रबंधन के लिए एक पैकेज है, जिसे चान ज़ुकरबर्ग फाउंडेशन के साथ सहयोग से बनाया गया था और सेलएक्सजेन डिस्कवर सेंसस – दुनिया का सबसे बड़ा पूरी तरह से क्यूरेटेड एकल-कोशिका डेटासेट को संचालित करता है। यह भी ओपन-सोर्स है और इसका उपयोग अकादमिक संस्थानों और दुनिया भर में प्रमुख फार्मास्यूटिकल कंपनियों द्वारा किया जाता है।
आप डेटा प्रबंधन में भविष्य के रुझानों को क्या देखते हैं?
जैसे-जैसे डेटा समृद्ध होता जाता है, एआई अनुप्रयोग अधिक चतुर होते जाते हैं। बड़े भाषा मॉडल अधिक से अधिक शक्तिशाली होते जा रहे हैं, जो कई डेटा मॉडलिटी का लाभ उठा रहे हैं, और इन एलएलएम को विविध डेटा सेट के साथ एकीकृत करना एआई में एक नए युग को खोल रहा है जिसे मल्टीमॉडल एआई के रूप में जाना जाता है।
व्यावहारिक रूप से, मल्टीमॉडल एआई का अर्थ है कि उपयोगकर्ता एक ही इनपुट और आउटपुट प्रकार तक सीमित नहीं हैं और लगभग किसी भी इनपुट के साथ एक मॉडल को प्रॉम्प्ट कर सकते हैं और लगभग किसी भी किसी भी सामग्री प्रकार का उत्पादन कर सकते हैं। हम टाइलडीबी को मल्टीमॉडल एआई के लिए आदर्श डेटाबेस के रूप में देखते हैं, जो किसी भी नए और विभिन्न प्रकार के डेटा को समर्थन देने के लिए निर्मित है जो उभर सकते हैं।
धन्यवाद इस महान समीक्षा के लिए, पाठक जो अधिक जानना चाहते हैं उन्हें टाइलडीबी पर जाना चाहिए।












