рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░

рдбреЙ. рд╕реНрдЯрд╛рд╡реНрд░реЛрд╕ рдкрд╛рдкрдбреЛрдкреЛрд▓реЛрд╕, рд╕рдВрд╕реНрдерд╛рдкрдХ рдФрд░ рд╕реАрдИрдУ, рдЯрд╛рдЗрд▓рдбреАрдмреА – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

mm

टाइलडीबी एक आधुनिक डेटाबेस है जो सभी डेटा मोडलिटी, कोड और कंप्यूट में एक ही उत्पाद में एकीकृत है। टाइलडीबी मई 2017 में एमआईटी और इंटेल लैब्स से निकला था।

टाइलडीबी इंक की स्थापना करने से पहले, डॉ स्टाव्रोस पापडोपोलोस इंटेल पैरेलल कंप्यूटिंग लैब में एक वरिष्ठ अनुसंधान वैज्ञानिक थे और एमआईटी सीएसएआईएल में इंटेल साइंस एंड टेक्नोलॉजी सेंटर फॉर बिग डेटा के सदस्य थे। उन्होंने लगभग दो साल हांगकांग विश्वविद्यालय के कंप्यूटर साइंस एंड इंजीनियरिंग विभाग में एक विजिटिंग असिस्टेंट प्रोफेसर के रूप में बिताए। स्टाव्रोस ने अपनी पीएचडी की डिग्री हांगकांग विश्वविद्यालय में प्रोफेसर डिमित्रिस पापडियास के मार्गदर्शन में कंप्यूटर साइंस में प्राप्त की और चीनी विश्वविद्यालय हांगकांग में प्रोफेसर यूफेई ताओ के साथ एक पोस्टडॉक फेलो पद धारण किया।

आप पहले इंटेल पैरेलल कंप्यूटिंग लैब में वरिष्ठ अनुसंधान वैज्ञानिक थे और एमआईटी सीएसएआईएल में इंटेल साइंस एंड टेक्नोलॉजी सेंटर (आईएसटीसी) के सदस्य थे। क्या आप हमें इस अवधि के दौरान अपने जीवन के कुछ प्रमुख आकर्षण साझा कर सकते हैं?

इंटेल लैब्स और एमआईटी में अपने समय के दौरान, मुझे दो अलग-अलग वैज्ञानिक क्षेत्रों में प्रतिष्ठित लोगों के साथ सहयोग करने का एक अनोखा अवसर मिला: उच्च-प्रदर्शन कंप्यूटिंग (इंटेल में) और डेटाबेस (एमआईटी में)। मैंने जो ज्ञान और विशेषज्ञता प्राप्त की, वह मेरे दृष्टिकोण को आकार देने में महत्वपूर्ण थी एक नए प्रकार की डेटाबेस प्रणाली बनाने के लिए, जिसे मैंने अंततः आईएसटीसी के भीतर एक शोध परियोजना के रूप में बनाया और जो टाइलडीबी बन गई।

क्या आप टाइलडीबी के पीछे के दृष्टिकोण को समझा सकते हैं और यह आधुनिक डेटाबेस परिदृश्य को कैसे क्रांतिकारी बनाने का लक्ष्य रखता है?

पिछले कुछ वर्षों में, मशीन लर्निंग और जेनरेटिव एआई अनुप्रयोगों में एक बड़ा उछाल आया है जो संगठनों को बेहतर निर्णय लेने में मदद करते हैं। प्रत्येक दिन, संगठन अपने डेटा में नए पैटर्न की खोज कर रहे हैं और फिर इस जानकारी का उपयोग प्रतिस्पर्धी लाभ प्राप्त करने के लिए कर रहे हैं। ये पैटर्न डेटा की एक बढ़ती श्रृंखला से उभरते हैं जिन्हें संग्रहीत और प्रबंधित किया जाना चाहिए ताकि उन्हें उपयोग किया जा सके। पारंपरिक टेबुलर डेटा से लेकर अधिक जटिल डेटा स्रोतों जैसे सोशल पोस्ट, ईमेल, छवियों, वीडियो और सेंसर डेटा तक, डेटा से अर्थ निकालने के लिए समग्र विश्लेषण की आवश्यकता होती है। डेटा प्रकारों में वृद्धि के साथ, यह कार्य अधिक कठिन होता जा रहा है, जो एक नए प्रकार के डेटाबेस की मांग कर रहा है। यही कारण है कि टाइलडीबी बनाया गया था।

क्यों यह संगठनों के लिए अपने डेटा इन्फ्रास्ट्रक्चर को उन्नत विश्लेषण और मशीन लर्निंग क्षमताओं के विकास से पहले प्राथमिकता देना महत्वपूर्ण है?

एआई को अपनाने के उत्साह के बीच एक महत्वपूर्ण और अक्सर अनदेखी सच्चाई यह है – किसी भी एआई पहल की सफलता अंतर्निहित डेटा इन्फ्रास्ट्रक्चर की गुणवत्ता और प्रदर्शन से जुड़ी हुई है।

समस्या यह है कि जटिल डेटा जो प्राकृतिक रूप से तालिकाओं के रूप में प्रस्तुत नहीं किया जाता है, उसे “असंरचित” माना जाता है और यह आमतौर पर या तो विशेष डेटा प्रारूपों में फ्लैट फाइलों के रूप में संग्रहीत किया जाता है या विभिन्न, विशिष्ट डेटाबेस द्वारा प्रबंधित किया जाता है। डेटा वैज्ञानिकों को डेटा को एकत्र करने के लिए बड़ी मात्रा में समय बिताना पड़ता है। अनुमानित है कि 80-90 प्रतिशत डेटा वैज्ञानिकों का समय अपने डेटा को साफ करने और एआई एल्गोरिदम को प्रशिक्षित करने और भविष्यसूचक क्षमताओं को प्राप्त करने के लिए तैयार करने में बिताया जाता है। इसके अलावा, इसका मतलब है कि केवल 10-20 प्रतिशत डेटा वैज्ञानिकों का समय अंतर्दृष्टि बनाने में बिताया जाता है।

क्या आप बता सकते हैं कि संगठनों को एआई और एमएल अनुप्रयोगों पर अधिक ध्यान केंद्रित करने के साथ-साथ एक मजबूत डेटाबेस इन्फ्रास्ट्रक्चर की उपेक्षा करने से क्या सामान्य जाल में फंस सकते हैं?

संगठन चमकती नई चीजों पर ध्यान केंद्रित करते हैं। बड़े भाषा मॉडल, वेक्टर डेटाबेस और जेनरेटिव एआई ऐप्स जो डेटा इन्फ्रास्ट्रक्चर के शीर्ष पर बनाए गए हैं, वर्तमान में इसके उदाहरण हैं, जो विश्लेषणात्मक सफलता के लिए महत्वपूर्ण अंतर्निहित डेटा इन्फ्रास्ट्रक्चर को संबोधित करने के लिए नहीं हैं। सरल शब्दों में, यदि आपका संगठन ऐसा करता है, तो आप अपने डेटा इन्फ्रास्ट्रक्चर को एक साथ रखने में बहुत समय बिता सकते हैं और अंतर्दृष्टि प्राप्त करने के अवसरों को छोड़ सकते हैं या पूरी तरह से चूक सकते हैं।

क्या आप बता सकते हैं कि एक डेटाबेस ‘अनुकूलनीय’ क्या बनाता है और आधुनिक डेटा विश्लेषण के लिए यह अनुकूलन क्यों आवश्यक है?

एक अनुकूलनीय डेटाबेस वह है जो सभी डेटा – इसकी मॉडलिटी की परवाह किए बिना – को एकजुट रूप से संग्रहीत करने के लिए आकार बदल सकता है। एक अनुकूलनीय डेटाबेस “असंरचित” डेटा को संरचना प्रदान करता है। अनुमानित है कि 80 प्रतिशत या अधिक विश्व के डेटा गैर-टेबुलर, या “असंरचित” हैं, और अधिकांश एआई/एमएल मॉडल (包括 एलएलएम) इस प्रकार के डेटा पर प्रशिक्षित होते हैं।

टाइलडीबी डेटा को बहुस्तरीय सरणियों में संग्रहीत करता है। यह प्रारूप पारंपरिक डेटाबेस की तुलना में प्रदर्शन और लागत प्रभावशीलता में सुधार कैसे करता है?

बहुस्तरीय सरणी डेटाबेस की मूल ताकत यह है कि यह लगभग किसी भी डेटा मॉडलिटी और अनुप्रयोग को समायोजित कर सकता है। एक वेक्टर, उदाहरण के लिए, एक एकल-आयामी सरणी है। इस “असंरचित” डेटा को संरचना प्रदान करके, आप अपने डेटा इन्फ्रास्ट्रक्चर को समेकित कर सकते हैं, लागत में महत्वपूर्ण कमी कर सकते हैं, सिलोस को समाप्त कर सकते हैं, उत्पादकता बढ़ा सकते हैं और सुरक्षा में सुधार कर सकते हैं। आगे बढ़कर, जब कंप्यूट इन्फ्रास्ट्रक्चर को डेटा प्रबंधन इन्फ्रास्ट्रक्चर के साथ जोड़ा जाता है, तो आप अपने डेटा से तुरंत मूल्य निकाल सकते हैं।

क्या कुछ उल्लेखनीय उपयोग के मामले हैं जहां टाइलडीबी ने डेटा प्रबंधन और विश्लेषण प्रदर्शन में महत्वपूर्ण सुधार किया है?

टाइलडीबी का पहला उपयोग मामला विशाल जीनोमिक डेटा के भंडारण, प्रबंधन और विश्लेषण के लिए था, जो एक पारंपरिक, तालिका डेटाबेस में मॉडलिंग और संग्रहीत करने के लिए बहुत मुश्किल और महंगा है। हमने कई मामलों में अन्य डेटाबेस और विशेष समाधानों पर 100 गुना तेजी से अद्भुत प्रदर्शन लाभ देखे। हालांकि, हमारे बहुस्तरीय सरणी मॉडल सार्वभौमिक है और अन्य डेटा मॉडलिटी को भी कुशलता से पकड़ सकता है। उदाहरण के लिए, टाइलडीबी जैव चिकित्सा इमेजिंग, उपग्रह इमेजिंग, एकल-कोशिका ट्रांसक्रिप्टोमिक्स और लिडार और सोनार जैसे पॉइंट क्लाउड डेटा को संभालने में उत्कृष्ट है।

टाइलडीबी इंटरऑपरेबिलिटी के लिए ओपन-सोर्स टूल्स प्रदान करता है। ओपन-सोर्स दृष्टिकोण वैज्ञानिक और डेटा विज्ञान समुदायों को कैसे लाभान्वित करता है?

हम टाइलडीबी में ओपन-सोर्स के बड़े समर्थक हैं। कोर लाइब्रेरी और डेटा फॉर्मेट विशिष्टीकरण दोनों ओपन-सोर्स हैं। इसके अलावा, हमारे जीवन विज्ञान प्रसाद, जो कोर सरणी पुस्तकालय के ऊपर बने हैं, भी ओपन-सोर्स हैं। इसमें टाइलडीबी-एसओएमए शामिल है, जो एकल-कोशिका डेटा प्रबंधन के लिए एक पैकेज है, जिसे चान ज़ुकरबर्ग फाउंडेशन के साथ सहयोग से बनाया गया था और सेलएक्सजेन डिस्कवर सेंसस – दुनिया का सबसे बड़ा पूरी तरह से क्यूरेटेड एकल-कोशिका डेटासेट को संचालित करता है। यह भी ओपन-सोर्स है और इसका उपयोग अकादमिक संस्थानों और दुनिया भर में प्रमुख फार्मास्यूटिकल कंपनियों द्वारा किया जाता है।

आप डेटा प्रबंधन में भविष्य के रुझानों को क्या देखते हैं?

जैसे-जैसे डेटा समृद्ध होता जाता है, एआई अनुप्रयोग अधिक चतुर होते जाते हैं। बड़े भाषा मॉडल अधिक से अधिक शक्तिशाली होते जा रहे हैं, जो कई डेटा मॉडलिटी का लाभ उठा रहे हैं, और इन एलएलएम को विविध डेटा सेट के साथ एकीकृत करना एआई में एक नए युग को खोल रहा है जिसे मल्टीमॉडल एआई के रूप में जाना जाता है।

व्यावहारिक रूप से, मल्टीमॉडल एआई का अर्थ है कि उपयोगकर्ता एक ही इनपुट और आउटपुट प्रकार तक सीमित नहीं हैं और लगभग किसी भी इनपुट के साथ एक मॉडल को प्रॉम्प्ट कर सकते हैं और लगभग किसी भी किसी भी सामग्री प्रकार का उत्पादन कर सकते हैं। हम टाइलडीबी को मल्टीमॉडल एआई के लिए आदर्श डेटाबेस के रूप में देखते हैं, जो किसी भी नए और विभिन्न प्रकार के डेटा को समर्थन देने के लिए निर्मित है जो उभर सकते हैं।

धन्यवाद इस महान समीक्षा के लिए, पाठक जो अधिक जानना चाहते हैं उन्हें टाइलडीबी पर जाना चाहिए।

рдПрдВрдЯреЛрдиреА рдПрдХ рджреВрд░рджрд░реНрд╢реА рдиреЗрддрд╛ рдФрд░ рдпреВрдирд╛рдЗрдЯ.рдПрдЖрдИ рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рднрд╛рдЧреАрджрд╛рд░ рд╣реИрдВ, рдЬреЛ рдПрдЖрдИ рдФрд░ рд░реЛрдмреЛрдЯрд┐рдХреНрд╕ рдХреЗ рднрд╡рд┐рд╖реНрдп рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдФрд░ рдмрдврд╝рд╛рд╡рд╛ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдЕрдЯреВрдЯ рдЬреБрдиреВрди рд╕реЗ рдкреНрд░реЗрд░рд┐рдд рд╣реИрдВред рдПрдХш┐Юч╗н рдЙрджреНрдпрдореА, рд╡рд╣ рдорд╛рдирддрд╛ рд╣реИ рдХрд┐ рдПрдЖрдИ рд╕рдорд╛рдЬ рдХреЗ рд▓рд┐рдП рдмрд┐рдЬрд▓реА рдХреЗ рд░реВрдк рдореЗрдВ рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рд╣реЛрдЧрд╛, рдФрд░ рдЕрдХреНрд╕рд░ рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдФрд░ рдПрдЬреАрдЖрдИ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЙрддреНрд╕рд╛рд╣рд┐рдд рд╣реЛрддрд╛ рд╣реИред

рдПрдХ рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдХреЗ рд░реВрдк рдореЗрдВ, рд╡рд╣ рдЗрди рдирд╡рд╛рдЪрд╛рд░реЛрдВ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЬрд╛рдирдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдорд░реНрдкрд┐рдд рд╣реИ рдХрд┐ рд╡реЗ рд╣рдорд╛рд░реА рджреБрдирд┐рдпрд╛ рдХреЛ рдХреИрд╕реЗ рдЖрдХрд╛рд░ рджреЗрдВрдЧреЗред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рд╡рд╣ рд╕рд┐рдХреНрдпреЛрд░рд┐рдЯреАрдЬрд╝.io рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВ, рдПрдХ рдордВрдЪ рдЬреЛ рднрд╡рд┐рд╖реНрдп рдХреЛ рдкреБрдирд░рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рдФрд░ рдкреВрд░реЗ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рдкреБрдирдГ рдЖрдХрд╛рд░ рджреЗрдиреЗ рд╡рд╛рд▓реА рдирд╡реАрдирддрдо рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдореЗрдВ рдирд┐рд╡реЗрд╢ рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рд╣реИред