рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░
рдлреНрд░реИрдВрдХ рд▓рд┐рдпреВ, рдЬрд╝рд┐рд▓рд┐рдЬрд╝ рдореЗрдВ рдСрдкрд░реЗрд╢рдиреНрд╕ рдХреЗ рдирд┐рджреЗрд╢рдХ – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

फ्रैंक लियू ज़िलिज़ में ऑपरेशन्स के निदेशक हैं, जो वेक्टर डेटाबेस और एआई तकनीकों के प्रमुख प्रदाता हैं। वे एलएफ एआई मिल्वस®, दुनिया के सबसे लोकप्रिय ओपन-सोर्स वेक्टर डेटाबेस के निर्माता भी हैं।
आपको मशीन लर्निंग में शुरुआती आकर्षण क्या था?
मेरा पहला एक्सपोज़र एमएल/एआई की शक्ति का था जब मैं स्टैनफोर्ड में एक अंडरग्रेजुएट छात्र था, हालांकि यह मेरे प्रमुख (इलेक्ट्रिकल इंजीनियरिंग) से थोड़ा दूर था। मैं शुरू में ईई के क्षेत्र में आकर्षित हुआ क्योंकि जटिल इलेक्ट्रिकल और भौतिक प्रणालियों को गणितीय अनुमानों में परिष्कृत करने की क्षमता मुझे बहुत शक्तिशाली लगी। सांख्यिकी और मशीन लर्निंग ने भी मुझे वही महसूस कराया। मैंने ग्रेजुएट स्कूल में कंप्यूटर विजन और मशीन लर्निंग कक्षाएं लीं, और मैंने अपना मास्टर्स थीसिस एमएल का उपयोग करके छवियों की सौंदर्य सुंदरता को स्कोर करने पर लिखा। यह सब मेरी पहली नौकरी में ले गया याहू में कंप्यूटर विजन और मशीन लर्निंग टीम में, जहां मैं एक हाइब्रिड अनुसंधान और सॉफ्टवेयर विकास भूमिका में था। हम अभी भी अलेक्सनेट और वीजीजी के प्री-ट्रांसफॉर्मर दिनों में थे, और देखा कि एक पूरे क्षेत्र और उद्योग डेटा तैयारी से लेकर बड़े पैमाने पर समांतर मॉडल प्रशिक्षण से लेकर मॉडल उत्पादनीकरण तक इतनी तेजी से आगे बढ़ रहा है, यह अद्भुत है। कई मायनों में, यह थोड़ा हास्यास्पद लगता है कि “उस समय” जैसे वाक्यांश का उपयोग कुछ ऐसा करने के लिए किया जाए जो 10 साल से कम समय पहले हुआ था, लेकिन ऐसा ही इस क्षेत्र में प्रगति हुई है।
याहू के बाद, मैंने एक स्टार्टअप के सीटीओ के रूप में काम किया जिसकी मैंने सह-स्थापना की थी, जहां हमने इंडोर स्थानीयकरण के लिए एमएल का लाभ उठाया। वहां, हमें बहुत छोटे माइक्रोकंट्रोलर के लिए अनुक्रमिक मॉडल को अनुकूलित करना पड़ा – आज के विशाल एलएलएम और डिफ्यूजन मॉडल की तुलना में एक बहुत ही अलग लेकिन संबंधित इंजीनियरिंग चुनौती। हमने हार्डवेयर, विज़ुअलाइज़ेशन के लिए डैशबोर्ड, और सरल क्लाउड-नेटिव एप्लिकेशन भी बनाए, लेकिन एआई/एमएल ने हमारे द्वारा किए जा रहे काम के एक मूल घटक के रूप में काम किया।
हालांकि मैं लगभग 7 या 8 साल से एमएल में या उसके आसपास रहा हूं, लेकिन मैं अभी भी सर्किट डिज़ाइन और डिजिटल लॉजिक डिज़ाइन के लिए बहुत प्यार रखता हूं। इलेक्ट्रिकल इंजीनियरिंग में पृष्ठभूमि होना मेरे द्वारा इन दिनों किए जा रहे बहुत से काम के लिए बहुत मददगार है। डिजिटल डिज़ाइन में महत्वपूर्ण अवधारणाएं जैसे कि वर्चुअल मेमोरी, ब्रांच प्रेडिक्शन, और एचडीएल में समांतर निष्पादन एक वेक्टर डेटाबेस और वितरित प्रणालियों के लिए एक पूर्ण-स्टैक दृष्टिकोण प्रदान करती हैं। जबकि मैं सीएस के आकर्षण को समझता हूं, मुझे उम्मीद है कि अगले कुछ वर्षों में ईई, मेकेई, केमई, आदि जैसे अधिक पारंपरिक इंजीनियरिंग क्षेत्रों में एक पुनरुत्थान देखने को मिलेगा।
जिन पाठकों को इस शब्द से परिचित नहीं हैं, उनके लिए असंरचित डेटा क्या है?
असंरचित डेटा “जटिल” डेटा को संदर्भित करता है, जो मूल रूप से डेटा है जिसे एक पूर्व-निर्धारित प्रारूप में संग्रहीत नहीं किया जा सकता है या मौजूदा डेटा मॉडल में फिट नहीं हो सकता है। तुलना के लिए, संरचित डेटा किसी भी प्रकार के डेटा को संदर्भित करता है जिसमें एक पूर्व-निर्धारित संरचना होती है – संख्यात्मक डेटा, स्ट्रिंग, टेबल, वस्तुएं, और कुंजी/मूल्य स्टोर सभी संरचित डेटा के उदाहरण हैं।
असंरचित डेटा को वास्तव में समझने में मदद करने के लिए, यह संरचित डेटा की तुलना में करने में मदद करता है। परंपरागत रूप से, संरचित डेटा को एक संबंधपरक मॉडल के माध्यम से संग्रहीत किया जा सकता है। एक पुस्तक जानकारी को संग्रहीत करने के लिए एक संबंधपरक डेटाबेस की एक तालिका लें, जिसमें प्रत्येक पंक्ति एक विशिष्ट पुस्तक का प्रतिनिधित्व कर सकती है जो आईएसबीएन संख्या द्वारा सूचीबद्ध है, जबकि कॉलम संबंधित श्रेणी की जानकारी को दर्शाते हैं, जैसे कि शीर्षक, लेखक, प्रकाशन तिथि, आदि। अब, बहुत अधिक लचीले डेटा मॉडल हैं – वाइड-कॉलम स्टोर, ऑब्जेक्ट डेटाबेस, ग्राफ डेटाबेस, आदि। लेकिन समग्र विचार वही रहता है: ये डेटाबेस विशिष्ट डेटा मोल्ड या डेटा मॉडल में फिट होने वाले डेटा को संग्रहीत करने के लिए डिज़ाइन किए गए हैं।
असंरचित डेटा, दूसरी ओर, मूल रूप से एक प्सेव्डो-रैंडम ब्लॉब ऑफ बाइनरी डेटा हो सकता है। यह कुछ भी प्रतिनिधित्व कर सकता है, मनमाने ढंग से बड़ा या छोटा हो सकता है, और अनगिनत विभिन्न तरीकों से परिवर्तित और पढ़ा जा सकता है। यह इसे किसी भी डेटा मॉडल में फिट करने में असंभव बनाता है, एक संबंधपरक डेटाबेस में एक तालिका में तो बिल्कुल नहीं।
इस प्रकार के डेटा के कुछ उदाहरण क्या हैं?
मानव-निर्मित डेटा – छवियां, वीडियो, ऑडियो, प्राकृतिक भाषा, आदि – असंरचित डेटा के उत्कृष्ट उदाहरण हैं। लेकिन असंरचित डेटा के कुछ कम सामान्य लेकिन समान रूप से महत्वपूर्ण उदाहरण भी हैं। उपयोगकर्ता प्रोफाइल, प्रोटीन संरचनाएं, जीनोम अनुक्रम, और यहां तक कि मानव-वाचनीय कोड भी असंरचित डेटा के उत्कृष्ट उदाहरण हैं। असंरचित डेटा को पारंपरिक रूप से प्रबंधित करने में कठिनाई का मुख्य कारण यह है कि असंरचित डेटा किसी भी रूप में हो सकता है और प्रसंस्करण के लिए बहुत अलग रनटाइम की आवश्यकता हो सकती है।
छवियों का उपयोग उदाहरण के रूप में, एक ही दृश्य की दो तस्वीरें बहुत अलग पिक्सेल मान हो सकती हैं, लेकिन दोनों में समान समग्र सामग्री होती है। प्राकृतिक भाषा असंरचित डेटा का एक और उदाहरण है जिसे मैं संदर्भित करना पसंद करता हूं। “इलेक्ट्रिकल इंजीनियरिंग” और “कंप्यूटर साइंस” वाक्यांश बहुत करीबी से संबंधित हैं – इतने करीब कि स्टैनफोर्ड में ईई और सीएस भवन एक दूसरे के बगल में हैं – लेकिन इन दोनों वाक्यांशों के पीछे सेमेंटिक अर्थ को एन्कोड करने के तरीके के बिना, एक कंप्यूटर “कंप्यूटर साइंस” और “सोशल साइंस” को अधिक संबंधित मान सकता है।
वेक्टर डेटाबेस क्या है?
वेक्टर डेटाबेस को समझने के लिए, यह पहले समझने में मदद करता है कि एम्बेडिंग क्या है। मैं इस पर थोड़ा बाद में आऊंगा, लेकिन संक्षेप में, एम्बेडिंग एक उच्च-आयामी वेक्टर है जो असंरचित डेटा के सेमेंटिक्स का प्रतिनिधित्व कर सकता है। सामान्य तौर पर, दो एम्बेडिंग जो दूरी के संदर्भ में एक दूसरे के करीब हैं, वे बहुतlikely हैं सेमेंटिक रूप से समान इनपुट डेटा से मेल खाते हैं। आधुनिक एमएल के साथ, हमारे पास विभिन्न प्रकार के असंरचित डेटा – छवियों और पाठ को उदाहरण के लिए – सेमेंटिक रूप से शक्तिशाली एम्बेडिंग वेक्टर में एन्कोड और परिवर्तित करने की शक्ति है।
एक संगठन के दृष्टिकोण से, असंरचित डेटा एक निश्चित सीमा से आगे बढ़ने के बाद अव्यवस्थित होना शुरू हो जाता है। यह वह जगह है जहां ज़िलिज़ क्लाउड जैसा वेक्टर डेटाबेस आता है। एक वेक्टर डेटाबेस एम्बेडिंग के रूप में अंतर्निहित प्रतिनिधित्व का लाभ उठाकर विशाल मात्रा में असंरचित डेटा को संग्रहीत, अनुक्रमित और खोजने के लिए डिज़ाइन किया गया है। एक वेक्टर डेटाबेस में खोज आमतौर पर क्वेरी वेक्टर के साथ की जाती है, और क्वेरी का परिणाम दूरी के आधार पर शीर्ष एन सबसे समान परिणाम होते हैं।
सबसे अच्छे वेक्टर डेटाबेस में पारंपरिक संबंधपरक डेटाबेस की कई उपयोगिता सुविधाएं होती हैं: क्षैतिज स्केलिंग, कैशिंग, प्रतिलिपि बनाना, विफल होना, और क्वेरी निष्पादन कुछ ऐसी विशेषताएं हैं जो एक सच्चे वेक्टर डेटाबेस को लागू करना चाहिए। एक श्रेणी परिभाषक के रूप में, हम अकादमिक हलकों में भी सक्रिय रहे हैं, SIGMOD 2021 और VLDB 2022 में पत्र प्रकाशित करके, जो आज दो शीर्ष डेटाबेस सम्मेलन हैं।
क्या आप एम्बेडिंग के बारे में चर्चा कर सकते हैं?
आम तौर पर, एम्बेडिंग एक उच्च-आयामी वेक्टर है जो एक मल्टीलेयर न्यूरल नेटवर्क में एक मध्यवर्ती परत की सक्रियण से आता है। कई न्यूरल नेटवर्क स्वयं एम्बेडिंग का उत्पादन करने के लिए प्रशिक्षित होते हैं और कुछ अनुप्रयोगों में एकाधिक मध्यवर्ती परतों से संकलित वेक्टर का उपयोग एम्बेडिंग के रूप में किया जाता है, लेकिन मैं इसके बारे में अधिक जानकारी नहीं दूंगा। एक कम सामान्य लेकिन समान रूप से महत्वपूर्ण एम्बेडिंग का उत्पादन करने का तरीका हाथ से तैयार किए गए सुविधाओं के माध्यम से है। एमएल मॉडल को स्वचालित रूप से इनपुट डेटा के लिए सही प्रतिनिधित्व सीखने के बजाय, अच्छा पुराना फीचर इंजीनियरिंग कई अनुप्रयोगों के लिए काम कर सकता है। एम्बेडिंग के पीछे की विधि की परवाह किए बिना, सेमेंटिक रूप से समान वस्तुओं के लिए एम्बेडिंग दूरी के संदर्भ में एक दूसरे के करीब होती हैं, और यह संपत्ति है जो वेक्टर डेटाबेस को शक्ति प्रदान करती है।
इस प्रौद्योगिकी के साथ कुछ सबसे लोकप्रिय उपयोग के मामले क्या हैं?
वेक्टर डेटाबेस किसी भी अनुप्रयोग के लिए महान हैं जिसमें कुछ प्रकार की सेमेंटिक खोज की आवश्यकता होती है – उत्पाद सिफारिश, वीडियो विश्लेषण, दस्तावेज़ खोज, खतरा और धोखाधड़ी का पता लगाना, और एआई-संचालित चैटबॉट आज वेक्टर डेटाबेस के लिए कुछ सबसे लोकप्रिय उपयोग के मामले हैं। इसके लिए, मिल्वस, ज़िलिज़ द्वारा बनाया गया ओपन-सोर्स वेक्टर डेटाबेस और ज़िलिज़ क्लाउड का आधार, को विभिन्न उपयोग के मामलों में एक हज़ार से अधिक उद्यम उपयोगकर्ताओं द्वारा उपयोग किया गया है।
मैं हमेशा इन अनुप्रयोगों के बारे में चर्चा करने और लोगों को समझने में मदद करने के लिए खुश हूं कि वे कैसे काम करते हैं, लेकिन मुझे वेक्टर डेटाबेस के कुछ कम ज्ञात उपयोग के मामलों पर भी जाना पसंद है। नई दवा की खोज एक मेरे पसंदीदा “निचे” वेक्टर डेटाबेस उपयोग के मामलों में से एक है। इस विशिष्ट अनुप्रयोग के लिए चुनौती एक डेटाबेस में 800 मिलियन यौगिकों में से एक निश्चित बीमारी या लक्षण के लिए संभावित उम्मीदवार दवाओं की खोज करना है। ज़िलिज़ के साथ संवाद करने वाली एक फार्मास्यूटिकल कंपनी ने मिल्वस को एक केमोइन्फॉर्मेटिक्स लाइब्रेरी के साथ जोड़कर दवा की खोज प्रक्रिया में काफी सुधार किया, साथ ही हार्डवेयर संसाधनों को भी कम किया।
क्लीवलैंड म्यूज़ियम ऑफ़ आर्ट (सीएमए) का एआई आर्टलेंस एक और उदाहरण है जिसे मैं संदर्भित करना पसंद करता हूं। एआई आर्टलेंस एक इंटरैक्टिव टूल है जो एक इनपुट छवि को लेता है और संग्रहालय के डेटाबेस से दृश्य रूप से समान छवियों को खींचता है। यह आमतौर पर रिवर्स इमेज खोज के रूप में जाना जाता है और वेक्टर डेटाबेस के लिए एक相当 सामान्य उपयोग का मामला है, लेकिन मिल्वस ने सीएमए को जो अनोखा मूल्य प्रदान किया वह एक बहुत छोटी टीम के साथ एक सप्ताह के भीतर एप्लिकेशन को चलाने और प्राप्त करने की क्षमता थी।
क्या आप ओपन-सोर्स प्लेटफ़ॉर्म टोही के बारे में चर्चा कर सकते हैं?
जब हम मिल्वस समुदाय के लोगों से संवाद करते हैं, तो हमने पाया कि उनमें से अधिकांश मिल्वस के लिए एम्बेडिंग को उत्पन्न करने के लिए एक एकीकृत तरीका चाहते थे। यह लगभग सभी संगठनों के लिए सच था जिनसे हमने बात की, लेकिन विशेष रूप से उन कंपनियों के लिए जिनके पास कई मशीन लर्निंग इंजीनियर नहीं थे। टोही के साथ, हम इस अंतर को “वेक्टर डेटा ईटीएल” के माध्यम से हल करने का लक्ष्य रखते हैं। जबकि पारंपरिक ईटीएल पाइपलाइन्स संरचित डेटा को विभिन्न स्रोतों से एकत्रित और परिवर्तित करने पर केंद्रित होती हैं, टोही असंरचित डेटा के साथ काम करने के लिए डिज़ाइन की गई है और विशेष रूप से परिणामी ईटीएल पाइपलाइन में एमएल को शामिल करती है। टोही यह प्रदान करके करता है कि सैकड़ों मॉडल, एल्गोरिदम और परिवर्तन हैं जिन्हें वेक्टर डेटा ईटीएल पाइपलाइन में निर्माण खंड के रूप में उपयोग किया जा सकता है। इसके अलावा, टोही एक आसान-से-उपयोग पाइथन एपीआई प्रदान करता है जो डेवलपर्स को इन ईटीएल पाइपलाइनों का निर्माण और परीक्षण एक ही पंक्ति कोड में करने की अनुमति देता है।
जबकि टोही अपनी खुद की एक स्वतंत्र परियोजना है, यह ज़िलिज़ द्वारा बनाई गई मिल्वस के इर्द-गिर्द के वेक्टर डेटाबेस पारिस्थितिकी तंत्र का भी एक हिस्सा है। हम मिल्वस और टोही को दो अत्यधिक पूरक परियोजनाओं के रूप में देखते हैं जो एक साथ उपयोग किए जाने पर वास्तव में असंरचित डेटा प्रसंस्करण को लोकतांत्रिक बना सकते हैं।
ज़िलिज़ ने हाल ही में 60 मिलियन डॉलर की श्रृंखला बी वित्तपोषण जुटाई। यह ज़िलिज़ मिशन को कैसे तेज़ करेगा?
मैं पहले प्रोस्पेरिटी7 वेंचर्स, पेविलियन कैपिटल, हिलहाउस कैपिटल, 5वाई कैपिटल, यूनकी कैपिटल, और अन्य को धन्यवाद देना चाहता हूं जिन्होंने ज़िलिज़ के मिशन में विश्वास किया और इस श्रृंखला बी विस्तार के साथ हमारा समर्थन किया। हमने अब कुल 113 मिलियन डॉलर जुटाए हैं, और यह नवीनतम फंडिंग दौर हमारे प्रयासों का समर्थन करेगा इंजीनियरिंग और जाने के लिए बाजार टीमों को स्केल आउट करने के लिए। विशेष रूप से, हम अपनी प्रबंधित क्लाउड पेशकश में सुधार करेंगे, जो वर्तमान में शुरुआती पहुंच में है लेकिन इस साल बाद में सभी के लिए खुल जाएगी। हम डेटाबेस और एआई अनुसंधान में निवेश जारी रखेंगे, जैसा कि हम पिछले 4 वर्षों में करते आ रहे हैं।
क्या ज़िलिज़ के बारे में आप कुछ और साझा करना चाहेंगे?
एक कंपनी के रूप में, हम तेजी से बढ़ रहे हैं, लेकिन जो हमारी वर्तमान टीम को डेटाबेस और एमएल स्पेस में अन्य लोगों से अलग करता है वह हमारे निर्माण में एकल उत्साह है। हम असंरचित डेटा प्रसंस्करण को लोकतांत्रिक बनाने के मिशन पर हैं, और यह देखना अविश्वसनीय है कि ज़िलिज़ में इतने प्रतिभाशाली लोग एक ही लक्ष्य की ओर काम कर रहे हैं। यदि हम जो कर रहे हैं वह आपको दिलचस्प लगता है, तो आपसे संपर्क करने में खुशी होगी। हम आपको ऑनबोर्ड लेने के लिए प्यार करेंगे।
यदि आप थोड़ा और जानना चाहते हैं, तो मैं व्यक्तिगत रूप से ज़िलिज़, वेक्टर डेटाबेस, या एम्बेडिंग-संबंधित एआई/एमएल में प्रगति के बारे में बात करने के लिए खुला हूं। मेरा (आभासी) दरवाजा हमेशा खुला है, इसलिए मुझसे सीधे ट्विटर/लिंक्डइन पर संपर्क करने में संकोच न करें।
अंत में, धन्यवाद!
धन्यवाद शानदार साक्षात्कार, पाठक जो अधिक जानना चाहते हैं उन्हें ज़िलिज़ पर जाना चाहिए।












