कृत्रिम बुद्धिमत्ता
बिग डेटा क्या है?

बिग डेटा क्या है?
“बिग डेटा” हमारे वर्तमान युग के आमतौर पर इस्तेमाल होने वाले बज़ वर्ड्स में से एक है, लेकिन इसका वास्तव में क्या अर्थ है? यहाँ बिग डेटा की एक त्वरित, सरल परिभाषा दी गई है। बिग डेटा वह डेटा है जो पारंपरिक डेटा प्रोसेसिंग और भंडारण विधियों द्वारा संभालने के लिए बहुत बड़ा और जटिल है। हालाँकि यह एक त्वरित परिभाषा है जिसे आप एक अनुमानी के रूप में उपयोग कर सकते हैं, लेकिन बिग डेटा की गहरी, अधिक पूर्ण समझ होना सहायक होगा। आइए बिग डेटा के आधार में निहित कुछ अवधारणाओं पर एक नज़र डालें, जैसे भंडारण, संरचना और प्रसंस्करण।
बिग डेटा कितना बड़ा होता है?
यह इतना सरल नहीं है कि “आकार ‘X’ से अधिक का कोई भी डेटा बिग डेटा है” कहा जाए, डेटा जिस वातावरण में संभाला जा रहा है वह यह निर्धारित करने में कि क्या बिग डेटा के योग्य है एक अत्यंत महत्वपूर्ण कारक है। डेटा का वह आकार जो बिग डेटा माने जाने के लिए आवश्यक है, संदर्भ या उस कार्य पर निर्भर करता है जिसमें डेटा का उपयोग किया जा रहा है। बहुत अलग-अलग आकार के दो डेटासेट अलग-अलग संदर्भों में “बिग डेटा” माने जा सकते हैं। अधिक ठोस होने के लिए, यदि आप 200-मेगाबाइट की फ़ाइल को ईमेल अटैचमेंट के रूप में भेजने का प्रयास करते हैं, तो आप ऐसा करने में सक्षम नहीं होंगे। इस संदर्भ में, 200-मेगाबाइट की फ़ाइल को बिग डेटा माना जा सकता है। इसके विपरीत, एक ही LAN के भीतर किसी अन्य डिवाइस पर 200-मेगाबाइट की फ़ाइल की प्रतिलिपि बनाने में शायद कोई समय नहीं लगेगा, और उस संदर्भ में, इसे बिग डेटा नहीं माना जाएगा। हालाँकि, मान लीजिए कि कंप्यूटर विज़न एप्लिकेशन के प्रशिक्षण में उपयोग के लिए 15 टेराबाइट के वीडियो को प्री-प्रोसेस करने की आवश्यकता है। इस मामले में, वीडियो फ़ाइलें इतनी जगह लेती हैं कि एक शक्तिशाली कंप्यूटर को भी उन सभी को प्रोसेस करने में लंबा समय लगेगा, और इसलिए प्रोसेसिंग समय कम करने के लिए प्रसंस्करण को आमतौर पर एक साथ जुड़े कई कंप्यूटरों में वितरित किया जाता है। वीडियो डेटा के ये 15 टेराबाइट निश्चित रूप से बिग डेटा के योग्य होंगे।
बिग डेटा संरचनाओं के प्रकार
बिग डेटा संरचना की तीन अलग-अलग श्रेणियों में आता है: असंरचित डेटा, अर्ध-संरचित डेटा और संरचित डेटा। असंरचित डेटा वह डेटा है जिसमें कोई परिभाषित संरचना नहीं होती है, जिसका अर्थ है कि डेटा अनिवार्य रूप से सिर्फ एक बड़े पूल में होता है। असंरचित डेटा के उदाहरण बिना लेबल वाली छवियों से भरा एक डेटाबेस होगा। अर्ध-संरचित डेटा वह डेटा है जिसमें एक औपचारिक संरचना नहीं होती है, लेकिन एक ढीली संरचना के भीतर मौजूद होता है। उदाहरण के लिए, ईमेल डेटा को अर्ध-संरचित डेटा के रूप में गिना जा सकता है, क्योंकि आप व्यक्तिगत ईमेल में निहित डेटा का उल्लेख कर सकते हैं, लेकिन औपचारिक डेटा पैटर्न स्थापित नहीं किए गए हैं। संरचित डेटा वह डेटा है जिसमें एक औपचारिक संरचना होती है, जिसमें डेटा बिंदुओं को विभिन्न विशेषताओं द्वारा वर्गीकृत किया जाता है। संरचित डेटा का एक उदाहरण एक्सेल स्प्रेडशीट है जिसमें नाम, ईमेल, फ़ोन नंबर और वेबसाइट जैसी संपर्क जानकारी होती है। यदि आप इन डेटा प्रकारों के अंतर के बारे में अधिक पढ़ना चाहते हैं, तो यहां दिए गए लिंक को देखें।
बिग डेटा का आकलन करने के मापदंड
बिग डेटा का विश्लेषण तीन अलग-अलग मापदंडों के संदर्भ में किया जा सकता है: वॉल्यूम, वेलोसिटी और वैरायटी। वॉल्यूम डेटा के आकार को संदर्भित करता है। डेटासेट का औसत आकार अक्सर बढ़ रहा है। उदाहरण के लिए, 2006 में सबसे बड़ी हार्ड ड्राइव 750 जीबी की हार्ड ड्राइव थी। इसके विपरीत, माना जाता है कि Facebook एक दिन में 500 टेराबाइट से अधिक डेटा उत्पन्न करता है और आज उपलब्ध सबसे बड़ी उपभोक्ता हार्ड ड्राइव 16 टेराबाइट की हार्ड ड्राइव है। एक युग में जो बिग डेटा के रूप में योग्य है, वह दूसरे युग में बिग डेटा नहीं हो सकता है। आज अधिक डेटा उत्पन्न होता है क्योंकि हमारे आसपास की अधिक से अधिक वस्तुएं सेंसर, कैमरा, माइक्रोफोन और अन्य डेटा संग्रह उपकरणों से लैस हैं। वेलोसिटी इस बात को संदर्भित करती है कि डेटा कितनी तेजी से आगे बढ़ रहा है, या दूसरे शब्दों में कहें तो किसी दिए गए समय अवधि के भीतर कितना डेटा उत्पन्न होता है। सोशल मीडिया स्ट्रीम हर मिनट सैकड़ों हज़ारों पोस्ट और टिप्पणियाँ उत्पन्न करती हैं, जबकि आपके अपने ईमेल इनबॉक्स में शायद बहुत कम गतिविधि होगी। बिग डेटा स्ट्रीम वे स्ट्रीम हैं जो अक्सर कमोबेश रियल-टाइम में सैकड़ों हज़ारों या लाखों घटनाओं को संभालती हैं। इन डेटा स्ट्रीम के उदाहरण ऑनलाइन गेमिंग प्लेटफ़ॉर्म और हाई-फ़्रीक्वेंसी स्टॉक ट्रेडिंग एल्गोरिदम हैं। वैरायटी डेटासेट के भीतर निहित डेटा के विभिन्न प्रकारों को संदर्भित करती है। डेटा कई अलग-अलग प्रारूपों से बना हो सकता है, जैसे ऑडियो, वीडियो, टेक्स्ट, फ़ोटो या सीरियल नंबर। सामान्य तौर पर, पारंपरिक डेटाबेस एक, या बस कुछ प्रकार के डेटा को संभालने के लिए स्वरूपित होते हैं। दूसरे शब्दों में कहें तो, पारंपरिक डेटाबेस उस डेटा को रखने के लिए संरचित होते हैं जो काफी सजातीय और सुसंगत, पूर्वानुमानित संरचना का होता है। जैसे-जैसे एप्लिकेशन अधिक विविध, विभिन्न सुविधाओं से भरे हुए और अधिक लोगों द्वारा उपयोग किए जाते हैं, डेटाबेस को अधिक प्रकार के डेटा को संग्रहीत करने के लिए विकसित होना पड़ा है। असंरचित डेटाबेस बिग डेटा को रखने के लिए आदर्श हैं, क्योंकि वे कई डेटा प्रकार रख सकते हैं जो एक दूसरे से संबंधित नहीं हैं।
बिग डेटा को संभालने की विधियाँ
बिग डेटा के विश्लेषण को सुविधाजनक बनाने के लिए डिज़ाइन किए गए कई अलग-अलग प्लेटफ़ॉर्म और टूल हैं। डेटा से सार्थक पैटर्न निकालने के लिए बिग डेटा पूल का विश्लेषण करने की आवश्यकता होती है, एक ऐसा कार्य जो पारंपरिक डेटा विश्लेषण टूल के साथ काफी चुनौतीपूर्ण साबित हो सकता है। बड़ी मात्रा में डेटा के विश्लेषण के लिए टूल की आवश्यकता के जवाब में, विभिन्न कंपनियों ने बिग डेटा विश्लेषण टूल बनाए हैं। बिग डेटा विश्लेषण टूल में ZOHO Analytics, Cloudera, और Microsoft BI जैसी प्रणालियाँ शामिल हैं।












