рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдмрд┐рдЧ рдбреЗрдЯрд╛ рдХреНрдпрд╛ рд╣реИ?

बिग डेटा क्या है?
“बिग डेटा” हमारे वर्तमान युग के सामान्य रूप से उपयोग किए जाने वाले शब्दों में से एक है, लेकिन इसका वास्तव में क्या अर्थ है?
बिग डेटा की एक त्वरित, सरल परिभाषा यह है। बिग डेटा डेटा है जो पारंपरिक डेटा प्रोसेसिंग और स्टोरेज विधियों द्वारा संभाला जाने के लिए बहुत बड़ा और जटिल है। जबकि यह एक त्वरित परिभाषा है जिसका उपयोग आप एक सुराग के रूप में कर सकते हैं, बिग डेटा की एक गहरी, अधिक पूर्ण समझ प्राप्त करना उपयोगी होगा। आइए बिग डेटा के अंतर्निहित कुछ अवधारणाओं पर एक नज़र डालें, जैसे कि स्टोरेज, संरचना, और प्रोसेसिंग।
बिग डेटा कितना बड़ा है?
यह इतना सरल नहीं है कि कहा जाए “किसी भी डेटा का आकार ‘एक्स’ से बड़ा है तो यह बिग डेटा है”, डेटा को संभाला जा रहा है उस पर्यावरण में एक अत्यंत महत्वपूर्ण कारक है बिग डेटा के रूप में क्या योग्य है यह निर्धारित करने में. डेटा को बिग डेटा माने जाने के लिए कितना बड़ा होना चाहिए, यह संदर्भ, या डेटा का उपयोग किए जा रहे कार्य पर निर्भर करता है। दो डेटासेट जो आकार में बहुत भिन्न हो सकते हैं, विभिन्न संदर्भों में “बिग डेटा” माने जा सकते हैं।
अधिक कंक्रीट के लिए, यदि आप एक 200-मेगाबाइट फ़ाइल को एक ईमेल अनुलग्नक के रूप में भेजने का प्रयास करते हैं, तो आप ऐसा नहीं कर पाएंगे। इस संदर्भ में, 200-मेगाबाइट फ़ाइल को बिग डेटा माना जा सकता है। इसके विपरीत, एक ही लैन के भीतर एक डिवाइस से दूसरे डिवाइस पर 200-मेगाबाइट फ़ाइल की प्रतिलिपि बनाने में कोई समय नहीं लगेगा, और उस संदर्भ में, यह बिग डेटा नहीं माना जाएगा।
हालांकि, मान लें कि 15 टेराबाइट्स के वीडियो को कंप्यूटर विजन अनुप्रयोगों में प्रशिक्षण के लिए प्री-प्रोसेस करने की आवश्यकता है। इस मामले में, वीडियो फ़ाइलें इतनी जगह घेरती हैं कि даже एक शक्तिशाली कंप्यूटर को उन सभी को संसाधित करने में लंबा समय लगेगा, और इसलिए प्रोसेसिंग को सामान्य रूप से कई कंप्यूटरों में वितरित किया जाएगा जो एक साथ जुड़े हुए हैं ताकि प्रोसेसिंग समय कम हो सके। ये 15 टेराबाइट्स के वीडियो डेटा निश्चित रूप से बिग डेटा के रूप में योग्य होंगे।
बिग डेटा संरचनाओं के प्रकार
बिग डेटा तीन अलग-अलग श्रेणियों में आता है: अनस्ट्रक्चर्ड डेटा, सेमी-स्ट्रक्चर्ड, और स्ट्रक्चर्ड डेटा।
अनस्ट्रक्चर्ड डेटा वह डेटा है जिसमें कोई परिभाषित संरचना नहीं है, जिसका अर्थ है कि डेटा मूल रूप से एक बड़े पूल में है। अनस्ट्रक्चर्ड डेटा के उदाहरणों में एक डेटाबेस भरा हुआ है जिसमें अनलेबल्ड इमेज हैं।
सेमी-स्ट्रक्चर्ड डेटा वह डेटा है जिसमें कोई औपचारिक संरचना नहीं है, लेकिन एक ढीली संरचना के भीतर मौजूद है। उदाहरण के लिए, ईमेल डेटा सेमी-स्ट्रक्चर्ड डेटा के रूप में गिना जा सकता है, क्योंकि आप व्यक्तिगत ईमेल में निहित डेटा को संदर्भित कर सकते हैं, लेकिन औपचारिक डेटा पैटर्न स्थापित नहीं किए गए हैं।
स्ट्रक्चर्ड डेटा वह डेटा है जिसमें एक औपचारिक संरचना है, जिसमें डेटा बिंदु विभिन्न विशेषताओं द्वारा श्रेणीबद्ध होते हैं। स्ट्रक्चर्ड डेटा का एक उदाहरण एक एक्सेल स्प्रेडशीट है जिसमें नाम, ईमेल, फोन नंबर, और वेबसाइट जैसी संपर्क जानकारी होती है।
यदि आप इन डेटा प्रकारों के अंतर के बारे में अधिक पढ़ना चाहते हैं, तो लिंक यहां देखें।
बिग डेटा का मूल्यांकन करने के लिए मीट्रिक
बिग डेटा को तीन अलग-अलग मीट्रिक के संदर्भ में विश्लेषित किया जा सकता है: वॉल्यूम, वेलोसिटी, और वेराइटी।
वॉल्यूम डेटा के आकार को संदर्भित करता है। औसत डेटासेट का आकार अक्सर बढ़ रहा है। उदाहरण के लिए, 2006 में सबसे बड़ा हार्ड ड्राइव 750 जीबी हार्ड ड्राइव था। इसके विपरीत, फेसबुक को एक दिन में 500 टेराबाइट्स से अधिक डेटा उत्पन्न करने के लिए सोचा जाता है और आज उपलब्ध सबसे बड़ा कंज्यूमर हार्ड ड्राइव 16 टेराबाइट हार्ड ड्राइव है। एक युग में जो बिग डेटा के रूप में योग्य हो सकता है वह दूसरे युग में बिग डेटा नहीं हो सकता है। अधिक डेटा आज उत्पन्न किया जा रहा है क्योंकि हमारे आसपास के अधिक से अधिक वस्तुओं में सेंसर, कैमरे, माइक्रोफोन, और अन्य डेटा संग्रह उपकरण लगे हुए हैं।
वेलोसिटी डेटा की गति को संदर्भित करता है, या दूसरे शब्दों में, एक निश्चित अवधि में कितना डेटा उत्पन्न किया जा रहा है। सोशल मीडिया स्ट्रीम प्रति मिनट सैकड़ों हजारों पोस्ट और टिप्पणियां उत्पन्न करती हैं, जबकि आपका अपना ईमेल इनबॉक्स शायद बहुत कम गतिविधि होगी। बिग डेटा स्ट्रीम वे स्ट्रीम होते हैं जो अक्सर वास्तविक समय में सैकड़ों हजारों या लाखों घटनाओं को संभालते हैं। इन डेटा स्ट्रीम के उदाहरणों में ऑनलाइन गेमिंग प्लेटफ़ॉर्म और हाई-फ़्रीक्वेंसी स्टॉक ट्रेडिंग एल्गोरिदम शामिल हैं।
वेराइटी डेटा के विभिन्न प्रकार को संदर्भित करता है जो डेटासेट के भीतर निहित हैं। डेटा कई अलग-अलग प्रारूपों से बना हो सकता है, जैसे कि ऑडियो, वीडियो, टेक्स्ट, फोटो, या सीरियल नंबर।一般 रूप से, पारंपरिक डेटाबेस एक या दो प्रकार के डेटा को संभालने के लिए संरचित होते हैं। दूसरे शब्दों में, पारंपरिक डेटाबेस संरचित होते हैं ताकि वे समान और नियमित, अनुमानित संरचना वाले डेटा को धारण कर सकें। जैसे-जैसे अनुप्रयोग अधिक विविध होते जा रहे हैं, विभिन्न विशेषताओं से भरे हुए हैं, और अधिक लोगों द्वारा उपयोग किए जा रहे हैं, डेटाबेस को अधिक प्रकार के डेटा को संग्रहीत करने के लिए विकसित करना पड़ा है। अनस्ट्रक्चर्ड डेटाबेस बिग डेटा को धारण करने के लिए आदर्श हैं, क्योंकि वे एक दूसरे से संबंधित नहीं होने वाले कई डेटा प्रकारों को धारण कर सकते हैं।
बिग डेटा को संभालने के तरीके
बिग डेटा का विश्लेषण करने के लिए कई अलग-अलग प्लेटफ़ॉर्म और टूल डिज़ाइन किए गए हैं। बिग डेटा पूल को विश्लेषित करने की आवश्यकता है ताकि डेटा से अर्थपूर्ण पैटर्न निकाले जा सकें, एक कार्य जो पारंपरिक डेटा विश्लेषण टूल के साथ काफी चुनौतीपूर्ण साबित हो सकता है। बिग डेटा का विश्लेषण करने के लिए टूल की आवश्यकता के जवाब में, कई कंपनियों ने बिग डेटा विश्लेषण टूल बनाए हैं। बिग डेटा विश्लेषण टूल में ZOHO Analytics, Cloudera, और Microsoft BI जैसे सिस्टम शामिल हैं।












