Connect with us

рдмрд┐рдЧ рдбреЗрдЯрд╛ рдХреНрдпрд╛ рд╣реИ?

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдмрд┐рдЧ рдбреЗрдЯрд╛ рдХреНрдпрд╛ рд╣реИ?

mm

बिग डेटा क्या है?

“बिग डेटा” हमारे वर्तमान युग के सामान्य रूप से उपयोग किए जाने वाले शब्दों में से एक है, लेकिन इसका वास्तव में क्या अर्थ है?
बिग डेटा की एक त्वरित, सरल परिभाषा यह है। बिग डेटा डेटा है जो पारंपरिक डेटा प्रोसेसिंग और स्टोरेज विधियों द्वारा संभाला जाने के लिए बहुत बड़ा और जटिल है। जबकि यह एक त्वरित परिभाषा है जिसका उपयोग आप एक सुराग के रूप में कर सकते हैं, बिग डेटा की एक गहरी, अधिक पूर्ण समझ प्राप्त करना उपयोगी होगा। आइए बिग डेटा के अंतर्निहित कुछ अवधारणाओं पर एक नज़र डालें, जैसे कि स्टोरेज, संरचना, और प्रोसेसिंग।

बिग डेटा कितना बड़ा है?

यह इतना सरल नहीं है कि कहा जाए “किसी भी डेटा का आकार ‘एक्स’ से बड़ा है तो यह बिग डेटा है”, डेटा को संभाला जा रहा है उस पर्यावरण में एक अत्यंत महत्वपूर्ण कारक है बिग डेटा के रूप में क्या योग्य है यह निर्धारित करने में. डेटा को बिग डेटा माने जाने के लिए कितना बड़ा होना चाहिए, यह संदर्भ, या डेटा का उपयोग किए जा रहे कार्य पर निर्भर करता है। दो डेटासेट जो आकार में बहुत भिन्न हो सकते हैं, विभिन्न संदर्भों में “बिग डेटा” माने जा सकते हैं।
अधिक कंक्रीट के लिए, यदि आप एक 200-मेगाबाइट फ़ाइल को एक ईमेल अनुलग्नक के रूप में भेजने का प्रयास करते हैं, तो आप ऐसा नहीं कर पाएंगे। इस संदर्भ में, 200-मेगाबाइट फ़ाइल को बिग डेटा माना जा सकता है। इसके विपरीत, एक ही लैन के भीतर एक डिवाइस से दूसरे डिवाइस पर 200-मेगाबाइट फ़ाइल की प्रतिलिपि बनाने में कोई समय नहीं लगेगा, और उस संदर्भ में, यह बिग डेटा नहीं माना जाएगा।
हालांकि, मान लें कि 15 टेराबाइट्स के वीडियो को कंप्यूटर विजन अनुप्रयोगों में प्रशिक्षण के लिए प्री-प्रोसेस करने की आवश्यकता है। इस मामले में, वीडियो फ़ाइलें इतनी जगह घेरती हैं कि даже एक शक्तिशाली कंप्यूटर को उन सभी को संसाधित करने में लंबा समय लगेगा, और इसलिए प्रोसेसिंग को सामान्य रूप से कई कंप्यूटरों में वितरित किया जाएगा जो एक साथ जुड़े हुए हैं ताकि प्रोसेसिंग समय कम हो सके। ये 15 टेराबाइट्स के वीडियो डेटा निश्चित रूप से बिग डेटा के रूप में योग्य होंगे।

बिग डेटा संरचनाओं के प्रकार

बिग डेटा तीन अलग-अलग श्रेणियों में आता है: अनस्ट्रक्चर्ड डेटा, सेमी-स्ट्रक्चर्ड, और स्ट्रक्चर्ड डेटा।
अनस्ट्रक्चर्ड डेटा वह डेटा है जिसमें कोई परिभाषित संरचना नहीं है, जिसका अर्थ है कि डेटा मूल रूप से एक बड़े पूल में है। अनस्ट्रक्चर्ड डेटा के उदाहरणों में एक डेटाबेस भरा हुआ है जिसमें अनलेबल्ड इमेज हैं।
सेमी-स्ट्रक्चर्ड डेटा वह डेटा है जिसमें कोई औपचारिक संरचना नहीं है, लेकिन एक ढीली संरचना के भीतर मौजूद है। उदाहरण के लिए, ईमेल डेटा सेमी-स्ट्रक्चर्ड डेटा के रूप में गिना जा सकता है, क्योंकि आप व्यक्तिगत ईमेल में निहित डेटा को संदर्भित कर सकते हैं, लेकिन औपचारिक डेटा पैटर्न स्थापित नहीं किए गए हैं।
स्ट्रक्चर्ड डेटा वह डेटा है जिसमें एक औपचारिक संरचना है, जिसमें डेटा बिंदु विभिन्न विशेषताओं द्वारा श्रेणीबद्ध होते हैं। स्ट्रक्चर्ड डेटा का एक उदाहरण एक एक्सेल स्प्रेडशीट है जिसमें नाम, ईमेल, फोन नंबर, और वेबसाइट जैसी संपर्क जानकारी होती है।
यदि आप इन डेटा प्रकारों के अंतर के बारे में अधिक पढ़ना चाहते हैं, तो लिंक यहां देखें।

बिग डेटा का मूल्यांकन करने के लिए मीट्रिक

बिग डेटा को तीन अलग-अलग मीट्रिक के संदर्भ में विश्लेषित किया जा सकता है: वॉल्यूम, वेलोसिटी, और वेराइटी।
वॉल्यूम डेटा के आकार को संदर्भित करता है। औसत डेटासेट का आकार अक्सर बढ़ रहा है। उदाहरण के लिए, 2006 में सबसे बड़ा हार्ड ड्राइव 750 जीबी हार्ड ड्राइव था। इसके विपरीत, फेसबुक को एक दिन में 500 टेराबाइट्स से अधिक डेटा उत्पन्न करने के लिए सोचा जाता है और आज उपलब्ध सबसे बड़ा कंज्यूमर हार्ड ड्राइव 16 टेराबाइट हार्ड ड्राइव है। एक युग में जो बिग डेटा के रूप में योग्य हो सकता है वह दूसरे युग में बिग डेटा नहीं हो सकता है। अधिक डेटा आज उत्पन्न किया जा रहा है क्योंकि हमारे आसपास के अधिक से अधिक वस्तुओं में सेंसर, कैमरे, माइक्रोफोन, और अन्य डेटा संग्रह उपकरण लगे हुए हैं।
वेलोसिटी डेटा की गति को संदर्भित करता है, या दूसरे शब्दों में, एक निश्चित अवधि में कितना डेटा उत्पन्न किया जा रहा है। सोशल मीडिया स्ट्रीम प्रति मिनट सैकड़ों हजारों पोस्ट और टिप्पणियां उत्पन्न करती हैं, जबकि आपका अपना ईमेल इनबॉक्स शायद बहुत कम गतिविधि होगी। बिग डेटा स्ट्रीम वे स्ट्रीम होते हैं जो अक्सर वास्तविक समय में सैकड़ों हजारों या लाखों घटनाओं को संभालते हैं। इन डेटा स्ट्रीम के उदाहरणों में ऑनलाइन गेमिंग प्लेटफ़ॉर्म और हाई-फ़्रीक्वेंसी स्टॉक ट्रेडिंग एल्गोरिदम शामिल हैं।
वेराइटी डेटा के विभिन्न प्रकार को संदर्भित करता है जो डेटासेट के भीतर निहित हैं। डेटा कई अलग-अलग प्रारूपों से बना हो सकता है, जैसे कि ऑडियो, वीडियो, टेक्स्ट, फोटो, या सीरियल नंबर।一般 रूप से, पारंपरिक डेटाबेस एक या दो प्रकार के डेटा को संभालने के लिए संरचित होते हैं। दूसरे शब्दों में, पारंपरिक डेटाबेस संरचित होते हैं ताकि वे समान और नियमित, अनुमानित संरचना वाले डेटा को धारण कर सकें। जैसे-जैसे अनुप्रयोग अधिक विविध होते जा रहे हैं, विभिन्न विशेषताओं से भरे हुए हैं, और अधिक लोगों द्वारा उपयोग किए जा रहे हैं, डेटाबेस को अधिक प्रकार के डेटा को संग्रहीत करने के लिए विकसित करना पड़ा है। अनस्ट्रक्चर्ड डेटाबेस बिग डेटा को धारण करने के लिए आदर्श हैं, क्योंकि वे एक दूसरे से संबंधित नहीं होने वाले कई डेटा प्रकारों को धारण कर सकते हैं।

बिग डेटा को संभालने के तरीके

बिग डेटा का विश्लेषण करने के लिए कई अलग-अलग प्लेटफ़ॉर्म और टूल डिज़ाइन किए गए हैं। बिग डेटा पूल को विश्लेषित करने की आवश्यकता है ताकि डेटा से अर्थपूर्ण पैटर्न निकाले जा सकें, एक कार्य जो पारंपरिक डेटा विश्लेषण टूल के साथ काफी चुनौतीपूर्ण साबित हो सकता है। बिग डेटा का विश्लेषण करने के लिए टूल की आवश्यकता के जवाब में, कई कंपनियों ने बिग डेटा विश्लेषण टूल बनाए हैं। बिग डेटा विश्लेषण टूल में ZOHO Analytics, Cloudera, और Microsoft BI जैसे सिस्टम शामिल हैं।

рдмреНрд▓реЙрдЧрд░ рдФрд░ рдкреНрд░реЛрдЧреНрд░рд╛рдорд░ рдЬрд┐рдирдХреА рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдореИрд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рд╡рд┐рд╖рдпреЛрдВ рдореЗрдВ рд╣реИред рдбреИрдирд┐рдпрд▓ рджреВрд╕рд░реЛрдВ рдХреЛ рд╕рд╛рдорд╛рдЬрд┐рдХ рдХрд▓реНрдпрд╛рдг рдХреЗ рд▓рд┐рдП рдПрдЖрдИ рдХреА рд╢рдХреНрддрд┐ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реИред