कृत्रिम बुद्धिमत्ता

बिग डेटा क्या है?

Published December 20, 2019

Updated April 28, 2026

Daniel Nelson

बिग डेटा क्या है?

“बिग डेटा” हमारे वर्तमान युग के सामान्य रूप से उपयोग किए जाने वाले शब्दों में से एक है, लेकिन इसका वास्तव में क्या अर्थ है?
बिग डेटा की एक त्वरित, सरल परिभाषा यह है। बिग डेटा डेटा है जो पारंपरिक डेटा प्रोसेसिंग और स्टोरेज विधियों द्वारा संभाला जाने के लिए बहुत बड़ा और जटिल है। जबकि यह एक त्वरित परिभाषा है जिसका उपयोग आप एक सुराग के रूप में कर सकते हैं, बिग डेटा की एक गहरी, अधिक पूर्ण समझ प्राप्त करना उपयोगी होगा। आइए बिग डेटा के अंतर्निहित कुछ अवधारणाओं पर एक नज़र डालें, जैसे कि स्टोरेज, संरचना, और प्रोसेसिंग।

बिग डेटा कितना बड़ा है?

यह इतना सरल नहीं है कि कहा जाए “किसी भी डेटा का आकार ‘एक्स’ से बड़ा है तो यह बिग डेटा है”, डेटा को संभाला जा रहा है उस पर्यावरण में एक अत्यंत महत्वपूर्ण कारक है बिग डेटा के रूप में क्या योग्य है यह निर्धारित करने में. डेटा को बिग डेटा माने जाने के लिए कितना बड़ा होना चाहिए, यह संदर्भ, या डेटा का उपयोग किए जा रहे कार्य पर निर्भर करता है। दो डेटासेट जो आकार में बहुत भिन्न हो सकते हैं, विभिन्न संदर्भों में “बिग डेटा” माने जा सकते हैं।
अधिक कंक्रीट के लिए, यदि आप एक 200-मेगाबाइट फ़ाइल को एक ईमेल अनुलग्नक के रूप में भेजने का प्रयास करते हैं, तो आप ऐसा नहीं कर पाएंगे। इस संदर्भ में, 200-मेगाबाइट फ़ाइल को बिग डेटा माना जा सकता है। इसके विपरीत, एक ही लैन के भीतर एक डिवाइस से दूसरे डिवाइस पर 200-मेगाबाइट फ़ाइल की प्रतिलिपि बनाने में कोई समय नहीं लगेगा, और उस संदर्भ में, यह बिग डेटा नहीं माना जाएगा।
हालांकि, मान लें कि 15 टेराबाइट्स के वीडियो को कंप्यूटर विजन अनुप्रयोगों में प्रशिक्षण के लिए प्री-प्रोसेस करने की आवश्यकता है। इस मामले में, वीडियो फ़ाइलें इतनी जगह घेरती हैं कि даже एक शक्तिशाली कंप्यूटर को उन सभी को संसाधित करने में लंबा समय लगेगा, और इसलिए प्रोसेसिंग को सामान्य रूप से कई कंप्यूटरों में वितरित किया जाएगा जो एक साथ जुड़े हुए हैं ताकि प्रोसेसिंग समय कम हो सके। ये 15 टेराबाइट्स के वीडियो डेटा निश्चित रूप से बिग डेटा के रूप में योग्य होंगे।

बिग डेटा संरचनाओं के प्रकार

बिग डेटा तीन अलग-अलग श्रेणियों में आता है: अनस्ट्रक्चर्ड डेटा, सेमी-स्ट्रक्चर्ड, और स्ट्रक्चर्ड डेटा।
अनस्ट्रक्चर्ड डेटा वह डेटा है जिसमें कोई परिभाषित संरचना नहीं है, जिसका अर्थ है कि डेटा मूल रूप से एक बड़े पूल में है। अनस्ट्रक्चर्ड डेटा के उदाहरणों में एक डेटाबेस भरा हुआ है जिसमें अनलेबल्ड इमेज हैं।
सेमी-स्ट्रक्चर्ड डेटा वह डेटा है जिसमें कोई औपचारिक संरचना नहीं है, लेकिन एक ढीली संरचना के भीतर मौजूद है। उदाहरण के लिए, ईमेल डेटा सेमी-स्ट्रक्चर्ड डेटा के रूप में गिना जा सकता है, क्योंकि आप व्यक्तिगत ईमेल में निहित डेटा को संदर्भित कर सकते हैं, लेकिन औपचारिक डेटा पैटर्न स्थापित नहीं किए गए हैं।
स्ट्रक्चर्ड डेटा वह डेटा है जिसमें एक औपचारिक संरचना है, जिसमें डेटा बिंदु विभिन्न विशेषताओं द्वारा श्रेणीबद्ध होते हैं। स्ट्रक्चर्ड डेटा का एक उदाहरण एक एक्सेल स्प्रेडशीट है जिसमें नाम, ईमेल, फोन नंबर, और वेबसाइट जैसी संपर्क जानकारी होती है।
यदि आप इन डेटा प्रकारों के अंतर के बारे में अधिक पढ़ना चाहते हैं, तो लिंक यहां देखें।

बिग डेटा का मूल्यांकन करने के लिए मीट्रिक

बिग डेटा को तीन अलग-अलग मीट्रिक के संदर्भ में विश्लेषित किया जा सकता है: वॉल्यूम, वेलोसिटी, और वेराइटी।
वॉल्यूम डेटा के आकार को संदर्भित करता है। औसत डेटासेट का आकार अक्सर बढ़ रहा है। उदाहरण के लिए, 2006 में सबसे बड़ा हार्ड ड्राइव 750 जीबी हार्ड ड्राइव था। इसके विपरीत, फेसबुक को एक दिन में 500 टेराबाइट्स से अधिक डेटा उत्पन्न करने के लिए सोचा जाता है और आज उपलब्ध सबसे बड़ा कंज्यूमर हार्ड ड्राइव 16 टेराबाइट हार्ड ड्राइव है। एक युग में जो बिग डेटा के रूप में योग्य हो सकता है वह दूसरे युग में बिग डेटा नहीं हो सकता है। अधिक डेटा आज उत्पन्न किया जा रहा है क्योंकि हमारे आसपास के अधिक से अधिक वस्तुओं में सेंसर, कैमरे, माइक्रोफोन, और अन्य डेटा संग्रह उपकरण लगे हुए हैं।
वेलोसिटी डेटा की गति को संदर्भित करता है, या दूसरे शब्दों में, एक निश्चित अवधि में कितना डेटा उत्पन्न किया जा रहा है। सोशल मीडिया स्ट्रीम प्रति मिनट सैकड़ों हजारों पोस्ट और टिप्पणियां उत्पन्न करती हैं, जबकि आपका अपना ईमेल इनबॉक्स शायद बहुत कम गतिविधि होगी। बिग डेटा स्ट्रीम वे स्ट्रीम होते हैं जो अक्सर वास्तविक समय में सैकड़ों हजारों या लाखों घटनाओं को संभालते हैं। इन डेटा स्ट्रीम के उदाहरणों में ऑनलाइन गेमिंग प्लेटफ़ॉर्म और हाई-फ़्रीक्वेंसी स्टॉक ट्रेडिंग एल्गोरिदम शामिल हैं।
वेराइटी डेटा के विभिन्न प्रकार को संदर्भित करता है जो डेटासेट के भीतर निहित हैं। डेटा कई अलग-अलग प्रारूपों से बना हो सकता है, जैसे कि ऑडियो, वीडियो, टेक्स्ट, फोटो, या सीरियल नंबर।一般 रूप से, पारंपरिक डेटाबेस एक या दो प्रकार के डेटा को संभालने के लिए संरचित होते हैं। दूसरे शब्दों में, पारंपरिक डेटाबेस संरचित होते हैं ताकि वे समान और नियमित, अनुमानित संरचना वाले डेटा को धारण कर सकें। जैसे-जैसे अनुप्रयोग अधिक विविध होते जा रहे हैं, विभिन्न विशेषताओं से भरे हुए हैं, और अधिक लोगों द्वारा उपयोग किए जा रहे हैं, डेटाबेस को अधिक प्रकार के डेटा को संग्रहीत करने के लिए विकसित करना पड़ा है। अनस्ट्रक्चर्ड डेटाबेस बिग डेटा को धारण करने के लिए आदर्श हैं, क्योंकि वे एक दूसरे से संबंधित नहीं होने वाले कई डेटा प्रकारों को धारण कर सकते हैं।

बिग डेटा को संभालने के तरीके

बिग डेटा का विश्लेषण करने के लिए कई अलग-अलग प्लेटफ़ॉर्म और टूल डिज़ाइन किए गए हैं। बिग डेटा पूल को विश्लेषित करने की आवश्यकता है ताकि डेटा से अर्थपूर्ण पैटर्न निकाले जा सकें, एक कार्य जो पारंपरिक डेटा विश्लेषण टूल के साथ काफी चुनौतीपूर्ण साबित हो सकता है। बिग डेटा का विश्लेषण करने के लिए टूल की आवश्यकता के जवाब में, कई कंपनियों ने बिग डेटा विश्लेषण टूल बनाए हैं। बिग डेटा विश्लेषण टूल में ZOHO Analytics, Cloudera, और Microsoft BI जैसे सिस्टम शामिल हैं।

Daniel Nelson

ब्लॉगर और प्रोग्रामर जिनकी विशेषज्ञता मैशीन लर्निंग और डीप लर्निंग विषयों में है। डैनियल दूसरों को सामाजिक कल्याण के लिए एआई की शक्ति का उपयोग करने में मदद करना चाहता है।

Unite.AI

बिग डेटा क्या है?

बिग डेटा क्या है?

बिग डेटा कितना बड़ा है?

बिग डेटा संरचनाओं के प्रकार

बिग डेटा का मूल्यांकन करने के लिए मीट्रिक

बिग डेटा को संभालने के तरीके

You may like