कृत्रिम बुद्धिमत्ता

बिग डेटा क्या है?

Published December 20, 2019

Updated March 17, 2026

Daniel Nelson

बिग डेटा क्या है?

“बिग डेटा” हमारे वर्तमान युग के आमतौर पर इस्तेमाल होने वाले बज़ वर्ड्स में से एक है, लेकिन इसका वास्तव में क्या अर्थ है? यहाँ बिग डेटा की एक त्वरित, सरल परिभाषा दी गई है। बिग डेटा वह डेटा है जो पारंपरिक डेटा प्रोसेसिंग और भंडारण विधियों द्वारा संभालने के लिए बहुत बड़ा और जटिल है। हालाँकि यह एक त्वरित परिभाषा है जिसे आप एक अनुमानी के रूप में उपयोग कर सकते हैं, लेकिन बिग डेटा की गहरी, अधिक पूर्ण समझ होना सहायक होगा। आइए बिग डेटा के आधार में निहित कुछ अवधारणाओं पर एक नज़र डालें, जैसे भंडारण, संरचना और प्रसंस्करण।

बिग डेटा कितना बड़ा होता है?

यह इतना सरल नहीं है कि “आकार ‘X’ से अधिक का कोई भी डेटा बिग डेटा है” कहा जाए, डेटा जिस वातावरण में संभाला जा रहा है वह यह निर्धारित करने में कि क्या बिग डेटा के योग्य है एक अत्यंत महत्वपूर्ण कारक है। डेटा का वह आकार जो बिग डेटा माने जाने के लिए आवश्यक है, संदर्भ या उस कार्य पर निर्भर करता है जिसमें डेटा का उपयोग किया जा रहा है। बहुत अलग-अलग आकार के दो डेटासेट अलग-अलग संदर्भों में “बिग डेटा” माने जा सकते हैं। अधिक ठोस होने के लिए, यदि आप 200-मेगाबाइट की फ़ाइल को ईमेल अटैचमेंट के रूप में भेजने का प्रयास करते हैं, तो आप ऐसा करने में सक्षम नहीं होंगे। इस संदर्भ में, 200-मेगाबाइट की फ़ाइल को बिग डेटा माना जा सकता है। इसके विपरीत, एक ही LAN के भीतर किसी अन्य डिवाइस पर 200-मेगाबाइट की फ़ाइल की प्रतिलिपि बनाने में शायद कोई समय नहीं लगेगा, और उस संदर्भ में, इसे बिग डेटा नहीं माना जाएगा। हालाँकि, मान लीजिए कि कंप्यूटर विज़न एप्लिकेशन के प्रशिक्षण में उपयोग के लिए 15 टेराबाइट के वीडियो को प्री-प्रोसेस करने की आवश्यकता है। इस मामले में, वीडियो फ़ाइलें इतनी जगह लेती हैं कि एक शक्तिशाली कंप्यूटर को भी उन सभी को प्रोसेस करने में लंबा समय लगेगा, और इसलिए प्रोसेसिंग समय कम करने के लिए प्रसंस्करण को आमतौर पर एक साथ जुड़े कई कंप्यूटरों में वितरित किया जाता है। वीडियो डेटा के ये 15 टेराबाइट निश्चित रूप से बिग डेटा के योग्य होंगे।

बिग डेटा संरचनाओं के प्रकार

बिग डेटा संरचना की तीन अलग-अलग श्रेणियों में आता है: असंरचित डेटा, अर्ध-संरचित डेटा और संरचित डेटा। असंरचित डेटा वह डेटा है जिसमें कोई परिभाषित संरचना नहीं होती है, जिसका अर्थ है कि डेटा अनिवार्य रूप से सिर्फ एक बड़े पूल में होता है। असंरचित डेटा के उदाहरण बिना लेबल वाली छवियों से भरा एक डेटाबेस होगा। अर्ध-संरचित डेटा वह डेटा है जिसमें एक औपचारिक संरचना नहीं होती है, लेकिन एक ढीली संरचना के भीतर मौजूद होता है। उदाहरण के लिए, ईमेल डेटा को अर्ध-संरचित डेटा के रूप में गिना जा सकता है, क्योंकि आप व्यक्तिगत ईमेल में निहित डेटा का उल्लेख कर सकते हैं, लेकिन औपचारिक डेटा पैटर्न स्थापित नहीं किए गए हैं। संरचित डेटा वह डेटा है जिसमें एक औपचारिक संरचना होती है, जिसमें डेटा बिंदुओं को विभिन्न विशेषताओं द्वारा वर्गीकृत किया जाता है। संरचित डेटा का एक उदाहरण एक्सेल स्प्रेडशीट है जिसमें नाम, ईमेल, फ़ोन नंबर और वेबसाइट जैसी संपर्क जानकारी होती है। यदि आप इन डेटा प्रकारों के अंतर के बारे में अधिक पढ़ना चाहते हैं, तो यहां दिए गए लिंक को देखें।

बिग डेटा का आकलन करने के मापदंड

बिग डेटा का विश्लेषण तीन अलग-अलग मापदंडों के संदर्भ में किया जा सकता है: वॉल्यूम, वेलोसिटी और वैरायटी। वॉल्यूम डेटा के आकार को संदर्भित करता है। डेटासेट का औसत आकार अक्सर बढ़ रहा है। उदाहरण के लिए, 2006 में सबसे बड़ी हार्ड ड्राइव 750 जीबी की हार्ड ड्राइव थी। इसके विपरीत, माना जाता है कि Facebook एक दिन में 500 टेराबाइट से अधिक डेटा उत्पन्न करता है और आज उपलब्ध सबसे बड़ी उपभोक्ता हार्ड ड्राइव 16 टेराबाइट की हार्ड ड्राइव है। एक युग में जो बिग डेटा के रूप में योग्य है, वह दूसरे युग में बिग डेटा नहीं हो सकता है। आज अधिक डेटा उत्पन्न होता है क्योंकि हमारे आसपास की अधिक से अधिक वस्तुएं सेंसर, कैमरा, माइक्रोफोन और अन्य डेटा संग्रह उपकरणों से लैस हैं। वेलोसिटी इस बात को संदर्भित करती है कि डेटा कितनी तेजी से आगे बढ़ रहा है, या दूसरे शब्दों में कहें तो किसी दिए गए समय अवधि के भीतर कितना डेटा उत्पन्न होता है। सोशल मीडिया स्ट्रीम हर मिनट सैकड़ों हज़ारों पोस्ट और टिप्पणियाँ उत्पन्न करती हैं, जबकि आपके अपने ईमेल इनबॉक्स में शायद बहुत कम गतिविधि होगी। बिग डेटा स्ट्रीम वे स्ट्रीम हैं जो अक्सर कमोबेश रियल-टाइम में सैकड़ों हज़ारों या लाखों घटनाओं को संभालती हैं। इन डेटा स्ट्रीम के उदाहरण ऑनलाइन गेमिंग प्लेटफ़ॉर्म और हाई-फ़्रीक्वेंसी स्टॉक ट्रेडिंग एल्गोरिदम हैं। वैरायटी डेटासेट के भीतर निहित डेटा के विभिन्न प्रकारों को संदर्भित करती है। डेटा कई अलग-अलग प्रारूपों से बना हो सकता है, जैसे ऑडियो, वीडियो, टेक्स्ट, फ़ोटो या सीरियल नंबर। सामान्य तौर पर, पारंपरिक डेटाबेस एक, या बस कुछ प्रकार के डेटा को संभालने के लिए स्वरूपित होते हैं। दूसरे शब्दों में कहें तो, पारंपरिक डेटाबेस उस डेटा को रखने के लिए संरचित होते हैं जो काफी सजातीय और सुसंगत, पूर्वानुमानित संरचना का होता है। जैसे-जैसे एप्लिकेशन अधिक विविध, विभिन्न सुविधाओं से भरे हुए और अधिक लोगों द्वारा उपयोग किए जाते हैं, डेटाबेस को अधिक प्रकार के डेटा को संग्रहीत करने के लिए विकसित होना पड़ा है। असंरचित डेटाबेस बिग डेटा को रखने के लिए आदर्श हैं, क्योंकि वे कई डेटा प्रकार रख सकते हैं जो एक दूसरे से संबंधित नहीं हैं।

बिग डेटा को संभालने की विधियाँ

बिग डेटा के विश्लेषण को सुविधाजनक बनाने के लिए डिज़ाइन किए गए कई अलग-अलग प्लेटफ़ॉर्म और टूल हैं। डेटा से सार्थक पैटर्न निकालने के लिए बिग डेटा पूल का विश्लेषण करने की आवश्यकता होती है, एक ऐसा कार्य जो पारंपरिक डेटा विश्लेषण टूल के साथ काफी चुनौतीपूर्ण साबित हो सकता है। बड़ी मात्रा में डेटा के विश्लेषण के लिए टूल की आवश्यकता के जवाब में, विभिन्न कंपनियों ने बिग डेटा विश्लेषण टूल बनाए हैं। बिग डेटा विश्लेषण टूल में ZOHO Analytics, Cloudera, और Microsoft BI जैसी प्रणालियाँ शामिल हैं।