ठूंठ डेटा साइंस क्या है? - यूनाइट.एआई
हमसे जुडे
एआई मास्टरक्लास:

एआई 101

डेटा साइंस क्या है?

mm
Updated on

ऐसा लगता है कि डेटा विज्ञान का क्षेत्र हर दिन बड़ा और अधिक लोकप्रिय होता जा रहा है। लिंक्डइन के अनुसार, डेटा साइंस 2017 में सबसे तेजी से बढ़ते नौकरी क्षेत्रों में से एक था और 2020 में ग्लासडोर ने डेटा साइंस के कार्य को स्थान दिया संयुक्त राज्य अमेरिका में तीन सर्वोत्तम नौकरियों में से एक. डेटा विज्ञान की बढ़ती लोकप्रियता को देखते हुए, इसमें कोई आश्चर्य की बात नहीं है कि अधिक लोग इस क्षेत्र में रुचि ले रहे हैं। फिर भी वास्तव में डेटा विज्ञान क्या है?

आइए डेटा विज्ञान से परिचित हों, डेटा विज्ञान को परिभाषित करने में कुछ समय लें, पता लगाएं कि बड़ा डेटा और कृत्रिम बुद्धिमत्ता क्षेत्र को कैसे बदल रही है, कुछ सामान्य डेटा विज्ञान उपकरणों के बारे में जानें और डेटा विज्ञान के कुछ उदाहरणों की जांच करें।

डेटा साइंस क्या है?

इससे पहले कि हम किसी भी डेटा विज्ञान उपकरण या उदाहरण का पता लगा सकें, हम इसकी एक संक्षिप्त परिभाषा प्राप्त करना चाहेंगे डेटा विज्ञान.

"डेटा विज्ञान" को परिभाषित करना वास्तव में थोड़ा मुश्किल है, क्योंकि यह शब्द कई अलग-अलग कार्यों और जांच और विश्लेषण के तरीकों पर लागू होता है। हम स्वयं को यह याद दिलाकर शुरुआत कर सकते हैं कि "विज्ञान" शब्द का क्या अर्थ है। विज्ञान अवलोकन और प्रयोग के माध्यम से भौतिक और प्राकृतिक दुनिया का व्यवस्थित अध्ययन है, जिसका उद्देश्य प्राकृतिक प्रक्रियाओं की मानवीय समझ को आगे बढ़ाना है। उस परिभाषा में महत्वपूर्ण शब्द "अवलोकन" और "समझ" हैं।

यदि डेटा विज्ञान डेटा में पैटर्न से दुनिया को समझने की प्रक्रिया है, तो एक डेटा वैज्ञानिक की जिम्मेदारी डेटा को रूपांतरित करना, डेटा का विश्लेषण करना और डेटा से पैटर्न निकालना है। दूसरे शब्दों में, एक डेटा वैज्ञानिक को डेटा प्रदान किया जाता है और वे डेटा को प्रीप्रोसेस करने (इसे विश्लेषण के लिए तैयार करने) के लिए कई अलग-अलग टूल और तकनीकों का उपयोग करते हैं और फिर सार्थक पैटर्न के लिए डेटा का विश्लेषण करते हैं।

डेटा वैज्ञानिक की भूमिका पारंपरिक वैज्ञानिक की भूमिका के समान है। दोनों डेटा के विश्लेषण से चिंतित हैं परिकल्पनाओं का समर्थन या अस्वीकार करना दुनिया कैसे संचालित होती है, इसके बारे में, दुनिया के बारे में हमारी समझ को बेहतर बनाने के लिए डेटा में पैटर्न की समझ बनाने की कोशिश की जा रही है। डेटा वैज्ञानिक उन्हीं वैज्ञानिक तरीकों का उपयोग करते हैं जो एक पारंपरिक वैज्ञानिक करता है। एक डेटा वैज्ञानिक कुछ घटनाओं के बारे में अवलोकन एकत्र करना शुरू करता है जिसका वे अध्ययन करना चाहते हैं। फिर वे विचाराधीन घटना के बारे में एक परिकल्पना तैयार करते हैं और ऐसे डेटा को खोजने का प्रयास करते हैं जो किसी तरह से उनकी परिकल्पना को निरस्त कर देता है।

यदि डेटा द्वारा परिकल्पना का खंडन नहीं किया जाता है, तो वे घटना कैसे काम करती है, इसके बारे में एक सिद्धांत, या मॉडल का निर्माण करने में सक्षम हो सकते हैं, जिसे वे यह देखकर बार-बार परीक्षण कर सकते हैं कि क्या यह अन्य समान डेटासेट के लिए सच है। यदि कोई मॉडल पर्याप्त रूप से मजबूत है, यदि यह पैटर्न को अच्छी तरह से समझाता है और अन्य परीक्षणों के दौरान इसे रद्द नहीं किया जाता है, तो इसका उपयोग उस घटना की भविष्य की घटनाओं की भविष्यवाणी करने के लिए भी किया जा सकता है।

एक डेटा वैज्ञानिक आम तौर पर एक प्रयोग के माध्यम से अपना डेटा एकत्र नहीं करेगा। वे आम तौर पर भ्रमित करने वाले चरों की खोज के लिए नियंत्रण और डबल-ब्लाइंड परीक्षणों के साथ प्रयोगों को डिज़ाइन नहीं करेंगे जो किसी परिकल्पना में हस्तक्षेप कर सकते हैं। डेटा वैज्ञानिक द्वारा विश्लेषण किया गया अधिकांश डेटा अवलोकन संबंधी अध्ययनों और प्रणालियों के माध्यम से प्राप्त किया गया डेटा होगा, जो एक ऐसा तरीका है जिसमें डेटा वैज्ञानिक का काम पारंपरिक वैज्ञानिक के काम से भिन्न हो सकता है, जो अधिक प्रयोग करता है।

जैसा कि कहा गया है, किसी डेटा वैज्ञानिक को किसी प्रकार का प्रयोग करने के लिए बुलाया जा सकता है ए / बी परीक्षण कहा जाता है जहां एक सिस्टम में बदलाव किए जाते हैं जो डेटा इकट्ठा करता है यह देखने के लिए कि डेटा पैटर्न कैसे बदलते हैं।

उपयोग की जाने वाली तकनीकों और उपकरणों के बावजूद, डेटा विज्ञान का लक्ष्य अंततः डेटा से अर्थ निकालकर दुनिया की हमारी समझ में सुधार करना है, और डेटा अवलोकन और प्रयोग के माध्यम से प्राप्त किया जाता है। डेटा विज्ञान एल्गोरिदम, सांख्यिकीय सिद्धांतों और विभिन्न उपकरणों और मशीनों का उपयोग करके डेटा से अंतर्दृष्टि निकालने की प्रक्रिया है, अंतर्दृष्टि जो हमें हमारे आसपास की दुनिया में पैटर्न को समझने में मदद करती है।

डेटा वैज्ञानिक क्या करते हैं?

आप देख रहे होंगे कि कोई भी गतिविधि जिसमें वैज्ञानिक तरीके से डेटा का विश्लेषण शामिल हो, उसे डेटा साइंस कहा जा सकता है, जो डेटा साइंस को परिभाषित करना इतना कठिन बना देता है। इसे और अधिक स्पष्ट करने के लिए, आइए एक डेटा वैज्ञानिक की कुछ गतिविधियों का पता लगाएं कर सकता है दैनिक आधार पर।

डेटा विज्ञान कई अलग-अलग विषयों और विशिष्टताओं को एक साथ लाता है। फोटो: विकिमीडिया कॉमन्स के माध्यम से केल्विन एंड्रस, सीसी बाय एसए 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

किसी भी दिन, एक डेटा वैज्ञानिक से कहा जा सकता है: डेटा भंडारण और पुनर्प्राप्ति स्कीमा बनाएं, डेटा ईटीएल (एक्सट्रैक्ट, ट्रांसफॉर्म, लोड) पाइपलाइन बनाएं और डेटा को साफ करें, सांख्यिकीय तरीकों को नियोजित करें, डेटा विज़ुअलाइज़ेशन और डैशबोर्ड तैयार करें, कृत्रिम बुद्धिमत्ता को लागू करें और मशीन लर्निंग एल्गोरिदम, डेटा के आधार पर कार्यों के लिए सिफारिशें करते हैं।

आइए ऊपर सूचीबद्ध कार्यों को थोड़ा नीचे तोड़ें।

एक डेटा वैज्ञानिक को हार्डवेयर और सॉफ्टवेयर दोनों पर ध्यान देते हुए, डेटा को संग्रहीत और पुनर्प्राप्त करने के लिए आवश्यक प्रौद्योगिकियों की स्थापना को संभालने की आवश्यकता हो सकती है। इस पद के लिए जिम्मेदार व्यक्ति को "डाटा अभियंता”। हालाँकि, कुछ कंपनियाँ इन जिम्मेदारियों को डेटा वैज्ञानिकों की भूमिका के अंतर्गत शामिल करती हैं। एक डेटा वैज्ञानिक को इसे बनाने, या निर्माण में सहायता करने की भी आवश्यकता हो सकती है, ईटीएल पाइपलाइन. डेटा बहुत कम ही प्रारूपित होता है जैसा एक डेटा वैज्ञानिक को चाहिए होता है। इसके बजाय, डेटा को डेटा स्रोत से कच्चे रूप में प्राप्त करने, उपयोग करने योग्य प्रारूप में परिवर्तित करने और पूर्व-संसाधित करने की आवश्यकता होगी (डेटा को मानकीकृत करना, अतिरेक को छोड़ना और दूषित डेटा को हटाना)।

डेटा विज्ञान के सांख्यिकीय तरीके

RSI सांख्यिकी का अनुप्रयोग केवल डेटा को देखने और उसकी व्याख्या करने को वास्तविक विज्ञान में बदलने के लिए आवश्यक है। सांख्यिकीय तरीके डेटासेट से प्रासंगिक पैटर्न निकालने के लिए उपयोग किया जाता है, और एक डेटा वैज्ञानिक को सांख्यिकीय अवधारणाओं में अच्छी तरह से पारंगत होने की आवश्यकता होती है। उन्हें भ्रमित करने वाले चरों पर नियंत्रण करके नकली सहसंबंधों से सार्थक सहसंबंधों को समझने में सक्षम होने की आवश्यकता है। उन्हें यह निर्धारित करने के लिए उपयोग करने के लिए सही टूल जानने की भी आवश्यकता है कि डेटासेट में कौन सी विशेषताएं उनके मॉडल के लिए महत्वपूर्ण हैं/भविष्यवाणी की शक्ति रखती हैं। एक डेटा वैज्ञानिक को यह जानने की जरूरत है कि प्रतिगमन दृष्टिकोण बनाम वर्गीकरण दृष्टिकोण का उपयोग कब करना है, और नमूने के माध्य बनाम नमूने के माध्य की परवाह कब करनी है। एक डेटा वैज्ञानिक इन महत्वपूर्ण कौशलों के बिना वैज्ञानिक नहीं बन पाएगा।

Data Visualization

डेटा वैज्ञानिक के काम का एक महत्वपूर्ण हिस्सा अपने निष्कर्षों को दूसरों तक पहुंचाना है। यदि कोई डेटा वैज्ञानिक अपने निष्कर्षों को प्रभावी ढंग से दूसरों तक नहीं पहुंचा सकता है, तो उनके निष्कर्षों के निहितार्थ कोई मायने नहीं रखते। एक डेटा वैज्ञानिक को एक प्रभावी कहानीकार भी होना चाहिए। इसका मतलब ऐसे विज़ुअलाइज़ेशन तैयार करना है जो डेटासेट और उसके भीतर खोजे गए पैटर्न के बारे में प्रासंगिक बिंदुओं को संप्रेषित करते हैं। विभिन्नता की एक बड़ी संख्या है डेटा विज़ुअलाइज़ेशन उपकरण जो एक डेटा वैज्ञानिक उपयोग कर सकते हैं, और वे प्रारंभिक, बुनियादी अन्वेषण (खोजपूर्ण डेटा विश्लेषण) के प्रयोजनों के लिए डेटा की कल्पना कर सकते हैं या एक मॉडल द्वारा उत्पादित परिणामों की कल्पना कर सकते हैं।

सिफ़ारिशें और व्यावसायिक अनुप्रयोग

एक डेटा वैज्ञानिक को अपने संगठन या व्यवसाय की आवश्यकताओं और लक्ष्यों के बारे में कुछ अंतर्ज्ञान होना आवश्यक है। एक डेटा वैज्ञानिक को इन चीज़ों को समझने की ज़रूरत है क्योंकि उन्हें यह जानना होगा कि उन्हें किस प्रकार के चर और विशेषताओं का विश्लेषण करना चाहिए, पैटर्न की खोज करनी चाहिए जो उनके संगठन को अपने लक्ष्यों को प्राप्त करने में मदद करेंगे। डेटा वैज्ञानिकों को उन बाधाओं के बारे में जागरूक होने की आवश्यकता है जिनके तहत वे काम कर रहे हैं और संगठन का नेतृत्व जो धारणाएं बना रहा है।

मशीन लर्निंग और ए.आई.

मशीन लर्निंग और अन्य कृत्रिम बुद्धिमत्ता एल्गोरिदम और मॉडल डेटा वैज्ञानिकों द्वारा डेटा का विश्लेषण करने, डेटा के भीतर पैटर्न की पहचान करने, चर के बीच संबंधों को समझने और भविष्य की घटनाओं के बारे में भविष्यवाणी करने के लिए उपयोग किए जाने वाले उपकरण हैं।

पारंपरिक डेटा साइंस बनाम बिग डेटा साइंस

जैसे-जैसे डेटा संग्रह के तरीके अधिक परिष्कृत होते गए हैं और डेटाबेस बड़े होते गए हैं, पारंपरिक डेटा विज्ञान और डेटा विज्ञान के बीच अंतर पैदा हो गया है "बड़ा डाटा" विज्ञान।

पारंपरिक डेटा विश्लेषण और डेटा विज्ञान वर्णनात्मक और खोजपूर्ण विश्लेषण के साथ किया जाता है, जिसका लक्ष्य पैटर्न ढूंढना और परियोजनाओं के प्रदर्शन परिणामों का विश्लेषण करना है। पारंपरिक डेटा विश्लेषण विधियां अक्सर पिछले डेटा और वर्तमान डेटा पर ध्यान केंद्रित करती हैं। डेटा विश्लेषक अक्सर उस डेटा से निपटते हैं जो पहले से ही साफ और मानकीकृत किया जा चुका है, जबकि डेटा वैज्ञानिक अक्सर जटिल और गंदे डेटा से निपटते हैं। भविष्य के व्यवहार की भविष्यवाणी करने के लिए अधिक उन्नत डेटा एनालिटिक्स और डेटा विज्ञान तकनीकों का उपयोग किया जा सकता है, हालांकि यह अक्सर बड़े डेटा के साथ किया जाता है, क्योंकि पूर्वानुमानित मॉडल को विश्वसनीय रूप से निर्मित करने के लिए अक्सर बड़ी मात्रा में डेटा की आवश्यकता होती है।

"बड़ा डेटा" उस डेटा को संदर्भित करता है जो पारंपरिक डेटा एनालिटिक्स और विज्ञान तकनीकों और उपकरणों के साथ संभालने के लिए बहुत बड़ा और जटिल है। बड़ा डेटा अक्सर ऑनलाइन प्लेटफ़ॉर्म के माध्यम से एकत्र किया जाता है और डेटा विज्ञान द्वारा निरीक्षण के लिए बड़ी मात्रा में डेटा तैयार करने के लिए उन्नत डेटा परिवर्तन उपकरण का उपयोग किया जाता है। चूंकि हर समय अधिक डेटा एकत्र किया जाता है, इसलिए डेटा वैज्ञानिकों के काम में बड़े डेटा का विश्लेषण शामिल होता है।

डेटा विज्ञान उपकरण

सामान्य डेटा विज्ञान उपकरण इसमें डेटा संग्रहीत करने, खोजपूर्ण डेटा विश्लेषण करने, डेटा मॉडल करने, ईटीएल करने और डेटा विज़ुअलाइज़ करने के उपकरण शामिल हैं। Amazon Web Services, Microsoft Azure और Google Cloud जैसे प्लेटफ़ॉर्म डेटा वैज्ञानिकों को डेटा संग्रहीत करने, बदलने, विश्लेषण करने और मॉडल करने में मदद करने के लिए टूल प्रदान करते हैं। एयरफ़्लो (डेटा इन्फ्रास्ट्रक्चर) और टेबल्यू (डेटा विज़ुअलाइज़ेशन और एनालिटिक्स) जैसे स्टैंडअलोन डेटा विज्ञान उपकरण भी हैं।

डेटा को मॉडल करने के लिए उपयोग की जाने वाली मशीन लर्निंग और कृत्रिम बुद्धिमत्ता एल्गोरिदम के संदर्भ में, उन्हें अक्सर डेटा साइंस मॉड्यूल और टेन्सरफ्लो, पायटोरच और एज़्योर मशीन-लर्निंग स्टूडियो जैसे प्लेटफार्मों के माध्यम से प्रदान किया जाता है। डेटा वैज्ञानिकों की तरह ये प्लेटफ़ॉर्म अपने डेटासेट में संपादन करते हैं, मशीन लर्निंग आर्किटेक्चर बनाते हैं और मशीन लर्निंग मॉडल को प्रशिक्षित करते हैं।

अन्य सामान्य डेटा विज्ञान उपकरण और पुस्तकालयों में एसएएस (सांख्यिकीय मॉडलिंग के लिए), अपाचे स्पार्क (स्ट्रीमिंग डेटा के विश्लेषण के लिए), डी3.जेएस (ब्राउज़र में इंटरैक्टिव विज़ुअलाइज़ेशन के लिए), और ज्यूपिटर (इंटरैक्टिव, साझा करने योग्य कोड ब्लॉक और विज़ुअलाइज़ेशन के लिए) शामिल हैं। .

फोटो: फ़्लिकर के माध्यम से सोंजे जो, सीसी बाय एसए 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

डेटा साइंस के उदाहरण

डेटा विज्ञान और उसके अनुप्रयोगों के उदाहरण हर जगह हैं। डेटा विज्ञान का अनुप्रयोग भोजन वितरण, खेल, यातायात और स्वास्थ्य तक हर चीज़ में है। डेटा हर जगह है और इसलिए डेटा विज्ञान को हर चीज़ पर लागू किया जा सकता है।

भोजन के मामले में, उबर भोजन की डिलीवरी पर केंद्रित अपनी राइड-शेयरिंग प्रणाली के विस्तार में निवेश कर रहा है, उबर खाती है. Uber Eats को लोगों को उनका भोजन समय पर उपलब्ध कराने की आवश्यकता है, जबकि यह अभी भी गर्म और ताज़ा है। ऐसा होने के लिए, कंपनी के डेटा वैज्ञानिकों को सांख्यिकीय मॉडलिंग का उपयोग करने की आवश्यकता है जो रेस्तरां से डिलीवरी बिंदुओं की दूरी, छुट्टियों की भीड़, खाना पकाने का समय और यहां तक ​​​​कि मौसम की स्थिति जैसे पहलुओं को ध्यान में रखता है, इन सभी को डिलीवरी समय को अनुकूलित करने के लक्ष्य के साथ माना जाता है। .

खेल आँकड़ों का उपयोग टीम प्रबंधकों द्वारा यह निर्धारित करने के लिए किया जाता है कि सर्वश्रेष्ठ खिलाड़ी कौन हैं और मजबूत, विश्वसनीय टीमें बनाते हैं जो गेम जीतेंगी। एक उल्लेखनीय उदाहरण माइकल लुईस द्वारा पुस्तक में प्रलेखित डेटा विज्ञान है Moneyball, जहां ओकलैंड एथलेटिक्स टीम के महाप्रबंधक ने गुणवत्ता वाले खिलाड़ियों की पहचान करने के लिए विभिन्न प्रकार के आंकड़ों का विश्लेषण किया, जिन्हें अपेक्षाकृत कम लागत पर टीम में शामिल किया जा सकता था।

स्व-चालित वाहनों के निर्माण के लिए यातायात पैटर्न का विश्लेषण महत्वपूर्ण है। सेल्फ ड्राइविंग वाहन उन्हें अपने आस-पास की गतिविधि की भविष्यवाणी करने और सड़क की स्थिति में बदलाव पर प्रतिक्रिया करने में सक्षम होना चाहिए, जैसे कि बारिश होने पर रुकने की बढ़ती दूरी, साथ ही भीड़-भाड़ वाले समय में सड़क पर अधिक कारों की उपस्थिति। स्व-चालित वाहनों के अलावा, Google मैप्स जैसे ऐप यात्रियों को यह बताने के लिए ट्रैफ़िक पैटर्न का विश्लेषण करते हैं कि उन्हें विभिन्न मार्गों और परिवहन के रूपों का उपयोग करके अपने गंतव्य तक पहुंचने में कितना समय लगेगा।

के अनुसार स्वास्थ्य डेटा विज्ञान, कंप्यूटर विज़न को अक्सर मशीन लर्निंग और अन्य एआई तकनीकों के साथ जोड़कर एक्स-रे, एफएमआरआई और अल्ट्रासाउंड जैसी चीजों की जांच करने में सक्षम इमेज क्लासिफायर तैयार किया जाता है ताकि यह देखा जा सके कि क्या कोई संभावित चिकित्सा समस्याएं हैं जो स्कैन में दिखाई दे सकती हैं। इन एल्गोरिदम का उपयोग चिकित्सकों को बीमारी का निदान करने में मदद करने के लिए किया जा सकता है।

अंततः, डेटा विज्ञान कई गतिविधियों को शामिल करता है और विभिन्न विषयों के पहलुओं को एक साथ लाता है। हालाँकि, डेटा विज्ञान हमेशा डेटा से सम्मोहक, दिलचस्प कहानियाँ बताने और दुनिया को बेहतर ढंग से समझने के लिए डेटा का उपयोग करने से चिंतित रहता है।

विशेषज्ञता वाले ब्लॉगर और प्रोग्रामर मशीन लर्निंग और गहरी सीख विषय। डैनियल को उम्मीद है कि वह दूसरों को सामाजिक भलाई के लिए एआई की शक्ति का उपयोग करने में मदद करेगा।