AI 101
рдбреЗрдЯрд╛ рд╕рд╛рдЗрдВрд╕ рдХреНрдпрд╛ рд╣реИ?

डेटा साइंस का क्षेत्र हर दिन बड़ा और अधिक लोकप्रिय होता जा रहा है। लिंक्डइन के अनुसार, डेटा साइंस 2017 में सबसे तेजी से बढ़ते नौकरी क्षेत्रों में से एक था और 2020 में ग्लासडोर ने डेटा साइंस की नौकरी को संयुक्त राज्य अमेरिका में तीन सर्वश्रेष्ठ नौकरियों में से एक के रूप में स्थान दिया। डेटा साइंस की बढ़ती लोकप्रियता को देखते हुए, यह कोई आश्चर्य की बात नहीं है कि अधिक लोग इस क्षेत्र में रुचि ले रहे हैं। फिर भी, डेटा साइंस वास्तव में क्या है?
आइए डेटा साइंस से परिचित हों, डेटा साइंस को परिभाषित करने में कुछ समय लें, बड़े डेटा और कृत्रिम बुद्धिमत्ता को देखें कि यह क्षेत्र को कैसे बदल रहा है, कुछ सामान्य डेटा साइंस टूल्स के बारे में जानें, और डेटा साइंस के कुछ उदाहरणों की जांच करें।
डेटा साइंस क्या है?
हम किसी भी डेटा साइंस टूल्स या उदाहरणों का अन्वेषण करने से पहले, हमें डेटा साइंस की एक संक्षिप्त परिभाषा प्राप्त करनी होगी।
डेटा साइंस को परिभाषित करना वास्तव में एक chút मुश्किल है, क्योंकि इस शब्द का उपयोग कई अलग-अलग कार्यों और तरीकों के लिए किया जाता है। हमें “विज्ञान” शब्द के अर्थ को याद दिलाना शुरू करना होगा। विज्ञान प्राकृतिक और प्राकृतिक दुनिया का प्रणालीगत अध्ययन है, जो अवलोकन और प्रयोग के माध्यम से मानव ज्ञान को आगे बढ़ाने का लक्ष्य रखता है। उस परिभाषा में महत्वपूर्ण शब्द “अवलोकन” और “ज्ञान” हैं।
यदि डेटा साइंस डेटा में पैटर्न से दुनिया को समझने की प्रक्रिया है, तो एक डेटा वैज्ञानिक की जिम्मेदारी डेटा को बदलना, डेटा का विश्लेषण करना और डेटा से पैटर्न निकालना है। दूसरे शब्दों में, एक डेटा वैज्ञानिक को डेटा प्रदान किया जाता है और वे विभिन्न टूल्स और तकनीकों का उपयोग करके डेटा को प्रीप्रोसेस (विश्लेषण के लिए तैयार) करते हैं और फिर डेटा का विश्लेषण करते हैं ताकि यह देखा जा सके कि क्या इसमें कोई अर्थपूर्ण पैटर्न हैं।
एक डेटा वैज्ञानिक की भूमिका एक पारंपरिक वैज्ञानिक की भूमिका के समान है। दोनों डेटा के विश्लेषण से चिंतित हैं ताकि यह देखा जा सके कि दुनिया कैसे काम करती है, पैटर्न को समझने की कोशिश कर रहे हैं ताकि हम दुनिया को बेहतर ढंग से समझ सकें। डेटा वैज्ञानिक पारंपरिक वैज्ञानिक द्वारा उपयोग किए जाने वाले समान वैज्ञानिक तरीकों का उपयोग करते हैं। एक डेटा वैज्ञानिक कुछ घटना का अध्ययन करने के लिए अवलोकन एकत्र करता है। वे तब घटना के बारे में एक परिकल्पना बनाते हैं और डेटा की तलाश में हैं जो उनकी परिकल्पना का खंडन करता है।
यदि परिकल्पना डेटा द्वारा खंडित नहीं है, तो वे एक सिद्धांत या मॉडल बना सकते हैं कि घटना कैसे काम करती है, जिसे वे बार-बार परीक्षण कर सकते हैं ताकि यह देखा जा सके कि क्या यह सच है। यदि एक मॉडल पर्याप्त रूप से मजबूत है, तो यह भविष्य में घटना की घटना की भविष्यवाणी करने के लिए भी उपयोग किया जा सकता है।
एक डेटा वैज्ञानिक आमतौर पर अपना डेटा प्रयोग के माध्यम से एकत्र नहीं करता है। वे आमतौर पर नियंत्रण और दोहरे अंधे परीक्षण के साथ प्रयोगों को डिज़ाइन नहीं करते हैं ताकि यह देखा जा सके कि क्या कोई परिकल्पना के साथ हस्तक्षेप करने वाले переменные हैं। अधिकांश डेटा जो एक डेटा वैज्ञानिक द्वारा विश्लेषित किया जाता है वह अवलोकन अध्ययन और प्रणालियों के माध्यम से प्राप्त किया जाता है, जो एक तरीका है जिसमें एक डेटा वैज्ञानिक का काम एक पारंपरिक वैज्ञानिक से भिन्न हो सकता है, जो अधिक प्रयोग करता है।
हालांकि, एक डेटा वैज्ञानिक को ए/बी परीक्षण के रूप में जाने वाले प्रयोग का एक रूप करने के लिए कहा जा सकता है जहां डेटा को इकट्ठा करने वाली प्रणाली में समायोजन किया जाता है ताकि यह देखा जा सके कि डेटा पैटर्न कैसे बदलते हैं।
तकनीकों और टूल्स का उपयोग करने के बावजूद, डेटा साइंस अंततः डेटा से अर्थ निकालने के लिए एल्गोरिदम, सांख्यिकीय सिद्धांतों और विभिन्न टूल्स और मशीनों का उपयोग करके हमारी दुनिया को बेहतर ढंग से समझने का लक्ष्य रखता है।
डेटा वैज्ञानिक क्या करते हैं?
आप देख सकते हैं कि डेटा का विश्लेषण करने वाली कोई भी गतिविधि जो वैज्ञानिक तरीके से की जाती है, उसे डेटा साइंस कहा जा सकता है, जो डेटा साइंस को परिभाषित करना मुश्किल बनाता है। इसे अधिक स्पष्ट करने के लिए, आइए देखें कि एक डेटा वैज्ञानिक दैनिक आधार पर क्या कर सकता है।

डेटा साइंस कई अलग-अलग अनुशासन और विशेषज्ञता को एक साथ लाता है। फोटो: कैल्विन एंड्रस विकिमीडिया कॉमन्स के माध्यम से, सीसी बाय एसए 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)
किसी भी दिन, एक डेटा वैज्ञानिक से पूछा जा सकता है: डेटा स्टोरेज और पुनर्प्राप्ति योजना बनाना, डेटा ईटीएल (एक्सट्रैक्ट, ट्रांसफॉर्म, लोड) पाइपलाइन और डेटा को साफ करना, सांख्यिकीय तरीकों का उपयोग करना, डेटा विज़ुअलाइज़ेशन और डैशबोर्ड बनाना, कृत्रिम बुद्धिमत्ता और मशीन लर्निंग एल्गोरिदम लागू करना, डेटा पर आधारित कार्रवाई के लिए सिफारिशें करना।
आइए ऊपर सूचीबद्ध कार्यों को थोड़ा तोड़ दें।
एक डेटा वैज्ञानिक को डेटा स्टोर और रिट्रीव करने के लिए प्रौद्योगिकियों की स्थापना को संभालने की आवश्यकता हो सकती है, दोनों हार्डवेयर और सॉफ्टवेयर पर ध्यान देते हुए। इस स्थिति के लिए जिम्मेदार व्यक्ति को “डेटा इंजीनियर” के रूप में भी जाना जा सकता है। हालांकि, कुछ कंपनियां इन जिम्मेदारियों को डेटा वैज्ञानिक की भूमिका के तहत शामिल करती हैं। एक डेटा वैज्ञानिक को ईटीएल पाइपलाइन बनाने या सहायता करने की आवश्यकता हो सकती है। डेटा शायद ही कभी डेटा वैज्ञानिक की आवश्यकता के अनुसार प्रारूपित होता है। इसके बजाय, डेटा को डेटा स्रोत से कच्चे रूप में प्राप्त किया जाना चाहिए, एक उपयोगी प्रारूप में परिवर्तित किया जाना चाहिए, और प्रीप्रोसेस किया जाना चाहिए (जैसे डेटा को मानकीकृत करना, अनावश्यक डेटा को हटाना, और दूषित डेटा को हटाना)।
डेटा साइंस के सांख्यिकीय तरीके
डेटा साइंस में सांख्यिकी का अनुप्रयोग आवश्यक है ताकि डेटा को देखने और व्याख्या करने से वास्तविक विज्ञान में बदल जाए। सांख्यिकीय तरीकों का उपयोग डेटासेट से प्रासंगिक पैटर्न निकालने के लिए किया जाता है, और एक डेटा वैज्ञानिक को सांख्यिकीय अवधारणाओं में महारत हासिल करनी चाहिए। उन्हें अर्थपूर्ण संबंधों को भ्रामक संबंधों से अलग करने में सक्षम होना चाहिए, हस्तक्षेप करने वाले переменные के लिए नियंत्रित करना चाहिए। उन्हें यह जानने की भी आवश्यकता है कि कौन से टूल का उपयोग करना है ताकि यह निर्धारित किया जा सके कि डेटासेट में कौन सी विशेषताएं उनके मॉडल/पूर्वानुमान शक्ति में महत्वपूर्ण हैं। एक डेटा वैज्ञानिक को यह जानने की आवश्यकता है कि कब रिग्रेशन दृष्टिकोण का उपयोग करना है और कब वर्गीकरण दृष्टिकोण का उपयोग करना है, और कब नमूने के माध्य की तुलना में नमूने के मध्य मान की परवाह करनी है।
डेटा विज़ुअलाइज़ेशन
एक डेटा वैज्ञानिक के काम का एक महत्वपूर्ण हिस्सा अपने निष्कर्षों को दूसरों के साथ संवाद करना है। यदि एक डेटा वैज्ञानिक अपने निष्कर्षों को दूसरों के साथ प्रभावी ढंग से संवाद नहीं कर सकता है, तो उनके निष्कर्षों के परिणामों का कोई मतलब नहीं है। एक डेटा वैज्ञानिक को एक प्रभावी कहानी सुनाने वाला भी होना चाहिए। इसका अर्थ है डेटासेट और इसके भीतर खोजे गए पैटर्न के बारे में प्रासंगिक बिंदुओं को संवाद करने वाले विज़ुअलाइज़ेशन का उत्पादन करना। डेटा वैज्ञानिक के पास डेटा विज़ुअलाइज़ेशन के लिए उपयोग करने के लिए विभिन्न टूल्स हो सकते हैं, और वे डेटा को प्रारंभिक, बुनियादी अन्वेषण (अन्वेषणात्मक डेटा विश्लेषण) के उद्देश्यों के लिए या मॉडल द्वारा उत्पादित परिणामों को विज़ुअलाइज़ करने के लिए डेटा को विज़ुअलाइज़ कर सकते हैं।
सिफारिशें और व्यावसायिक अनुप्रयोग
एक डेटा वैज्ञानिक को अपने संगठन या व्यवसाय की आवश्यकताओं और लक्ष्यों की कुछ अंतर्दृष्टि होनी चाहिए। एक डेटा वैज्ञानिक को इन चीजों को समझने की आवश्यकता है क्योंकि उन्हें यह जानने की आवश्यकता है कि वे किस प्रकार के चर और विशेषताओं का विश्लेषण कर रहे हैं, जो उनके संगठन को अपने लक्ष्यों को प्राप्त करने में मदद करेगा। डेटा वैज्ञानिक को उन प्रतिबंधों के बारे में जागरूक होने की आवश्यकता है जिनके तहत वे संचालित हो रहे हैं और उनके संगठन के नेतृत्व द्वारा की जाने वाली धारणाओं के बारे में।
मशीन लर्निंग और एआई
मशीन लर्निंग और अन्य कृत्रिम बुद्धिमत्ता एल्गोरिदम और मॉडल डेटा वैज्ञानिकों द्वारा डेटा का विश्लेषण करने, डेटा में पैटर्न की पहचान करने, चर के बीच संबंधों का निर्धारण करने और भविष्य की घटनाओं की भविष्यवाणी करने के लिए उपयोग किए जाने वाले टूल्स हैं।
पारंपरिक डेटा साइंस बनाम बिग डेटा साइंस
जैसे ही डेटा संग्रह विधियां अधिक परिष्कृत हुईं और डेटाबेस बड़े हुए, पारंपरिक डेटा साइंस और “बिग डेटा” साइंस के बीच एक अंतर उत्पन्न हुआ।
पारंपरिक डेटा विश्लेषण और डेटा साइंस विवरणात्मक और अन्वेषणात्मक विश्लेषण के साथ किया जाता है, जिसका उद्देश्य पैटर्न खोजना और परियोजनाओं के प्रदर्शन परिणामों का विश्लेषण करना है। पारंपरिक डेटा विश्लेषण विधियों में अक्सर केवल अतीत के डेटा और वर्तमान डेटा पर ध्यान केंद्रित किया जाता है। डेटा विश्लेषक अक्सर पहले से साफ और मानकीकृत डेटा के साथ काम करते हैं, जबकि डेटा वैज्ञानिक अक्सर जटिल और गंदे डेटा के साथ काम करते हैं। अधिक उन्नत डेटा विश्लेषण और डेटा साइंस तकनीकों का उपयोग भविष्य के व्यवहार की भविष्यवाणी करने के लिए किया जा सकता है, हालांकि यह अक्सर बिग डेटा के साथ किया जाता है, क्योंकि पूर्वानुमान मॉडल अक्सर विश्वसनीय रूप से निर्मित होने के लिए बड़ी मात्रा में डेटा की आवश्यकता होती है।
“बिग डेटा” डेटा को संदर्भित करता है जो पारंपरिक डेटा विश्लेषण और विज्ञान तकनीकों और टूल्स से निपटने के लिए बहुत बड़ा और जटिल है। बिग डेटा अक्सर ऑनलाइन प्लेटफ़ॉर्म और उन्नत डेटा परिवर्तन टूल्स के माध्यम से एकत्र किया जाता है जो बड़ी मात्रा में डेटा को डेटा साइंस द्वारा निरीक्षण के लिए तैयार करते हैं। जैसा कि अधिक डेटा एकत्र किया जाता है, एक डेटा वैज्ञानिक का अधिक काम बिग डेटा के विश्लेषण में शामिल होता है।
डेटा साइंस टूल्स
सामान्य डेटा साइंस टूल्स में डेटा स्टोर करने, अन्वेषणात्मक डेटा विश्लेषण करने, डेटा मॉडल करने, ईटीएल करने और डेटा विज़ुअलाइज़ करने के लिए टूल्स शामिल हैं। अमेज़ॅन वेब सेवाएं, माइक्रोसॉफ्ट एज़्योर, और गूगल क्लाउड जैसे प्लेटफ़ॉर्म डेटा साइंस के लिए टूल्स प्रदान करते हैं जो डेटा वैज्ञानिकों को डेटा स्टोर, ट्रांसफ़ॉर्म, विश्लेषण और मॉडल करने में मदद करते हैं। एयरफ़्लो (डेटा इन्फ्रास्ट्रक्चर) और टेबलो (डेटा विज़ुअलाइज़ेशन और विश्लेषण) जैसे स्टैंडअलोन डेटा साइंस टूल्स भी हैं।
मशीन लर्निंग और कृत्रिम बुद्धिमत्ता एल्गोरिदम के संदर्भ में जो डेटा को मॉडल करने के लिए उपयोग किए जाते हैं, वे अक्सर डेटा साइंस मॉड्यूल और प्लेटफ़ॉर्म के माध्यम से प्रदान किए जाते हैं जैसे कि टेंसोरफ़्लो, पाइटोर्च, और एज़्योर मशीन-लर्निंग स्टूडियो। ये प्लेटफ़ॉर्म डेटा वैज्ञानिकों को अपने डेटासेट में संपादन करने, मशीन लर्निंग आर्किटेक्चर की रचना करने और मशीन लर्निंग मॉडल को प्रशिक्षित करने में मदद करते हैं।
अन्य सामान्य डेटा साइंस टूल्स और लाइब्रेरी में एसएएस (सांख्यिकीय मॉडलिंग के लिए), अपाचे स्पार्क (स्ट्रीमिंग डेटा के विश्लेषण के लिए), डी3.जेएस (ब्राउज़र में इंटरैक्टिव विज़ुअलाइज़ेशन के लिए), और जुपिटर (इंटरैक्टिव, शेयरेबल कोड ब्लॉक और विज़ुअलाइज़ेशन के लिए) शामिल हैं।

फोटो: सेजन जो फ़्लिकर के माध्यम से, सीसी बाय एसए 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)
डेटा साइंस के उदाहरण
डेटा साइंस और इसके अनुप्रयोग हर जगह हैं। डेटा साइंस का अनुप्रयोग खाद्य वितरण, खेल, यातायात, और स्वास्थ्य जैसी चीजों में है। डेटा हर जगह है और इसलिए डेटा साइंस को सब कुछ में लागू किया जा सकता है।
खाद्य के संदर्भ में, उबर अपनी राइड-शेयरिंग प्रणाली के विस्तार में निवेश कर रहा है जो खाद्य वितरण पर केंद्रित है, उबर ईट्स। उबर ईट्स को लोगों को उनका खाना समय पर पहुंचाने की आवश्यकता है, जबकि यह अभी भी गर्म और ताज़ा है। इसे होने के लिए, कंपनी के लिए डेटा वैज्ञानिकों को खाना पकाने के समय, छुट्टी की भीड़, और मौसम की स्थिति जैसी चीजों जैसे रेस्तरां से डिलीवरी बिंदुओं की दूरी पर विचार करते हुए सांख्यिकीय मॉडलिंग का उपयोग करने की आवश्यकता है ताकि डिलीवरी समय को अनुकूलित किया जा सके।
खेल सांख्यिकी का उपयोग टीम प्रबंधकों द्वारा सर्वश्रेष्ठ खिलाड़ियों का निर्धारण करने और मजबूत, विश्वसनीय टीमों का गठन करने के लिए किया जाता है जो खेल जीतेंगे। एक उल्लेखनीय उदाहरण माइकल लुईस द्वारा मनीबॉल पुस्तक में दस्तावेज़ की गई डेटा साइंस है, जहां ओकलैंड एथलेटिक्स टीम के महाप्रबंधक ने गुणवत्ता वाले खिलाड़ियों की पहचान करने के लिए विभिन्न सांख्यिकियों का विश्लेषण किया जो टीम में शामिल हो सकते हैं कम लागत पर।
यातायात पैटर्न का विश्लेषण स्व-ड्राइविंग वाहनों के निर्माण के लिए महत्वपूर्ण है। स्व-ड्राइविंग वाहन को अपने आसपास की गतिविधि का अनुमान लगाने और सड़क की स्थिति में परिवर्तनों के प्रति प्रतिक्रिया करने में सक्षम होना चाहिए, जैसे कि बारिश के दौरान रोकने की दूरी में वृद्धि की आवश्यकता होती है, साथ ही भीड़भाड़ के दौरान सड़क पर अधिक कारें होती हैं। स्व-ड्राइविंग वाहनों के अलावा, जैसे कि गूगल मैप्स, यातायात पैटर्न का विश्लेषण करते हैं ताकि यह बताया जा सके कि विभिन्न मार्गों और परिवहन के साधनों का उपयोग करके अपने गंतव्य तक पहुंचने में कितना समय लगेगा।
स्वास्थ्य डेटा साइंस के संदर्भ में, कंप्यूटर दृष्टि को अक्सर मशीन लर्निंग और अन्य एआई तकनीकों के साथ मिलाया जाता है ताकि छवि वर्गीकरणकर्ता बनाए जा सकें जो एक्स-रे, एफएमआरआई, और अल्ट्रासाउंड जैसी चीजों की जांच कर सकें ताकि यह देखा जा सके कि क्या कोई संभावित चिकित्सा समस्याएं हैं जो स्कैन में दिखाई दे सकती हैं। इन एल्गोरिदम का उपयोग चिकित्सकों को बीमारी का निदान करने में मदद करने के लिए किया जा सकता है।
अंततः, डेटा साइंस कई गतिविधियों को कवर करता है और विभिन्न अनुशासनों को एक साथ लाता है। हालांकि, डेटा साइंस हमेशा डेटा से आकर्षक, दिलचस्प कहानियां सुनाने और डेटा का उपयोग दुनिया को बेहतर ढंग से समझने के लिए करने से संबंधित है।












