рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рд╡реНрдпрд╛рд╡рд╕рд╛рдпрд┐рдХ рд╡рд┐рдЪрд▓рди: рд╡рд┐рдЪрд▓рди рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рдХреЗ рд╕рд╛рде рдзреЛрдЦрд╛рдзрдбрд╝реА рдХреА рд░реЛрдХрдерд╛рдо

मिडास के साथ विचलन पता लगाना
विचलन पता लगाना पिछले पांच वर्षों में मशीन लर्निंग के सबसे उपयोगी उपकरणों में से एक बन गया है। इसका उपयोग धोखाधड़ी से लेकर गुणवत्ता नियंत्रण तक किया जा सकता है। क्या ऑनलाइन समीक्षा वेबसाइटों में धोखाधड़ी करने वालों को अलग किया जा सकता है? क्या धोखाधड़ी वित्तीय लेनदेन का पता लगाया जा सकता है जब वे होते हैं? क्या लाइव सेंसर डेटा बिजली ग्रिड विफलताओं के बारे में बता सकता है trước कि वे हों?
विचलन पता लगाना इन प्रश्नों के उत्तर प्रदान करता है। डेटा में विचलन की पहचान करना एक महत्वपूर्ण डेटा समझ कार्य है। मशीन लर्निंग टूल और सांख्यिकीय विधियों के साथ बड़े डेटासेट को उजागर करके, डेटा में सामान्य पैटर्न सीखे जा सकते हैं। जब असंगत घटनाएं होती हैं, तो विचलन पता लगाने वाले अल्गोरिदम असामान्य व्यवहार को अलग कर सकते हैं और उन घटनाओं को झंडा लगा सकते हैं जो सीखे गए पैटर्न के अनुरूप नहीं हैं। ऐसी कार्यक्षमता कई व्यावसायिक उपयोगों में महत्वपूर्ण है। विचलन पता लगाना सुरक्षा से लेकर वित्त औरआईओटी निगरानी तक कई क्षेत्रों में अनुप्रयोगों को सक्षम बनाता है।
वेब-स्केल ग्राफ अब व्यापक हैं और बड़े डेटा संरचनाओं का एक सामान्य प्रतिनिधित्व हैं। वे ऑनलाइन और ऑफलाइन दोनों अनुप्रयोगों को शक्ति प्रदान करते हैं। कुछ ऑनलाइन उदाहरण बड़े सामाजिक नेटवर्क, उत्पाद अनुशंसा इंजन और वित्तीय लेनदेन ग्राफ हैं। ऑफलाइन में, सड़क नेटवर्क, आईओटी प्लेटफ़ॉर्म और बिजली ग्रिड में वोल्टेज सेंसर बड़े पैमाने पर ग्राफ जैसे डेटा के स्रोत हैं। डेटा को ग्राफ के रूप में प्रस्तुत करने से डेटासेट के मालिकों के लिए लाभ और चुनौतियां दोनों ही आती हैं। एक ओर, यह डेटा बिंदुओं और उनके संबंधों को एक बहु-आयामी स्थान में प्रस्तुत करने की अनुमति देता है। दूसरी ओर, डेटा विश्लेषण और व्याख्या के लिए मापनीय अल्गोरिदम की आवश्यकता होती है। इसके परिणामस्वरूपविचलन पता लगाने की विधियों पर शोध का बढ़ता हुआ फोकस है, जैसे किग्राफ डेटा पर विचलन पता लगाना。
आइए एक राज्य-ऑफ-द-आर्ट अल्गोरिदम पर एक नज़र डालें जो गतिशील ग्राफ डेटा पर विचलन पता लगाने के लिए विकसित किया गया है।
मिडास
माइक्रोक्लस्टर-आधारित डिटेक्टर ऑफ़ अनोमलीज़ इन एज स्ट्रीम (मिडास) एक अल्गोरिदम है जोगतिशील ग्राफ डेटा पर विचलन पता लगाने का सामना करता है। इसे सिंगापुर नेशनल यूनिवर्सिटी के शोधकर्ताओं द्वारा विकसित किया गया है, जो दावा करते हैं कि उनकी विधि राज्य-ऑफ-द-आर्ट दृष्टिकोणों से बेहतर प्रदर्शन करती है। उनकी विधि पिछले विचलन पता लगाने वाले कार्यान्वयन की सबसे सामान्य कमी को दूर करती है:
सिडार्थ भाटिया और उनकी टीम द्वारा विकसित विचलन पता लगाने के लिए एक नया बेसलाइन नीचे दिया गया है

मिडास: ग्राफ़ में विचलन पता लगाने के लिए एक नया बेसलाइन। छवि स्रोत: ब्लॉग
डेटा को एक स्थिर ग्राफ के रूप में प्रस्तुत करना
स्थिर ग्राफ केवल कनेक्टिविटी जानकारी शामिल करते हैं और समय जानकारी को नजरअंदाज करते हैं। वे ग्राफ स्नैपशॉट के रूप में भी जाने जाते हैं और केवल असामान्य ग्राफ इकाइयों (जैसे कि संदिग्ध नोड, एज या सबग्राफ) का पता लगाने के लिए उपयोग किए जा सकते हैं। हालांकि, कई व्यावसायिक अनुप्रयोगों के लिए, समय पहलू भी महत्वपूर्ण है: यह जानना प्रासंगिक है किकब ग्राफ संरचना बदल गई है। उदाहरण के लिए, नेटवर्क ट्रैफिक स्ट्रीम का प्रतिनिधित्व करने वाले एक स्थिर ग्राफ में, एक एज केवल यह बताता है कि एक स्रोत आईपी पते और एक गंतव्य आईपी पते के बीच एक कनेक्शन है। लेकिन एज का समय विवरण गायब है और इसलिए दो पते कब जुड़े यह ज्ञात नहीं है। चूंकि स्थिर ग्राफ ऐसी समय जानकारी को मॉडल नहीं कर सकते हैं, स्थिर ग्राफ पर आधारित विचलन पता लगाने की विधियां वास्तविक दुनिया के अनुप्रयोगों के लिए सीमित समर्थन प्रदान करती हैं।
दूसरी ओर, मिडास डेटा को एक गतिशील ग्राफ में संग्रहीत करता है। ग्राफ में प्रत्येक तत्व का एक संबद्ध टाइमस्टैम्प होता है, जो दर्शाता है कि तत्व कब ग्राफ में जोड़ा गया था। ऊपर के उदाहरण को आगे बढ़ाते हुए, एक गतिशील नेटवर्क ट्रैफिक ग्राफ यह भी बताएगा किकब दो आईपी पतों के बीच एक कनेक्शन हुआ। टाइमस्टैम्प तब बदलता है जब एक मौजूदा एज या नोड को अपडेट किया जाता है, या जब ग्राफ में नए एज जोड़े जाते हैं। इस प्रकार, गतिशील ग्राफ एक समय-विकसित संरचना है जो कई वास्तविक दुनिया के अनुप्रयोगों के लिए बेहतर अनुकूल है, जो प्रकृति में गतिशील हैं। वे कनेक्टिविटी और समय दोनों जानकारी का उपयोग करके संदिग्ध ग्राफ तत्वों का पता लगाने की अनुमति देते हैं। इस क्षमता के आधार पर, मिडास वास्तविक समय में विचलन का पता लगा सकता है और इसलिए कई व्यावसायिक उपयोगों के लिए समर्थन प्रदान करता है।
मिडास गतिशील ग्राफ डेटा पर काम करने के लिए अनुकूलित है। जैसा कि हमने ऊपर देखा है, गतिशील ग्राफ समय-व्युत्पन्न डेटा का प्रतिनिधित्व करने की अनुमति देते हैं। हालांकि, इसका मतलब यह भी है कि ग्राफ संरचना खुद समय के साथ बदलती रहती है। यह विचलन पता लगाने वाले अल्गोरिदम के लिए कertain चुनौतियां पेश करता है जो वास्तविक समय अनुप्रयोगों में इस डेटा का उपयोग करना चाहते हैं। एक उदाहरणविधि की मापनीयता है ग्राफ की विशेषताओं के संबंध में। बड़े डेटा आयतनों को देखते हुए, अल्गोरिदम को ग्राफ के आकार के अनुपात में रैखिक रूप से मापनीय होना चाहिए। मिडास ऑनलाइन मोड में चलता है और प्रत्येक एज को स्थिर समय और स्थिर मेमोरी में संसाधित करता है। लेखकों का यह भी दावा है कि अल्गोरिदम“162-633 गुना तेजी से चलता है राज्य-ऑफ-द-आर्ट दृष्टिकोणों की तुलना में”। यह अल्गोरिदम को वास्तविक समय अनुप्रयोगों के लिए उपयुक्त बनाता है, जहां उच्च मात्रा वाले डेटा स्ट्रीम का प्रसंस्करण आवश्यक है।
कौन से व्यावसायिक उपयोग मिडास की आवश्यकता है?
आज के व्यावसायिक दुनिया में विचलन पता लगाने का उपयोग करने के लिए हमने कैनेडा स्थित क्रिप्टोक्यूरेंसी प्रदाता, एनडीएएक्स से साक्षात्कार किया। एनडीएएक्स अपने व्यवसाय के तीन क्षेत्रों में विचलन पता लगाने का उपयोग करता है: सामान्य व्यवसाय संचालन, विपणन विभाग और अनुपालन टीम। विचलन पता लगाने से उन्हें बग की पहचान करने में मदद मिलती है, जिससे वे वेबसाइट प्रदर्शन और क्लाइंट ऑनबोर्डिंग प्रक्रिया में सुधार कर सकते हैं। यह उन्हें सॉफ्टवेयर विकास और बैक-ऑफिस ऑपरेशन टीमों को उन मुद्दों को हल करने के लिए मार्गदर्शन प्रदान करने में भी मदद करता है। वेबसाइट ट्रैफिक एक और क्षेत्र है जो विचलन पता लगाने की शक्ति का लाभ उठा सकता है। वेबसाइट ट्रैफिक में आउटलियर को समझने से विपणन टीम को यह समझने में मदद मिलती है कि क्या एक विपणन अभियान काम कर रहा है या नहीं। इससे उन्हें यह तय करने में मदद मिलती है कि किस क्षेत्र पर ध्यान केंद्रित करना सबसे महत्वपूर्ण है। हमारा अंतिम उदाहरण यह है कि क्लाइंट साइन अप विचलन अनुपालन टीम को संभावित धोखाधड़ी की पहचान करने और क्लाइंट जोखिम को कम करने में मदद करता है।
हमारे एनडीएएक्स के मुख्य अनुपालन अधिकारी, जूलिया बारानोव्स्काया के साथ हमारी चर्चा में, उन्होंने बताया कि कैसे विचलन पता लगाने का महत्व वर्तमान महामारी के दौरान बढ़ गया है। पिछले कुछ महीनों में धोखाधड़ी का पता लगाने में 300% की वृद्धि हुई है। डेस्पेरेट समय और उच्च ऑनलाइन ट्रैफिक सभी प्रकार के स्कैम को आमंत्रित करते हैं जो बेरोजगार और बुजुर्गों को निशाना बनाते हैं। विचलन पता लगाने के साथ, हम अब इन आउटलियर को धोखाधड़ी या रुझानों के संकेतक में बदल सकते हैं। निम्नलिखित ग्राफ दिखाता है कि धोखाधड़ी इस साल के पहले भाग में कैसे उतार-चढ़ाव हुआ है।
एनडीएएक्स ने क्यू 2 में धोखाधड़ी में वृद्धि पाई, विशेष रूप से बुजुर्गों और नकली नौकरी पोस्टिंग से संबंधित घोटाले।
आपके व्यवसाय के बारे में क्या?
विचलन पता लगाने वाले अल्गोरिदम व्यवसायों को कई परिदृश्यों में असामान्य डेटा बिंदुओं की पहचान करने और प्रतिक्रिया करने में मदद कर सकते हैं। एक बैंक सुरक्षा प्रणाली धोखाधड़ी लेनदेन की पहचान के लिए विचलन पता लगाने का उपयोग कर सकती है। इसी तरह, निर्माण संयंत्र के मालिक विचलन पता लगाने पर निर्भर करते हैं ताकि खराब उपकरणों से निपटा जा सके और भविष्यवाणी रखरखाव उपायों को लागू किया जा सके। आईओटी सेंसर नेटवर्क में, विचलन पता लगाने का उपयोग स्थिति निगरानी समाधानों और अवांछित मैलवेयर तैनाती की रोकथाम के हिस्से के रूप में किया जाता है। नीचे का बिंदु स्पष्ट है: जो व्यवसाय बड़े डेटा तक पहुंच रखते हैं, वे मिडास (और अन्य विचलन पता लगाने वाले अल्गोरिदम) का उपयोग करके वास्तविक समय में असामान्य पैटर्न की पहचान कर सकते हैं।
आपका डेटा कैसे संरचित है और हम आपको एक आधुनिक विचलन पता लगाने वाला समाधान स्थापित करने में कैसे मदद कर सकते हैं?हमें एक पंक्ति छोड़ दें और हमें बताएं। ब्लू ऑरेंज डिजिटल की डेटा विज्ञान टीम भी आपके लिए विचलन पता लगाने को काम करने में खुश है!
मुख्य छवि स्रोत: कैनवा












