Connect with us

рд╡реНрдпрд╛рд╡рд╕рд╛рдпрд┐рдХ рд╡рд┐рдЪрд▓рди: рд╡рд┐рдЪрд▓рди рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рдХреЗ рд╕рд╛рде рдзреЛрдЦрд╛рдзрдбрд╝реА рдХреА рд░реЛрдХрдерд╛рдо

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рд╡реНрдпрд╛рд╡рд╕рд╛рдпрд┐рдХ рд╡рд┐рдЪрд▓рди: рд╡рд┐рдЪрд▓рди рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рдХреЗ рд╕рд╛рде рдзреЛрдЦрд╛рдзрдбрд╝реА рдХреА рд░реЛрдХрдерд╛рдо

mm

मिडास के साथ विचलन पता लगाना

विचलन पता लगाना पिछले पांच वर्षों में मशीन लर्निंग के सबसे उपयोगी उपकरणों में से एक बन गया है। इसका उपयोग धोखाधड़ी से लेकर गुणवत्ता नियंत्रण तक किया जा सकता है। क्या ऑनलाइन समीक्षा वेबसाइटों में धोखाधड़ी करने वालों को अलग किया जा सकता है? क्या धोखाधड़ी वित्तीय लेनदेन का पता लगाया जा सकता है जब वे होते हैं? क्या लाइव सेंसर डेटा बिजली ग्रिड विफलताओं के बारे में बता सकता है trước कि वे हों?

विचलन पता लगाना इन प्रश्नों के उत्तर प्रदान करता है। डेटा में विचलन की पहचान करना एक महत्वपूर्ण डेटा समझ कार्य है। मशीन लर्निंग टूल और सांख्यिकीय विधियों के साथ बड़े डेटासेट को उजागर करके, डेटा में सामान्य पैटर्न सीखे जा सकते हैं। जब असंगत घटनाएं होती हैं, तो विचलन पता लगाने वाले अल्गोरिदम असामान्य व्यवहार को अलग कर सकते हैं और उन घटनाओं को झंडा लगा सकते हैं जो सीखे गए पैटर्न के अनुरूप नहीं हैं। ऐसी कार्यक्षमता कई व्यावसायिक उपयोगों में महत्वपूर्ण है। विचलन पता लगाना सुरक्षा से लेकर वित्त औरआईओटी निगरानी तक कई क्षेत्रों में अनुप्रयोगों को सक्षम बनाता है।

वेब-स्केल ग्राफ अब व्यापक हैं और बड़े डेटा संरचनाओं का एक सामान्य प्रतिनिधित्व हैं। वे ऑनलाइन और ऑफलाइन दोनों अनुप्रयोगों को शक्ति प्रदान करते हैं। कुछ ऑनलाइन उदाहरण बड़े सामाजिक नेटवर्क, उत्पाद अनुशंसा इंजन और वित्तीय लेनदेन ग्राफ हैं। ऑफलाइन में, सड़क नेटवर्क, आईओटी प्लेटफ़ॉर्म और बिजली ग्रिड में वोल्टेज सेंसर बड़े पैमाने पर ग्राफ जैसे डेटा के स्रोत हैं। डेटा को ग्राफ के रूप में प्रस्तुत करने से डेटासेट के मालिकों के लिए लाभ और चुनौतियां दोनों ही आती हैं। एक ओर, यह डेटा बिंदुओं और उनके संबंधों को एक बहु-आयामी स्थान में प्रस्तुत करने की अनुमति देता है। दूसरी ओर, डेटा विश्लेषण और व्याख्या के लिए मापनीय अल्गोरिदम की आवश्यकता होती है। इसके परिणामस्वरूपविचलन पता लगाने की विधियों पर शोध का बढ़ता हुआ फोकस है, जैसे किग्राफ डेटा पर विचलन पता लगाना

आइए एक राज्य-ऑफ-द-आर्ट अल्गोरिदम पर एक नज़र डालें जो गतिशील ग्राफ डेटा पर विचलन पता लगाने के लिए विकसित किया गया है।

मिडास

माइक्रोक्लस्टर-आधारित डिटेक्टर ऑफ़ अनोमलीज़ इन एज स्ट्रीम (मिडास) एक अल्गोरिदम है जोगतिशील ग्राफ डेटा पर विचलन पता लगाने का सामना करता है। इसे सिंगापुर नेशनल यूनिवर्सिटी के शोधकर्ताओं द्वारा विकसित किया गया है, जो दावा करते हैं कि उनकी विधि राज्य-ऑफ-द-आर्ट दृष्टिकोणों से बेहतर प्रदर्शन करती है। उनकी विधि पिछले विचलन पता लगाने वाले कार्यान्वयन की सबसे सामान्य कमी को दूर करती है:

सिडार्थ भाटिया और उनकी टीम द्वारा विकसित विचलन पता लगाने के लिए एक नया बेसलाइन नीचे दिया गया है

मिडास: ग्राफ़ में विचलन पता लगाने के लिए एक नया बेसलाइन

मिडास: ग्राफ़ में विचलन पता लगाने के लिए एक नया बेसलाइन। छवि स्रोत: ब्लॉग

डेटा को एक स्थिर ग्राफ के रूप में प्रस्तुत करना

स्थिर ग्राफ केवल कनेक्टिविटी जानकारी शामिल करते हैं और समय जानकारी को नजरअंदाज करते हैं। वे ग्राफ स्नैपशॉट के रूप में भी जाने जाते हैं और केवल असामान्य ग्राफ इकाइयों (जैसे कि संदिग्ध नोड, एज या सबग्राफ) का पता लगाने के लिए उपयोग किए जा सकते हैं। हालांकि, कई व्यावसायिक अनुप्रयोगों के लिए, समय पहलू भी महत्वपूर्ण है: यह जानना प्रासंगिक है किकब ग्राफ संरचना बदल गई है। उदाहरण के लिए, नेटवर्क ट्रैफिक स्ट्रीम का प्रतिनिधित्व करने वाले एक स्थिर ग्राफ में, एक एज केवल यह बताता है कि एक स्रोत आईपी पते और एक गंतव्य आईपी पते के बीच एक कनेक्शन है। लेकिन एज का समय विवरण गायब है और इसलिए दो पते कब जुड़े यह ज्ञात नहीं है। चूंकि स्थिर ग्राफ ऐसी समय जानकारी को मॉडल नहीं कर सकते हैं, स्थिर ग्राफ पर आधारित विचलन पता लगाने की विधियां वास्तविक दुनिया के अनुप्रयोगों के लिए सीमित समर्थन प्रदान करती हैं।

दूसरी ओर, मिडास डेटा को एक गतिशील ग्राफ में संग्रहीत करता है। ग्राफ में प्रत्येक तत्व का एक संबद्ध टाइमस्टैम्प होता है, जो दर्शाता है कि तत्व कब ग्राफ में जोड़ा गया था। ऊपर के उदाहरण को आगे बढ़ाते हुए, एक गतिशील नेटवर्क ट्रैफिक ग्राफ यह भी बताएगा किकब दो आईपी पतों के बीच एक कनेक्शन हुआ। टाइमस्टैम्प तब बदलता है जब एक मौजूदा एज या नोड को अपडेट किया जाता है, या जब ग्राफ में नए एज जोड़े जाते हैं। इस प्रकार, गतिशील ग्राफ एक समय-विकसित संरचना है जो कई वास्तविक दुनिया के अनुप्रयोगों के लिए बेहतर अनुकूल है, जो प्रकृति में गतिशील हैं। वे कनेक्टिविटी और समय दोनों जानकारी का उपयोग करके संदिग्ध ग्राफ तत्वों का पता लगाने की अनुमति देते हैं। इस क्षमता के आधार पर, मिडास वास्तविक समय में विचलन का पता लगा सकता है और इसलिए कई व्यावसायिक उपयोगों के लिए समर्थन प्रदान करता है।

मिडास गतिशील ग्राफ डेटा पर काम करने के लिए अनुकूलित है। जैसा कि हमने ऊपर देखा है, गतिशील ग्राफ समय-व्युत्पन्न डेटा का प्रतिनिधित्व करने की अनुमति देते हैं। हालांकि, इसका मतलब यह भी है कि ग्राफ संरचना खुद समय के साथ बदलती रहती है। यह विचलन पता लगाने वाले अल्गोरिदम के लिए कertain चुनौतियां पेश करता है जो वास्तविक समय अनुप्रयोगों में इस डेटा का उपयोग करना चाहते हैं। एक उदाहरणविधि की मापनीयता है ग्राफ की विशेषताओं के संबंध में। बड़े डेटा आयतनों को देखते हुए, अल्गोरिदम को ग्राफ के आकार के अनुपात में रैखिक रूप से मापनीय होना चाहिए। मिडास ऑनलाइन मोड में चलता है और प्रत्येक एज को स्थिर समय और स्थिर मेमोरी में संसाधित करता है। लेखकों का यह भी दावा है कि अल्गोरिदम“162-633 गुना तेजी से चलता है राज्य-ऑफ-द-आर्ट दृष्टिकोणों की तुलना में”। यह अल्गोरिदम को वास्तविक समय अनुप्रयोगों के लिए उपयुक्त बनाता है, जहां उच्च मात्रा वाले डेटा स्ट्रीम का प्रसंस्करण आवश्यक है।

कौन से व्यावसायिक उपयोग मिडास की आवश्यकता है?

आज के व्यावसायिक दुनिया में विचलन पता लगाने का उपयोग करने के लिए हमने कैनेडा स्थित क्रिप्टोक्यूरेंसी प्रदाता, एनडीएएक्स से साक्षात्कार किया। एनडीएएक्स अपने व्यवसाय के तीन क्षेत्रों में विचलन पता लगाने का उपयोग करता है: सामान्य व्यवसाय संचालन, विपणन विभाग और अनुपालन टीम। विचलन पता लगाने से उन्हें बग की पहचान करने में मदद मिलती है, जिससे वे वेबसाइट प्रदर्शन और क्लाइंट ऑनबोर्डिंग प्रक्रिया में सुधार कर सकते हैं। यह उन्हें सॉफ्टवेयर विकास और बैक-ऑफिस ऑपरेशन टीमों को उन मुद्दों को हल करने के लिए मार्गदर्शन प्रदान करने में भी मदद करता है। वेबसाइट ट्रैफिक एक और क्षेत्र है जो विचलन पता लगाने की शक्ति का लाभ उठा सकता है। वेबसाइट ट्रैफिक में आउटलियर को समझने से विपणन टीम को यह समझने में मदद मिलती है कि क्या एक विपणन अभियान काम कर रहा है या नहीं। इससे उन्हें यह तय करने में मदद मिलती है कि किस क्षेत्र पर ध्यान केंद्रित करना सबसे महत्वपूर्ण है। हमारा अंतिम उदाहरण यह है कि क्लाइंट साइन अप विचलन अनुपालन टीम को संभावित धोखाधड़ी की पहचान करने और क्लाइंट जोखिम को कम करने में मदद करता है।

हमारे एनडीएएक्स के मुख्य अनुपालन अधिकारी, जूलिया बारानोव्स्काया के साथ हमारी चर्चा में, उन्होंने बताया कि कैसे विचलन पता लगाने का महत्व वर्तमान महामारी के दौरान बढ़ गया है। पिछले कुछ महीनों में धोखाधड़ी का पता लगाने में 300% की वृद्धि हुई है। डेस्पेरेट समय और उच्च ऑनलाइन ट्रैफिक सभी प्रकार के स्कैम को आमंत्रित करते हैं जो बेरोजगार और बुजुर्गों को निशाना बनाते हैं। विचलन पता लगाने के साथ, हम अब इन आउटलियर को धोखाधड़ी या रुझानों के संकेतक में बदल सकते हैं। निम्नलिखित ग्राफ दिखाता है कि धोखाधड़ी इस साल के पहले भाग में कैसे उतार-चढ़ाव हुआ है।

एनडीएएक्स ने क्यू 2 में धोखाधड़ी में वृद्धि पाई, विशेष रूप से बुजुर्गों और नकली नौकरी पोस्टिंग से संबंधित घोटाले।

आपके व्यवसाय के बारे में क्या?

विचलन पता लगाने वाले अल्गोरिदम व्यवसायों को कई परिदृश्यों में असामान्य डेटा बिंदुओं की पहचान करने और प्रतिक्रिया करने में मदद कर सकते हैं। एक बैंक सुरक्षा प्रणाली धोखाधड़ी लेनदेन की पहचान के लिए विचलन पता लगाने का उपयोग कर सकती है। इसी तरह, निर्माण संयंत्र के मालिक विचलन पता लगाने पर निर्भर करते हैं ताकि खराब उपकरणों से निपटा जा सके और भविष्यवाणी रखरखाव उपायों को लागू किया जा सके। आईओटी सेंसर नेटवर्क में, विचलन पता लगाने का उपयोग स्थिति निगरानी समाधानों और अवांछित मैलवेयर तैनाती की रोकथाम के हिस्से के रूप में किया जाता है। नीचे का बिंदु स्पष्ट है: जो व्यवसाय बड़े डेटा तक पहुंच रखते हैं, वे मिडास (और अन्य विचलन पता लगाने वाले अल्गोरिदम) का उपयोग करके वास्तविक समय में असामान्य पैटर्न की पहचान कर सकते हैं।

आपका डेटा कैसे संरचित है और हम आपको एक आधुनिक विचलन पता लगाने वाला समाधान स्थापित करने में कैसे मदद कर सकते हैं?हमें एक पंक्ति छोड़ दें और हमें बताएं। ब्लू ऑरेंज डिजिटल की डेटा विज्ञान टीम भी आपके लिए विचलन पता लगाने को काम करने में खुश है!

मुख्य छवि स्रोत: कैनवा

рдЬреЛрд╢ рдорд┐рд░рд╛рдорд╛рдВрдЯ рдмреНрд▓реВ рдСрд░реЗрдВрдЬ рдбрд┐рдЬрд┐рдЯрд▓ рдХреЗ рд╕реАрдИрдУ рдФрд░ рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВ, рдЬреЛ рдиреНрдпреВрдпреЙрд░реНрдХ рд╕рд┐рдЯреА рдФрд░ рд╡рд╛рд╢рд┐рдВрдЧрдЯрди рдбреАрд╕реА рдореЗрдВ рдХрд╛рд░реНрдпрд╛рд▓рдпреЛрдВ рдХреЗ рд╕рд╛рде рдПрдХ рд╢реАрд░реНрд╖ рд░реИрдВрдХ рд╡рд╛рд▓реА рдбреЗрдЯрд╛ рд╕рд╛рдЗрдВрд╕ рдФрд░ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдПрдЬреЗрдВрд╕реА рд╣реИред рдорд┐рд░рд╛рдорд╛рдВрдЯ рдПрдХ рд▓реЛрдХрдкреНрд░рд┐рдп рд╕реНрдкреАрдХрд░, рднрд╡рд┐рд╖реНрдпрд╡рд╛рджреА рдФрд░ рдЙрджреНрдпрдо рдХрдВрдкрдирд┐рдпреЛрдВ рдФрд░ рд╕реНрдЯрд╛рд░реНрдЯрдЕрдкреНрд╕ рдХреЗ рд▓рд┐рдП рдПрдХ рд░рдгрдиреАрддрд┐рдХ рд╡реНрдпрд╡рд╕рд╛рдп рдФрд░ рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХреА рд╕рд▓рд╛рд╣рдХрд╛рд░ рд╣реИрдВред рд╡рд╣ рд╕рдВрдЧрдардиреЛрдВ рдХреЛ рдЕрдкрдиреЗ рд╡реНрдпрд╡рд╕рд╛рдпреЛрдВ рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдФрд░ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдХрд░рдиреЗ, рдбреЗрдЯрд╛-рдЪрд╛рд▓рд┐рдд рд╡рд┐рд╢реНрд▓реЗрд╖рдгрд╛рддреНрдордХ рддрдХрдиреАрдХреЛрдВ рдХреЛ рд▓рд╛рдЧреВ рдХрд░рдиреЗ рдФрд░ рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛, рдмрдбрд╝реЗ рдбреЗрдЯрд╛ рдФрд░ рдЗрдВрдЯрд░рдиреЗрдЯ рдСрдл рдерд┐рдВрдЧреНрд╕ рдЬреИрд╕реА рдирдИ рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдХреЗ рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреЛ рд╕рдордЭрдиреЗ рдореЗрдВ рдорджрдж рдХрд░рддрд╛ рд╣реИред