Connect with us

рд╣рдорд╛рд░реЗ ‘рдЫрд┐рдкреЗ рд╣реБрдП рджреМрд░реЗ’ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдирд╛ рд╕реЗрд▓ рдлреЛрди рдбреЗрдЯрд╛ рдФрд░ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХреЗ рд╕рд╛рде

рдирд┐рдЧрд░рд╛рдиреА

рд╣рдорд╛рд░реЗ ‘рдЫрд┐рдкреЗ рд╣реБрдП рджреМрд░реЗ’ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдирд╛ рд╕реЗрд▓ рдлреЛрди рдбреЗрдЯрд╛ рдФрд░ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХреЗ рд╕рд╛рде

mm

चीन और संयुक्त राज्य अमेरिका के शोधकर्ताओं ने एक शोध पर सहयोग किया है जिसमें मशीन लर्निंग तकनीकों का उपयोग करके हमारे ‘छिपे हुए दौरे’ का पता लगाने का प्रयास किया गया है जब हम देश के चारों ओर घूमते हैं, लेकिन पर्याप्त फोन कॉल नहीं करते हैं या अपने फोन का उपयोग नहीं करते हैं ताकि टेलीकॉम डेटा रिकॉर्ड से हमारी गतिविधियों का पूरा चित्र बनाया जा सके।

पेपर में, जिसका शीर्षक स्पार्स कॉल डिटेल रिकॉर्ड डेटा से छिपे हुए दौरे की पहचान है, हांगकांग विश्वविद्यालय के झांग झाओ द्वारा नेतृत्व किया जा रहा है, जो बोस्टन के नॉर्थईस्टर्न विश्वविद्यालय के हारिस एन काउट्सोपोलोस और एमआईटी के जिन्हुआ झाओ के साथ काम कर रहे हैं।

इस शोध का उद्देश्य उच्च सक्रिय उपयोगकर्ताओं के मोबाइल कनेक्टिविटी रिकॉर्ड (जिसमें मोबाइल डेटा, एसएमएस और वॉइस कॉल शामिल हैं) का उपयोग करके एक मॉडल विकसित करना है जो कम सक्रिय उपयोगकर्ताओं की गतिविधि पैटर्न का अधिक सटीक अनुमान लगा सकता है।

рдХреЙрд▓ рдбрд┐рдЯреЗрд▓ рд░рд┐рдХреЙрд░реНрдб (рд╕реАрдбреА) рдбреЗрдЯрд╛ рд╕реЗ рдпрд╛рддреНрд░рд╛ рдЬрд╛рдирдХрд╛рд░реА рдирд┐рдХрд╛рд▓рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдЦреБрд░рджрд░рд╛ рд╕chematic

कॉल डिटेल रिकॉर्ड (सीडी) डेटा से यात्रा जानकारी निकालने के लिए एक खुरदरा सchematic स्रोत: https://arxiv.org/pdf/2106.12885.pdf

हालांकि शोधकर्ताओं को स्वीकार करते हैं कि इस तरह के काम को विकसित करने में गोपनीयता के प्रभाव हैं, और परियोजना के उद्देश्य को अधिक और अधिक विस्तृत विवरण प्राप्त करने के लिए, वे तर्क देते हैं कि उद्देश्य एक बेहतर सामान्य चित्र प्राप्त करना है।

वे यह भी ध्यान देते हैं कि कॉल डिटेल रिकॉर्ड (सीडीआर) डेटा जो इस तरह के अध्ययनों को ईंधन देता है, उसका स्थानिक रिज़ॉल्यूशन कम होता है और यह ‘स्थिति शोर’ के लिए प्रवण होता है क्योंकि उपयोगकर्ता सेल फोन टावरों के सापेक्ष अपनी स्थिति बदलता है, और सुझाव देते हैं कि यह सीमा ही एक प्रकार की गोपनीयता सुरक्षा है:

‘हमारे अध्ययन का लक्ष्य यात्रा का पता लगाना और ओडी अनुमान लगाना है, जो समग्र स्तर पर किया जाता है, व्यक्तिगत स्तर पर नहीं। विकसित मॉडल को सीधे टेलीकॉम कैरियर के डेटाबेस सर्वर पर तैनात किया जा सकता है, डेटा स्थानांतरण की आवश्यकता नहीं है। इसके अलावा, सोशल मीडिया या क्रेडिट कार्ड लेनदेन डेटा जैसे अन्य प्रकार के बड़े डेटा की तुलना में, सीडीआर डेटा व्यक्तिगत गोपनीयता के संदर्भ में कम आक्रामक है। इसके अलावा, इसकी स्थानीयकरण त्रुटि वास्तविक उपयोगकर्ता स्थानों को छिपाने में मदद करती है, गोपनीयता संरक्षण की एक और परत प्रदान करती है।’

समय अंतराल (ईटीआई)

जब हम मोबाइल फोन (आवश्यक रूप से स्मार्टफोन नहीं) के साथ यात्रा करते हैं, तो सीडीआर डेटा की स्थान-निर्धारण उपकरण के रूप में सीमाएं स्पष्ट हो जाती हैं। समय अंतराल (ईटीआई), यात्रा के दौरान की अवधि जब मोबाइल उपयोगकर्ता कॉल नहीं करता है या प्राप्त नहीं करता है, हमारी गतिविधियों को ट्रैक करने में एक महत्वपूर्ण मार्कर है – ‘मौन’ की अवधि जो हमें अस्थायी रूप से ग्रिड से बाहर कर देती है।

शोधकर्ता ध्यान देते हैं कि यह विश्लेषणात्मक प्रणालियों की क्षमता को प्रभावित करता है जो ए>बी यात्राओं के बारे में अनुमान लगा सकती है, क्योंकि डेटा की शून्यता एक ‘अदृश्य यात्रा’ को छिपा सकती है। यह नई विधि ईटीआई के स्थानिक-समय संदर्भ का विश्लेषण करके संबोधित करती है, साथ ही ‘उपयोगकर्ता की व्यक्तिगत विशेषताओं’ का भी विश्लेषण करती है।

डेटासेट

शोधकर्ताओं ने अपने मुख्य प्रशिक्षण सेट को एक चीनी शहर में एक प्रमुख सेल्युलर सेवा ऑपरेटर द्वारा प्रदान किए गए डेटा के साथ विकसित किया, जिसकी आबादी 6 मिलियन लोगों की है। डेटा में नवंबर 2013 में तीन मिलियन उपयोगकर्ताओं द्वारा उत्पन्न दो अरब से अधिक मोबाइल फोन लेनदेन शामिल थे, और केवल वॉइस कॉल और डेटा एक्सेस (डेटा उपयोग) रिकॉर्ड शामिल थे। एसएमएस डेटा का उपयोग नहीं किया गया था, जिसने डेटा की शून्यता को संबोधित करना अधिक कठिन बना दिया।

डेटा में एक एन्क्रिप्टेड यूनिक आईडी; एक स्थान क्षेत्र कोड (एलएसी); एक टाइमस्टैम्प; एक सेल फोन आईडी, जो एलएसी के साथ संयुक्त किया गया था ताकि लेन-देन में उपयोग किए गए सेल फोन टावर को व्यक्तिगत किया जा सके; और एक इवेंट आईडी (आउटगोइंग/इनकमिंग कॉल, या डेटा उपयोग) शामिल था।

рдЫрд┐рдкреЗ рд╣реБрдП рджреМрд░реЗ рдХреА рдкрд╣рдЪрд╛рди рдХреЗ рд▓рд┐рдП рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдкреЗрдбрд╝

छिपे हुए दौरे की पहचान के लिए प्रक्रिया पेड़

इस जानकारी को एक सेल टावर ऑपरेशन डेटाबेस के साथ क्रॉस-रेफरेंस किया गया था, जिससे शोधकर्ता संचार घटना से जुड़े टावर के अक्षांश और देशांतर को पूछताछ कर सकें। शोधकर्ता डेटासेट में 9000 सेल टावरों की पहचान करने में सक्षम थे।

शोधकर्ता ध्यान देते हैं कि केवल कॉल रिकॉर्ड से यात्रा गंतव्य का अनुमान लगाना मुश्किल है, क्योंकि इस तरह के रिकॉर्ड सुबह और दोपहर में चोटी पर होते हैं, जो यात्रा पैटर्न से संबंधित होते हैं। चूंकि फोन कॉल यात्रा से पहले होते हैं (और एक यात्रा को ट्रिगर कर सकते हैं), यह गंतव्य अनुमान में पूर्वाग्रह पैदा कर सकता है।

рджрд┐рди рдХреЗ рджреМрд░рд╛рди рдореЛрдмрд╛рдЗрд▓ рдЙрдкрдпреЛрдЧ рдкреИрдЯрд░реНрди

दिन के दौरान मोबाइल उपयोग पैटर्न

समान प्रतिबंध उपयोगकर्ता-प्रेरित डेटा उपयोग लेनदेन, जैसे कि मैसेजिंग ऐप्स, और अन्य प्रकार के इंटरैक्शन पर लागू होते हैं। हालांकि, यह ‘स्वचालित’ डेटा उपयोग है जो हमें पहचानने में मदद करता है – एपीआई के लिए नए संदेश या अन्य प्रकार के डेटा के लिए सिस्टमैटिक पोलिंग, जिसमें संदेश सूचियां, जीपीएस और स्थापित ऐप्स में सामान्य टेलीमेट्री शामिल हैं।

प्रोसेसिंग

शोधकर्ताओं ने समस्या को हल करने के लिए लॉजिस्टिक रिग्रेशन, सपोर्ट वेक्टर मशीन (एसवीएम), रैंडम फॉरेस्ट, और एक ग्रेडिएंट बूस्टिंग एन्सेम्बल दृष्टिकोण जैसे लोकप्रिय मशीन लर्निंग क्लासिफायर की एक विस्तृत श्रृंखला के साथ दृष्टिकोण किया। सभी क्लासिफायर पाइथन के माध्यम से स्किटी-लर्न पर डिफ़ॉल्ट सेटिंग्स के साथ लागू किए गए थे।

इन दृष्टिकोणों में, शोधकर्ताओं ने पाया कि लॉजिस्टिक रिग्रेशन ने सबसे अधिक व्याख्यात्मक मॉडल पैरामीटर की संख्या प्रदान की।

वे शोधकर्ता यह भी खोजते हैं कि जितना अधिक ईटीआई लंबा होगा, उतनी ही अधिक संभावना है कि एक छिपा हुआ दौरा हुआ है, और सुबह में छिपे हुए दौरे की अधिक घटना होती है।

इसके अलावा, जब एक उपयोगकर्ता के सीडीआर डेटा में आसानी से एक उच्च संख्या में गंतव्य या मार्ग बिंदु दिखाई देते हैं, तो सबसे कम संभावना है कि एक छिपा हुआ दौरा हुआ है। सामान्य तौर पर, यह शोध के सामान्य सिद्धांत के अनुसार है – कि ‘शोर’ या सबसे सक्रिय उपयोगकर्ता अपनी गतिविधियों का एक विस्तृत चित्र पेंट कर रहे हैं, जिससे कम सक्रिय उपयोगकर्ताओं की गतिविधि का अनुमान लगाया जा सकता है।

निष्कर्ष में, शोधकर्ता अनुमान लगाते हैं कि उनके दृष्टिकोण का उपयोग स्मार्ट कार्ड डेटा और जियो-लोकेटेड सोशल मीडिया जानकारी जैसे अन्य प्रकार के परिवहन डेटा के लिए भी किया जा सकता है।

इस शोध को एनर्जी फाउंडेशन चीन और चीन सस्टेनेबल ट्रांसपोर्टेशन सेंटर द्वारा वित्त पोषित किया गया था।

 

* मूल-गंतव्य

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai