рдирд┐рдЧрд░рд╛рдиреА
рд╣рдорд╛рд░реЗ ‘рдЫрд┐рдкреЗ рд╣реБрдП рджреМрд░реЗ’ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдирд╛ рд╕реЗрд▓ рдлреЛрди рдбреЗрдЯрд╛ рдФрд░ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХреЗ рд╕рд╛рде

चीन और संयुक्त राज्य अमेरिका के शोधकर्ताओं ने एक शोध पर सहयोग किया है जिसमें मशीन लर्निंग तकनीकों का उपयोग करके हमारे ‘छिपे हुए दौरे’ का पता लगाने का प्रयास किया गया है जब हम देश के चारों ओर घूमते हैं, लेकिन पर्याप्त फोन कॉल नहीं करते हैं या अपने फोन का उपयोग नहीं करते हैं ताकि टेलीकॉम डेटा रिकॉर्ड से हमारी गतिविधियों का पूरा चित्र बनाया जा सके।
पेपर में, जिसका शीर्षक स्पार्स कॉल डिटेल रिकॉर्ड डेटा से छिपे हुए दौरे की पहचान है, हांगकांग विश्वविद्यालय के झांग झाओ द्वारा नेतृत्व किया जा रहा है, जो बोस्टन के नॉर्थईस्टर्न विश्वविद्यालय के हारिस एन काउट्सोपोलोस और एमआईटी के जिन्हुआ झाओ के साथ काम कर रहे हैं।
इस शोध का उद्देश्य उच्च सक्रिय उपयोगकर्ताओं के मोबाइल कनेक्टिविटी रिकॉर्ड (जिसमें मोबाइल डेटा, एसएमएस और वॉइस कॉल शामिल हैं) का उपयोग करके एक मॉडल विकसित करना है जो कम सक्रिय उपयोगकर्ताओं की गतिविधि पैटर्न का अधिक सटीक अनुमान लगा सकता है।

कॉल डिटेल रिकॉर्ड (सीडी) डेटा से यात्रा जानकारी निकालने के लिए एक खुरदरा सchematic स्रोत: https://arxiv.org/pdf/2106.12885.pdf
हालांकि शोधकर्ताओं को स्वीकार करते हैं कि इस तरह के काम को विकसित करने में गोपनीयता के प्रभाव हैं, और परियोजना के उद्देश्य को अधिक और अधिक विस्तृत विवरण प्राप्त करने के लिए, वे तर्क देते हैं कि उद्देश्य एक बेहतर सामान्य चित्र प्राप्त करना है।
वे यह भी ध्यान देते हैं कि कॉल डिटेल रिकॉर्ड (सीडीआर) डेटा जो इस तरह के अध्ययनों को ईंधन देता है, उसका स्थानिक रिज़ॉल्यूशन कम होता है और यह ‘स्थिति शोर’ के लिए प्रवण होता है क्योंकि उपयोगकर्ता सेल फोन टावरों के सापेक्ष अपनी स्थिति बदलता है, और सुझाव देते हैं कि यह सीमा ही एक प्रकार की गोपनीयता सुरक्षा है:
‘हमारे अध्ययन का लक्ष्य यात्रा का पता लगाना और ओडी अनुमान लगाना है, जो समग्र स्तर पर किया जाता है, व्यक्तिगत स्तर पर नहीं। विकसित मॉडल को सीधे टेलीकॉम कैरियर के डेटाबेस सर्वर पर तैनात किया जा सकता है, डेटा स्थानांतरण की आवश्यकता नहीं है। इसके अलावा, सोशल मीडिया या क्रेडिट कार्ड लेनदेन डेटा जैसे अन्य प्रकार के बड़े डेटा की तुलना में, सीडीआर डेटा व्यक्तिगत गोपनीयता के संदर्भ में कम आक्रामक है। इसके अलावा, इसकी स्थानीयकरण त्रुटि वास्तविक उपयोगकर्ता स्थानों को छिपाने में मदद करती है, गोपनीयता संरक्षण की एक और परत प्रदान करती है।’
समय अंतराल (ईटीआई)
जब हम मोबाइल फोन (आवश्यक रूप से स्मार्टफोन नहीं) के साथ यात्रा करते हैं, तो सीडीआर डेटा की स्थान-निर्धारण उपकरण के रूप में सीमाएं स्पष्ट हो जाती हैं। समय अंतराल (ईटीआई), यात्रा के दौरान की अवधि जब मोबाइल उपयोगकर्ता कॉल नहीं करता है या प्राप्त नहीं करता है, हमारी गतिविधियों को ट्रैक करने में एक महत्वपूर्ण मार्कर है – ‘मौन’ की अवधि जो हमें अस्थायी रूप से ग्रिड से बाहर कर देती है।
शोधकर्ता ध्यान देते हैं कि यह विश्लेषणात्मक प्रणालियों की क्षमता को प्रभावित करता है जो ए>बी यात्राओं के बारे में अनुमान लगा सकती है, क्योंकि डेटा की शून्यता एक ‘अदृश्य यात्रा’ को छिपा सकती है। यह नई विधि ईटीआई के स्थानिक-समय संदर्भ का विश्लेषण करके संबोधित करती है, साथ ही ‘उपयोगकर्ता की व्यक्तिगत विशेषताओं’ का भी विश्लेषण करती है।
डेटासेट
शोधकर्ताओं ने अपने मुख्य प्रशिक्षण सेट को एक चीनी शहर में एक प्रमुख सेल्युलर सेवा ऑपरेटर द्वारा प्रदान किए गए डेटा के साथ विकसित किया, जिसकी आबादी 6 मिलियन लोगों की है। डेटा में नवंबर 2013 में तीन मिलियन उपयोगकर्ताओं द्वारा उत्पन्न दो अरब से अधिक मोबाइल फोन लेनदेन शामिल थे, और केवल वॉइस कॉल और डेटा एक्सेस (डेटा उपयोग) रिकॉर्ड शामिल थे। एसएमएस डेटा का उपयोग नहीं किया गया था, जिसने डेटा की शून्यता को संबोधित करना अधिक कठिन बना दिया।
डेटा में एक एन्क्रिप्टेड यूनिक आईडी; एक स्थान क्षेत्र कोड (एलएसी); एक टाइमस्टैम्प; एक सेल फोन आईडी, जो एलएसी के साथ संयुक्त किया गया था ताकि लेन-देन में उपयोग किए गए सेल फोन टावर को व्यक्तिगत किया जा सके; और एक इवेंट आईडी (आउटगोइंग/इनकमिंग कॉल, या डेटा उपयोग) शामिल था।

छिपे हुए दौरे की पहचान के लिए प्रक्रिया पेड़
इस जानकारी को एक सेल टावर ऑपरेशन डेटाबेस के साथ क्रॉस-रेफरेंस किया गया था, जिससे शोधकर्ता संचार घटना से जुड़े टावर के अक्षांश और देशांतर को पूछताछ कर सकें। शोधकर्ता डेटासेट में 9000 सेल टावरों की पहचान करने में सक्षम थे।
शोधकर्ता ध्यान देते हैं कि केवल कॉल रिकॉर्ड से यात्रा गंतव्य का अनुमान लगाना मुश्किल है, क्योंकि इस तरह के रिकॉर्ड सुबह और दोपहर में चोटी पर होते हैं, जो यात्रा पैटर्न से संबंधित होते हैं। चूंकि फोन कॉल यात्रा से पहले होते हैं (और एक यात्रा को ट्रिगर कर सकते हैं), यह गंतव्य अनुमान में पूर्वाग्रह पैदा कर सकता है।

दिन के दौरान मोबाइल उपयोग पैटर्न
समान प्रतिबंध उपयोगकर्ता-प्रेरित डेटा उपयोग लेनदेन, जैसे कि मैसेजिंग ऐप्स, और अन्य प्रकार के इंटरैक्शन पर लागू होते हैं। हालांकि, यह ‘स्वचालित’ डेटा उपयोग है जो हमें पहचानने में मदद करता है – एपीआई के लिए नए संदेश या अन्य प्रकार के डेटा के लिए सिस्टमैटिक पोलिंग, जिसमें संदेश सूचियां, जीपीएस और स्थापित ऐप्स में सामान्य टेलीमेट्री शामिल हैं।
प्रोसेसिंग
शोधकर्ताओं ने समस्या को हल करने के लिए लॉजिस्टिक रिग्रेशन, सपोर्ट वेक्टर मशीन (एसवीएम), रैंडम फॉरेस्ट, और एक ग्रेडिएंट बूस्टिंग एन्सेम्बल दृष्टिकोण जैसे लोकप्रिय मशीन लर्निंग क्लासिफायर की एक विस्तृत श्रृंखला के साथ दृष्टिकोण किया। सभी क्लासिफायर पाइथन के माध्यम से स्किटी-लर्न पर डिफ़ॉल्ट सेटिंग्स के साथ लागू किए गए थे।
इन दृष्टिकोणों में, शोधकर्ताओं ने पाया कि लॉजिस्टिक रिग्रेशन ने सबसे अधिक व्याख्यात्मक मॉडल पैरामीटर की संख्या प्रदान की।
वे शोधकर्ता यह भी खोजते हैं कि जितना अधिक ईटीआई लंबा होगा, उतनी ही अधिक संभावना है कि एक छिपा हुआ दौरा हुआ है, और सुबह में छिपे हुए दौरे की अधिक घटना होती है।
इसके अलावा, जब एक उपयोगकर्ता के सीडीआर डेटा में आसानी से एक उच्च संख्या में गंतव्य या मार्ग बिंदु दिखाई देते हैं, तो सबसे कम संभावना है कि एक छिपा हुआ दौरा हुआ है। सामान्य तौर पर, यह शोध के सामान्य सिद्धांत के अनुसार है – कि ‘शोर’ या सबसे सक्रिय उपयोगकर्ता अपनी गतिविधियों का एक विस्तृत चित्र पेंट कर रहे हैं, जिससे कम सक्रिय उपयोगकर्ताओं की गतिविधि का अनुमान लगाया जा सकता है।
निष्कर्ष में, शोधकर्ता अनुमान लगाते हैं कि उनके दृष्टिकोण का उपयोग स्मार्ट कार्ड डेटा और जियो-लोकेटेड सोशल मीडिया जानकारी जैसे अन्य प्रकार के परिवहन डेटा के लिए भी किया जा सकता है।
इस शोध को एनर्जी फाउंडेशन चीन और चीन सस्टेनेबल ट्रांसपोर्टेशन सेंटर द्वारा वित्त पोषित किया गया था।












