Supraveghere
Dezvăluirea ‘Vizitelor Noastre Ascunse’ Cu Date De Telefonie Mobilă și Învățare Automată

Cercetători din China și Statele Unite au colaborat la o cercetare care utilizează tehnici de învățare automată pentru a descoperi ‘vizitele ascunse’ pe care le facem atunci când ne deplasăm prin țară, dar nu facem suficiente apeluri telefonice sau nu utilizăm telefoanele noastre mobile suficient de mult pentru a forma o imagine completă a mișcărilor noastre din înregistrările datelor de telecomunicații.
Articolul paper, intitulat Identificarea Vizitelor Ascunse Din Datele Înregistrărilor Apelurilor, este condus de Zhan Zhao de la Universitatea din Hong Kong, care lucrează împreună cu Haris N. Koutsopoulos de la Universitatea Northeastern din Boston și Jinhua Zhao de la MIT.
Premisa cercetării este de a utiliza înregistrările de conectivitate mobilă (inclusiv date mobile, SMS și apeluri vocale) ale utilizatorilor foarte activi pentru a dezvolta un model care poate ghici mai precis modelele de mișcare ale utilizatorilor mai puțin activi.

O schemă aproximativă pentru extragerea informațiilor despre călătorii din Datele Înregistrărilor Apelurilor (CD). Sursă: https://arxiv.org/pdf/2106.12885.pdf
Deși cercetătorii admit că există implicații privind confidențialitatea în dezvoltarea unor astfel de lucrări, și în ciuda obiectivului declarat al proiectului de a obține detalii mai mari și mai granulare despre călătoriile utilizatorilor, ei susțin că obiectivul este de a obține o imagine generalizată mai bună a mișcării.
Ei mai notează că Datele Înregistrărilor Apelurilor (CDR) care alimentează astfel de studii au o rezoluție spațială scăzută și sunt predispuse la ‘zgomot de poziționare’ din cauza poziției schimbătoare a utilizatorului în raport cu turnurile de telefonie mobilă pe care le traversează, și sugerează că această limitare în sine este o formă de protecție a confidențialității:
‘Aplicația țintă a studiului nostru este detectarea călătoriilor și estimarea OD[*], care se efectuează la nivel agregat, nu la nivel individual. Modelele dezvoltate pot fi implementate direct pe serverele de baze de date ale operatorilor de telecomunicații, fără a necesita transferul de date. Mai mult, comparativ cu alte forme de date mari, cum ar fi datele de pe rețelele sociale sau tranzacțiile cu cardul de credit, datele CDR sunt relativ mai puțin intruzive în ceea ce privește confidențialitatea personală. În plus, eroarea de localizare ajută la mascarea locațiilor exacte ale utilizatorilor, oferind un alt strat de conservare a confidențialității.’
Intervalele De Timp Scadente (ETI)
Când călătorim cu telefoane mobile (nu neapărat smartphone-uri), limitările datelor CDR ca instrument de definire a locației devin evidente. Intervalele De Timp Scadente (ETI), perioadele unei călătorii în care utilizatorul mobil nu efectuează sau primește apeluri, sunt un marker critic în urmărirea mișcărilor noastre – un interval de ‘tăcere’ suficient de lung pentru a ne face să cădem temporar de pe radar.
Cercetătorii notează că acest lucru interferează cu capacitatea sistemelor analitice de a face presupuneri despre călătoriile A>B, deoarece raritatea datelor ar putea ascunde o ‘călătorie neobservată’. Metoda nouă abordează acest lucru prin analizarea contextului spatiotemporal al ETI, precum și ‘caracteristicile individuale ale utilizatorului’.
Setul De Date
Cercetătorii și-au dezvoltat setul de date de bază cu date furnizate de un operator major de servicii mobile dintr-un oraș chinez cu o populație de 6 milioane de oameni. Datele conțineau peste două miliarde de tranzacții mobile generate de trei milioane de utilizatori în noiembrie 2013 și conțineau doar înregistrări de apeluri vocale și acces la date (utilizare a datelor). Datele SMS nu au fost utilizate, ceea ce a făcut ca abordarea rarității datelor să fie mai dificilă.
Datele conțineau un ID unic criptat; un cod de zonă de localizare (LAC); un timestamp; un ID de telefon mobil, care a fost colectat împreună cu LAC pentru a individualiza turnul de telefonie mobilă utilizat în tranzacție; și un ID de eveniment (apel ieșitor/intrător, sau utilizare a datelor).

Arbore de proces pentru identificarea vizitelor ascunse.
Cercetătorii observă că este dificil să ghiciți destinațiile de călătorie doar pe baza înregistrărilor apelurilor, deoarece aceste tipuri de înregistrări ating punctul culminant dimineața și după-amiaza, ceea ce se corelează cu modelele de călătorie oricum. Deoarece apelurile preced călătoria (și pot declanșa o călătorie), acest lucru poate cauza o eroare în estimarea destinației.

Modele de utilizare a telefoanelor mobile pe parcursul unei zile.
Restrictii similare se aplică și tranzacțiilor de utilizare a datelor inițiate de utilizator, cum ar fi aplicațiile de mesagerie, și alte tipuri de interacțiune. Cu toate acestea, ‘utilizarea automată a datelor’ ne ajută să identificăm – poluarea sistematică a API-urilor pentru noi mesaje sau alte tipuri de date, inclusiv liste de mesaje, GPS și telemetrie generală pentru aplicațiile instalate.
Procesare
Cercetătorii au abordat problema cu o gamă largă de clasificatori de învățare automată populari, inclusiv regresia logistică, mașina de suport vectorial (SVM), pădurea aleatoare și o abordare de ansamblu de îmbunătățire a gradientului. Toți clasificatorii au fost implementați în Python prin scikit-learn, cu setări implicite.
Dintre aceste abordări, cercetătorii au constatat că regresia logistică a oferit cel mai mare număr de parametri de model interpretabili.
Ei au descoperit, de asemenea, că cu cât ETI este mai lung, cu atât este mai mare probabilitatea ca o vizită ascunsă să fi avut loc, și că o incidență mai mare de vizite ascunse are loc dimineața.
Mai mult, atunci când datele CDR ale unui utilizator expun ușor un număr mare de destinații sau puncte de pe traseu, există cea mai mică probabilitate ca o vizită ascunsă să fi avut loc. În general, acest lucru se potrivește cu principiul general al cercetării – că utilizatorii ‘zgomotoși’ sau mai activi pictează o imagine detaliată a mișcărilor lor, din care comportamentul utilizatorilor mai puțin activi poate fi dedus.
În concluzie, cercetătorii prevăd că abordarea lor poate fi utilizată pentru alte tipuri de date de transport, inclusiv date de carduri de transport inteligent și informații geolocalizate de pe rețelele sociale.
Cercetarea a fost finanțată de Energy Foundation China și China Sustainable Transportation Center.












