Refresh

This website www.unite.ai/ca/descobrint-les-nostres-visites-ocultes-amb-dades-del-m%C3%B2bil-i-aprenentatge-autom%C3%A0tic/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

taló Descobrint les nostres "visites ocultes" amb dades del telèfon mòbil i aprenentatge automàtic - Unite.AI
Connecteu-vos amb nosaltres

Vigilància

Descobrint les nostres "visites ocultes" amb dades del telèfon mòbil i aprenentatge automàtic

mm
actualitzat on

Investigadors de la Xina i els Estats Units han col·laborat en investigacions que utilitzen màquina d'aprenentatge tècniques per discernir les "visites ocultes" que fem quan ens movem pel país, però no fem prou trucades telefòniques ni utilitzem prou els nostres telèfons per obtenir una imatge completa dels nostres moviments a partir de registres de dades de telecomunicacions.

El paper, titulat Identificació de visites ocultes a partir de dades escasses del registre de detalls de trucades, està dirigit per Zhan Zhao de la Universitat de Hong Kong, treballant amb Haris N. Koutsopoulos de la Northeastern University de Boston i Jinhua Zhao al MIT.

La premissa de la investigació és utilitzar els registres de connectivitat mòbil (incloent dades mòbils, SMS i trucades de veu) d'usuaris molt actius per desenvolupar un model que pugui endevinar amb més precisió els patrons de moviment dels usuaris menys actius.

Un esquema aproximat per extreure informació del viatge de les dades del registre de detalls de trucades (CD). Font: https://arxiv.org/pdf/2106.12885.pdf

Un esquema aproximat per extreure informació del viatge de les dades del registre de detalls de trucades (CD). Font: https://arxiv.org/pdf/2106.12885.pdf

Tot i que els investigadors admeten que hi ha implicacions de privadesa en el desenvolupament d'aquest treball, i malgrat l'objectiu declarat del projecte d'obtenir un detall més gran i més granular sobre els viatges dels usuaris, afirmen que l'objectiu és recollir una millor informació. generalitzat imatge del moviment.

També assenyalen que les dades del registre de detalls de trucades (CDR) que alimenten aquests estudis tenen una resolució espacial baixa i són propenses a "soroll de posicionament" a causa de la posició canviant de l'usuari en relació a les torres de telefonia mòbil que estan passant, i suggereixen que aquesta limitació en si mateixa és una forma de protecció de la privadesa:

"L'aplicació objectiu del nostre estudi és la detecció de viatges i l'estimació de DO[*], que es fan a nivell agregat, no individual. Els models desenvolupats es poden desplegar directament als servidors de bases de dades dels operadors de telecomunicacions, sense necessitat de transferència de dades. A més, en comparació amb altres formes de big data, com les xarxes socials o les dades de transaccions amb targeta de crèdit, les dades CDR són relativament menys intrusives en termes de privadesa personal. A més, el seu error de localització ajuda a emmascarar les ubicacions exactes dels usuaris, proporcionant una altra capa de preservació de la privadesa.'

Intervals de temps transcorregut (ETIs)

Quan viatgem amb telèfons mòbils (no necessàriament telèfons intel·ligents), es fan evidents les limitacions de les dades CDR com a eina per definir la ubicació. Els intervals de temps transcorreguts (ETI), períodes d'un viatge en què l'usuari mòbil no fa ni rep trucades, són un marcador crític per fer un seguiment dels nostres moviments: un interval de "silenci" prou llarg com per caure temporalment de la xarxa.

Els investigadors assenyalen que això interfereix amb la capacitat dels sistemes analítics de fer suposicions sobre els viatges A>B, ja que l'escàs de les dades podria amagar un "viatge no observat". El nou mètode aborda això mitjançant l'anàlisi del context espaciotemporal de les ETI, així com "les característiques individuals de l'usuari".

dataset

Els investigadors van desenvolupar el seu conjunt de formació bàsica amb dades proporcionades per un important operador de serveis mòbils en una ciutat xinesa amb una població de 6 milions de persones. Les dades contenien més de dos mil milions de transaccions de telèfon mòbil generades per tres milions d'usuaris el novembre de 2013 i només inclouen registres de trucades de veu i accés a dades (ús de dades). No es van utilitzar dades d'SMS, cosa que va fer més difícil abordar l'escassa de dades.

Les dades contenien un identificador únic xifrat; un codi d'àrea d'ubicació (LAC); una marca de temps; un identificador de telèfon mòbil, que es va recopilar amb el LAC per tal d'individuar la torre de telefonia mòbil utilitzada en la transacció; i un identificador d'esdeveniment (trucada sortint/entrant o ús de dades).

Arbre de procés per a la identificació de visites ocultes.

Arbre de procés per a la identificació de visites ocultes.

Aquesta informació es va creuar amb una base de dades d'operacions de torres cel·lulars, cosa que va permetre als investigadors consultar les coordenades de longitud i latitud de la torre associades a l'esdeveniment de comunicació. Els investigadors van poder identificar 9000 torres cel·lulars al conjunt de dades.

Els investigadors observen que és difícil endevinar les destinacions dels viatges únicament mitjançant els registres de trucades, ja que aquest tipus de registres assoleixen un màxim al matí i a la tarda, la qual cosa es correlaciona amb els patrons de viatge de totes maneres. Com que les trucades telefòniques precedeixen el viatge (i poden desencadenar un viatge), això pot provocar un biaix en l'estimació de la destinació.

Patrons d'ús del mòbil al llarg d'un dia.

Patrons d'ús del mòbil al llarg d'un dia.

S'apliquen restriccions similars a les transaccions d'ús de dades iniciades per l'usuari, com ara aplicacions de missatgeria i altres tipus d'interacció. Tanmateix, és l'ús de dades "automatitzat" el que ajuda a identificar-nos: l'enquesta sistemàtica de les API per a missatges nous o altres tipus de dades, incloses llistes de missatges, GPS i telemetria general a les aplicacions instal·lades.

Processament

Els investigadors van abordar el problema amb una àmplia gamma de classificadors populars d'aprenentatge automàtic, inclosa la regressió logística, la màquina vectorial de suport (SVM), el bosc aleatori i un enfocament de conjunt que augmenta el gradient. Tots els classificadors es van implementar a Python via scikit-aprendre, a la configuració predeterminada.

D'aquests enfocaments, els investigadors van trobar que la regressió logística va produir el major nombre de paràmetres de model interpretables.

Els investigadors també van descobrir que com més llarga sigui una ETI, més gran és la probabilitat que s'hagi produït una visita oculta i que una major incidència de visites ocultes es produeixi al matí.

A més, quan les dades CDR d'un usuari exposen fàcilment un gran nombre de destinacions o punts de referència, hi ha la menor probabilitat que es produeixi una visita oculta. En general, això concorda amb el principi general de la investigació: que els usuaris més "sorollosos" o més actius estan dibuixant una imatge detallada dels seus moviments, a partir de la qual es pot inferir el comportament dels usuaris menys actius.

Per concloure, els investigadors preveuen que el seu enfocament es pot utilitzar per a altres tipus de dades de trànsit, incloses dades de targetes intel·ligents i informació de xarxes socials geolocalitzades.

La investigació va ser finançada per Energy Foundation Xina i el Centre de Transport Sostenible de la Xina.

 

* Origen-Destinació