Refresh

This website www.unite.ai/nl/onze-verborgen-bezoeken-blootleggen-met-gegevens-van-mobiele-telefoons-en-machine-learning/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

stomp Onze 'verborgen bezoeken' blootleggen met mobiele telefoongegevens en machine learning - Unite.AI
Verbind je met ons

Toezicht

Onze 'verborgen bezoeken' blootleggen met mobiele telefoongegevens en machine learning

mm
Bijgewerkt on

Onderzoekers uit China en de Verenigde Staten hebben samengewerkt aan onderzoek dat gebruik maakt van machine learning technieken om de 'verborgen bezoeken' die we afleggen als we ons door het land verplaatsen, te onderscheiden, maar we bellen niet genoeg of gebruiken onze telefoons niet genoeg om anders een compleet beeld van onze bewegingen te vormen op basis van telecomdatarecords.

Het papier, recht hebben Identificatie van verborgen bezoeken uit schaarse oproepgegevens, wordt geleid door Zhan Zhao van de Universiteit van Hong Kong, in samenwerking met Haris N. Koutsopoulos van Boston's Northeastern University en Jinhua Zhao van MIT.

Het uitgangspunt van het onderzoek is om de mobiele connectiviteitsrecords (inclusief mobiele data, sms en spraakoproepen) van zeer actieve gebruikers te gebruiken om een ​​model te ontwikkelen dat de bewegingspatronen van minder actieve gebruikers nauwkeuriger kan raden.

Een ruw schema voor het extraheren van reisinformatie uit Call Detail Record (CD) -gegevens. Bron: https://arxiv.org/pdf/2106.12885.pdf

Een ruw schema voor het extraheren van reisinformatie uit Call Detail Record (CD) -gegevens. Bron: https://arxiv.org/pdf/2106.12885.pdf

Hoewel de onderzoekers toegeven dat er implicaties zijn voor de privacy bij het ontwikkelen van dergelijk werk, en ondanks het gestelde doel van het project om meer en gedetailleerdere details over gebruikersreizen te verkrijgen, beweren ze dat het doel is om een ​​beter gegeneraliseerde foto van beweging.

Ze merken ook op dat de Call Detail Record (CDR) -gegevens die dergelijke onderzoeken voeden, een lage ruimtelijke resolutie hebben en vatbaar zijn voor 'positioneringsruis' vanwege de veranderende positie van de gebruiker ten opzichte van de mobiele telefoontorens die ze passeren, en suggereren dat deze beperking op zich is een vorm van privacybescherming:

'De beoogde toepassing van ons onderzoek is ritdetectie en HB-schatting[*], die op geaggregeerd niveau worden gedaan, niet op individueel niveau. De ontwikkelde modellen kunnen direct worden ingezet op de databaseservers van telecomcarriers, zonder dat er dataoverdracht nodig is. Bovendien zijn CDR-gegevens in vergelijking met andere vormen van big data, zoals sociale media of creditcardtransactiegegevens, relatief minder ingrijpend voor de persoonlijke levenssfeer. Bovendien helpt de lokalisatiefout om de exacte gebruikerslocaties te maskeren, wat een extra laag privacybehoud biedt.'

Verstreken tijdsintervallen (ETI's)

Wanneer we rondreizen met mobiele telefoons (niet noodzakelijkerwijs smartphones), worden de beperkingen van CDR-gegevens als locatiebepalend hulpmiddel duidelijk. Elapsed Time Intervals (ETI's), periodes van een reis waarin de mobiele gebruiker niet belt of gebeld wordt, zijn een kritieke markering bij het bijhouden van onze bewegingen - een interval van 'stilte' die lang genoeg is om ons tijdelijk uit het netwerk te laten vallen.

De onderzoekers merken op dat dit het vermogen van analytische systemen verstoort om aannames te doen over A>B-reizen, omdat de schaarsheid van de gegevens een 'niet-geobserveerde reis' zou kunnen verbergen. De nieuwe methode pakt dit aan door de spatiotemporele context van ETI's te analyseren, evenals 'de individuele kenmerken van de gebruiker'.

dataset

De onderzoekers ontwikkelden hun kerntrainingsset met gegevens van een grote mobiele serviceprovider in een Chinese stad met 6 miljoen inwoners. De gegevens bevatten meer dan twee miljard mobiele telefoontransacties gegenereerd door drie miljoen gebruikers in november 2013, en bevatten alleen records voor spraakoproepen en gegevenstoegang (gegevensgebruik). Er werden geen sms-gegevens gebruikt, wat het moeilijker maakte om de schaarste aan gegevens aan te pakken.

De gegevens bevatten een gecodeerde unieke ID; een locatiecode (LAC); een tijdstempel; een gsm-ID, die werd verzameld met de LAC om de gsm-mast te identificeren die bij de transactie werd gebruikt; en een gebeurtenis-ID (uitgaand/inkomend gesprek of gegevensgebruik).

Procesboom voor de identificatie van verborgen bezoeken.

Procesboom voor de identificatie van verborgen bezoeken.

Deze informatie werd vergeleken met een zendmast-operatiedatabase, waardoor de onderzoekers de lengte- en breedtegraadcoördinaten konden opvragen van de toren die verband hield met de communicatiegebeurtenis. In de dataset konden de onderzoekers 9000 zendmasten identificeren.

De onderzoekers merken op dat het moeilijk is om reisbestemmingen alleen op basis van belgegevens te raden, aangezien dit soort records piekt in de ochtend en de middag, wat sowieso verband houdt met reispatronen. Aangezien telefoontjes voorafgaan aan reizen (en een reis kunnen activeren), kan dit leiden tot vertekening in de schatting van de bestemming.

Mobiele gebruikspatronen in de loop van een dag.

Mobiele gebruikspatronen in de loop van een dag.

Soortgelijke beperkingen zijn van toepassing op door de gebruiker geïnitieerde transacties voor gegevensgebruik, zoals berichten-apps en andere soorten interactie. Het is echter 'geautomatiseerd' gegevensgebruik dat ons helpt te identificeren: het systematisch peilen van API's naar nieuwe berichten of andere soorten gegevens, waaronder berichtenlijsten, GPS en algemene telemetrie tussen geïnstalleerde apps.

In behandeling

De onderzoekers benaderden het probleem met een breed scala aan populaire machine learning-classificaties, waaronder logistische regressie, support vector machine (SVM), random forest en een gradiëntverhogende ensemblebenadering. Alle classificaties zijn geïmplementeerd in Python via scikit-leren, op standaardinstellingen.

Van deze benaderingen ontdekten de onderzoekers dat logistische regressie het grootste aantal interpreteerbare modelparameters opleverde.

De onderzoekers ontdekten ook dat hoe langer een ETI duurt, hoe groter de kans dat er een verborgen bezoek heeft plaatsgevonden en dat er 's ochtends vaker verborgen bezoeken plaatsvinden.

Bovendien, wanneer de CDR-gegevens van een gebruiker gemakkelijk een groot aantal bestemmingen of tussenstops blootleggen, is de kans het kleinst dat er een verborgen bezoek heeft plaatsgevonden. Over het algemeen komt dit overeen met het algemene uitgangspunt van het onderzoek – dat de 'meest luidruchtige' of meest actieve gebruikers een gedetailleerd beeld schetsen van hun bewegingen, waaruit het gedrag van minder actieve gebruikers kan worden afgeleid.

Concluderend voorspellen de onderzoekers dat hun aanpak kan worden gebruikt voor andere soorten transitgegevens, waaronder smartcardgegevens en geo-gelokaliseerde sociale media-informatie.

Het onderzoek werd gefinancierd door Energy Foundation China en het China Sustainable Transportation Center.

 

* Herkomst-bestemming