Ángulo de Anderson

Descubriendo nuestros ‘visitas ocultas’ con datos de teléfono móvil y aprendizaje automático

mm

Investigadores de China y Estados Unidos han colaborado en una investigación que utiliza técnicas de aprendizaje automático para discernir las ‘visitas ocultas’ que realizamos cuando nos movemos por el país, pero no hacemos suficientes llamadas telefónicas o usamos nuestros teléfonos lo suficiente como para que se pueda formar una imagen completa de nuestros movimientos a partir de los registros de datos de telecomunicaciones.

El artículo, titulado Identificando visitas ocultas a partir de registros de datos de llamadas telefónicas escasos, está liderado por Zhan Zhao de la Universidad de Hong Kong, quien trabaja con Haris N. Koutsopoulos de la Universidad Northeastern de Boston y Jinhua Zhao del MIT.

La premisa de la investigación es utilizar los registros de conectividad móvil (incluyendo datos móviles, SMS y llamadas de voz) de usuarios muy activos para desarrollar un modelo que pueda adivinar con más precisión los patrones de movimiento de usuarios menos activos.

Un esquema aproximado para extraer información de viaje de los registros de llamadas telefónicas (CD). Fuente: https://arxiv.org/pdf/2106.12885.pdf

Un esquema aproximado para extraer información de viaje de los registros de llamadas telefónicas (CD). Fuente: https://arxiv.org/pdf/2106.12885.pdf

Aunque los investigadores admiten que hay implicaciones de privacidad en el desarrollo de este trabajo, y a pesar del objetivo declarado del proyecto de obtener más detalles y una imagen más granular de los viajes de los usuarios, sostienen que el objetivo es obtener una imagen generalizada del movimiento.

También señalan que los registros de llamadas telefónicas (CDR) que alimentan estos estudios tienen una baja resolución espacial y están propensos a ‘ruido de posición’ debido a la posición cambiante del usuario en relación con las torres de teléfono móvil que están pasando, y sugieren que esta limitación en sí misma es una forma de protección de la privacidad:

‘La aplicación objetivo de nuestro estudio es la detección de viajes y la estimación de origen-destino[*], que se realizan a nivel agregado, no individual. Los modelos desarrollados se pueden implementar directamente en los servidores de base de datos de los operadores de telecomunicaciones, sin necesidad de transferencia de datos. Además, en comparación con otras formas de datos grandes, como los datos de redes sociales o las transacciones de tarjetas de crédito, los datos de CDR son relativamente menos intrusivos en términos de privacidad personal. Además, su error de localización ayuda a ocultar las ubicaciones exactas de los usuarios, lo que proporciona otra capa de preservación de la privacidad.’

Intervalos de tiempo transcurridos (ETIs)

Cuando viajamos con teléfonos móviles (no necesariamente smartphones), las limitaciones de los datos de CDR como herramienta de definición de ubicación se vuelven evidentes. Los intervalos de tiempo transcurridos (ETIs), períodos de un viaje en el que el usuario móvil no hace ni recibe llamadas, son un marcador crítico para seguir el rastro de nuestros movimientos – un intervalo de ‘silencio’ lo suficientemente largo como para que temporalmente nos salgamos de la red.

Los investigadores señalan que esto interfiera con la capacidad de los sistemas analíticos para hacer suposiciones sobre viajes de A a B, ya que la escasez de los datos podría estar ocultando un ‘viaje no observado’. El nuevo método aborda esto analizando el contexto espaciotemporal de los ETIs, así como ‘las características individuales del usuario’.

Conjunto de datos

Los investigadores desarrollaron su conjunto de entrenamiento principal con datos proporcionados por un importante operador de servicios celulares en una ciudad china con una población de 6 millones de personas. Los datos contenían más de dos mil millones de transacciones de teléfono móvil generadas por tres millones de usuarios en noviembre de 2013, y solo contienen registros de voz y acceso a datos (uso de datos). No se utilizaron datos de SMS, lo que hizo que abordar la escasez de los datos fuera más difícil.

Los datos contenían un ID único cifrado; un código de área de ubicación (LAC); una marca de tiempo; un ID de teléfono móvil, que se recopiló con el LAC para individuar la torre de teléfono móvil utilizada en la transacción; y un ID de evento (llamada saliente/entrante, o uso de datos).

Árbol de procesos para la identificación de visitas ocultas.

Árbol de procesos para la identificación de visitas ocultas.

Esta información se cruzó con una base de datos de operación de torres de teléfono móvil, lo que permitió a los investigadores consultar las coordenadas de longitud y latitud de la torre asociada con el evento de comunicación. Los investigadores pudieron identificar 9000 torres de teléfono móvil en el conjunto de datos.

Los investigadores observan que es difícil adivinar los destinos de los viajes solo por los registros de llamadas, ya que este tipo de registros alcanzan su punto máximo en la mañana y la tarde, lo que se correlaciona con los patrones de viaje de todos modos. Dado que las llamadas telefónicas preceden a los viajes (y pueden desencadenar un viaje), esto puede causar sesgo en la estimación del destino.

Patrones de uso de teléfono móvil a lo largo del día.

Patrones de uso de teléfono móvil a lo largo del día.

Se aplican restricciones similares a las transacciones de uso de datos iniciadas por el usuario, como aplicaciones de mensajería, y otros tipos de interacción. Sin embargo, es el ‘uso de datos automatizado’ lo que nos ayuda a identificar – la encuesta sistemática de API para nuevos mensajes u otros tipos de datos, incluyendo listas de mensajes, GPS y telemetría general a través de aplicaciones instaladas.

Procesamiento

Los investigadores abordaron el problema con una amplia gama de clasificadores de aprendizaje automático populares, incluyendo regresión logística, máquina de soporte vectorial (SVM), bosque aleatorio y un enfoque de ensemble de impulso de gradiente. Todos los clasificadores se implementaron en Python a través de scikit-learn, con configuraciones predeterminadas.

De estos enfoques, los investigadores encontraron que la regresión logística produjo la mayor cantidad de parámetros de modelo interpretables.

También descubrieron que cuanto más largo sea un ETI, mayor es la probabilidad de que haya ocurrido una visita oculta, y que una mayor incidencia de visitas ocultas ocurren en la mañana.

Además, cuando los registros de CDR de un usuario fácilmente exponen un gran número de destinos o puntos de referencia, hay la menor probabilidad de que haya ocurrido una visita oculta. En general, esto se ajusta al principio general de la investigación – que los usuarios ‘más ruidosos’ o más activos están pintando una imagen detallada de sus movimientos, a partir de la cual se puede inferir el comportamiento de los usuarios menos activos.

En conclusión, los investigadores prevén que su enfoque se puede utilizar para otros tipos de datos de tránsito, incluyendo datos de tarjetas inteligentes y información de redes sociales geolocalizadas.

La investigación fue financiada por la Fundación de Energía de China y el Centro de Transporte Sostenible de China.

 

* Origen-Destino

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.