Anderson 视角

揭示我们“隐藏的访问”:使用手机数据和机器学习

mm

中国和美国的研究人员合作开展了一项研究,使用机器学习技术来识别我们在移动时的“隐藏访问”,但由于我们没有足够的电话记录或使用手机数据,无法从电信数据记录中形成我们移动的完整图景。

论文 由香港大学的 Zhan Zhao 领导,合作人员包括波士顿东北大学的 Haris N. Koutsopoulos 和 MIT 的 Jinhua Zhao。

该研究的前提是使用高活跃用户的移动连接记录(包括移动数据、短信和语音通话)来开发一个可以更准确地预测低活跃用户移动模式的模型。

从呼叫详细记录(CDR)数据中提取行程信息的粗略示意图。来源:https://arxiv.org/pdf/2106.12885.pdf

从呼叫详细记录(CDR)数据中提取行程信息的粗略示意图。 来源:https://arxiv.org/pdf/2106.12885.pdf

尽管研究人员承认,这项工作有隐私影响,并且项目的目标是获得更详细的用户旅程信息,但他们认为目标是获得更好的 一般化 的移动图景。

他们还指出,呼叫详细记录(CDR)数据具有低空间分辨率,容易受到“位置噪声”的影响,因为用户相对于他们经过的基站位置会发生变化,并建议这种限制本身就是一种隐私保护形式:

‘我们的研究目标是行程检测和OD估计[*],这些是在聚合级别进行的,而不是个体级别。开发的模型可以直接部署在电信运营商的数据库服务器上,无需数据传输。另外,与其他形式的大数据(如社交媒体或信用卡交易数据)相比,CDR数据在个人隐私方面相对较少侵入。另外,其定位错误有助于掩盖用户的确切位置,提供了另一种隐私保护层次。’

经过时间间隔(ETIs)

当我们带着手机(不一定是智能手机)旅行时,CDR数据作为位置定义工具的局限性变得明显。经过时间间隔(ETIs)是移动用户不打电话或接电话的时间段,是跟踪我们移动的关键标记——一个足够长的“沉默”时间间隔,使我们暂时脱离网格。

研究人员指出,这会干扰分析系统对A到B的旅程进行假设的能力,因为数据的稀疏性可能隐藏了“未观察到的行程”。新的方法通过分析ETIs的时空背景以及“用户的个体特征”来解决这个问题。

数据集

研究人员使用中国一座600万人口城市的一家主要移动运营商提供的数据开发了他们的核心训练集。该数据包含2013年11月由300万用户产生的超过20亿个移动电话事务,仅包括语音通话和数据访问(数据使用)记录。未使用短信数据,这使得处理数据稀疏性更加困难。

数据包含加密的唯一ID;位置区码(LAC);时间戳;手机ID,用于与LAC结合以确定事务中使用的基站;以及事件ID(呼出/呼入电话或数据使用)。

识别隐藏访问的过程树。

识别隐藏访问的过程树。

该信息与基站操作数据库进行交叉引用,允许研究人员查询与通信事件相关的基站的经度和纬度坐标。研究人员能够识别出数据集中9000个基站。

研究人员观察到,仅凭借电话记录很难猜测行程目的地,因为这些记录在早晨和下午达到峰值,这与旅行模式相吻合。由于电话呼叫可能会触发行程,因此这可能会导致目的地估计偏差。

一天中移动使用模式。

一天中移动使用模式。

类似的限制适用于用户启动的数据使用事务,例如消息应用程序和其他类型的交互。然而,“自动”数据使用有助于识别我们——安装的应用程序系统地轮询新的消息或其他类型的数据,包括消息列表、GPS和一般遥测数据。

处理

研究人员使用了一系列流行的机器学习分类器来解决这个问题,包括逻辑回归、支持向量机(SVM)、随机森林和梯度提升集成方法。所有分类器都通过Python中的scikit-learn实现,使用默认设置。

在这些方法中,研究人员发现逻辑回归产生了最多可解释的模型参数。

他们还发现,ETI越长,隐藏访问的可能性越大,早晨的隐藏访问次数也更多。一般来说,这符合研究的总体原则——“最嘈杂”或最活跃的用户正在描绘他们移动的详细图景,从而可以推断出不太活跃的用户的行为。

总之,研究人员预测他们的方法可以应用于其他类型的交通数据,包括智能卡数据和地理位置社交媒体信息。

该研究由中国能源基金会和中国可持续交通中心资助。

 

* 起点-终点

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai