Взгляд Anderson

Раскрытие наших “скрытых посещений” с помощью данных сотовых телефонов и машинного обучения

mm

Исследователи из Китая и США сотрудничали в исследовании, которое использует методы машинного обучения для определения “скрытых посещений”, которые мы совершаем, когда перемещаемся по стране, но не совершаем достаточно звонков или не используем свой телефон достаточно, чтобы получить полную картину наших перемещений из записей телекоммуникационных данных.

Статья “Определение скрытых посещений из разреженных данных о деталях звонков” возглавляет Чжан Чжао из Университета Гонконга, работая с Харисом Н. Кутсопулосом из Северо-Восточного университета Бостона и Цзиньхуа Чжао в MIT.

Предпосылка исследования заключается в использовании записей мобильной связи (включая мобильные данные, SMS и голосовые звонки) высокоактивных пользователей для разработки модели, которая может более точно угадать закономерности перемещения менее активных пользователей.

Пример схемы извлечения информации о поездках из данных о деталях звонков. Источник: https://arxiv.org/pdf/2106.12885.pdf

Пример схемы извлечения информации о поездках из данных о деталях звонков. Источник: https://arxiv.org/pdf/2106.12885.pdf

Хотя исследователи признают, что существует риск нарушения конфиденциальности при разработке такой работы, и несмотря на заявленную цель получить более подробную информацию о перемещениях пользователей, они утверждают, что цель состоит в том, чтобы получить более общую картину перемещений.

Они также отмечают, что данные о деталях звонков, которые используются в таких исследованиях, имеют низкое пространственное разрешение и подвержены “шумам позиционирования” из-за изменения положения пользователя относительно башен сотовой связи, и предполагают, что это ограничение само по себе является формой защиты конфиденциальности:

‘Цель нашего исследования – обнаружение поездок и оценка места назначения[*], которые выполняются на агрегированном уровне, а не на индивидуальном. Разработанные модели можно直接 развернуть на серверах баз данных операторов связи, без необходимости передачи данных. Кроме того, по сравнению с другими формами больших данных, такими как данные социальных сетей или транзакций по кредитным картам, данные о деталях звонков относительно менее навязчивы в отношении личной конфиденциальности. Кроме того, ошибка локализации помогает скрыть точное местоположение пользователя, обеспечивая дополнительный уровень защиты конфиденциальности.’

Интервалы времени (ETIs)

Когда мы перемещаемся с мобильными телефонами (не обязательно смартфонами), ограничения данных о деталях звонков как инструмента определения местоположения становятся очевидными. Интервалы времени (ETIs), периоды поездки, когда мобильный пользователь не совершает и не получает звонков, являются важным маркером для отслеживания наших перемещений – интервал “тишины” достаточно длинный, чтобы мы временно исчезли из поля зрения.

Исследователи отмечают, что это мешает аналитическим системам делать предположения о перемещениях с точки А в точку Б, поскольку разреженность данных может скрывать “наблюдаемую поездку”. Новый метод решает эту проблему, анализируя пространственно-временной контекст ETIs, а также “индивидуальные характеристики пользователя”.

Датасет

Исследователи разработали свою основную обучающую выборку с помощью данных, предоставленных крупным оператором сотовой связи в китайском городе с населением 6 миллионов человек. Данные содержали более двух миллиардов транзакций мобильных телефонов, сгенерированных тремя миллионами пользователей в ноябре 2013 года, и включали только записи о голосовых звонках и доступе к данным (использовании данных). Данные о SMS не использовались, что сделало более трудным решение проблемы разреженности данных.

Данные содержали зашифрованный уникальный идентификатор; код области местоположения (LAC); метку времени; идентификатор сотовой телефонной башни, который был объединен с LAC для индивидуализации башни, использованной в транзакции; и идентификатор события (исходящий/входящий звонок или использование данных).

Процесс обнаружения скрытых посещений.

Процесс обнаружения скрытых посещений.

Эта информация была сопоставлена с базой данных операции сотовых башен, что позволило исследователям запросить координаты долготы и широты башни, связанной с событием связи. Исследователи смогли определить 9000 сотовых башен в датасете.

Исследователи отмечают, что трудно угадать пункт назначения только по записям о звонках, поскольку эти типы записей достигают пика утром и днем, что соответствует закономерностям путешествий. Поскольку звонки предшествуют путешествиям (и могут вызвать поездку), это может привести к предвзятости в оценке пункта назначения.

Закономерности использования мобильных телефонов в течение дня.

Закономерности использования мобильных телефонов в течение дня.

Аналогичные ограничения применяются к транзакциям, инициированным пользователем, таким как использование приложений для обмена сообщениями, и другим типам взаимодействия. Однако именно “автоматическое” использование данных помогает определить нас – систематический опрос API для новых сообщений или других типов данных, включая списки сообщений, GPS и общую телеметрию, установленных приложений.

Обработка

Исследователи подошли к проблеме с помощью широкого спектра популярных классификаторов машинного обучения, включая логистическую регрессию, машину опорных векторов (SVM), случайный лес и подход ансамбля градиентного бустинга. Все классификаторы были реализованы на Python через scikit-learn с настройками по умолчанию.

Из этих подходов исследователи обнаружили, что логистическая регрессия дала наибольшее количество интерпретируемых параметров модели.

Исследователи также обнаружили, что чем длиннее интервал времени, тем выше вероятность того, что произошло скрытое посещение, и что большее количество скрытых посещений происходит утром.

Кроме того, когда данные о деталях звонков пользователя легко раскрывают большое количество пунктов назначения или промежуточных пунктов, существует наименьшая вероятность того, что произошло скрытое посещение. В целом, это соответствует общему принципу исследования – что “шумные” или наиболее активные пользователи рисуют подробную картину своих перемещений, из которой можно сделать вывод о поведении менее активных пользователей.

В заключение, исследователи прогнозируют, что их подход можно использовать для других типов данных о транспорте, включая данные о смарт-картах и геолокационных данных социальных сетей.

Исследование было финансировано Фондом энергетики Китая и Центром устойчивого транспорта Китая.

 

* Происхождение-назначение

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.