Погляд Anderson

Розкриття наших “прихованих відвідувань” за допомогою даних мобільного телефону та машинного навчання

mm

Дослідники з Китаю та США співпрацювали над дослідженням, яке використовує техніки машинного навчання для визначення “прихованих відвідувань”, які ми робимо, коли рухаємось по країні, але не робимо достатньо дзвінків або не використовуємо свій телефон достатньо для формування повної картини наших рухів з даних телекомунікаційних записів.

Стаття дослідження, під назвою Ідентифікація прихованих відвідувань з розріджених даних записів дзвінків, керується Чжаном Чжао з Університету Гонконгу, який працює з Харісом Н. Кутсопулосом з Університету Норtheastern у Бостоні та Джинхуа Чжао в MIT.

Презумпція дослідження полягає в тому, щоб використовувати записи мобільної зв’язку (включаючи мобільні дані, SMS і голосові дзвінки) високоактивних користувачів для розробки моделі, яка може більш точно визначити закономірності руху менш активних користувачів.

<img class="wp-image-176369" src="https://www.unite.ai/wp-content/uploads/2021/06/extraction-of-CDR-data.png" alt="Приблизительный схематичний діаграма для витягування інформації про поїздки з даних записів дзвінків (CD)." Джерело: https://arxiv.org/pdf/2106.12885.pdf

Хоча дослідники визнають, що існує ризик порушення приватності при розробці такого дослідження, і незважаючи на заявлену мету проекту щодо отримання більшої та детальнішої інформації про рух користувачів, вони стверджують, що мета полягає в отриманні більш загальної картини руху.

Вони також зазначають, що дані записів дзвінків (CDR), які живлять такі дослідження, мають низьку просторову роздільність і схильні до “шумів позиціонування” через зміну позиції користувача відносно веж мобільного зв’язку, які вони проходять, і припускають, що це обмеження сам по собі є формою захисту приватності:

‘Цільове застосування нашого дослідження – виявлення поїздок і оцінка місця призначення[*], яке проводиться на агрегованому рівні, а не на індивідуальному рівні. Розроблені моделі можна безпосередньо розгорнути на серверах баз даних операторів зв’язку, без необхідності передавати дані. Крім того, порівняно з іншими формами великих даних, такими як дані соціальних мереж або транзакцій кредитних карт, дані CDR відносно менше порушують особисту приватність. Крім того, його похибка локалізації допомагає маскувати точні місця розташування користувачів, забезпечуючи ще один рівень збереження приватності.’

Інтервали часу (ETI)

Коли ми рухаємось з мобільними телефонами (не обов’язково смартфонами), обмеження даних записів дзвінків (CDR) як інструменту визначення місця розташування стають очевидними. Інтервали часу (ETI), періоди поїздки, під час яких мобільний користувач не робить і не приймає дзвінки, є важливим маркером для відстеження наших рухів – інтервал “тиші” достатньо довгий, щоб ми тимчасово зникли з радарів.

Дослідники зазначають, що це перешкоджає здатності аналітичних систем робити припущення про рух A>B, оскільки розрідженість даних могла б приховувати “непомічену поїздку”. Новий метод вирішує цю проблему, аналізуючи просторово-часовий контекст ETI, а також “індивідуальні характеристики користувача”.

Дані

Дослідники розробили свій основний навчальний набір за допомогою даних, наданих великим оператором мобільного зв’язку в китайському місті з населенням 6 мільйонів людей. Дані містили понад два мільярди транзакцій мобільного телефону, сгенерованих трьома мільйонами користувачів у листопаді 2013 року, і включали лише записи голосових дзвінків і даних (використання даних). Дані SMS не використовувалися, що ускладнювало адресування розрідженості даних.

Дані містили зашифрований унікальний ідентифікатор; код області розташування (LAC); часовий штамп; ідентифікатор мобільного телефону, який був об’єднаний з LAC для індивідуалізації вежі мобільного зв’язку, використаної в транзакції; і ідентифікатор події (вихідний/вхідний дзвінок або використання даних).

Дерево процесів для ідентифікації прихованих відвідувань.

Дерево процесів для ідентифікації прихованих відвідувань.

Ці дані були перехресно пов’язані з базою даних операції веж мобільного зв’язку, що дозволило дослідникам запитувати дані про довготу і широту вежі, пов’язаної з подією зв’язку. Дослідники змогли ідентифікувати 9000 веж мобільного зв’язку в наборі даних.

Дослідники відзначають, що складно визначити місця призначення лише за записами дзвінків, оскільки ці записи мають піки вранці і ввечері, що корелює з закономерностями руху в будь-якому випадку. Оскільки дзвінки передують руху (і можуть спровокувати поїздку), це може спричинити зміщення оцінки місця призначення.

Закономерності використання мобільного телефону протягом доби.

Закономерності використання мобільного телефону протягом доби.

Аналогічні обмеження застосовуються до транзакцій використання даних, ініційованих користувачем, таких як програми обміну повідомленнями, та інших типів взаємодії. Однак це саме “автоматичне” використання даних допомагає ідентифікувати нас – систематичне опитування API для нових повідомлень або інших типів даних, включаючи списки повідомлень, GPS і загальну телеметрію встановлених програм.

Обробка

Дослідники підходили до проблеми з широким спектром популярних класифікаторів машинного навчання, включаючи логістичну регресію, машину опорних векторів (SVM), випадковий ліс і підхід ансамблю градієнтного бустингу. Усі класифікатори були реалізовані на Python за допомогою scikit-learn за замовчуванням.

Серед цих підходів дослідники виявили, що логістична регресія дала найбільшу кількість інтерпретованих параметрів моделі.

Дослідники також виявили, що чим довше інтервал часу (ETI), тим більша ймовірність того, що відбулося приховане відвідування, і що більша кількість прихованих відвідувань відбувається вранці.

Крім того, коли дані записів дзвінків користувача легко розкривають велику кількість місць призначення або проміжних пунктів, існує найменша ймовірність того, що відбулося приховане відвідування. Загалом це відповідає загальному принципу дослідження – що “шумніші” або більш активні користувачі створюють детальну картину своїх рухів, з якої можна зробити висновок про поведінку менш активних користувачів.

У висновку дослідники прогнозують, що їхній підхід можна використовувати для інших типів даних про транспорт, включаючи дані смарт-карт і геолоковані дані соціальних мереж.

Дослідження було профінансовано Енергетичним фондом Китаю та Центром сталого транспорту Китаю.

 

* Місце призначення

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]