감시

휴대전화 데이터 및 기계 학습으로 '숨겨진 방문' 발견

업데이트 on 2021 년 7 월 9 일

중국과 미국의 연구원들은 기계 학습 기술을 사용하여 우리가 전국을 이동할 때 하는 '숨겨진 방문'을 식별하는 연구에 공동으로 참여했지만, 전화 통화를 충분히 하지 않거나 휴대폰을 충분히 사용하지 않아 우리의 전체 상황을 파악할 수 있습니다. 그렇지 않으면 통신 데이터 기록에서 형성되는 움직임.

XNUMXD덴탈의 종이, 제목 희소 통화 세부 레코드 데이터에서 숨겨진 방문 식별, 홍콩 대학의 Zhan Zhao가 이끌고 보스턴 노스이스턴 대학의 Haris N. Koutsopoulos와 MIT의 Jinhua Zhao와 협력하고 있습니다.

연구의 전제는 활동량이 많은 사용자의 모바일 연결 기록(모바일 데이터, SMS 및 음성 통화 포함)을 사용하여 활동량이 적은 사용자의 이동 패턴을 보다 정확하게 추측할 수 있는 모델을 개발하는 것입니다.

CD(Call Detail Record) 데이터에서 여행 정보를 추출하기 위한 대략적인 도식입니다. 출처 : https://arxiv.org/pdf/2106.12885.pdf

연구원들은 그러한 작업을 개발하는 데 프라이버시가 함축되어 있음을 인정하고 사용자 여정에 대한 더 크고 더 세분화된 세부 정보를 얻으려는 프로젝트의 명시된 목표에도 불구하고 더 나은 정보를 수집하는 것이 목적이라고 주장합니다. 일반화 된 움직임의 그림.

그들은 또한 이러한 연구에 연료를 공급하는 CDR(Call Detail Record) 데이터가 공간 해상도가 낮고 그들이 지나가는 휴대폰 타워에 대한 사용자의 위치 변화로 인해 '포지셔닝 노이즈'가 발생하기 쉽다는 점에 주목하고 다음을 제안합니다. 이 제한 자체는 개인 정보 보호의 한 형태입니다.

'우리 연구의 대상 응용 프로그램은 개별 수준이 아닌 집계 수준에서 수행되는 여행 감지 및 OD 추정[*]입니다. 개발된 모델은 데이터 전송 없이 통신사의 데이터베이스 서버에 직접 배포할 수 있습니다. 또한, CDR 데이터는 소셜 미디어나 신용 카드 거래 데이터와 같은 다른 형태의 빅데이터에 비해 개인 프라이버시 측면에서 상대적으로 덜 침해적입니다. 또한 현지화 오류는 정확한 사용자 위치를 가리는 데 도움이 되어 또 다른 개인 정보 보호 계층을 제공합니다.'

경과 시간 간격(ETI)

휴대전화(스마트폰일 필요는 없음)를 가지고 여행할 때 위치 정의 도구로서의 CDR 데이터의 한계가 분명해집니다. 모바일 사용자가 전화를 걸거나 받지 않는 여정의 기간인 ETI(경과 시간 간격)는 우리의 움직임을 추적하는 데 중요한 지표입니다. 즉, 우리가 일시적으로 그리드에서 떨어질 수 있을 만큼 충분히 긴 '침묵'의 간격입니다.

연구자들은 데이터의 희소성이 '관찰되지 않은 여행'을 숨길 수 있기 때문에 이것이 A>B 여행에 대한 가정을 하는 분석 시스템의 능력을 방해한다고 지적합니다. 새로운 방법은 ETI의 시공간적 맥락과 '사용자의 개별 특성'을 분석하여 이 문제를 해결합니다.

데이터 세트

연구자들은 인구 6만 명의 중국 도시에 있는 주요 셀룰러 서비스 사업자가 제공한 데이터로 핵심 훈련 세트를 개발했습니다. 해당 데이터는 2013년 XNUMX월 XNUMX만 명의 사용자가 XNUMX억 건 이상의 휴대전화 거래를 한 것으로, 음성 통화 및 데이터 접속(데이터 사용) 기록만 있다. SMS 데이터가 사용되지 않아 데이터 희소성을 해결하기가 더 어려워졌습니다.

데이터에는 암호화된 고유 ID가 포함되어 있습니다. 위치 지역 코드(LAC); 타임스탬프; 거래에 사용된 휴대폰 기지국을 개별화하기 위해 LAC와 대조한 휴대폰 ID; 및 이벤트 ID(발신/수신 전화 또는 데이터 사용량).

숨겨진 방문 식별을 위한 프로세스 트리.

이 정보는 셀 타워 운영 데이터베이스와 상호 참조되어 연구원이 통신 이벤트와 관련된 타워의 경도 및 위도 좌표를 쿼리할 수 있습니다. 연구원들은 데이터 세트에서 9000개의 셀 타워를 식별할 수 있었습니다.

연구원들은 통화 기록만으로 여행 목적지를 추측하기 어렵다는 것을 관찰했습니다. 이러한 유형의 기록은 어쨌든 여행 패턴과 상관 관계가 있는 오전과 오후에 최고조에 달하기 때문입니다. 전화 통화는 여행에 앞서서(그리고 여행을 촉발할 수 있기 때문에) 목적지 추정에 편향을 일으킬 수 있습니다.

하루 동안의 모바일 사용 패턴.

메시징 앱 및 기타 유형의 상호 작용과 같은 사용자 시작 데이터 사용 트랜잭션에도 유사한 제한이 적용됩니다. 그러나 우리를 식별하는 데 도움이 되는 것은 '자동화된' 데이터 사용입니다. 즉, 메시지 목록, GPS 및 설치된 앱 전체의 일반 원격 측정을 포함하여 새로운 메시지 또는 기타 유형의 데이터에 대한 API의 체계적인 폴링입니다.

처리

연구원들은 로지스틱 회귀, 지원 벡터 머신(SVM), 랜덤 포레스트 및 그래디언트 부스팅 앙상블 접근법을 포함하여 널리 사용되는 광범위한 기계 학습 분류기로 문제에 접근했습니다. 모든 분류자는 다음을 통해 Python으로 구현되었습니다. 사이 킷 학습, 기본 설정에서.

이러한 접근 방식 중에서 연구자들은 로지스틱 회귀 분석이 가장 많은 수의 해석 가능한 모델 매개 변수를 산출한다는 사실을 발견했습니다.

연구원들은 또한 ETI가 길수록 숨겨진 방문이 발생할 가능성이 더 크고 숨겨진 방문 발생률이 아침에 더 높다는 사실을 발견했습니다.

또한 사용자의 CDR 데이터가 많은 수의 목적지 또는 경유지를 쉽게 노출할 때 숨겨진 방문이 발생할 가능성이 가장 적습니다. 일반적으로 이는 '가장 시끄러운' 또는 가장 활동적인 사용자가 자신의 움직임에 대한 자세한 그림을 그리고 있으며, 여기에서 덜 활동적인 사용자의 행동을 추론할 수 있다는 연구의 일반 원칙과 일치합니다.

결론적으로 연구원들은 그들의 접근 방식이 스마트 카드 데이터 및 지리적 위치 소셜 미디어 정보를 포함한 다른 유형의 교통 데이터에 사용될 수 있다고 예측했습니다.

이 연구는 Energy Foundation China와 China Sustainable Transportation Center의 자금 지원을 받았습니다.

* 출발지-목적지