Refresh

This website www.unite.ai/tr/cep-telefonu-verileri-ve-makine-%C3%B6%C4%9Frenimi-ile-gizli-ziyaretlerimizi-ortaya-%C3%A7%C4%B1karma/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

saplama Cep Telefonu Verileri ve Makine Öğrenimi ile 'Gizli Ziyaretlerimizi' Ortaya Çıkarma - Unite.AI
Bizimle iletişime geçin

gözetim

Cep Telefonu Verileri ve Makine Öğrenimi ile 'Gizli Ziyaretlerimizi' Ortaya Çıkarma

mm
Güncellenmiş on

Çin ve Amerika Birleşik Devletleri'nden araştırmacılar, kullanan araştırmalar üzerinde işbirliği yaptılar. makine öğrenme ülke çapında dolaşırken yaptığımız 'gizli ziyaretleri' ayırt etmeye yönelik teknikler, ancak telekom veri kayıtlarından hareketlerimizin tam bir resmini oluşturacak kadar telefon görüşmeleri yapmayın veya telefonlarımızı yeterince kullanmayın.

The kâğıtBaşlıklı Seyrek Arama Ayrıntı Kaydı Verilerinden Gizli Ziyaretleri Belirleme, Boston Northeastern Üniversitesi'nden Haris N. Koutsopoulos ve MIT'den Jinhua Zhao ile birlikte çalışan Hong Kong Üniversitesi'nden Zhan Zhao tarafından yönetiliyor.

Araştırmanın öncülü, daha az aktif kullanıcıların hareket modellerini daha kesin olarak tahmin edebilen bir model geliştirmek için oldukça aktif kullanıcıların mobil bağlantı kayıtlarını (mobil veriler, SMS ve sesli aramalar dahil) kullanmaktır.

Arama Ayrıntı Kaydı (CD) verilerinden yolculuk bilgilerini çıkarmak için kabaca bir şematik. Kaynak: https://arxiv.org/pdf/2106.12885.pdf

Arama Ayrıntı Kaydı (CD) verilerinden yolculuk bilgilerini çıkarmak için kabaca bir şematik. Kaynak: https://arxiv.org/pdf/2106.12885.pdf

Araştırmacılar, bu tür çalışmaların geliştirilmesinde mahremiyetle ilgili çıkarımlar olduğunu kabul etmelerine ve projenin belirtilen kullanıcı yolculukları hakkında daha fazla ve daha ayrıntılı ayrıntı elde etme amacına rağmen, amacın daha iyi bir bilgi toplamak olduğunu iddia ediyorlar. genelleştirilmiş hareketin resmi.

Ayrıca, bu tür çalışmaları besleyen Arama Ayrıntı Kaydı (CDR) verilerinin düşük uzamsal çözünürlüğe sahip olduğunu ve kullanıcının geçtiği cep telefonu kulelerine göre değişen konumu nedeniyle 'konumlandırma gürültüsüne' eğilimli olduğunu da belirtiyorlar ve şunu öne sürüyorlar: bu sınırlama kendi içinde bir gizlilik koruması biçimidir:

"Çalışmamızın hedef uygulaması, bireysel düzeyde değil toplu düzeyde yapılan açma tespiti ve OD tahminidir[*]. Geliştirilen modeller, veri aktarımına ihtiyaç duymadan doğrudan telekom operatörlerinin veri tabanı sunucularına kurulabilmektedir. Ayrıca, sosyal medya veya kredi kartı işlem verileri gibi diğer büyük veri biçimleriyle karşılaştırıldığında, CDR verileri kişisel mahremiyet açısından nispeten daha az müdahalecidir. Ek olarak, yerelleştirme hatası, tam kullanıcı konumlarını maskelemeye yardımcı olarak gizliliğin korunması için başka bir katman sağlar.'

Geçen Zaman Aralıkları (ETI'ler)

Cep telefonlarıyla (akıllı telefonlar olması gerekmez) seyahat ettiğimizde, konum belirleme aracı olarak CDR verilerinin sınırlamaları belirginleşir. Geçen Zaman Aralıkları (ETI'ler), mobil kullanıcının arama yapmadığı veya almadığı yolculuk dönemleri, hareketlerimizi takip etmede kritik bir belirteçtir - geçici olarak şebekeden düşmemize yetecek kadar uzun bir 'sessizlik' aralığı.

Araştırmacılar, verilerin seyrekliği 'gözlemlenmemiş bir yolculuğu' gizleyebileceğinden, bunun analitik sistemlerin A>B yolculukları hakkında varsayımlarda bulunma becerisine müdahale ettiğini belirtiyorlar. Yeni yöntem, ETI'lerin uzay-zamansal bağlamını ve 'kullanıcının bireysel özelliklerini' analiz ederek bunu ele alıyor.

Veri kümesi

Araştırmacılar, temel eğitim setlerini, 6 milyon nüfuslu bir Çin şehrinde büyük bir hücresel servis operatörü tarafından sağlanan verilerle geliştirdiler. Veriler, Kasım 2013'te üç milyon kullanıcı tarafından oluşturulan iki milyardan fazla cep telefonu işlemini içeriyordu ve yalnızca sesli arama ve veri erişim (veri kullanımı) kayıtlarını içeriyor. SMS verileri kullanılmadı, bu da veri seyrekliğinin ele alınmasını zorlaştırdı.

Veriler, şifrelenmiş benzersiz bir kimlik içeriyordu; bir Konum Alan Kodu (LAC); bir zaman damgası; işlemde kullanılan cep telefonu kulesini bireyselleştirmek için LAC ile harmanlanmış bir cep telefonu kimliği; ve bir Olay Kimliği (giden/gelen arama veya veri kullanımı).

Gizli ziyaretlerin tanımlanması için işlem ağacı.

Gizli ziyaretlerin tanımlanması için işlem ağacı.

Bu bilgi, araştırmacıların iletişim olayıyla ilişkili kulenin boylam ve enlem koordinatlarını sorgulamasına olanak tanıyan bir hücre kulesi operasyon veritabanıyla çapraz referanslandı. Araştırmacılar, veri setinde 9000 baz istasyonu tanımlayabildiler.

Araştırmacılar, gezi yerlerini yalnızca arama kayıtlarıyla tahmin etmenin zor olduğunu gözlemliyor, çünkü bu tür kayıtlar sabah ve öğleden sonra zirve yapıyor ve bu da zaten seyahat modelleriyle ilişkili. Telefon aramaları seyahatten önce geldiğinden (ve bir yolculuğu tetikleyebileceğinden), bu, varış yeri tahmininde yanlılığa neden olabilir.

Bir gün boyunca mobil kullanım kalıpları.

Bir gün boyunca mobil kullanım kalıpları.

Mesajlaşma uygulamaları ve diğer etkileşim türleri gibi kullanıcı tarafından başlatılan veri kullanım işlemleri için de benzer kısıtlamalar geçerlidir. Ancak, bizi tanımlamaya yardımcı olan 'otomatik' veri kullanımıdır - yeni mesajlar veya yüklü uygulamalar genelinde mesaj listeleri, GPS ve genel telemetri dahil olmak üzere diğer veri türleri için API'lerin sistematik olarak yoklanması.

İşlemde

Araştırmacılar soruna, lojistik regresyon, destek vektör makinesi (SVM), rastgele orman ve bir gradyan artırma topluluk yaklaşımı dahil olmak üzere çok çeşitli popüler makine öğrenimi sınıflandırıcılarıyla yaklaştı. Tüm sınıflandırıcılar Python'da uygulandı. scikit-öğrenme, varsayılan ayarlarda.

Bu yaklaşımlardan araştırmacılar, lojistik regresyonun en yüksek sayıda yorumlanabilir model parametresi verdiğini bulmuşlardır.

Araştırmacılar ayrıca, bir ETI ne kadar uzun olursa, gizli bir ziyaretin meydana gelme olasılığının o kadar yüksek olduğunu ve gizli ziyaretlerin sabah saatlerinde daha fazla meydana geldiğini keşfettiler.

Ayrıca, bir kullanıcının CDR verileri çok sayıda varış noktasını veya ara noktayı kolayca ortaya çıkardığında, gizli bir ziyaretin gerçekleşmiş olma olasılığı en düşük seviyededir. Genel olarak bu, araştırmanın genel ilkesine uygundur - 'en gürültülü' veya en aktif kullanıcılar, daha az aktif kullanıcıların davranışlarının çıkarılabileceği hareketlerinin ayrıntılı bir resmini çiziyor.

Sonuç olarak, araştırmacılar, yaklaşımlarının akıllı kart verileri ve coğrafi konumlu sosyal medya bilgileri dahil olmak üzere diğer ulaşım verileri türleri için kullanılabileceğini tahmin ediyor.

Araştırma, Energy Foundation China ve China Sürdürülebilir Ulaşım Merkezi tarafından finanse edildi.

 

* Menşe-Varış