Keamanan siber
Metode Pembelajaran Mesin untuk Memblokir Iklan Berdasarkan Perilaku Browser Lokal

Peneliti di Swiss dan AS telah mengembangkan pendekatan pembelajaran mesin baru untuk mendeteksi materi iklan situs web yang berdasarkan pada cara materi tersebut berinteraksi dengan browser, bukan dengan menganalisis konten atau perilaku jaringan – dua pendekatan yang telah terbukti tidak efektif dalam jangka panjang menghadapi CNAME cloaking (lihat di bawah).
Dubbed WebGraph, kerangka kerja ini menggunakan pendekatan berbasis grafik untuk mendeteksi konten promosi dengan fokus pada kegiatan jaringan iklan yang penting – termasuk upaya telemetri dan penyimpanan browser lokal – sehingga satu-satunya teknik penghindaran yang efektif adalah dengan tidak melakukan kegiatan tersebut.
Meskipun pendekatan sebelumnya telah mencapai tingkat deteksi yang sedikit lebih tinggi daripada WebGraph, semua pendekatan tersebut rentan terhadap teknik penghindaran, sedangkan WebGraph dapat mendekati 100% integritas dalam menghadapi respons adversarial, termasuk respons hipotetis yang lebih canggih yang mungkin muncul dalam menghadapi metode pemblokiran iklan baru ini.
Makalah ini dipimpin oleh dua peneliti dari Institut Teknologi Federal Swiss, bersama dengan peneliti dari Universitas California, Davis dan Universitas Iowa.
Di Luar AdGraph
Karya ini merupakan pengembangan dari inisiatif penelitian 2020 dengan browser Brave yang disebut AdGraph, yang menampilkan dua peneliti dari makalah baru.

Perbandingan AdGraph vs. WebGraph, dengan garis putus-putus yang mewakili inovasi arsitektur pada pendekatan sebelumnya. Sumber: https://arxiv.org/pdf/2107.11309.pdf
AdGraph bergantung pada (ad) konten fitur, yang diperoleh dari analisis URL, sebagai kunci untuk mendeteksi materi komersial. Namun, fitur-fitur ini mewakili satu titik kegagalan potensial untuk lawan yang mencari untuk mendeteksi kehadiran sistem pendeteksi iklan, dan merumuskan metode untuk menghindarinya. Ketergantungan ini pada properti konten membuat AdGraph pada dasarnya merupakan versi mekanis dari pendekatan berbasis daftar filter yang dibuat secara manual, yang berbagi kelemahan yang sama.
CNAME Cloaking
Materi yang berasal dari domain situs web sendiri jatuh ke dalam kategori ‘tepercaya’, sejauh domain itu sendiri dipercaya. Untuk situs web dengan otoritas tinggi, ada premi yang berharga dalam menjalankan kampanye iklan yang menampilkan materi yang terlihat dihost oleh situs otoritas itu sendiri, karena iklan tersebut kebal terhadap daftar pemblokiran iklan berbasis filter, dan bahkan terhadap pendekatan AdGraph 2020.
Namun, kampanye khusus sulit untuk dinegosiasikan, mahal untuk diimplementasikan, dan bertentangan dengan prinsip-prinsip model iklan jaringan yang dikembangkan selama 25 tahun terakhir, di mana platform pihak ketiga memasukkan kode langsung ke situs host, biasanya ‘mengadakan lelang’ slot iklan dalam mikrodetik berdasarkan desirabilitas kata kunci dan faktor lainnya.
Karena hampir semua sistem pemblokiran iklan bergantung pada materi pihak ketiga di halaman web (yaitu elemen yang dihost oleh domain ‘asing’), pengiklan telah melawan kembali dengan teknik CNAME cloaking selama lima tahun terakhir. CNAME cloaking menipu pelacak untuk percaya bahwa subdomain dari situs host (yaitu informasi.example.com bukan example.com) adalah tambahan yang sah untuk situs, ketika sebenarnya itu adalah mekanisme penyajian iklan proksi yang diatur dengan penyedia iklan pihak ketiga.
Pada Maret 2021, satu studi menunjukkan bahwa insiden CNAME cloaking meningkat sebesar 22% antara 2018 dan 2020, dengan hampir 10% dari situs web Tranco top 10.000 menggunakan setidaknya satu pelacak berbasis CNAME pada Oktober 2020.
Mengabaikan Kepercayaan pada URL
Teknik penipuan CNAME melibatkan manipulasi URL yang terlibat dalam proses penyajian iklan. Setiap sistem pemblokiran iklan yang mempercayai rantai URL akan rentan terhadap manipulasi dan penghindaran. Oleh karena itu, WebGraph secara acak mengubah URL yang disediakan dalam proses (termasuk string kueri, jumlah parameter, dan nama parameter), mencari pola penggunaan daripada URL yang spesifik yang dilarang atau diterima.
Sistem ini harus mempertimbangkan dua konfigurasi umum dalam arsitektur penyajian iklan: satu, di mana host berkolusi langsung dengan pengiklan; dan skenario kedua (lebih umum) di mana pengiklan memberikan kerja sama terbatas karena kebutuhan untuk melindungi diri dari manipulasi oleh klien.
Dalam pendekatan berbasis daftar, termasuk AdGraph, manipulasi URL yang berhasil oleh sistem penyajian iklan hampir merupakan kemenangan lengkap, karena mengasosiasikan ‘provenance lokal’ dengan iklan, dan sehingga menghindari hampir semua upaya untuk memblokir konten iklan secara sistematis.
Apa yang tersisa, dalam hal tanda tangan? WebGraph fokus pada kebutuhan sistem iklan untuk berbagi informasi dengan berbagai cara yang semi-tidak jelas, seperti pelacak web, komunikasi antara iframes dan ‘pendengar’ web, yang terus-menerus memantau keadaan live halaman untuk aktivitas yang bermakna dalam hal web-metriks untuk iklan. Aktivitas tersebut termasuk penyimpanan variabel dalam cookie atau penyimpanan lokal berbasis HTML5.
WebGraph menggunakan Mozilla’s Web Privacy Measurement (OpenWPM framework) untuk melacak aktivitas tersebut di Firefox. Ini menangkap semua aktivitas pada lapisan JavaScript, dan semua permintaan jaringan keluar, serta responnya, pada lapisan jaringan.
Pengawasan tambahan ini memperkenalkan ‘aliran informasi’ baru ke dalam jaringan grafik yang sebelumnya diusulkan oleh AdGraph, memungkinkan WebGraph untuk secara eksplisit merekam dan mengukur pola berbagi informasi berdasarkan aktivitas lokal, dan tanpa memandang asal dan tujuan URL untuk telemetri atau jenis komunikasi lainnya dalam sistem penyajian iklan.
Hasil
Peneliti menggunakan versi yang diperluas dari OpenWPM untuk secara sistematis merayapi 10.000 situs web yang diambil dari situs top 100.000 Alexa, dan sampel acak 9.000 situs yang berperingkat antara 1k-100k, menyimpan representasi grafik sebelum melewati hasil ke klasifikasi pohon keputusan yang dimodelkan pada desain asli AdGraph, dan menggunakan daftar filter iklan populer sebagai kebenaran dasar. Dengan cara ini, dataset dibangun untuk pelatihan model inti.
Sistem ini mencapai hasil yang setara dengan AdGraph, dengan akurasi 92,33%. Namun, ketahanan sistem baru terhadap perlawanan adversarial meningkat dari tingkat kegagalan hampir lengkap untuk AdGraph menjadi hanya 8% kerentanan di bawah WebGraph.
Arah Masa Depan
Makalah ini menyatakan bahwa jaringan iklan perlu melakukan perubahan yang signifikan pada sistem mereka untuk menghindari deteksi dalam menghadapi pendekatan WebGraph, dan menyarankan bahwa perubahan tersebut akan memerlukan tinjauan kembali hubungan kepercayaan yang saat ini ada antara pengiklan pihak ketiga dan situs host di mana iklan mereka muncul.
Makalah ini juga mencatat bahwa WebGraph tidak mempertimbangkan teknik pelacakan tanpa status seperti fingerprinting browser (melalui elemen Canvas), yang menggunakan API yang tidak dipantau oleh sistem. Peneliti menyarankan bahwa WebGraph dapat diperluas di masa depan untuk mempertimbangkan juga interaksi dan penanda penyimpanan lokal tersebut.












