Siber güvenlik

Yerel Tarayıcı Davranışına Dayalı Reklamları Engellemek İçin Bir Makine Öğrenimi Yöntemi

Yayınlanan

3 yıl önce

Temmuz 26, 2021

İsviçre ve ABD'deki araştırmacılar, web sitesi reklam materyallerinin tespitine yönelik olarak, içeriğini veya ağ davranışını analiz etmek yerine söz konusu materyalin tarayıcıyla etkileşime girme şeklini temel alan yeni bir makine öğrenimi yaklaşımı geliştirdiler. CNAME gizleme karşısında uzun vadede (aşağıya bakın).

Dubbed Web Grafiği, çerçeve bir kullanır grafiktelemetri denemeleri ve yerel tarayıcı depolaması dahil olmak üzere ağ reklamcılığının bu tür temel faaliyetlerine odaklanarak promosyon içeriğini tespit etmeye yönelik yapay zeka tabanlı reklam engelleme yaklaşımı, tek etkili kaçırma tekniğinin bu faaliyetleri yürütmemek olacağını.

Önceki yaklaşımlar, WebGraph'tan biraz daha yüksek algılama oranlarına ulaşmış olsa da, hepsi kaçamak tekniklere yatkınken, WebGraph, bu durum karşısında ortaya çıkabilecek daha karmaşık varsayımsal yanıtlar da dahil olmak üzere, düşman tepkileri karşısında %100 bütünlüğe yaklaşabilmektedir. yeni reklam engelleme yöntemi.

Makale, California Üniversitesi, Davis ve Iowa Üniversitesi'nden araştırmacılarla birlikte İsviçre Federal Teknoloji Enstitüsü'nden iki araştırmacı tarafından yönetiliyor.

AdGraph'ın Ötesinde

Çalışma, adı verilen Brave tarayıcısı ile 2020 araştırma girişiminden bir gelişmedir. Reklam Grafiği, yeni makaleden iki araştırmacının yer aldığı.

Önceki yaklaşımdaki mimari yenilikleri temsil eden noktalı çizgilerle AdGraph ve WebGraph karşılaştırması. Kaynak: https://arxiv.org/pdf/2107.11309.pdf

AdGraph (reklam) içeriğine dayanır Özellikler, ticari materyalin saptanması için bir anahtar olarak URL'lerin analizinden türetilmiştir. Bununla birlikte, bu özellikler, reklam algılama sistemlerinin varlığını tespit etmeye çalışan ve bunları ortadan kaldıracak yöntemler formüle eden saldırganlar için tek bir potansiyel başarısızlık noktasını temsil eder. İçeriğe olan bu güven özellikleri AdGraph'ı temel olarak manuel olarak seçilen filtre listelerine dayalı yaklaşımların mekanize bir versiyonu haline getirerek, zayıflıklarını paylaşıyor.

CNAME Gizleme

Bir web sitesinin kendi alanından gelen materyal, alanın kendisi güvenilir olduğu sürece 'güvenilir' kategorisine girer. Yüksek otoriteye sahip bir web sitesi için, aşağıdaki özelliklere sahip materyalleri içeren reklam kampanyaları yürütmenin değerli bir primi vardır: belirir Bu tür reklamlar, filtre tabanlı reklam engelleme listelerine ve hatta 2020 AdGraph yaklaşımına karşı bağışık olduğundan, yetkili site tarafından barındırılacaktır.

Bununla birlikte, özel kampanyaların müzakere edilmesi zordur, uygulanması pahalıdır ve son 25 yılda geliştirilen ağ reklamcılığı modelinin temel ilkelerine aykırı olarak yürütülür; burada üçüncü taraf bir platform, genellikle 'açık artırma' yoluyla doğrudan ana siteye kod ekler. anahtar kelimenin arzu edilirliğine ve diğer çeşitli faktörlere dayalı olarak mikrosaniye cinsinden reklam alanı.

Neredeyse tüm reklam engelleme sistemleri, web sayfalarındaki üçüncü taraf materyalleri (yani 'yabancı' alanlarda barındırılan öğeler) kullandığından, reklamcılar CNAME gizleme teknikleri son beş yılda. CNAME gizleme, izleyicileri, ana sitenin bir alt etki alanının (örn. example.com yerine info.example.com) sitenin gerçek bir eklentisi olduğuna inandırarak, aslında bu üçüncü taraf reklamlarla düzenlenmiş bir proxy reklam sunma mekanizmasıdır. sağlayıcılar.

Mart 2021'de bir çalışma ortaya CNAME gizleme olaylarının 22 ile 2018 arasında %2020 arttığını ve Tranco'nun en iyi 10 web sitesinin yaklaşık %10,000'unun Ekim 2020'ye kadar en az bir CNAME tabanlı izleyici kullandığını.

URL'lerde Güveni Azaltmak

CNAME aldatma teknikleri, reklam sunma sürecinde yer alan URL'lerin manipüle edilmesini içerir. URL zincirine güvenen herhangi bir reklam engelleme sistemi, manipülasyona ve kaçırmaya tabi olacaktır. Bu nedenle WebGraph, belirli yasaklanmış veya kabul edilmiş URL'ler yerine kullanım modellerini arayarak bir süreçte sağlanan URL'leri (sorgu dizeleri, parametre sayısı ve parametre adları dahil) rastgele değiştirir.

Sistem, bir reklam sunma mimarisinde iki yaygın yapılandırmayı dikkate almalıdır: birincisi, sunucunun doğrudan reklamverenle işbirliği yaptığı; ve reklamverenin, müşterilerinin manipülasyonuna karşı kendisini koruma ihtiyacı nedeniyle sınırlı işbirliği sağladığı ikinci (daha yaygın) senaryo.

AdGraph dahil olmak üzere liste tabanlı yaklaşımlarda, reklama 'yerel' kaynak atfederek ve bu nedenle reklam içeriğini sistematik olarak engellemeye yönelik neredeyse tüm girişimlerden kaçınarak, reklam sunma sistemi tarafından başarılı URL manipülasyonu neredeyse tam bir zaferdir.

İmzadan geriye ne kaldı? WebGraph bunun yerine reklam sistemlerinin, terimler açısından anlamlı etkinlik için ana sayfanın canlı durumunu sürekli olarak yoklayan web izleyicileri, iframe'ler arasındaki iletişimler ve web "dinleyicileri" gibi çeşitli yarı gizlenmiş araçlarla bilgi paylaşma ihtiyacına odaklanır. reklam için web ölçümleri. Bu tür faaliyetler, çerezlerde veya HTML5 tabanlı yerel depolamada değişkenlerin depolanmasını içerir.

WebGraph, Mozilla'nın Web Gizlilik Ölçümünü kullanır (OpenWPM çerçevesi) Firefox'ta bu tür etkinlikleri izlemek için. JavaScript katmanındaki tüm etkinliği ve ağ katmanındaki tüm giden ağ isteklerini ve bunların yanıtlarını yakalar.

Bu ek inceleme, daha önce AdGraph tarafından önerilen grafik ağına yeni 'bilgi akışı' kenarları getirerek, WebGraph'ın yerel etkinliğe dayalı olarak ve telemetri veya diğer türden iç öldürücü iletişimler için kaynak ve hedef URL'lerden bağımsız olarak bilgi paylaşım modellerini açıkça kaydetmesine ve miktarını belirlemesine olanak tanır. reklam sunum sistemleri.

Sonuçlar

Araştırmacılar, Alexa'nın en iyi 10,000 sitesinden alınan 100,000 web sitesini ve 9,000k-1k arasında sıralanan 100 siteden oluşan rastgele bir örneği sistematik olarak taramak için OpenWPM'nin genişletilmiş bir sürümünü kullandılar ve sonuçları AdGraph'ın modeline göre modellenen bir karar ağacı sınıflandırıcısına aktarmadan önce grafik temsillerini sakladılar. özgün tasarım ve popüler reklam filtresi listelerinin temel gerçek olarak kullanılması. Bu şekilde çekirdek modelin eğitimi için bir veri seti oluşturulmuştur.

Sistem, %92.33 doğrulukla AdGraph ile karşılaştırılabilir sonuçlar elde etti. Bununla birlikte, yeni sistemin hasım direncine dayanıklılığı, AdGraph için neredeyse tam bir başarısızlık oranından WebGraph altında yalnızca %8'lik duyarlılığa yükseliyor.

Gelecekteki yönlendirmeler

Makale, reklam ağlarının, WebGraph yaklaşımı karşısında tespit edilmekten kaçınmak için sistemlerini özellikle yeniden yapılandırması gerektiğini iddia ediyor ve bu tür değişikliklerin, üçüncü taraf reklamcılar ile şu anda ihtiyatlı olan güven ilişkisinin gözden geçirilmesini gerektireceğini öne sürüyor. reklamlarının göründüğü siteleri barındırmak.

Belge ayrıca, WebGraph'ın, sistemin şu anda izlemediği API'leri kullanan tarayıcı parmak izi (Canvas öğesi aracılığıyla) gibi durum bilgisi olmayan izleme tekniklerini hesaba katmadığını da belirtiyor. Araştırmacılar, WebGraph'ın gelecekte bu tür etkileşimleri ve yerel depolama belirteçlerini de hesaba katacak şekilde genişletilebileceğini öne sürüyor.

İlgili konular:reklâm araştırma

Bir sonraki

Güvenlik Açığı Yönetimi Temelleri

Kaçırmayın

Web Uygulaması Güvenlik Duvarı Pazarına İlişkin Öngörüler

Martin Anderson

Makine öğrenimi, yapay zeka ve büyük veri üzerine yazar.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai

Unite.AI

Yerel Tarayıcı Davranışına Dayalı Reklamları Engellemek İçin Bir Makine Öğrenimi Yöntemi

Siber güvenlik