Siber güvenlik

Yerel Tarayıcı Davranışına Dayalı Reklamları Engellemek İçin Bir Makine Öğrenimi Yöntemi

Yayınlanan Temmuz 26, 2021

Martin Anderson

İsviçre ve ABD'deki araştırmacılar, web sitesi reklam materyalinin tespitine yönelik yeni bir makine öğrenimi yaklaşımı geliştirdiler. Bu yaklaşım, söz konusu materyalin içeriğini veya ağ davranışını analiz etmek yerine, söz konusu materyalin tarayıcıyla etkileşimine dayanıyor. Bu iki yaklaşımın, CNAME gizlemesi karşısında uzun vadede etkisiz olduğu kanıtlandı (aşağıya bakın).

Dubbed Web Grafiği, çerçeve bir kullanır grafiktelemetri denemeleri ve yerel tarayıcı depolaması dahil olmak üzere ağ reklamcılığının bu tür temel faaliyetlerine odaklanarak promosyon içeriğini tespit etmeye yönelik yapay zeka tabanlı reklam engelleme yaklaşımı, tek etkili kaçırma tekniğinin bu faaliyetleri yürütmemek olacağını.

Önceki yaklaşımlar, WebGraph'tan biraz daha yüksek algılama oranlarına ulaşmış olsa da, hepsi kaçamak tekniklere yatkınken, WebGraph, bu durum karşısında ortaya çıkabilecek daha karmaşık varsayımsal yanıtlar da dahil olmak üzere, düşman tepkileri karşısında %100 bütünlüğe yaklaşabilmektedir. yeni reklam engelleme yöntemi.

Makale, California Üniversitesi, Davis ve Iowa Üniversitesi'nden araştırmacılarla birlikte İsviçre Federal Teknoloji Enstitüsü'nden iki araştırmacı tarafından yönetiliyor.

AdGraph'ın Ötesinde

Çalışma, adı verilen Brave tarayıcısı ile 2020 araştırma girişiminden bir gelişmedir. Reklam Grafiği, yeni makaleden iki araştırmacının yer aldığı.

Önceki yaklaşımdaki mimari yenilikleri temsil eden noktalı çizgilerle AdGraph ve WebGraph karşılaştırması. Kaynak: https://arxiv.org/pdf/2107.11309.pdf

AdGraph (reklam) içeriğine dayanır Özellikler, ticari materyalin saptanması için bir anahtar olarak URL'lerin analizinden türetilmiştir. Bununla birlikte, bu özellikler, reklam algılama sistemlerinin varlığını tespit etmeye çalışan ve bunları ortadan kaldıracak yöntemler formüle eden saldırganlar için tek bir potansiyel başarısızlık noktasını temsil eder. İçeriğe olan bu güven özellikleri AdGraph'ı temel olarak manuel olarak seçilen filtre listelerine dayalı yaklaşımların mekanize bir versiyonu haline getirerek, zayıflıklarını paylaşıyor.

CNAME Gizleme

Bir web sitesinin kendi alan adından gelen içerik, alan adının kendisi güvenilir olduğu sürece "güvenilir" kategorisine girer. Yüksek otoriteye sahip bir web sitesi için, içerik sunan reklam kampanyaları yürütmenin değerli bir avantajı vardır. belirir Bu tür reklamlar, filtre tabanlı reklam engelleme listelerine ve hatta 2020 AdGraph yaklaşımına karşı bağışık olduğundan, yetkili site tarafından barındırılacaktır.

Ancak, özel kampanyaların pazarlığı zordur, uygulanması pahalıdır ve son 25 yılda geliştirilen ağ reklamcılık modelinin temel prensiplerine aykırıdır. Bu modelde, üçüncü taraf bir platform kodu doğrudan ana siteye yerleştirir ve genellikle anahtar kelimenin cazipliğine ve diğer çeşitli faktörlere bağlı olarak reklam alanını mikrosaniyeler içinde 'açık artırmaya' çıkarır.

Neredeyse tüm reklam engelleme sistemleri web sayfalarındaki üçüncü taraf materyallere (yani 'yabancı' etki alanlarında barındırılan öğelere) odaklandığından, reklamverenler şu şekilde mücadele ediyor: CNAME gizleme teknikleri son beş yılda. CNAME gizleme, izleyicileri, ana sitenin bir alt etki alanının (örn. example.com yerine info.example.com) sitenin gerçek bir eklentisi olduğuna inandırarak, aslında bu üçüncü taraf reklamlarla düzenlenmiş bir proxy reklam sunma mekanizmasıdır. sağlayıcılar.

Mart 2021'de bir çalışma ortaya CNAME gizleme olaylarının 22 ile 2018 arasında %2020 oranında arttığı, Ekim 10 itibarıyla Tranco'nun en iyi 10,000 web sitesinin yaklaşık %2020'unun en az bir CNAME tabanlı izleyici kullandığı belirtildi.

URL'lerde Güveni Azaltmak

CNAME aldatma teknikleri, reklam sunma sürecinde yer alan URL'lerin manipüle edilmesini içerir. URL zincirine güvenen herhangi bir reklam engelleme sistemi, manipülasyona ve kaçırmaya tabi olacaktır. Bu nedenle WebGraph, belirli yasaklanmış veya kabul edilmiş URL'ler yerine kullanım modellerini arayarak bir süreçte sağlanan URL'leri (sorgu dizeleri, parametre sayısı ve parametre adları dahil) rastgele değiştirir.

Sistem, bir reklam sunma mimarisinde iki yaygın yapılandırmayı dikkate almalıdır: birincisi, sunucunun doğrudan reklamverenle işbirliği yaptığı; ve reklamverenin, müşterilerinin manipülasyonuna karşı kendisini koruma ihtiyacı nedeniyle sınırlı işbirliği sağladığı ikinci (daha yaygın) senaryo.

AdGraph gibi liste tabanlı yaklaşımlarda, reklam yayınlama sistemi tarafından başarılı bir URL manipülasyonu neredeyse tam bir zaferdir; reklama 'yerel' köken atfedilir ve dolayısıyla reklam içeriğini sistematik olarak engellemeye yönelik hemen hemen tüm girişimlerden kaçınılır.

İmza olarak geriye ne kalıyor? WebGraph, reklam sistemlerinin web izleyicileri, iframe'ler arasındaki iletişimler ve web "dinleyicileri" gibi çeşitli yarı gizli yollarla bilgi paylaşma ihtiyacına odaklanıyor. Bu dinleyiciler, reklam için web metrikleri açısından anlamlı etkinlik olup olmadığını görmek için ana sayfanın canlı durumunu sürekli olarak sorguluyor. Bu tür etkinlikler, değişkenlerin çerezlerde veya HTML5 tabanlı yerel depolamada depolanmasını içerir.

WebGraph, Mozilla'nın Web Gizlilik Ölçümünü kullanır (OpenWPM çerçevesi) Firefox'ta bu tür etkinlikleri izlemek için. JavaScript katmanındaki tüm etkinliği ve ağ katmanındaki tüm giden ağ isteklerini ve bunların yanıtlarını yakalar.

Bu ek inceleme, AdGraph tarafından daha önce önerilen grafik ağına yeni 'bilgi akışı' kenarları getirerek, WebGraph'ın yerel aktiviteye dayalı bilgi paylaşım modellerini açıkça kaydetmesine ve nicelleştirmesine ve telemetri veya reklam yayınlama sistemlerindeki diğer türden iç iletişimler için kaynak ve hedef URL'lerden bağımsız olarak bilgi paylaşım modellerini belirlemesine olanak tanır.

ÇIKTILAR

Araştırmacılar, Alexa'nın en iyi 10,000 sitesi arasından seçilen 100,000 web sitesini ve 9,000 ile 1 arasında sıralanan 100 siteden oluşan rastgele bir örneklemi sistematik olarak taramak için OpenWPM'nin genişletilmiş bir sürümünü kullandılar. Sonuçları AdGraph'ın orijinal tasarımına göre modellenmiş bir karar ağacı sınıflandırıcısına aktarmadan önce grafik gösterimlerini depoladılar ve popüler reklam filtresi listelerini temel gerçek olarak kullandılar. Bu şekilde, çekirdek modelin eğitimi için bir veri kümesi oluşturuldu.

Sistem, %92.33 doğruluk oranıyla AdGraph ile karşılaştırılabilir sonuçlar elde etti. Ancak, yeni sistemin düşmanca dirençlere karşı dayanıklılığı, AdGraph için neredeyse tam bir başarısızlık oranından, WebGraph için yalnızca %8'lik bir duyarlılık oranına yükseldi.

Gelecekteki yönlendirmeler

Makale, reklam ağlarının, WebGraph yaklaşımı karşısında tespit edilmekten kaçınmak için sistemlerini özellikle yeniden yapılandırması gerektiğini iddia ediyor ve bu tür değişikliklerin, üçüncü taraf reklamcılar ile şu anda ihtiyatlı olan güven ilişkisinin gözden geçirilmesini gerektireceğini öne sürüyor. reklamlarının göründüğü siteleri barındırmak.

Belge ayrıca, WebGraph'ın, sistemin şu anda izlemediği API'leri kullanan tarayıcı parmak izi (Canvas öğesi aracılığıyla) gibi durum bilgisi olmayan izleme tekniklerini hesaba katmadığını da belirtiyor. Araştırmacılar, WebGraph'ın gelecekte bu tür etkileşimleri ve yerel depolama belirteçlerini de hesaba katacak şekilde genişletilebileceğini öne sürüyor.

İlgili konular:reklâm araştırma

Martin Anderson

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai