Connect with us

Yerel Tarayıcı Davranışına Dayalı Reklam Engellemek için Makine Öğrenimi Yöntemi

Siber Güvenlik

Yerel Tarayıcı Davranışına Dayalı Reklam Engellemek için Makine Öğrenimi Yöntemi

mm

İsviçre ve ABD’deki araştırmacılar, içerik veya ağ davranışını analiz etmek yerine, tarayıcı ile nasıl etkileşime girdiğine dayanarak web sitesi reklam materyalinin tespiti için yeni bir makine öğrenimi yaklaşımı geliştirdiler – bu, CNAME gizleme (aşağıya bakın) karşısında uzun vadede etkisiz olduğu kanıtlanmış iki yaklaşım.

WebGraph olarak adlandırılan çerçeve, reklam engelleyici bir yaklaşım geliştirmek için bir graf tabanlı AI kullanıyor. WebGraph, ağ reklamlarının temel faaliyetlerine odaklanarak, yalnızca bu faaliyetleri gerçekleştirmemek gibi bir kaçınma tekniğiyle kaçınılabilecek şekilde, tanıtım içeriğini tespit ediyor.

Önceki yaklaşımlar WebGraph’den slightly daha yüksek tespit oranlarına ulaşmış olsa da, hepsi kaçınma tekniklerine eğilimlidir, oysa WebGraph, düşmanca tepkiler karşısında, ortaya çıkabilecek daha sofistike hipotetik tepkiler de dahil olmak üzere, %100 bütünlüğe yaklaşabiliyor.

Makale, İsviçre Federal Teknoloji Enstitüsü’nden iki araştırmacı tarafından, California, Davis Üniversitesi ve Iowa Üniversitesi’nden araştırmacılarla birlikte yürütülmüştür.

AdGraph Ötesi

Çalışma, 2020 yılında Brave tarayıcı ile yürütülen AdGraph araştırmasının bir geliştirilmesi niteliğinde. Yeni makalede, önceki çalışmadan iki araştırmacı yer alıyor.

AdGraph vs. WebGraph karşılaştırması, önceki yaklaşımın mimari yeniliklerini temsil eden noktalı çizgilerle. Kaynak: https://arxiv.org/pdf/2107.11309.pdf

AdGraph vs. WebGraph karşılaştırması, önceki yaklaşımın mimari yeniliklerini temsil eden noktalı çizgilerle. Kaynak: https://arxiv.org/pdf/2107.11309.pdf

AdGraph, reklam materyalinin tespiti için, URL’lerin analizinden elde edilen (reklam) içerik özelliklerine dayanır. Ancak bu özellikler, reklam tespit sistemlerinin varlığını tespit etmeye çalışan düşmanlar için potansiyel bir başarısızlık noktasını temsil eder ve bu özelliklerin bertaraf edilmesine yönelik yöntemler geliştirilebilir. İçerik özelliklerine dayanan bu yaklaşım, AdGraph’u temel olarak, el ile oluşturulan filtre listeleri tabanlı yaklaşımların mekanize bir versiyonu haline getirir ve bu yaklaşımların zayıflıklarını paylaşır.

CNAME Gizleme

Bir web sitesinin kendi alanından gelen materyal, alanın kendisi güvenilir olduğu sürece, ‘güvenilir’ bir kategoriye girer. Yüksek otoriteye sahip bir web sitesi için, kendi sitesinden görünen reklam kampanyaları yürütmek, özellikle de böyle bir reklamın filtre tabanlı reklam engelleyicilere ve 2020 AdGraph yaklaşımına karşı bağışık olması nedeniyle, değerli bir primdir.

Ancak, özel kampanyalar müzakere edilmesi zor, uygulanması pahalı ve son 25 yıl içinde geliştirilen ağ reklamcılığı modelinin temel ilkelerine aykırıdır; bu modelde, üçüncü taraf bir platform, genellikle ana siteye mikrosaniyeler içinde, anahtar kelime çekiciliği ve diğer çeşitli faktörler temelinde ‘ihale’ yoluyla reklam boşluğunu doğrudan yerleştirir.

Çoğu reklam engelleyici sistemin, web sayfalarındaki üçüncü taraf materyallerine (yani, ‘yabancı’ alanlarda barındırılan öğelere) odaklandığı dikkate alındığında, reklamcılar son beş yıldır CNAME gizleme teknikleri ile geri tepmeye çalışıyorlar. CNAME gizleme, takipçileri, aslında üçüncü taraf reklam sağlayıcıları ile yapılan bir proxy reklam sunucu mekanizması olan, ana siteye ait gibi görünen bir alt alanın (örneğin, information.example.com yerine example.com) gerçek bir site eki olduğunu düşünmeye ikna eder.

2021 Mart’ında yapılan bir çalışmada, CNAME gizleme olaylarının 2018 ile 2020 arasında %22 arttığı, Ekim 2020 itibarıyla Tranco’nun en üst sıradaki 10.000 web sitesinin yaklaşık %10’unun en az bir CNAME tabanlı izleyici kullandığı ortaya çıktı.

URL’lerde Güveni Reddetme

CNAME aldatma teknikleri, reklam sunma sürecinde yer alan URL’lerin manipülasyonunu içerir. URL zincirine güvenen herhangi bir reklam engelleyici sistemi, manipülasyona ve kaçınmaya maruz kalacaktır. Bu nedenle WebGraph, sağlanan URL’leri (sorgu dizileri, parametre sayısı ve parametre adları dahil) rastgele değiştirir ve belirli yasaklanmış veya kabul edilen URL’ler yerine kullanım kalıplarına bakar.

Sistem, reklam sunma mimarisinde iki ortak yapılandırmayı dikkate almak zorundadır: birincisi, ana site doğrudan reklamverenle işbirliği içinde olduğunda; ikincisi, reklamverenin müşterileri tarafından manipülasyona karşı kendini korumak için sınırlı işbirliği yaptığı daha yaygın senaryo.

Liste tabanlı yaklaşımlarda, včetně AdGraph, reklam sunma sisteminin başarılı URL manipülasyonu neredeyse tam bir zaferdir, reklamın ‘yerel’ kökenine atfedilir ve neredeyse tüm reklam içeriğini sistematik olarak engelleme girişimlerini atlatır.

Kalacak şey nedir? WebGraph, reklam sistemlerinin, web izleyicileri, iframe ile web ‘dinleyicileri’ arasındaki iletişimler ve reklam için web-metrikleri anlamak açısından anlamlı olan ana sayfanın canlı durumunu sürekli olarak sorgulayan gibi yarı gizli means ile bilgi paylaşma ihtiyacına odaklanıyor. Bu tür faaliyetler, çerezlerde veya HTML5 tabanlı yerel depolamada değişkenlerin depolanmasını içerir.

WebGraph, Mozilla’nın Web Gizliliği Ölçümü (OpenWPM çerçevesi) kullanarak, Firefox’ta bu tür faaliyetleri izler. JavaScript katmanında tüm faaliyetleri ve ağ katmanında giden tüm ağ isteklerini ve yanıtlarını yakalar.

Bu ek incelemeler, AdGraph tarafından daha önce önerilen grafik ağına yeni ‘bilgi akışı’ kenarları ekler, böylece WebGraph, köken ve hedef URL’ler için telemetri veya reklam sunma sistemlerindeki diğer türlerin internecine iletişimleri bağımsız olarak, yerel faaliyetlere dayalı bilgi paylaşma kalıplarını açıkça kaydedebilir ve nicelendirebilir.

Sonuçlar

Araştırmacılar, OpenWPM’in genişletilmiş bir sürümünü kullanarak, Alexa’nın en üst sıradaki 100.000 sitesinden 10.000 web sitesini ve 1k-100k arasında sıralanan 9.000 web sitesinin rastgele bir örneğini sistematik olarak taramış ve grafik temsililerini AdGraph’un orijinal tasarımına dayanan bir karar ağacına sınıflandırıcıya geçirmeden önce depolamıştır. Bu şekilde, çekirdek modelin eğitimi için bir veri kümesi oluşturulmuştur.

Sistem, AdGraph ile karşılaştırılabilir sonuçlar elde etti, %92,33 doğruluk oranıyla. Ancak, yeni sistemin düşmanca dirence karşı dayanıklılığı, AdGraph için neredeyse tam bir başarısızlık oranından WebGraph için %8’e düşmüştür.

Gelecek Yönergeler

Makale, reklam ağlarının WebGraph yaklaşımının karşısında tespit edilmekten kaçınmak için sistemlerini önemli ölçüde yeniden mimarilere ihtiyaç duyacağını iddia ediyor ve böyle bir değişikliğin, üçüncü taraf reklamcılarla birlikte görünen reklamların konak siteyle arasındaki şu anda dikkatli bir güven ilişkisinin gözden geçirilmesini gerektireceğini öneriyor.

Makale ayrıca, WebGraph’un, tarayıcı parmak izleme (Canvas öğesi aracılığıyla) gibi durum bilgisi olmayan takip tekniklerini hesaba katmadığını belirtiyor; bu, API’leri sistem tarafından şu anda izlenmeyen API’leri kullanıyor. Araştırmacılar, WebGraph’un gelecekte bu tür etkileşimleri ve yerel depolama işaretçilerini de hesaba katmak için genişletilebileceğini öneriyorlar.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]