Connect with us

Yapay Zekâ

Makine Öğrenimi vs. Çerez Onay Sistemleri

mm
One of the cryptic cubes from the Hellraiser franchise.

Wisconsin Üniversitesi ve Google arasında yeni bir araştırma işbirliği, makine öğrenimini son on yılın en çok rahatsız eden web kullanıcılarından biri olan – GDPR’ye uygun çerez onay banner’lerinin şeffaflığı ve sinik kötüye kullanımı – ile karşı karşıya getirdi.

CookieEnforcer adlı yeni çerçeve, Semantic Text Understanding kullanarak, çerez onay popup veya banner’ının arkasındaki kodun önemini ve faydasını analiz ediyor ve kullanıcıya, gerçekten “gerekli olmayan” tüm çerezleri devre dışı bırakmak için eksik “tek tıklama” çözümünü sunuyor – bunlar, alan sahipleri tarafından “temel” olarak sunulsa da olmasa da.

CookieEnforcer, www.askubuntu.com web sitesinin çerez onay kodunu inceliyor. Kaynak: https://arxiv.org/pdf/2204.04221.pdf

CookieEnforcer, www.askubuntu.com web sitesinin çerez onay kodunu inceliyor. Kaynak: https://arxiv.org/pdf/2204.04221.pdf

Sistem, kullanıcı tarafından yüklenen bir web tarayıcı eklentisi aracılığıyla uygulanır ve tek bir tıklamayla kullanıcı tanımlı kuralları uygulayabilme özelliğine sahiptir. Çerez onay çerçevesi web sitesinde görününce, kullanıcı eklentiyi etkinleştirebilir, bu da sonra çerez onay kodunu olası eylemler için tarayarak, kullanıcı adına seçimlerde bulunmak için uygun JavaScript oluşturur.

Eklenti, kullanıcı tercihlerini otomatik olarak uygulamak için ayarlanabilir veya bireysel durumlarda, kullanıcı ayarları değiştirmeden önce son gönderimden önce ayarları ayarlayabilir.

Çerez onaylayıcısı çalışıyor. Chrome eklentisi, kullanıcı katkısı olmadan bu işlemi tamamen otomatikleştirebilir. Daha fazla ayrıntı için aşağıdaki gömülü videoyu izleyin. Kaynak: https://www.youtube.com/watch?v=5NI6Q981quc

Çerez onaylayıcısı çalışıyor. Chrome eklentisi, kullanıcı katkısı olmadan bu işlemi tamamen otomatikleştirebilir. Daha fazla ayrıntı için aşağıdaki gömülü videoyu izleyin. Kaynak: https://www.youtube.com/watch?v=5NI6Q981quc

“Non-consent” seçeneklerinin analizi, genellikle karmaşık ve zahmetli ayar gruplarında gizli olan (kullanıcı dostu tümünü kabul et gibi onay çerçevelerine değil) bir dizi ayar olarak modellenir.

Sonuç olarak, CookieEnforcer sisteminin makaleyi sunan yöntemi CookieEnforcer: Otomatik Çerez Bildirimi Analizi ve Uygulaması olarak adlandırılmıştır ve Wisconsin-Madison Üniversitesi’nden üç araştırmacı ve Google Inc.’den bir araştırmacı tarafından yapılmıştır.

Gizli Çerez Onay Yolları

2016’da Genel Veri Koruma Yönetmeliği (GDPR) ve 2018’de California Tüketici Gizliliği Yasası (CCPA) yürürlüğe girdiğinden beri, kullanıcıları bu tür yasaların kapsadığı bölgelerden çekebilen web siteleri, çerez tercih mekanizmaları (genellikle kullanıcıların ülke kökenini belirlemek için IP adresi algılama dayalı) sunmak zorundadır.

Ancak, alan sahipleri uzun süredir kullanıcılarından değerli ve eyleme geçirilebilir kullanıcı verilerini elde etmek için şeffaf olmayan ve genellikle görülmeyen çerez uygulamalarına alışkınlar, bu nedenle yeni yetkilendirilmiş kullanıcılarına kolay opt-out seçenekleri sunmaya isteksizdiler.

Çerez onay arayüzlerinin varsayılan UI’si (kullanıcı bir domaine ilk kez girdiğinde veya o domaine ait çerezleri sildiğinde görünen) nhanh bir şekilde karanlık kalıplar olarak yerleşti; bu, kullanıcıyı, haklarını kullanmak isterlerse, ayrıntılı, zaman alan ve geniş seçenekler ile yormak için tasarlandı; ya da tüm istenilen çerezleri onaylayan basit ve kolay erişilebilir bir düğme.

Bu labirent UI seçimleri kültürü, 2020’de yapılan bir çalışmada ‘bir define avı’ olarak tanımlanmıştır.

Yeni makalede şunlar belirtilmiştir:

‘Kullanıcılar, karmaşık bildirimler olan web siteleri için bilgilendirilmiş çerez kontrolü uygulamakta zorlanabilirler. Her bir web sitesi için çerez ayarlarını ince ayarlamak yerine, varsayılan yapılandırmalara güvenmeleri daha olasıdır. Birkaç durumda, bu varsayılan ayarların hizmet sağlayıcılarına göre gizlilik ihlali ve risk oluşturduğu görülür.’

Bu uygulamaları eleştiren bir yorum, bunları ‘kötü niyetli uyum’ olarak nitelendirdi. Çerez onay çerçeveleri ile ilgili kullanıcı kızgınlığı, bu konuda kendi uygulamaları nedeniyle kişisel olarak maruz kalan büyük yayıncılar için önemli bir konudur.

TechCrunch web sitesinin sunduğu tipik bir seçenek labirenti, ironik olarak AB'nin çerez onayına ilişkin değişen tutumuna ilişkin bir makaleye giriş olarak. Eklenen URL tanımlayıcıları ve izleme için tasarlanan kancalar 262 karakterdi (burada silindi). Tüm olası çerezler için 'tümünü reddet' düğmesi, belirli çerez kategorileri için mevcut olsa da mevcut değildir; bu istisna durumlarda, kullanıcı her 'toggle' işlemini ayrı ayrı gerçekleştirmelidir.

TechCrunch web sitesinin sunduğu tipik bir seçenek labirenti, ironik olarak AB’nin çerez onayına ilişkin değişen tutumuna ilişkin bir makaleye giriş olarak. Eklenen URL tanımlayıcıları ve izleme için tasarlanan kancalar 262 karakterdi (burada silindi). Tüm olası çerezler için ‘tümünü reddet’ düğmesi, belirli çerez kategorileri için mevcut olsa da mevcut değildir; bu istisna durumlarda, kullanıcı her ‘toggle’ işlemini ayrı ayrı gerçekleştirmelidir.

2019’da Almanya’da yapılan bir çalışmada, incelenen alanların büyük çoğunluğunun kullanıcıların geniş onaylara yönlendirildiği ve sadece üçte bir web sitesinin veri toplama uygulamalarının amaçlarını açıkladığı bulundu.

Son yıllarda, Cookie Quick Manager Firefox uzantısı ve çeşitli Chrome alternatifleri gibi bir dizi web tarayıcı eklentisi, eklenti ve uzantısı bu sorunu çözmek için ortaya çıktı; ayrıca Avrupa Birliği, çerez onay mimarileri etrafındaki uyum boşluklarını kapatmaya çalışıyor.

Yöntem ve Veri

Araştırmacılar, ana yaklaşımı olarak recent benzer ML-aided projelere dayanan anahtarlara veya el ile oluşturulmuş kurallara güvenmekten kaçınarak daha güçlü bir çerez onay yönetim çerçevesi oluşturmayı amaçladılar.

CookieEnforcer üç amacı vardır: çerez bildirimlerini ve arayüzlerini makine tarafından okunabilir bir formata çevirmek; çerez ayar yapılandırmasını, gerekli olmayan çerezleri devre dışı bırakmak şekilde tanımlamak; ve kullanıcı tarafından istenirse, ek kısıtlamaları otomatik olarak uygulamak.

Sistem, çerez bildirimlerini algılayan ve analiz eden bir arka uç bileşeni ve çerezleri devre dışı bırakmak için gereken adımları oluşturan ve uygulayan bir ön uç bileşeni içerir.

Çerçeve, Selenium web test kütüphanesini kullanan Chrome’a özgü yerel olarak yüklenen bir uzantı olarak uygulanır.

Arka uç bölümü, algılama, analiz ve karar modeli için modülleri içerir. Analiz modülü, kullanıcı etkileşimi tarafından yapılan kod değişikliklerini dikkate alır, böylece ilk kod dökümü, simüle edilen kullanıcı gezintisi tarafından geçersiz kılınmaz.

Doğal Dil Anlama

Kod ortaya çıktığında, CookieEnforcer’ın mevcut eylemlerinin olası durumunu anlaması önemlidir, çünkü toggle düğmelerinin arkasındaki dil, son kullanıcıya fayda açısından belirsiz olabilir.

Bu amaçla, araştırmacılar karar bileşeni için Text-To-Text Transfer Transformer (T5) modelini eğittiler. 770 milyon parametreye sahip T5-Large modeli, girdi/çıkış kodu (yani, toggle seçeneklerinin işlevselliğini açıklayan ve sağlayan kod) olan özel bir veritabanında fine-tune edildi.

T5 modeli için örnek biçimlendirme (üstte) ve eğitim verileri (altta). Veri örneği www.askubuntu.com'dan alınmıştır.

T5 modeli için örnek biçimlendirme (üstte) ve eğitim verileri (altta). Veri örneği www.askubuntu.com’dan alınmıştır.

Veritabanı, Tranco’nun top-50k popüler web siteleri listesinden seçilen 300 web sitesinin çerez bildirimlerini örnekleyerek oluşturuldu. Dedektör ve analizör modülleri, çalışma zamanı kaynak kodundan çerez onay seçeneklerini çıkardı ve varsayılan durumlarını değerlendirdi.

Araştırmacılardan biri, gerekli olmayan çerezleri devre dışı bırakmak için gereken tıklama serilerini 300 web sitesini tam olarak etiketledi.

Özel veri setindeki örneklerin kaynak kodunda çeşitlilik.

Özel veri setindeki örneklerin kaynak kodunda çeşitlilik.

60 web sitesi test kümesi olarak ayrıldı ve T5-Large modeli 0.003 öğrenme hızında, 16’lık bir toplu işlemden 20 epoch için eğitildi, 256 token maksimum girdi dizisi uzunluğu ve 64 maksimum hedef dizisi uzunluğu ile. Token’lar, Google’ın SentencePiece tokenleştiricisi tarafından kurulan alt kelimelerden oluşuyordu.

Son olarak, işlenen bilgiler yerel bir veritabanında depolanır ve sistemin ön ucuna sunulur. Yazarlar, bazı önceki benzer projelerin izlediği XPath yaklaşımına kıyasla querySelector() HTML işlevini tercih ettiler, çünkü XPath’ler çerez bildirimleri için DOM güncellemelerine (yani, kodun ilk yüklenmeden sonra kullanıcı etkileşimlerine tepki olarak değişebileceği) karşı hassastır.

Test ve Performans

Pratikte, CookieEnforcer bazı karmaşık onay çerçevelerini, The New Scientist çerez onay çerçevesindeki bir seçenek gibi, kullanıcı tarafından açıkça görülmek istendiğinde JavaScript tarafından gizlenen bir seçeneği bile geçebildi.

Araştırmacılar şunları belirttiler:

‘Bu seçenek, kullanıcılar tarafından kolayca gözden kaçabilir, çünkü kullanıcıların bu seçeneği görmek için ek bir çerçeveyi genişletmeleri gerekir. CookieEnforcer sadece bu seçeneği bulmakla kalmaz, aynı zamanda anlamını ve kullanıcı adına itirazda bulunma kararını da verir. Bu örnekler, modelin bağlamı öğrendiğini ve yeni örneklerde genelleme yaptığını gösterir.’

Araştırmacılar, framework’ün performansı için üç test gerçekleştirdiler; bunlardan biri, CookieEnforcer’ın 500 görülmemiş domaine (yani, CookieEnforcer’ın özel olarak eğitilmediği web sitelerine) karşı sonuçlarını değerlendiren bir uçtan uca değerlendirmedir ve burada araştırmacılar, sistemin %91’inde gerekli olmayan çerezleri devre dışı bırakabildiğini bildirdiler.

İkinci test, 14 web sitesini kapsayan bir çevrimiçi kullanıcı çalışmasıydı ve Sistem Kullanılabilirlik Ölçeği (puan) ile manuel bir temel çizgi karşılaştırıldı. Bu test için araştırmacılar, CookieEnforcer’ın temel çizgiye göre %15 daha yüksek bir puan elde ettiğini bildirdiler.

CookieEnforcer, aynı zamanda zahmetli bir süreci otomatikleştirmek koşuluyla, temel çizgi kullanımına göre %15 daha yüksek bir puan sağlar.

CookieEnforcer, aynı zamanda zahmetli bir süreci otomatikleştirmek koşuluyla, temel çizgi kullanımına göre %15 daha yüksek bir puan sağlar.

Son olarak, CookieEnforcer’ın eğitilen parametreleri, ABD ve Avrupa’nın en üst düzey 5000 web sitesine karşı test edildi ve çerez bildirimlerini gezme kapasitesi belirlendi. Araştırmacılar şunları belirttiler:

‘Bu ölçekteki ölçümler önce yapıldı, ancak CookieEnforcer, anahtar kelime tabanlı heuristiklerin ötesinde seçeneklerin daha derin bir anlayışını sağlar. Özellikle, Birleşik Krallık’ta çerez bildirimleri gösteren web sitelerinin %16,7’sinin en az bir gerekli olmayan çerezi etkinleştirilmiş olduğunu bulduk. ABD’de aynı oran %22’dir.’

Araştırmacılar, CookieEnforcer’ın çalıştığını gösteren kısa bir YouTube videosunu yayınladılar:

https://www.youtube.com/watch?v=5NI6Q981quc

 

İlk olarak 12 Nisan 2022’de yayımlandı.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]