Yapay Zekâ

25 Yıllık Gizlilik Politikalarını Makine Öğrenimi ile Analizleme

Published January 31, 2022

Updated April 28, 2026

Martin Anderson

Bir recent çalışma, makine öğrenimi analiz tekniklerini kullanarak, 1996’dan 2021’e kadar 25 yıllık bir dönemde popüler web sitelerindeki 50.000’den fazla gizlilik politikasının okunabilirliği, faydası, uzunluğu ve karmaşıklığını haritalamıştır. Araştırma, ortalama bir okuyucunun, bazı en çok ziyaret edilen web sitelerinin modern gizlilik politikalarının artan kelime sayılarını, bulanıklaştıran dili ve belirsiz dil kullanımını kavramak için ‘yıllık okuma zamanı’ olarak 400 saat ayırmaya ihtiyaç duyacağını kếtülmektedir (günde daha než bir saat).

Raporda şöyle denilmektedir:

‘Ortalama politika uzunluğu son on yılda neredeyse iki katına çıktı, Mart 2011’de 2159 kelime ve Mart 2021’de 4191 kelime ve 2000’den (1146 kelime) bu yana neredeyse dört katına çıktı.’

Çalışma kapsamında incelenen korpusun 25 yıllık dönemde ortalama kelime sayısı ve cümle sayısı. Kaynak: https://arxiv.org/pdf/2201.08739.pdf

Uzunluktaki artış oranı, GDPR ve California Tüketici Gizliliği Yasası (CCPA) korumalarının yürürlüğe girdiğinde zirveye ulaştı, ancak makale bu varyasyonları ‘küçük etki boyutları’ olarak görmezden gelerek, daha geniş uzun vadeli eğilim karşısında önemsiz olarak görür. Ancak, GDPR, politikalardaki ‘belirsiz’ dilin artan nedenlerinden biri olarak tanımlanmaktadır (aşağıya bakınız).

Dakikada 250 kelime okuyabilme hızını varsayarak, makale, ortalama bir gizlilik politikasının şimdi 17 dakika okumayı gerektirdiğini, daha popüler politikaların (yani yüksek sayıda kullanıcı ile ilişkili politikaların) ise 23 dakika süreceğini iddia etmektedir.

Veri setindeki en uzun politika, Microsoft’tan, araştırmaya göre 152 dakika sürmektedir, bu araştırma Google’ın BERT dil modeli‘nin bir dizi çeşidini kullanmıştır.

Modern gizlilik politikalarını okumak için gereken yıllık saatlerin artışı, okuyucunun yılda 1462 benzersiz web sitesini ziyaret ettiği varsayılarak.

Gizlilik politikalarındaki son yıllarda görülen artan söz varlığı ve belirsizlik, makale tarafından son yirmi yıl içinde düzenlemeler dayatma girişimlerine bir tepki olarak ve ayrıca düzenleyici uyumluluk gereksinimlerinin gizlilik politikalarının kapsamı ve opaklığını gizlice artırmak için bir bahane olarak kullanılması olarak yorumlanmaktadır.

‘Genel olarak, sonuçlarımız gösteriyor ki, yakın zamanda yapılan gizlilik düzenlemeleri, çevrimiçi kullanıcıların gizliliğini önemli ölçüde iyileştirmedi, ancak daha çok şişirilmiş gizlilik politikalarına yol açtı ve daha invazif veri uygulamalarını tanımladı.’

Doğal Dil İşleme (NLP) konulu bir dizi makale, son yıllarda gizlilik politikalarının okunabilirliği ve diğer yönlerini ele aldı, ancak yazar, bu tür bir projenin son on yıllar boyunca politika gelişimine ilişkin böyle geniş bir genel bakış sunan ilk proje olduğuna inanmaktadır.

Makale, başlıklı Çağlar Boyu Gizlilik Politikaları: 1996-2021 Gizlilik Politikalarının İçeriği ve Okunabilirliği, ve Birleşik Krallık’taki De Montfort Üniversitesi’ndeki Siber Teknoloji Enstitüsü’nden Isabel Wagner tarafından gelmektedir.

Elliptik Dil

Rapor ayrıca, gizlilik politikalarında ‘bulanıklaştıran kelimelerin’ (yani kabul edilebilir, önemli, çoğunlukla ve diğer kesin anlama sağlamayan kelimelerin) ortalama sayısının 2018 yılına kadar sürekli arttığını, ancak sonra Mart 2018’de 227 olan ortalamadan Haziran 2020’de 304’e fırladığını öne sürmektedir.

Yazar, bu artışın GDPR’nin etkilerine atfedilebileceğini iddia etmektedir ve makale, çalışılan gizlilik politikalarının %72’sinin cümlelerinde en az bir bulanıklaştırıcı kelime içerdiğini bulmuştur.

Okunabilirlik

Okuma zorluğu açısından üç ortak ölçüt boyunca, çalışma ‘gizlilik politikalarının yıllar içinde giderek daha zor okunur hale geldiğini’ buldu. Yazarlar, 2021’de geçerli olan mevcut politikaların %41’inin median Flesch Okunabilirlik Puanı (FRE, daha yüksek daha iyi) sadece 31.8 olduğunu tahmin etmektedir, yazar ‘Bu puan, üniversite mezunları tarafından anlaşılabilen çok zor bir metni gösterir’ gözlemlemektedir.

Aynı zamanda, sadece 6.7% politika, raporun da belirttiği gibi, Florida eyaletinde sigorta politikaları için gerekli olan 45’nin üzerindeki bir FRE puanına ulaştı.

Politika Değişikliği Farkındalığı

Çalışma, gizlilik politikalarının, kullanıcıların sonunda anlaşmayı sürdürme isteğini etkileyebilecek sonraki güncellemeler hakkında bilgi içerip içermediğini ve nasıl bilgilendirileceğini ele almaktadır.

Yazar观察:

‘2021’de, politikaların %73’ü bir politika değişikliği beyanını içeriyor. Bunların %34’ü değişikliklerin gizlilik politikasında bir bildiri ile duyurulacağını, %37’si web sitesinde bir bildiri yayınlayacak ve %22’si kişisel bir bildiri gönderecek (kalan politikalar bildiri türünü belirtmemektedir).

‘Sonuç olarak, çoğu kullanıcı gizlilik politikalarındaki değişikliklerden haberdar olmayacak.’

‘Ayrıca, kullanıcılar politika değiştiğinde neredeyse hiçbir anlamlı seçim sunulmuyor. Değişikliklerden haberdar edilen politikaların %12’si yeni bir onay sunarken, %34’ü hiçbir seçim sunmuyor ve %54’ü belirsiz bırakıyor.’

Kullanıcıları politika değişiklikleri hakkında bilgilendirme yöntemleri ile ilgili makalenin bulguları.

Sınırlı Seçenek İzleme

Çalışmaya göre, gizlilik politikalarında, kullanıcı hesabı bilgilerine erişmek için sunulan mekanizmaların çeşitliliği, kullanıcı profili verilerine erişmek için sunulanlardan çok daha fazladır. Profil verileri, otomatik ve açık olmayan mekanizmalar aracılığıyla oluşturulabilir ve güncellenebilir, जबकi kullanıcı hesabı verileri, yalnızca kullanıcı tarafından açıkça verilir ve çeşitli yargı bölgelerinin düzenlemeleri uyarınca düzenlenmek zorundadır.

Gizlilik politikalarında, özellikle GDPR’nin ortaya çıkardığı çerez onayları konusu, genel olarak ele alınmaktadır, ancak daha az erişilebilir verilerin bir katmanını gizlemektedir:

‘[Çerezler hakkında] yapılan seçimler, kullanıcıları tüm izlemelerden korumak için yetersizdir, çünkü bilgisayar bilgileri, cihaz tanımlayıcıları ve kişisel tanımlayıcılar için, parmak izi yoluyla kullanıcıları izlemeye izin veren choice veya kontrol mekanizmaları nadiren sunulmaktadır.’

Kullanıcı hesabı verileri (GDPR, CCPA ve benzeri ulusal ve bölgesel mekanizmalar tarafından sık sık zorunlu kılınan bazı kontrol ölçümlerine sahip) ile profil verileri (dolaylı veya gizli yollarla elde edilebilen) arasında kontrol seviyesinde çarpıcı bir zıtlık.

Veri

Çalışma için veri elde etmek amacıyla, yazar web sitelerini gizlilik politikalarına bağlantılar için taramış, ancak çoğu zaman ilk sonucu, ebeveyn veya ilgili politika ile değişebilen, daha fazla politika bağlantısı olan politikalara ulaşmak için kapsamını genişletmek zorunda kalmıştır.

Wayback Machine kullanılarak tarihsel politikalar elde edilmiştir, ancak sonuçları dikkate alırken, robots.txt yapılandırma dosyası aracılığıyla taramadan veya arşivden engellenen politikaları hesaba katmak gerekliydi (web-crawling dizin ajanlarına, kamu dizinine dahil edilmemesi gereken sayfalar ve diğer varlıklar hakkında talimatlar içeren küçük bir metin dosyası).

Her ayın bir anlık görüntüsü, CDX API kullanılarak Wayback Machine’den alınmıştır, Firefox altında Selenium kullanılarak. Sadece HTML politikalarına odaklanıldığı için, yalnızca PDF formatında mevcut olan politikalar için optik karakter tanıma yapılmamıştır.

Bu projeden ilginç bir sonuç, pornografik web sitelerinin okunabilirliği ve açıklığının aslında çalışılan aralıkta gerçekten iyileştiği, muhtemelen artan düzenleme ve açıklık taleplerine bir yanıt olarak.

Bu belgeleri toplamak için, üniversite’nin içerik engelleme protokollerinden dolayı, ek taramalarla konut IP adreslerinden elde etmek gerekliydi.

İlk olarak 1.068.683 belge elde edilmiştir, bu da 120.265 benzersiz belgeye ve her bağlantı için ortalama 39.1 politika maddesine veya koşula ve 4.4 benzersiz politika metnine karşılık gelmektedir.

İngilizce Sadece

Benzer recent çalışmalarda olduğu gibi, proje İngilizce olmayan gizlilik politikalarını ele almadı, bunlar veri temizleme aşamasında PYCLD2 paketi kullanılarak atıldı.

Gizlilik politikalarını diğer materyallerden ayırt etmek için, 2019’da Wisconsin Üniversitesi ve École Polytechnique Fédérale de Lausanne’nin ortak girişimi olarak geliştirilen bir sınıflandırıcı kullanıldı.

IS-POLICY sınıflandırıcının mimarisi. Kaynak: https://arxiv.org/pdf/1809.08396.pdf

IS-POLICY sınıflandırıcı, orijinal makaledeki aynı 1.000 belge korpusunda eğitilmiş olmasına rağmen, yazarın yeni non-politika belgeleri eğitimi için elde etmesi gerekliydi, çünkü orijinal kaynaklar mevcut değildi.

Filtreleme sonrasında, veri 56.416 benzersiz gizlilik politikasına indirildi.

* Makalenin satır içi alıntısı burada bir bağlantiya dönüştürülmüştür, italik geçişi makaleden alınmıştır.

İlk olarak 31 Ocak 2022’de yayımlandı.

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]