sơ khai Phân tích 25 năm chính sách quyền riêng tư với Machine Learning - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Phân tích 25 năm chính sách quyền riêng tư với Machine Learning

mm
cập nhật on

Một nghiên cứu gần đây đã sử dụng các kỹ thuật phân tích máy học để lập biểu đồ về mức độ dễ đọc, tính hữu ích, độ dài và độ phức tạp của hơn 50,000 chính sách quyền riêng tư trên các trang web phổ biến trong khoảng thời gian 25 năm từ 1996 đến 2021. Nghiên cứu kết luận rằng người đọc bình thường sẽ cần phải dành nhiều thời gian để quan sát. 400 giờ 'thời gian đọc hàng năm' (hơn một giờ mỗi ngày) để thâm nhập vào số lượng từ ngày càng tăng, ngôn ngữ khó hiểu và cách sử dụng ngôn ngữ mơ hồ đặc trưng cho chính sách bảo mật hiện đại của một số trang web được truy cập nhiều nhất.

Báo cáo nêu rõ:

'Độ dài chính sách trung bình đã tăng gần gấp đôi trong mười năm qua, với 2159 từ vào tháng 2011 năm 4191 và 2021 từ vào tháng 2000 năm 1146 và gần như tăng gấp bốn lần kể từ năm XNUMX (XNUMX từ).'

Số lượng từ trung bình và số lượng câu trong kho văn bản được nghiên cứu, trong khoảng thời gian 25 năm. Nguồn: https://arxiv.org/pdf/2201.08739.pdf

Số lượng từ trung bình và số lượng câu trong kho văn bản được nghiên cứu, trong khoảng thời gian 25 năm. Nguồn: https://arxiv.org/pdf/2201.08739.pdf

Mặc dù tốc độ tăng thời lượng tăng đột biến khi GDPR và các biện pháp bảo vệ của Đạo luật về quyền riêng tư của người tiêu dùng California (CCPA) có hiệu lực, nhưng bài báo đã loại trừ các biến thể này vì "kích thước ảnh hưởng nhỏ" dường như không đáng kể so với xu hướng dài hạn rộng lớn hơn. Tuy nhiên, GDPR được xác định là nguyên nhân có thể dẫn đến ngôn ngữ 'mơ hồ' ngày càng tăng trong các chính sách (xem bên dưới).

Giả sử tốc độ đọc là 250 từ mỗi phút, bài báo cho rằng chính sách bảo mật trung bình hiện mất 17 phút để đọc, trong khi các chính sách phổ biến hơn (tức là các chính sách liên quan đến số lượng người dùng cao) mất 23 phút để hoàn thành.

Chính sách dài nhất trong tập dữ liệu, từ Microsoft, cần 152 phút để sử dụng, theo nghiên cứu, đã tận dụng một số biến thể trên Google mô hình ngôn ngữ BERT.

Tăng tỷ lệ số giờ cần thiết hàng năm để đọc các chính sách bảo mật hiện đại, giả sử rằng người đọc truy cập 1462 trang web duy nhất mỗi năm.

Tăng tỷ lệ số giờ cần thiết hàng năm để đọc các chính sách bảo mật hiện đại, giả sử rằng người đọc truy cập 1462 trang web duy nhất mỗi năm.

Phần lớn sự gia tăng gần đây về mức độ dài dòng và mơ hồ trong các chính sách quyền riêng tư được bài báo cho là phản ứng đối với những nỗ lực trong hai thập kỷ qua nhằm áp đặt các quy định, nhưng cũng là do việc sử dụng không trung thực các yêu cầu tuân thủ quy định như một cái cớ để lén lút tăng phạm vi và độ mờ đục của chính sách bảo mật.

'Nhìn chung, kết quả của chúng tôi cho thấy rằng các quy định về quyền riêng tư gần đây đã không cải thiện đáng kể quyền riêng tư của người dùng trực tuyến, mà ngược lại dẫn đến các chính sách về quyền riêng tư cồng kềnh hơn mô tả ngày càng nhiều hoạt động xâm phạm dữ liệu.'

Mặc dù một số bài viết về Xử lý ngôn ngữ tự nhiên (NLP) đã đề cập đến khả năng đọc và các khía cạnh khác của chính sách quyền riêng tư trong những năm gần đây, tác giả tin rằng đây là dự án đầu tiên thuộc loại này cung cấp một cái nhìn tổng quan rộng rãi về phát triển chính sách trong những thập kỷ gần đây.

Sản phẩm giấy có tiêu đề Chính sách quyền riêng tư qua các thời đại: Nội dung và tính dễ đọc của Chính sách quyền riêng tư 1996–2021, và đến từ Isabel Wagner tại Viện Công nghệ Mạng của Đại học De ​​Montfort ở Vương quốc Anh.

Ngôn ngữ hình elip

Báo cáo cũng gợi ý rằng số lượng trung bình của 'các từ khó hiểu' (nghĩa là chấp nhận được, có ý nghĩa, phần lớnvà các từ khác không mang lại ý nghĩa rõ ràng) trong chính sách quyền riêng tư đã tăng đều đặn cho đến năm 2018, nhưng sau đó tăng vọt từ mức trung bình là 227 vào khoảng tháng 2018 năm 304 lên 2020 vào tháng XNUMX năm XNUMX.

Tác giả cho rằng sự gia tăng này là do tác động của GDPR và bài báo phát hiện ra rằng hơn hai phần ba (72%) số câu trong chính sách quyền riêng tư được nghiên cứu có chứa tối thiểu một từ khó hiểu.

Dễ đọc

Trên ba biện pháp phổ biến về độ khó đọc, nghiên cứu cho thấy rằng 'chính sách quyền riêng tư ngày càng trở nên khó đọc trong những năm qua'. Các tác giả ước tính rằng 41% chính sách hiện hành có sẵn vào năm 2021 có giá trị trung bình Dễ dàng đọc Flesch (FRE, cao hơn là tốt hơn) chỉ 31.8, với tác giả quan sát 'Điểm số này cho thấy một văn bản rất khó được sinh viên tốt nghiệp đại học hiểu rõ nhất'.

Đồng thời, chỉ 6.7% trong số các chính sách đạt được điểm FRE trên 45 (báo cáo lưu ý rằng đây là tiêu chuẩn đọc cần thiết cho các chính sách bảo hiểm ở bang Florida).

Nhận thức về thay đổi chính sách

Công việc cũng đề cập đến mức độ mà chính sách quyền riêng tư bao gồm các chi tiết về cách người đồng ý tiềm năng cuối cùng sẽ được thông báo trong trường hợp cập nhật tiếp theo, điều này có thể ảnh hưởng đến sự sẵn sàng của người dùng để duy trì thỏa thuận.

Tác giả quan sát:

'Vào năm 2021, 73% chính sách bao gồm tuyên bố về thay đổi chính sách. Trong số này, 34% cho biết các thay đổi sẽ được thông báo bằng thông báo trong chính sách quyền riêng tư, 37% sẽ đăng thông báo trên trang web và 22% sẽ gửi thông báo cá nhân (các chính sách còn lại để loại thông báo không xác định).

'Kết quả là, hầu hết người dùng dường như không nhận thức được những thay đổi trong chính sách bảo mật.

'Ngoài ra, người dùng hầu như không được cung cấp lựa chọn có ý nghĩa khi chính sách thay đổi. Trong số các chính sách thông báo cho người dùng về các thay đổi, chỉ 12% cung cấp tùy chọn tham gia mới, trong khi 34% không đưa ra lựa chọn nào và 54% không xác định.'

Những phát hiện của bài báo về các phương pháp được mô tả để thông báo cho người dùng về những thay đổi chính sách.

Những phát hiện của bài báo về các phương pháp được mô tả để thông báo cho người dùng về những thay đổi chính sách.

Lựa chọn hạn chế về theo dõi

Theo nghiên cứu, nhiều cơ chế được cung cấp trong các chính sách bảo mật để truy cập thông tin tài khoản người dùng hơn là truy cập dữ liệu hồ sơ người dùng. Dữ liệu hồ sơ có thể được tạo và cập nhật thông qua các cơ chế tự động và không rõ ràng, trong khi dữ liệu tài khoản người dùng không chỉ được người dùng cấp một cách rõ ràng mà còn có nghĩa vụ phải chỉnh sửa được theo quy định của các khu vực tài phán khác nhau.

Lựa chọn của người tiêu dùng đối với sự đồng ý của cookie trong chính sách bảo mật (một chủ đề đã thu hút tranh luận sôi nổi kể từ khi GDPR ra đời, hàng trăm nghìn cửa sổ bật lên chấp thuận cookie cho các trang web quốc tế và châu Âu ở Liên minh Châu Âu) thường được đề cập trong các chính sách, nhưng ẩn một lớp dữ liệu quan trọng hơn ít truy cập hơn*:

'[Các] lựa chọn liên quan đến cookie không đủ để bảo vệ người dùng khỏi mọi hoạt động theo dõi vì cơ chế lựa chọn hoặc kiểm soát hiếm khi được cung cấp cho thông tin máy tính, số nhận dạng thiết bịđịnh danh cá nhân, cho phép theo dõi người dùng thông qua dấu vân tay.'

Một sự tương phản rõ rệt về mức độ kiểm soát có sẵn do chính sách quyền riêng tư cấp giữa dữ liệu hồ sơ (có thể thu được bằng các phương tiện ngầm hoặc lén lút) và dữ liệu tài khoản người dùng (trong đó một số biện pháp kiểm soát thường được quy định bởi GDPR, Đạo luật về quyền riêng tư của người tiêu dùng California (CCPA) ), và các cơ chế quốc gia và khu vực tương tự).

Một sự tương phản rõ rệt về mức độ kiểm soát có sẵn do chính sách quyền riêng tư cấp giữa dữ liệu hồ sơ (có thể thu được bằng các phương tiện ngầm hoặc lén lút) và dữ liệu tài khoản người dùng (trong đó một số biện pháp kiểm soát thường được quy định bởi GDPR, Đạo luật về quyền riêng tư của người tiêu dùng California (CCPA) ), và các cơ chế quốc gia và khu vực tương tự).

Ngày

Để có được dữ liệu cho nghiên cứu, tác giả đã thu thập dữ liệu các trang web để tìm liên kết đến chính sách quyền riêng tư của họ, thường thấy cần phải mở rộng phạm vi ngoài kết quả ban đầu, do số lượng chính sách không tách rời liên kết với các chính sách khác (mỗi chính sách có khả năng thay đổi song song hoặc độc lập với chính sách gốc hoặc chính sách liên quan).

Sản phẩm Wayback Machine đã được sử dụng để có được các chính sách lịch sử, mặc dù khi xem xét kết quả cần phải tính đến các chính sách đã bị chặn thu thập thông tin hoặc lưu trữ thông qua tệp cấu hình robots.txt (tệp văn bản nhỏ chứa hướng dẫn cho các tác nhân lập chỉ mục thu thập dữ liệu web liên quan đến các trang và các các thực thể mà chúng không nên đưa vào chỉ mục công khai).

Một ảnh chụp nhanh mỗi tháng được lấy từ Wayback Machine bằng API CDX đối với mỗi chính sách có thể xác định và áp dụng liên tục, sử dụng Firefox dưới Selenium. Việc thực hiện nhận dạng ký tự quang học trên các chính sách chỉ có sẵn ở định dạng PDF không được xem xét cho dự án, điều này tự giới hạn ở số lượng chính sách HTML có sẵn (lớn hơn nhiều).

Một kết quả thú vị từ dự án là tính rõ ràng và dễ đọc của các trang web khiêu dâm đã thực sự được cải thiện trong khoảng thời gian nghiên cứu – có thể là do dự đoán ngày càng có nhiều lời kêu gọi tăng cường quy định và rõ ràng. Để thu thập những tài liệu này, cần phải thu thập chúng bằng cách thu thập thông tin bổ sung từ các địa chỉ IP dân cư, do các giao thức chặn nội dung của trường đại học.

Ban đầu, 1,068,683 tài liệu đã được thu thập, tương đương với 120,265 tài liệu duy nhất chứa trung bình 39.1 điều khoản hoặc điều khoản chính sách và 4.4 văn bản chính sách duy nhất cho mỗi liên kết.

Chỉ tiếng Anh

Như thường thấy trong các nghiên cứu tương tự gần đây, dự án không thể giải quyết các chính sách quyền riêng tư không phải tiếng Anh, những chính sách này đã bị loại bỏ trong giai đoạn làm sạch dữ liệu bằng cách sử dụng PYCLD2 Gói.

Để phân biệt chính sách bảo mật với các loại tài liệu khác, dự án đã sử dụng bộ phân loại được phát triển trong 2019 như một sáng kiến ​​chung của Đại học Wisconsin và École Polytechnique Fédérale de Lausanne.

Kiến trúc của bộ phân loại IS-POLICY. Nguồn: https://arxiv.org/pdf/1809.08396.pdf

Kiến trúc của bộ phân loại IS-POLICY. Nguồn: https://arxiv.org/pdf/1809.08396.pdf

Mặc dù trình phân loại CHÍNH SÁCH IS được đào tạo trên cùng một kho văn bản 1,000 tài liệu như trong bài báo gốc, nhưng tác giả phải lấy các tài liệu phi chính sách mới để đào tạo, vì không có sẵn các nguồn ban đầu.

Sau khi lọc, dữ liệu đã giảm xuống còn 56,416 chính sách bảo mật duy nhất.

 

* Trích dẫn nội tuyến của bài báo được chuyển đổi thành siêu liên kết ở đây, chuyển đổi chữ nghiêng là từ bài báo.

Xuất bản lần đầu vào ngày 31 tháng 2022 năm XNUMX.