sơ khai Hệ thống học máy so với cookie đồng ý - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Máy học so với Hệ thống chấp thuận cookie

mm
cập nhật on
Một trong những khối bí ẩn từ thương hiệu Hellraiser.

Một nghiên cứu hợp tác mới giữa Đại học Wisconsin và Google giúp học máy chống lại một trong những vấn đề khó chịu nhất của người dùng web trong thập kỷ qua – sự thiếu minh bạch và lạm dụng một cách trắng trợn các biểu ngữ chấp thuận cookie tuân thủ GDPR.

Với tiêu đề Trình thực thi cookie, khuôn khổ mới sử dụng Hiểu văn bản ngữ nghĩa để phân tích ý nghĩa và tiện ích của mã cơ bản đằng sau biểu ngữ hoặc cửa sổ bật lên chấp thuận cookie, nhằm cung cấp cho người dùng giải pháp 'một cú nhấp chuột' còn thiếu để vô hiệu hóa tất cả các cookie thực sự 'không cần thiết' – bao gồm cả những cookie mà chủ sở hữu miền có thể hiện tại là 'thiết yếu', ngay cả khi chúng không.

CookieEnforcer kiểm tra mã chấp thuận cookie từ trang web www.askubuntu.com. Nguồn: https://arxiv.org/pdf/2204.04221.pdf

CookieEnforcer kiểm tra mã chấp thuận cookie từ trang web www.askubuntu.com. Nguồn: https://arxiv.org/pdf/2204.04221.pdf

Hệ thống được triển khai thông qua plugin trình duyệt web do người dùng cài đặt, có khả năng áp dụng các quy tắc do người dùng xác định chỉ bằng một cú nhấp chuột. Sau khi khung chấp thuận cookie xuất hiện trên trang web, người dùng có thể kích hoạt plugin, sau đó plugin này sẽ truy tìm mã đồng ý cookie để biết các hành động có thể xảy ra trước khi tạo JavaScript tương ứng để thay mặt người dùng thực hiện các lựa chọn.

Plugin có thể được đặt để tự động thực thi các tùy chọn của người dùng hoặc xử lý từng trường hợp riêng lẻ, cho phép người dùng điều chỉnh cài đặt trước khi gửi lần cuối.

Trình thực thi cookie đang hoạt động. Nếu được ưu tiên, plugin Chrome hoàn toàn có thể tự động hóa quy trình này mà không cần thêm sự đóng góp của người dùng. Xem video nhúng sau để biết thêm chi tiết. Nguồn: https://www.youtube.com/watch?v=5NI6Q981quc

Trình thực thi cookie đang hoạt động. Nếu được ưu tiên, plugin Chrome hoàn toàn có thể tự động hóa quy trình này mà không cần thêm sự đóng góp của người dùng. Xem video nhúng sau để biết thêm chi tiết. Nguồn: https://www.youtube.com/watch?v=5NI6Q981quc

Thách thức trong việc phân tích các tùy chọn 'không đồng ý' có thể xảy ra, thường ẩn trong các nhóm cài đặt phức tạp và tốn nhiều công sức (chứ không phải là tùy chọn thân thiện với người dùng). chấp nhận tất cả điển hình của các khuôn khổ chấp thuận) được lập mô hình như một nối tiếp nhau bài tập.

Trong quá trình đánh giá độ chính xác từ đầu đến cuối, CookieEnforcer có thể tạo ra tất cả các bước cần thiết để loại bỏ các thủ tục chấp thuận cookie khó hiểu trong 91% trường hợp được nghiên cứu, trên các miền chưa được nhìn thấy trong quá trình đào tạo mô hình máy học của hệ thống. Một nghiên cứu về người dùng đã chứng minh thêm rằng hệ thống giảm đáng kể nỗ lực của người dùng trong việc điều hướng các mô-đun chấp thuận.

Sản phẩm giấy trình bày phương pháp có tiêu đề CookieEnforcer: Phân tích và thực thi thông báo cookie tự độngvà đến từ ba nhà nghiên cứu tại Đại học Wisconsin ở Madison và một từ Google Inc.

Con đường phức tạp để đạt được sự đồng ý của cookie

Kể từ khi ban hành Quy định bảo vệ dữ liệu chung (GDPR) vào năm 2016 và Đạo luật về quyền riêng tư của người tiêu dùng California (CCPA) vào năm 2018, các trang web muốn thu hút người dùng từ các khu vực chịu sự điều chỉnh của luật đó đã được yêu cầu cung cấp cơ chế ưu tiên cookie (thường dựa trên việc phát hiện địa chỉ IP của người dùng làm proxy cho nước xuất xứ).

Tuy nhiên, vì chủ sở hữu miền từ lâu đã quen với việc thu thập dữ liệu người dùng có giá trị và có thể thực hiện được từ việc triển khai cookie không rõ ràng và thường không nhìn thấy được nên họ tỏ ra miễn cưỡng cung cấp tùy chọn không tham gia dễ dàng cho người dùng mới được trao quyền của mình.

Giao diện người dùng mặc định cho giao diện chấp thuận cookie (xuất hiện lần đầu khi người dùng truy cập miền hoặc nếu người dùng đã xóa cookie cho miền đó) nhanh chóng được đưa vào hoa văn tối được thiết kế để khiến người xem mệt mỏi với các lựa chọn chi tiết, tốn thời gian và phong phú trong trường hợp họ muốn thực hiện quyền đồng ý của mình; hoặc nếu không, một nút đơn giản và dễ truy cập đã chọn người dùng tham gia vào tất cả các cookie mà chủ sở hữu miền muốn chạy. Văn hóa lựa chọn UI như mê cung này được mô tả trong một nghiên cứu năm 2020 là 'một cuộc săn xác thối'.

Bài báo mới nhận xét:

'[Người dùng] có thể thấy khó thực hiện kiểm soát cookie có hiểu biết đối với các trang web có thông báo phức tạp. Họ có nhiều khả năng dựa vào cấu hình mặc định hơn là tinh chỉnh cài đặt cookie cho từng [trang web]. Trong một số trường hợp, các cài đặt mặc định này xâm phạm quyền riêng tư và có lợi cho các nhà cung cấp dịch vụ, dẫn đến [rủi ro] về quyền riêng tư'.

Nhận xét về một bài diễn đàn phổ biến liên quan đến các hoạt động này đã mô tả chúng là 'tuân thủ ác ý'. Sự khó chịu của người dùng với khuôn khổ chấp thuận cookie là một chủ đề gây mâu thuẫn với các nhà xuất bản lớn, những người thường có thể đủ khả năng đưa tin sâu hơn nếu họ không bị phơi nhiễm cá nhân bởi các hoạt động của chính họ về vấn đề này.

Trớ trêu thay, trong trường hợp này, một mê cung các tùy chọn điển hình được trình bày bởi trang web TechCrunch như một lời tựa cho một bài báo về thái độ thay đổi của EU đối với những gì cấu thành sự đồng ý của cookie. Các mã định danh và móc nối URL được nối thêm được thiết kế để tiếp tục cho phép theo dõi có 262 ký tự (đã xóa tại đây). Nút 'từ chối tất cả', mặc dù khả dụng đối với một số loại cookie nhất định, nhưng không khả dụng đối với toàn bộ nhóm cookie có thể có; trong những trường hợp ngoại lệ đó, người dùng phải thao tác từng 'chuyển đổi'.

Trong trường hợp này, một mê cung các tùy chọn điển hình được trình bày bởi trang web TechCrunch, trớ trêu thay lại là lời nói đầu cho một bài viết về thái độ thay đổi của EU đối với những gì cấu thành sự đồng ý của cookie. Các mã định danh và móc nối URL được nối thêm được thiết kế để tiếp tục cho phép theo dõi có 262 ký tự (đã xóa tại đây). Nút 'từ chối tất cả', mặc dù khả dụng đối với một số loại cookie nhất định, nhưng không khả dụng đối với toàn bộ nhóm cookie có thể có; trong những trường hợp ngoại lệ đó, người dùng phải thao tác từng 'chuyển đổi'.

A giấy 2019 từ Đức đã phát hiện ra rằng phần lớn khách truy cập trang web trong các miền được nghiên cứu đã 'được thúc đẩy' để có được sự đồng ý rộng rãi và chỉ một phần ba số trang web thực sự giải thích mục đích của các hoạt động thu thập dữ liệu.

Một số plugin, tiện ích bổ sung và tiện ích mở rộng của trình duyệt web đã xuất hiện để giải quyết vấn đề trong những năm gần đây, chẳng hạn như Quản lý nhanh cookie Tiện ích mở rộng của Firefox và một phạm vi rộng của các lựa chọn thay thế Chrome, trong khi Liên minh châu Âu là tìm cách đóng cửa các lỗ hổng tuân thủ xung quanh cấu trúc chấp thuận cookie.

Phương pháp và dữ liệu

Các nhà nghiên cứu của bài báo mới đã quyết tâm tạo ra một khuôn khổ quản lý sự đồng ý với cookie mạnh mẽ hơn bằng cách tránh phụ thuộc vào các từ khóa hoặc quy tắc thủ công, cách tiếp cận trung tâm của một số nghiên cứu tương tự gần đây. hỗ trợ ML dự án.

CookieEnforcer có ba mục tiêu: dịch các thông báo và giao diện cookie sang định dạng mà máy có thể đọc được; để xác định cấu hình cài đặt cookie theo cách vô hiệu hóa các cookie không cần thiết; và để tự động áp dụng các hạn chế bổ sung mà không cần người dùng nhập thêm, nếu người dùng muốn.

Hệ thống bao gồm một thành phần phụ trợ phát hiện và phân tích các thông báo về cookie và một thành phần giao diện người dùng, ở dạng tiện ích mở rộng của trình duyệt, tạo và thực thi việc vô hiệu hóa các cookie không cần thiết (tức là các cookie sẽ không cản trở việc điều hướng hoặc truy cập vào tên miền nếu bị chặn).

Khung này được thể hiện trong một tiện ích mở rộng được cài đặt cục bộ dành riêng cho Chrome, sử dụng Selenium thư viện thử nghiệm web dưới Trình điều khiển Chrome khuôn khổ.

Phần phụ trợ có các mô-đun để phát hiện, phân tích và mô hình quyết định. Mô-đun phân tích tính đến các thay đổi trong mã do tương tác của người dùng tạo ra, do đó kết xuất mã ban đầu không bị hiển thị không hợp lệ bằng quá trình khám phá người dùng mô phỏng.

Hiểu ngôn ngữ tự nhiên

Khi mã được tiết lộ, điều quan trọng là CookieEnforcer hiểu trạng thái hiện có của các hành động có thể thực hiện, vì ngôn ngữ đằng sau các nút chuyển đổi có thể không rõ ràng về lợi ích cho người dùng cuối.

Để đạt được điều này, các nhà nghiên cứu đã đào tạo một Máy biến áp chuyển văn bản thành văn bản (T5) mô hình cho thành phần quyết định của nó. Mô hình T5-Large, chứa 770 triệu tham số, được tinh chỉnh trên cơ sở dữ liệu tùy chỉnh của mã đầu vào/đầu ra (nghĩa là mã mô tả và kích hoạt chức năng của các tùy chọn chuyển đổi).

Định dạng mẫu (ở trên) và dữ liệu huấn luyện (bên dưới) cho mô hình T5. Ví dụ về dữ liệu là từ www.askubuntu.com.

Định dạng mẫu (ở trên) và dữ liệu huấn luyện (bên dưới) cho mô hình T5. Ví dụ về dữ liệu là từ www.askubuntu.com.

Bộ dữ liệu được tạo bằng cách lấy mẫu 300 trang web có thông báo cookie được chọn từ Tranco's top 50k trang web phổ biến danh sách. Mô-đun máy dò và máy phân tích đã trích xuất các tùy chọn chấp thuận cookie từ mã nguồn thời gian chạy của chúng và đánh giá trạng thái mặc định của chúng.

Sau đó, một trong các nhà nghiên cứu đã gắn nhãn thủ công chuỗi nhấp chuột được diễn giải cần thiết để vô hiệu hóa các cookie không cần thiết cho tất cả các trang web được nghiên cứu, dẫn đến 300 miền được gắn nhãn đầy đủ.

Sự đa dạng trong bố trí mã nguồn trên các ví dụ từ tập dữ liệu tùy chỉnh.

Sự đa dạng trong bố trí mã nguồn trên các ví dụ từ tập dữ liệu tùy chỉnh.

60 trang web được dành riêng làm bộ thử nghiệm và mô hình T5-Large được đào tạo với tốc độ học là 0.003 ở kích thước lô 16 cho 20 kỷ nguyên, với độ dài chuỗi đầu vào tối đa là 256 mã thông báo và độ dài chuỗi mục tiêu tối đa trên 64. Các mã thông báo được hình thành từ các từ phụ được thiết lập bởi Google Câu Mảnh mã thông báo.

Cuối cùng, thông tin đã xử lý được lưu trữ trong cơ sở dữ liệu cục bộ và được cung cấp cho giao diện người dùng của hệ thống. Các tác giả ủng hộ các querySelector () Chức năng HTML qua Ngôn ngữ đường dẫn XML (Xpath) được thực hiện bởi một số dự án tương tự trước đó, vì XPath cho thông báo cookie dễ bị tổn thương đối với các bản cập nhật DOM (tức là mã có thể thay đổi sau khi tải lần đầu để đáp ứng với tương tác của người dùng). Bằng cách này, các đường dẫn phần tử có thể được giữ lại ngay cả khi chúng động và phản ứng với các yếu tố bên ngoài.

Kiểm tra và Hiệu suất

Trên thực tế, CookieEnforcer đã chứng tỏ có thể điều hướng một số mẫu tối nhất trong tập dữ liệu, chẳng hạn như một tùy chọn ẩn trong khuôn khổ chấp thuận cookie của Nhà khoa học mới bị JavaScript che khuất cho đến khi người dùng yêu cầu xem nó một cách rõ ràng.

Các tác giả nhận xét:

'Người dùng có thể dễ dàng bỏ qua tùy chọn này vì họ phải mở rộng một khung bổ sung để thấy điều đó. CookieEnforcer không chỉ tìm thấy tùy chọn này mà còn hiểu ngữ nghĩa và quyết định phản đối. Những ví dụ này cho thấy mô hình học ngữ cảnh và khái quát hóa thành các ví dụ mới.'

Các nhà nghiên cứu đã thực hiện ba thử nghiệm, bao gồm đánh giá từ đầu đến cuối về hiệu suất của khung trên 500 miền không nhìn thấy (tức là các trang web mà CookieEnforcer không được đào tạo cụ thể), trong đó các tác giả báo cáo rằng nó có thể vô hiệu hóa thành công các cookie không cần thiết với tỷ lệ 91%. của các trang web.

Bài kiểm tra thứ hai bao gồm một nghiên cứu người dùng trực tuyến bao gồm 14 trang web và sử dụng Thang đo khả năng sử dụng hệ thống (điểm số) so với đường cơ sở thủ công. Đối với thử nghiệm này, các tác giả báo cáo rằng CookieEnforcer đạt được số điểm cao hơn 15% so với đường cơ sở.

CookieEnforcer cho phép điểm số cao hơn 15% so với mức sử dụng cơ bản (không hỗ trợ), đồng thời tự động hóa quy trình khó chịu.

CookieEnforcer cho phép điểm số cao hơn 15% so với mức sử dụng cơ bản (không hỗ trợ), đồng thời tự động hóa quy trình khó chịu.

Cuối cùng, các tham số được đào tạo của CookieEnforcer đã được kiểm tra đối với 5000 trang web hàng đầu ở Hoa Kỳ và Châu Âu, để xác định khả năng điều hướng các thông báo cookie của nó. Các tác giả tuyên bố:

'Mặc dù các phép đo ở quy mô như vậy đã được thực hiện trước đây, nhưng CookieEnforcer cho phép hiểu sâu hơn về các tùy chọn ngoài phỏng đoán dựa trên từ khóa. Cụ thể, chúng tôi thấy rằng 16.7% trang web ở Vương quốc Anh hiển thị thông báo về cookie đã bật ít nhất một cookie không cần thiết. Con số tương tự đối với các trang web ở Hoa Kỳ là 22%.'

Các tác giả đã phát hành một đoạn video ngắn trên YouTube cho thấy CookieEnforcer đang hoạt động:

Cookie Enforcer vô hiệu hóa các cookie không cần thiết trên askubuntu.com

 

Xuất bản lần đầu vào ngày 12 tháng 2022 năm XNUMX.