Trí tuệ nhân tạo
Các nhà nghiên cứu AI ước tính 97% trang web của EU không đáp ứng yêu cầu về quyền riêng tư của GDPR – Đặc biệt là Profiling người dùng

Các nhà nghiên cứu tại Mỹ đã sử dụng các kỹ thuật học máy để nghiên cứu các chính sách quyền riêng tư của GDPR trên hơn một nghìn trang web đại diện dựa tại EU. Họ phát hiện ra rằng 97% trang web được nghiên cứu không tuân thủ ít nhất một yêu cầu của khuôn khổ quy định năm 2018 của Liên minh Châu Âu, và rằng họ tuân thủ ít nhất các yêu cầu quy định xung quanh việc thực hành ‘profiling người dùng’.
Bài báo cho biết:
‘[Kể từ] khi chính sách quyền riêng tư là kênh giao tiếp thiết yếu cho người dùng để hiểu và kiểm soát quyền riêng tư của họ, nhiều công ty đã cập nhật chính sách quyền riêng tư của họ sau khi GDPR được thực thi. Tuy nhiên, hầu hết các chính sách quyền riêng tư đều dài dòng, đầy thuật ngữ và mô tả không rõ ràng các hoạt động dữ liệu của công ty và quyền của người dùng. Do đó, không rõ liệu họ có tuân thủ GDPR hay không.’
Nó tiếp tục:
‘Kết quả của chúng tôi cho thấy rằng ngay cả sau khi GDPR có hiệu lực, 97% trang web vẫn không tuân thủ ít nhất một yêu cầu của GDPR.’
Quyền riêng tư cuối cùng
Khu vực không tuân thủ ít nhất, theo nghiên cứu, liên quan đến các quy định của GDPR về profiling người dùng, với các tác giả cho biết chỉ 15,3% trang web được nghiên cứu tuân thủ đầy đủ quy tắc này.

Biểu đồ về sự tuân thủ trong số các trang web được nghiên cứu cho nghiên cứu. Nguồn: https://arxiv.org/pdf/2111.04224.pdf
Profiling người dùng (trong đó tương tác của một người với các trang web được ghi lại và thường được sử dụng để ‘nhắm mục tiêu’ họ trong các ngữ cảnh trực tuyến khác, chẳng hạn như quảng cáo) đã trở thành một trong những tranh cãi nóng nhất trong lĩnh vực công nghệ kể từ vụ bê bối Cambridge Analytica.
Vào thứ ba, một ủy ban quan trọng của Nghị viện Châu Âu đã thông qua giai đoạn đầu tiên của luật Đạo luật Thị trường Kỹ thuật số mới (DMA) , sẽ cấm nhắm mục tiêu hành vi đối với trẻ em, áp dụng phạt tiền lên đến 20% doanh thu hàng năm toàn cầu cho các công ty vi phạm.
Mặc dù Đạo luật này đã được truyền thông đón nhận như một phản ứng trực tiếp đối với sự ảnh hưởng ngày càng tăng của các gã khổng lồ công nghệ như Facebook và Google, nhưng quy mô không tuân thủ được đại diện bởi nghiên cứu mới cho thấy rằng đa số các công ty EU (bao gồm cả văn phòng của các công ty Mỹ hoạt động tại Châu Âu) đang bị phơi nhiễm về mặt pháp lý đối với các khoản phạt của GDPR.
Ngoài ra, Ý đã áp dụng mức phạt tối đa cho phép 10 triệu euro (11,2 triệu USD) đối với Apple và Google vì khai thác profiling người dùng, cùng với các vi phạm khác.
Dữ liệu
Các trang web được kiểm tra trong nghiên cứu mới được lấy mẫu từ 10.000 trang web hàng đầu được liệt kê trong Quantcast, các chính sách quyền riêng tư tiếng Anh của chúng được trích xuất thông qua tìm kiếm Yandex trên VPN dựa tại Vương quốc Anh (để đảm bảo rằng các chính sách không bị chặn địa lý).
Các trang web của EU đã được yêu cầu cung cấp các chính sách quyền riêng tư theo quy định, bao gồm 18 yêu cầu trung tâm (xem biểu đồ trên) kể từ khi Quy định Bảo vệ Dữ liệu Chung (GDPR) có hiệu lực đầy đủ vào tháng 5 năm 2018.
Các nhà nghiên cứu đã giới hạn việc trích xuất chính sách quyền riêng tư trong khoảng thời gian từ tháng 8 năm 2018 trở đi, để cho phép thời gian hợp lý cho các tên miền để xuất bản các chính sách yêu cầu (một yêu cầu mà họ đã biết trước ít nhất một năm trong giai đoạn phát triển hai năm của GDPR kể từ năm 2016).
Quá trình lọc đã tạo ra một tập hợp chính sách quyền riêng tư gồm 9.761 chính sách, trong đó 1.080 chính sách được các nhà nghiên cứu chọn ngẫu nhiên.
Trước xử lý
Đội ngũ đã sử dụng hai chuyên gia pháp lý để đào tạo bốn người chú thích để gắn nhãn cho từng một trong 18 chính sách quyền riêng tư có thể được quy định bởi GDPR.
Một số phần trong các chính sách bao gồm hơn một trong 18 yêu cầu, làm cho nó cần thiết để sử dụng một Mạng nơ-ron tích chập (CNN) để phát hiện các tính năng ngôn ngữ liên quan đến từng chính sách.
Một nỗ lực ban đầu để đào tạo một mô hình để xác định sự tuân thủ dựa trên ngôn ngữ đã đạt được 80,5% thành công. Để cải thiện những kết quả này, các nhà nghiên cứu đã áp dụng Học chủ động để tăng cường hiệu suất của mô hình bằng cách sử dụng ít dữ liệu được gắn nhãn. Bằng cách này, nó đã có thể đào tạo bộ phân loại CNN lên đến độ chính xác 89,2%, với điểm F1 là 0,88 (trong đó ‘1’ là thành công hoàn toàn).
Để đảm bảo rằng các bản nhúng từ được cụ thể cho chính sách quyền riêng tư, các nhà nghiên cứu đã đào tạo một mô hình nhúng từ không giám sát bằng cách sử dụng thư viện Python FastText của Facebook.
Theo thông lệ tiêu chuẩn, dữ liệu cuối cùng được chia 80/20 giữa dữ liệu được đào tạo và dữ liệu thử nghiệm (tức là dữ liệu được chọn ngẫu nhiên mà độ chính xác của thuật toán sẽ được đánh giá).
Một nghiên cứu đo lường có người trong vòng lặp được thêm vào kiến trúc để đánh giá chất lượng kết quả.

Kiến trúc cho hệ thống phân loại.
Trong quá trình làm việc, 11.271 đoạn chính sách quyền riêng tư được chú thích bởi con người đã được tạo ra, mỗi đoạn được bốn người chú thích đã được đào tạo bởi hai chuyên gia pháp lý tham gia vào nghiên cứu. Khi xảy ra sự không đồng ý, một tỷ lệ đồng ý 75% là cần thiết để không từ chối dữ liệu khỏi việc bao gồm.

Con người trong vòng lặp – không thể tự động hóa hoàn toàn việc gắn nhãn dữ liệu chính sách, tuy nhiên Học chủ động đã cho phép một luồng công việc dựa trên nhóm làm cho dự án khả thi.
Ngoài những kết quả đã đề cập, người dùng đã tìm thấy rằng khả năng di chuyển – quyền theo GDPR để di chuyển hoặc xuất dữ liệu được tổ chức bởi một công ty – gần như bị phục vụ kém như profiling.
Các nhà nghiên cứu kết luận:
‘[Yêu cầu] như Quyền di chuyển của người dùng và cung cấp thông tin liên hệ của Officer Bảo vệ Dữ liệu (liên hệ DPO) được bao phủ bởi 15,5% và 16,4% trang web, tương ứng. Các yêu cầu chính khác, như quyền của người dùng khiếu nại, rút lại sự đồng ý, Quyền phản đối và Quyết định đầy đủ, được bao phủ bởi 17-20% trang web.’
…và tiếp tục:
‘Có vẻ như chỉ 3% trang web tuân thủ đầy đủ 18 yêu cầu. Những phát hiện này cho thấy rằng nhiều trang web vẫn không tuân theo các yêu cầu của GDPR.’
7pm 26/11/2021 – Làm rõ chú thích biểu đồ đầu tiên. – MA












