人工智能

AI 研究人员估计 97% 的 EU 网站未能满足 GDPR 隐私要求 – 特别是用户画像

mm

美国的研究人员使用机器学习技术研究了超过一千个代表性的基于 EU 的网站的 GDPR 隐私政策。他们发现,97% 的被研究的网站至少未能满足欧盟 2018 年监管框架的一项要求,而且他们最不符合的监管要求是关于“用户画像”的规定。

该论文指出:

‘[由于] 隐私政策是用户理解和控制其隐私的基本沟通渠道,许多公司在 GDPR 生效后更新了其隐私政策。然而,大多数隐私政策冗长,充满术语,并模糊地描述了公司的数据实践和用户的权利。因此,尚不清楚它们是否符合 GDPR 的要求。’

它继续指出:

‘我们的结果表明,即使在 GDPR 生效后,97% 的网站仍然未能满足 GDPR 的至少一项要求。’

研究 的标题为 使用深度主动学习自动检测隐私政策中的 GDPR 披露要求,由弗吉尼亚大学夏洛茨维尔分校的三位研究人员进行。

隐私最后

根据该研究,least 符合的领域是 GDPR 关于用户画像的规定,作者指出,只有 15.3% 的被研究的网站完全符合这一特定规则。

一张图表,显示了 9761 个网站的 GDPR 合规情况。来源:https://arxiv.org/pdf/2111.04224.pdf

一张图表,显示了网站的 GDPR 政策研究结果。来源:https://arxiv.org/pdf/2111.04224.pdf

用户画像(记录用户与网站的交互并常用于其他在线环境中的“目标”)自 Cambridge Analytica 丑闻以来成为科技界最热门的争议之一。

在周二,欧洲议会的一个关键委员会 通过了新的数字市场法 (DMA) 立法的第一阶段,该立法将禁止对未成年人的行为定向,违规公司将面临高达 20% 的全球年度销售额的罚款。

虽然该法案被媒体视为直接应对科技巨头如 Facebook 和 Google 日益增长的影响力的回应,但新的研究表明,绝大多数 EU 公司(包括在欧洲经营的美国公司的 EU 分支)都面临着 GDPR 罚款的法律风险。

此外,意大利本周对苹果和谷歌施加了最高允许的 10 万欧元(112 万美元)罚款,以惩罚他们利用用户画像等违规行为。

数据

在新研究中,研究人员从 Quantcast 排名前 10,000 的网站中抽取样本,通过 Yandex 搜索在 UK 基础的 VPN 上提取了这些网站的英文隐私政策(以确保这些政策不会被地理屏蔽)。

自 2018 年 5 月 GDPR 法案生效以来,EU 网站必须提供规定的隐私政策,涵盖 18 项核心要求(见上图)。

研究人员将隐私政策的提取限制在 2018 年 8 月以后,以便为域名提供合理的时间来发布所需的政策(他们至少在 GDPR 的两年开发阶段中提前知道这一要求)。

过滤过程产生了 9,761 个隐私政策语料库,研究人员从中随机选择了 1,080 个政策。

预处理

该团队雇用了两位法律专家来培训四位人类注释员来标记每一项由 GDPR 规定的 18 项可能的隐私政策。

一些政策中包含的法律术语涵盖了 18 项要求中的多项,因此需要使用卷积神经网络(CNN)来检测每项政策相关的语言特征。

最初尝试训练一个模型来识别基于语言的合规性,取得了 80.5% 的成功率。为了提高这些结果,研究人员应用了 主动学习 来增强模型的性能,使用较少的标记数据。通过这些手段,可以将分类器 CNN 训练到 89.2% 的准确率,F1 得分为 0.88(其中“1”表示完全成功)。

为了确保词嵌入特定于隐私政策,研究人员使用 Facebook 的 FastText Python 库训练了一个无监督的词嵌入模型。

按照标准做法,最后的数据被分为 80/20 的训练数据和测试数据(即随机选择的数据,用于判断算法的准确性)。在体系结构中添加了一个人机测量研究,以评估结果的质量。

分类器系统的体系结构。

分类器系统的体系结构。

在工作流程中,产生了 11,271 个人类注释的隐私政策段,每个段都由四位人类注释员审查,这些注释员由参与研究的两位法律专家培训。如果发生争议,需要 75% 的协议比率来避免拒绝数据。

人机协作 - 不可能完全自动化政策数据的标记,但主动学习使得基于池的工作流成为可能。

人机协作 – 不可能完全自动化政策数据的标记,但主动学习使得基于池的工作流成为可能。

除了上述结果外,用户还发现 可移植性 – 根据 GDPR 将公司持有的数据转移或导出的权利 – 几乎与画像一样糟糕。

研究人员得出结论:

‘[要求],例如用户的可移植性权利和提供数据保护官员(DPO 联系)联系信息的要求,分别被 15.5% 和 16.4% 的网站覆盖。其他主要要求,例如用户的投诉权、撤回同意权、反对权和充分性决定权,分别被 17-20% 的网站覆盖。’

… 并继续指出:

‘似乎只有 3% 的网站完全符合 18 项要求。这些发现表明,许多网站仍然不遵守 GDPR 的要求。’

 

 

7pm 26/11/2021 – 澄清了第一个图表的标题。 – MA

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai