Connect with us

人工智能

使用机器学习分析25年来的隐私政策

mm

一项最近的研究使用机器学习分析技术来绘制了50,000多个流行网站在25年(1996年至2021年)期间的可读性、有用性、长度和复杂性。研究得出结论,平均读者需要花费400小时的“年度阅读时间”(每天超过一小时)才能理解现代隐私政策中日益增长的字数、晦涩的语言和模糊的语言使用。

报告指出:

‘平均政策长度在过去十年中几乎翻倍,从2011年3月的2159字到2021年3月的4191字,自2000年以来几乎增加了四倍(1146字) .’

研究中所研究的语料库的平均字数和句子数,在25年期间。来源:https://arxiv.org/pdf/2201.08739.pdf

研究中所研究的语料库的平均字数和句子数,在25年期间。 来源:https://arxiv.org/pdf/2201.08739.pdf

尽管长度增加的速度在GDPR和加州消费者隐私法(CCPA)保护生效时激增,但论文将这些变化视为“小效应大小”,似乎与长期趋势相比无关。然而,GDPR被认为是政策中模糊语言增长的可能原因。

假设阅读速度为每分钟250字,论文认为平均隐私政策现在需要17分钟才能阅读,而更流行的政策(即与大量用户相关的政策)需要23分钟才能完成。

数据集中的最长政策来自Microsoft,根据研究需要152分钟才能阅读,该研究利用了Google的BERT语言模型的多个变体

现代隐私政策的年度阅读时间增长率,假设读者每年访问1462个唯一的网站。

现代隐私政策的年度阅读时间增长率,假设读者每年访问1462个唯一的网站

近年来,隐私政策的冗长和模糊性的大部分增加被归因于对过去二十年来试图施加法规的反应,但也归因于将监管合规要求作为增加隐私政策范围和不透明度的借口。

‘总体而言,我们的结果表明,最近的隐私法规并没有实质性地提高用户的在线隐私,而是导致了更多的臃肿的隐私政策,这些政策描述了更多的侵入性数据实践。 ‘

虽然近年来有许多自然语言处理(NLP)论文解决了隐私政策的可读性和其他方面的问题,但作者认为这是第一项对近几十年政策发展提供如此广泛概述的项目。

论文题为隐私政策随着时间的推移:1996-2021年隐私政策的内容和可读性,来自英国德蒙特福特大学的赛博技术研究所的伊莎贝尔·瓦格纳。

模糊语言

报告还表明,隐私政策中“模糊词”(即可接受的显著的主要的等,不提供明确含义的词)的平均数量从2018年稳步增加到2020年6月,中位数从227增加到304。

作者认为这种上升是GDPR的影响,论文发现,研究的隐私政策中超过三分之二(72%)的句子中至少包含一个模糊词。

可读性

在三个常见的阅读难度衡量标准中,研究发现隐私政策随着时间的推移变得越来越难以阅读。作者估计,2021年可用的当前适用政策的中位数Flesch阅读易度(FRE,越高越好)仅为31.8,作者观察到这表明文本非常困难,最佳由大学毕业生理解

同时,只有6.7%的政策达到45以上的FRE评分(报告指出,这是佛罗里达州保险政策所需的阅读标准)。

政策变更通知

工作还解决了隐私政策中包含有关如何在政策更新时通知潜在同意者的细节的程度,这可能会影响用户维持协议的意愿。

作者观察到:

‘2021年,73%的政策包括关于政策变更的声明。在这些政策中,34%声明将通过隐私政策中的通知公告变更,37%将在网站上发布通知,22%将发送个人通知(其余政策未指定通知类型)。’

‘因此,大多数用户不太可能意识到隐私政策的变更。 ‘

‘此外,当政策变更时,用户几乎没有任何有意义的选择。在通知用户变更的政策中,只有12%提供新的选择,34%不提供任何选择,54%未指定。’

论文关于描述的政策变更通知方法的发现。

论文关于描述的政策变更通知方法的发现。

有限的跟踪选择

根据研究,隐私政策为访问用户账户信息提供的机制比访问用户个人资料数据的机制要广泛得多。个人资料数据可以通过自动和不明显的机制创建和更新,而用户账户数据不仅由用户明确授予,还必须在各个管辖区的法规下可编辑。

隐私政策中的Cookie同意选择(自GDPR以来一直是欧洲和国际网站的热门话题)通常会被解决,但隐藏了一个更重要的、不太可访问的数据层:

‘关于Cookie的选择是不足以保护用户免受所有跟踪的,因为对于计算机信息设备标识符个人标识符,这些标识符允许通过指纹识别跟踪用户,很少提供选择或控制机制。 ‘

隐私政策中对账户数据和个人资料数据的控制水平之间的鲜明对比(个人资料数据可能通过隐式或隐蔽手段获得)。

隐私政策中对账户数据和个人资料数据的控制水平之间的鲜明对比(个人资料数据可能通过隐式或隐蔽手段获得)。

数据

为了获取研究数据,作者爬取了网站以查找其隐私政策的链接,经常需要扩大范围以超出初始结果,因为有大量的非整体政策链接到进一步的政策(每个政策都有可能随着父政策或相关政策的更改而更改)。

使用Wayback Machine获取历史政策,但在考虑结果时,需要考虑通过robots.txt配置文件阻止爬取或存档的政策(一个包含指示给网页爬行索引代理的文本文件,指示不应在公共索引中包含的页面和其他实体)。

每个可识别且连续适用的政策每月从Wayback Machine的CDX API中获取一个快照,使用Firefox under Selenium。该项目仅限于可用的HTML政策,没有考虑仅以PDF格式提供的政策的光学字符识别。

该项目的一个有趣结果是,色情网站的清晰度和可读性实际上在研究期间有所提高——可能是预期监管和清晰度的增加。为了收集这些文档,需要使用住宅IP地址进行额外的爬取,因为大学的内容阻止协议。

最初获得了1,068,683个文档,相当于120,265个唯一文档,平均每个政策包含39.1个条款或子句,每个链接包含4.4个唯一的政策文本。

仅英文

与最近的类似研究一样,该项目无法解决非英文隐私政策,这些政策在使用PYCLD2软件包的数据清理阶段被丢弃。

为了区分隐私政策和其他类型的材料,该项目使用了2019年由威斯康星大学和洛桑联邦理工学院联合开发的分类器。

IS-POLICY分类器的架构。来源:https://arxiv.org/pdf/1809.08396.pdf

IS-POLICY分类器的架构。 来源:https://arxiv.org/pdf/1809.08396.pdf

虽然IS-POLICY分类器是在与原始论文相同的1,000个文档语料库上训练的,但作者必须为新非政策文档获取新数据,因为原始来源不可用。

过滤后,数据减少到56,416个唯一的隐私政策。

* 论文中的内联引用在此处转换为超链接,斜体切换来自论文。

首次发布于2022年1月31日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai