Anderson 视角
分析25年来隐私政策的演变:机器学习的视角

最近的一项研究使用机器学习分析技术来研究了50,000多份流行网站的隐私政策的可读性、有用性、长度和复杂性,时间跨度为25年,从1996年到2021年。研究得出结论,平均读者需要花费400小时的“年度阅读时间”(每天超过一小时)来理解现代隐私政策中日益增长的文字数量、晦涩的语言和模糊的语言使用。
报告指出:
‘平均政策长度在过去十年中几乎翻倍,从2011年3月的2159字增加到2021年3月的4191字,自2000年以来几乎增加了四倍(1146字) .’

研究中研究的语料库的平均字数和句子数,跨越25年。 来源:https://arxiv.org/pdf/2201.08739.pdf
尽管GDPR和加州消费者隐私法(CCPA)保护措施实施后,政策长度的增长率有所增加,但论文将这些变化视为“小效应大小”,在长期趋势中似乎无关紧要。然而,GDPR被认为是政策中“模糊”语言增长的可能原因。
假设阅读速度为每分钟250字,论文认为平均隐私政策现在需要17分钟才能阅读,而更受欢迎的政策(即与大量用户相关的政策)需要23分钟才能完成。
数据集中最长的政策来自微软,需要152分钟才能阅读,根据研究使用的Google的BERT语言模型的变体。

现代隐私政策的年度阅读时间增长率,假设读者每年访问1462个唯一的网站。
最近隐私政策中verbosity和模糊性的增加大部分被归因于过去二十年来对监管的尝试,但也归因于监管合规要求的不诚实使用作为增加政策范围和不透明度的借口。
‘总体而言,我们的结果表明,最近的隐私法规并没有实质性地改善在线用户的隐私,而是导致了更多的臃肿的隐私政策,这些政策描述了更多的侵入性数据实践。 ‘
虽然近年来有许多自然语言处理(NLP)论文解决了隐私政策的可读性和其他方面,但作者认为这是第一项对近几十年政策发展进行如此广泛概述的项目。
论文题为《隐私政策跨时代:1996-2021年隐私政策的内容和可读性》,来自英国德蒙特福特大学网络技术研究所的Isabel Wagner。
椭圆语言
报告还指出,隐私政策中“模糊词”的平均数量(即可接受、显著、主要等,不提供明确含义的词)在2018年之前稳步增加,但然后从2018年3月的中位数227增加到2020年6月的304。
作者认为,这种增长是GDPR的影响,论文发现,研究的隐私政策中,超过三分之二(72%)的句子中至少包含一个模糊词。
可读性
在三个常见的阅读难度衡量标准中,研究发现‘隐私政策随着时间的推移变得越来越难以阅读’。作者估计,2021年可用的当前适用政策中,41%的政策具有中位数Flesch阅读易度(FRE,越高越好)为31.8,作者观察到‘该分数表示非常困难的文本,最佳由大学毕业生理解’。
同时,只有6.7%的政策达到FRE评分45以上(报告指出,这是佛罗里达州保险政策所需的阅读标准)。
政策变更意识
工作还解决了隐私政策中包含有关如何在政策更新时通知潜在同意者的细节的程度,这可能会影响用户是否愿意维持协议。
作者观察到:
‘2021年,73%的政策包括有关政策变更的声明。在这些政策中,34%的政策声明将通过政策中的通知公告变更,37%将在网站上发布通知,22%将发送个人通知(其余政策未指定通知类型) .’
‘因此,大多数用户不太可能意识到隐私政策的变更。 ‘
‘此外,当政策变更时,用户几乎没有任何有意义的选择。在通知用户变更的政策中,只有12%提供新的选择,34%不提供任何选择,54%未指定 .’

论文关于通知用户政策变更的方法的发现。
有限的跟踪选择
根据研究,隐私政策中为访问用户账户信息提供的机制比为访问用户个人资料数据提供的机制要多。个人资料数据可以通过自动和不明显的机制创建和更新,而用户账户数据不仅由用户明确授予,还需要在各个管辖区的法规下编辑。
消费者对隐私政策中Cookie同意的选择通常在政策中解决,但隐藏了一个更重要的、不太容易访问的数据层:
‘[Cookie]的选择不足以保护用户免受所有跟踪,因为选择或控制机制很少为计算机信息、设备标识符和个人标识符提供,这些标识符允许通过指纹跟踪用户。 ‘

隐私政策中用户账户数据和个人资料数据之间的控制级别对比。
数据
为了获取研究数据,作者爬取了网站以获取链接到其隐私政策的链接,经常需要扩大范围以超出初始结果,因为有许多非整合的政策链接到进一步的政策(每个政策都有可能随着父政策或相关政策的变化而改变)。
使用Wayback Machine获取历史政策,考虑结果时需要考虑通过robots.txt配置文件阻止爬取或存档的政策(一个包含指令的文本文件,指示网络爬虫索引代理应排除哪些页面和实体)。
使用Wayback Machine的CDX API每月获取一个快照,每个可识别和连续适用的政策使用Firefox under Selenium。未考虑仅以PDF格式提供的政策的光学字符识别,该项目仅限于可用的HTML政策。
该项目的一个有趣结果是,色情网站的清晰度和可读性实际上在研究期间有所改善——可能是预期对监管和清晰度的日益增长的呼声。在收集这些文件时,需要使用住宅IP地址进行额外的爬取,因为大学的内容阻止协议。
最初获得了1,068,683个文档,相当于120,265个唯一文档,平均每个链接包含39.1个政策条款或子句和4.4个唯一的政策文本。
仅英文
与类似研究一样,该项目无法解决非英文隐私政策的问题,这些政策在数据清理阶段被丢弃,使用PYCLD2包。
为了区分隐私政策和其他类型的材料,该项目使用了2019年开发的分类器,由威斯康星大学和洛桑联邦理工学院联合开发。

IS-POLICY分类器的架构。 来源:https://arxiv.org/pdf/1809.08396.pdf
尽管IS-POLICY分类器是在同一个1,000个文档语料库上训练的,但作者需要获取新的非政策文档用于训练,因为原始来源不可用。
过滤后,数据被减少到56,416个唯一的隐私政策。
* 论文的内联引用被转换为此处的超链接,斜体切换来自论文。
首次发布于2022年1月31日。












