Anderson 视角

机器学习与Cookie同意系统

发布于 2022年4月12日

更新于 2026年5月24日

作者

Martin Anderson

One of the cryptic cubes from the Hellraiser franchise.

威斯康星大学和谷歌之间的新研究合作，将机器学习应用于过去十年中最令人恼火的网络用户烦恼之一——GDPR合规的Cookie同意横幅的不透明和愤世嫉俗的滥用。

这项名为CookieEnforcer的新框架使用语义文本理解来解析Cookie同意弹出窗口或横幅后面的代码的意义和实用性，以便为用户提供缺失的“一键”解决方案，禁用所有真正的“非必要”Cookie，包括域所有者可能将其呈现为“必需”的Cookie，即使它们不是。

CookieEnforcer检查来自www.askubuntu.com的Cookie同意代码。 来源：https://arxiv.org/pdf/2204.04221.pdf

该系统通过用户安装的网络浏览器插件实现，该插件能够应用用户定义的规则，仅需单击一次。只要Cookie同意框架出现在网站上，用户就可以激活插件，插件将检查Cookie同意代码以查找潜在操作，然后生成适当的JavaScript来代表用户执行选择。

插件可以设置为自动执行用户首选项，也可以逐一处理每个案例，允许用户在最终提交之前调整设置。

Cookie Enforcer在行动。如果需要，Chrome插件可以完全自动化此过程，无需进一步的用户贡献。请参阅稍后的嵌入式视频以获取更多详细信息。 来源：https://www.youtube.com/watch?v=5NI6Q981quc

解析可能的“非同意”选项的挑战，这些选项通常隐藏在晦涩和耗时的设置组中（而不是用户友好的接受所有，这通常是同意框架的特征），被建模为序列到序列任务。

在端到端的准确性评估中，CookieEnforcer能够生成所有必要的步骤来消除神秘的Cookie同意程序，在91％的研究案例中，研究对象是未在系统的机器学习模型训练期间看到的域。用户研究进一步证明，该系统显著减少了用户在导航同意模块时的努力。

该论文介绍了该方法，题为CookieEnforcer：自动Cookie通知分析和执行，由威斯康星大学麦迪逊分校的三位研究人员和谷歌公司的一位研究人员撰写。

神秘的Cookie同意之路

自2016年《通用数据保护条例》（GDPR）和2018年《加利福尼亚州消费者隐私法案》（CCPA）颁布以来，希望与受这些立法覆盖的地区的用户互动的网站必须提供Cookie首选项机制（通常基于检测用户的IP地址作为其国家的代理）。

然而，域所有者长期以来一直习惯于从Cookie的不透明和通常看不见的实施中获取有价值且可行的用户数据，因此他们不愿意为新授权的用户提供容易的退出选项。

Cookie同意界面的默认UI（在用户首次访问域或删除Cookie时出现）很快就变成了黑暗模式，旨在让用户在选择行使同意权时感到疲惫，因为这些选择是详细的、耗时的和广泛的；或者是一个简单且容易访问的按钮，用户可以选择加入域所有者想要运行的所有Cookie。这一文化的迷宫式UI选择在2020年的一项研究中被描述为‘寻宝游戏’。

新论文评论说：

‘用户可能难以对具有复杂通知的网站进行明智的Cookie控制。他们更有可能依赖默认配置，而不是为每个[网站]微调Cookie设置。在几种情况下，这些默认设置是侵犯隐私的，并且偏向于服务提供商，这导致了[隐私风险]。’

一篇关于这些做法的流行论坛帖子的评论将其描述为“恶意遵守”。Cookie同意框架的用户不满是冲突主要出版商的主题，他们可能会在没有这些实践的个人暴露的情况下提供进一步的报道。

TechCrunch网站呈现的典型选项迷宫，讽刺的是，这是对EU对Cookie同意的态度变化的介绍。附加的URL标识符和钩子旨在进一步启用跟踪，共有262个字符（已删除）。虽然某些Cookie类别有“拒绝所有”按钮，但对于整个Cookie集来说，这个按钮是不可用的；在这些例外情况下，用户必须操作每个“切换”按钮。

典型的选项迷宫，由TechCrunch网站呈现，讽刺的是，这是对EU对Cookie同意的态度变化的介绍。附加的URL标识符和钩子旨在进一步启用跟踪，共有262个字符（已删除）。虽然某些Cookie类别有“拒绝所有”按钮，但对于整个Cookie集来说，这个按钮是不可用的；在这些例外情况下，用户必须操作每个“切换”按钮。

2019年德国的一篇论文发现，大多数网站访客被“引导”到广泛同意，而只有三分之一的网站实际上解释了数据收集行为的目的。

近年来，出现了许多网络浏览器插件、附加组件和扩展来解决这个问题，例如Cookie快速管理器Firefox扩展和一系列Chrome替代品，而欧盟则正在寻求关闭Cookie同意架构的合规漏洞。

方法和数据

新论文的研究人员决心通过避免依赖关键字或手工制作的规则来创建一个更强大的Cookie同意管理框架，这是许多最近类似的ML辅助项目的核心方法。

CookieEnforcer有三个目标：将Cookie通知和界面翻译成机器可读的格式；以禁用非必要Cookie的方式识别Cookie设置配置；如果用户需要，可以在不需要进一步用户输入的情况下自动应用其他限制。

该系统由一个后端组件组成，用于检测和分析Cookie通知，以及一个前端组件，形式为浏览器扩展，用于生成和执行禁用非必要Cookie（即如果阻止不会阻碍导航或访问该域的Cookie）的代码。

该框架以Chrome特定的本地安装扩展的形式体现，使用Selenium Web测试库在ChromeDriver框架下运行。

后端部分包括用于检测、分析和决策模型的模块。分析模块考虑到用户交互引入的代码更改，因此初始代码转储不会因模拟的用户探索而变得无效。

自然语言理解

代码揭示后，CookieEnforcer需要了解它可能采取的现有可能操作的状态，因为切换按钮背后的语言可能对最终用户来说是模糊的。

为此，研究人员训练了一个文本到文本转换器（T5）模型用于其决策组件。T5-Large模型包含770百万个参数，在一个自定义的输入/输出代码数据库上进行了微调（即描述和启用切换选项的功能的代码）。

T5模型的样本格式（上）和训练数据（下）。数据示例来自www.askubuntu.com。

数据集是通过从Tranco的热门网站前50k名单中选择带有Cookie通知的300个网站而创建的。检测器和分析器模块从其运行时源代码中提取了Cookie同意选项，并评估了它们的默认状态。

研究人员之一然后手动标记了用于禁用非必要Cookie的解释点击序列，结果是300个完全标记的域。

自定义数据集中的源代码布局的多样性。

60个网站被设置为测试集，T5-Large模型在学习率为0.003、批大小为16、最大输入序列长度为256个标记、最大目标序列长度为64个标记的20个epoch中进行训练。标记由Google的SentencePiece标记器建立。

最后，处理后的信息存储在本地数据库中，并提供给系统的前端。作者更喜欢querySelector() HTML函数，而不是一些以前类似项目采用的XML Path Language（XPath）方法，因为XPath对于Cookie通知是容易受到DOM更新（即代码可能在初始加载后由于用户交互而更改）的影响。这样，元素路径即使是动态和响应外部因素的，也可以被保留。

测试和性能

在实践中，CookieEnforcer能够导航数据集中一些最黑暗的黑暗模式，例如《新科学家》网站上的Cookie同意框架中隐藏的选项，该选项在用户明确请求查看之前被JavaScript隐藏。

作者评论说：

‘用户很容易忽略这个选项，因为他们必须展开一个额外的框架才能看到它。CookieEnforcer不仅可以找到这个选项，还可以理解其语义并决定反对。这些例子表明该模型可以学习上下文并推广到新示例。’

研究人员进行了三项测试，包括对500个未见网站的端到端评估（即CookieEnforcer没有针对这些网站进行特定训练），研究人员报告称，在91％的网站上，它可以成功禁用非必要的Cookie。

第二项测试包括一个涵盖14个网站的在线用户研究，使用系统可用性量表（得分）与手动基准进行比较。对于这项测试，研究人员报告称CookieEnforcer比基准高出15％的得分。

CookieEnforcer使系统可用性评分比基准（无辅助）使用高出15％，同时自动化了一个令人恼火的过程。

最后，CookieEnforcer的训练参数被测试，以确定其导航Cookie通知的能力，研究人员表示：

‘虽然此类大规模测量以前已经进行过，但CookieEnforcer允许对选项有更深入的了解，超出了基于关键字的启发式方法。特别是，我们发现16.7％的在英国显示Cookie通知的网站已经启用了至少一个非必要的Cookie。在美国，同样的数字是22％。’

作者发布了一段短视频，展示了CookieEnforcer的工作原理：

首次发布于2022年4月12日。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

机器学习与Cookie同意系统

神秘的Cookie同意之路

方法和数据

自然语言理解

测试和性能

发现更多