人工智能

机器学习与 Cookie 同意系统

发布时间 2022 年 4 月 12 日

更新 2022 年 12 月 9 日

马丁安德森

威斯康星大学和谷歌之间的一项新研究合作，利用机器学习来应对过去十年中最臭名昭著的网络用户烦恼之一——符合 GDPR 的 cookie 同意横幅的不透明性和愤世嫉俗的滥用。

标题 Cookie 执行者，新框架使用语义文本理解解析 Cookie 同意弹出窗口或横幅背后的底层代码的意义和实用性，以便为用户提供缺少的“一键式”解决方案，以禁用所有真正“非必要”的 Cookie - 包括域名所有者可能显示为“必需”的 Cookie，即使它们并非如此。

CookieEnforcer 检查来自网站 www.askubuntu.com 的 cookie 同意代码。 资料来源：https://arxiv.org/pdf/2204.04221.pdf

该系统通过用户安装的 Web 浏览器插件实现，只需单击即可应用用户定义的规则。一旦网站上出现 Cookie 同意框架，用户即可激活该插件，插件会搜索 Cookie 同意代码以查找可能的操作，然后生成合适的 JavaScript 代码来代表用户执行选择。

该插件可以设置为自动强制执行用户首选项，或者单独处理案例，允许用户在最终提交之前调整设置。

Cookie 执行者在行动。如果愿意，Chrome 插件可以完全自动化此过程，无需进一步的用户贡献。有关更多详细信息，请参阅稍后嵌入的视频。 来源：https://www.youtube.com/watch?v=5NI6Q981quc

解析可能的“不同意”选项的挑战在于，这些选项通常隐藏在晦涩难懂的设置组中（而不是用户友好的 全都接受 典型的同意框架）被建模为序列到序列任务。

在端到端准确性评估中，CookieEnforcer 能够在 91% 的案例中生成所有必要步骤，从而避免使用隐秘的 Cookie 同意程序，这些步骤针对的是系统机器学习模型训练期间未曾见过的域名。一项用户研究进一步表明，该系统显著减少了用户在同意模块中的导航工作量。

此纸介绍该方法的标题是 CookieEnforcer：自动化 Cookie 通知分析和执行，来自威斯康星大学麦迪逊分校的三名研究人员和谷歌公司的一名研究人员。

通往 Cookie 同意的神秘之路

自《通用数据保护条例》颁布以来（《通用数据保护条例》（GDPR）) 和 2016 年的加州消费者隐私法案 (CCPA) 规定，希望吸引来自这些立法所涵盖地区的用户的网站必须提供 cookie 偏好机制（通常基于检测用户的 IP 地址作为其原籍国的代理）。

然而，由于域名所有者长期以来习惯于从不透明且通常不可见的 cookie 实现中收集有价值且可操作的用户数据，因此他们不愿意为新授权的用户提供简单的选择退出功能。

Cookie 同意界面的默认 UI（用户第一次访问域时出现，或者用户删除了该域的 Cookie 时出现）很快就适应了黑暗的图案旨在让观看者在想要行使同意权的情况下通过细粒度、耗时且广泛的选择感到厌倦；或者是一个简单且易于访问的按钮，它可以让用户选择域所有者希望运行的所有 cookie。 2020 年的一项研究将这种迷宫般的 UI 选择文化描述为 “寻宝游戏”.

新论文评论：

“[用户] 可能会发现，对于声明复杂的网站，进行明智的 Cookie 控制会很困难。他们更有可能依赖默认配置，而不是针对每个 [网站] 微调他们的 Cookie 设置。在某些情况下，这些默认设置会侵犯隐私，并有利于服务提供商，从而导致隐私 [风险]。”

对一个的评论热门论坛帖子关于这些做法，他们将其定性为“恶意遵守”。用户对 Cookie 同意框架的不满是主要出版商们争论的一个话题，如果他们自身在这方面的做法没有暴露出太多个人风险，他们通常可能会提供进一步的报道。

在这种情况下，TechCrunch 网站提出了一个典型的迷宫般的选项，讽刺的是，它是一篇关于欧盟对 cookie 同意的态度变化的文章的序言。附加的 URL 标识符和挂钩旨在进一步启用跟踪，共有 262 个字符（此处已删除）。 “拒绝全部”按钮虽然可用于某些类别的 cookie，但不可用于整组可能的 cookie；在这些例外情况下，用户必须操作每个“切换”。

在这种情况下，TechCrunch 网站提出了一个典型的迷宫般的选项，具有讽刺意味的是，它是一篇文章的序言刊文关于欧盟对构成 Cookie 同意的态度转变。附加的 URL 标识符和用于进一步实现追踪的钩子长度为 262 个字符（此处已删除）。“全部拒绝”按钮适用于某些类别的 Cookie，但并非适用于所有可能的 Cookie；在这些例外情况下，用户必须操作每个“切换”按钮。

A 2019纸来自德国的研究发现，研究域名中的大多数网站访问者都被“引导”以获得广泛的同意，但只有三分之一的网站真正解释了数据收集行为的目的。

近年来出现了许多网络浏览器插件、附加组件和扩展来解决这个问题，例如 Cookie快速管理器 Firefox 扩展和各种 Chrome 替代品，而欧盟寻求关闭围绕 cookie 同意架构的合规漏洞。

方法与数据

这篇新论文的研究人员决心通过避免依赖关键字或手工制定的规则来创建一个更强大的 cookie 同意管理框架，这是最近许多类似方法的核心方法机器学习辅助工程.

CookieEnforcer 具有三个目标：将 cookie 通知和接口转换为机器可读的格式；以禁用非必要 cookie 的方式识别 cookie 设置配置；如果用户需要，自动应用附加限制而无需进一步的用户输入。

该系统由一个检测和分析 cookie 通知的后端组件和一个浏览器扩展形式的前端组件组成，该前端组件生成并执行禁用非必要 cookie（即不会妨碍导航或访问的 cookie）。域（如果被阻止）。

该框架体现在特定于 Chrome 的本地安装扩展中，该扩展使用硒下的网络测试库 ChromeDriver 框架。

后端部分具有用于检测、分析和决策模型的模块。分析模块考虑了用户交互引入的代码变化，因此初始代码转储不会因模拟用户探索而变得无效。

自然语言理解

随着代码的披露，CookieEnforcer 了解它可能采取的行动的现有状态非常重要，因为切换按钮背后的语言在对最终用户的利益方面可能存在歧义。

为此，研究人员训练了文本到文本传输转换器 (T5) 其决策组件的模型。 T5-Large 模型包含 770 亿个参数，在输入/输出代码（即描述和启用切换选项功能的代码）的自定义数据库上进行了微调。

T5 模型的示例格式（上图）和训练数据（下图）。数据示例来自www.askubuntu.com。

该数据集是通过从 Tranco 的前 50 万个热门网站列表。检测器和分析器模块从其运行时源代码中提取 cookie 同意选项，并评估其默认状态。

然后，其中一名研究人员手动标记了禁用所有研究网站的非必要 Cookie 所需的一系列解释点击，从而生成 300 个完全标记的域。

自定义数据集中示例的源代码配置多种多样。

选取 60 个网站作为测试集，使用 T5-Large 模型进行训练，学习率为 0.003，批量大小为 16，训练周期为 20 个 epoch，输入序列最大长度为 256 个 token，目标序列最大长度为 64 个 token。这些 token 由 Google 的句子片段标记器。

最后，处理后的信息存储在本地数据库中并可供系统前端使用。作者们赞成 querySelector（） XML 路径语言上的 HTML 函数（XPath的) 之前的一些类似项目采用的方法，因为 cookie 通知的 XPath 容易受到 DOM 更新的影响（即，代码可能会在初始加载后响应用户交互而更改）。这样，即使元素路径是动态的并且响应外部因素，也可以保留它们。

测试和性能

在实践中，CookieEnforcer 被证明能够导航数据集中的一些最暗的暗模式，例如 cookie 同意框架中的隐藏选项 新科学家 它会被 JavaScript 隐藏，直到用户明确请求查看它。

作者评论：

用户很容易忽略此选项，因为他们必须展开额外的框架才能看到。CookieEnforcer 不仅能找到此选项，还能理解其语义并决定提出异议。这些示例表明，该模型能够学习上下文并推广到新的示例。

研究人员进行了三项测试，包括对该框架在 500 个未知域（即 CookieEnforcer 未经过专门训练的网站）上的性能进行端到端评估，作者报告说它可以成功禁用 91％网站的非必要 cookie。

第二项测试包括一项涵盖 14 个网站的在线用户研究，并使用系统可用性量表（分数）对照手动基线。在这次测试中，作者报告说 CookieEnforcer 的得分比基线高 15%。

CookieEnforcer 的得分比基准（无辅助）使用高出 15%，同时自动执行令人烦恼的过程。

最后，CookieEnforcer 的训练参数在美国和欧洲排名前 5000 位的网站中进行了测试，以确定其处理 Cookie 通知的能力。作者指出：

虽然之前也进行过如此大规模的测量，但 CookieEnforcer 能够让我们更深入地了解基于关键词启发式方法之外的选项。具体而言，我们发现，在英国，显示 Cookie 通知的网站中，有 16.7% 启用了至少一个非必要 Cookie。而美国网站的比例为 22%。

作者发布了一段简短的 YouTube 视频，展示了 CookieEnforcer 的实际应用：

首次发布于 12 年 2022 月 XNUMX 日。

相关话题：自然语言处理自然语言理解 NLP 全国土地联盟隐私性研究安全性

马丁安德森

机器学习作家，人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站：马丁南德森.ai
联系我们 [email protected]
推特：@manders_ai

联合人工智能

机器学习与 Cookie 同意系统

通往 Cookie 同意的神秘之路

方法与数据

自然语言理解

测试和性能

你可能会喜欢