网络安全

一种根据本地浏览器行为阻止广告的机器学习方法

发布时间

3年前

2021 年 7 月 26 日

马丁安德森

瑞士和美国的研究人员设计了一种新的机器学习方法来检测网站广告材料，该方法基于此类材料与浏览器的交互方式，而不是通过分析其内容或网络行为——这两种方法已被证明在广告材料领域无效。长期面对 CNAME 伪装（见下文）。

被称为网络图，该框架使用图形基于人工智能的广告拦截方法，通过专注于网络广告的此类基本活动（包括遥测尝试和本地浏览器存储）来检测促销内容，唯一有效的规避技术是不进行这些活动。

尽管之前的方法取得了比 WebGraph 稍高的检测率，但它们都容易出现规避技术，而 WebGraph 能够在面对对抗性响应时接近 100% 的完整性，包括面对这种情况时可能出现的更复杂的假设响应新颖的广告拦截方法。

该论文由瑞士联邦理工学院的两名研究人员领导，并与加州大学戴维斯分校和爱荷华大学的研究人员合作。

超越广告图谱

这项工作是 2020 年 Brave 浏览器研究计划的开发成果，名为 Brave 浏览器广告图，其中介绍了新论文中的两名研究人员。

AdGraph 与 WebGraph 的比较，其中虚线代表先前方法的架构创新。 资料来源：https://arxiv.org/pdf/2107.11309.pdf

AdGraph 依赖（广告）内容功能，源自对 URL 的分析，作为检测商业材料的关键。然而，这些功能对于试图检测广告检测系统的存在并制定方法来消除它们的对手来说是一个潜在的单一故障点。这种对内容的依赖使 AdGraph 本质上是手动策划的基于过滤器列表的方法的机械化版本，并分享了它们的弱点。

CNAME 伪装

只要域本身是可信的，源自网站自己域的材料就属于“可信”类别。对于一个高权威网站来说，开展包含以下内容的广告活动会带来宝贵的溢价：出现由权威网站本身托管，因为此类广告不受基于过滤器的广告拦截列表的影响，甚至不受 2020 AdGraph 方法的影响。

然而，定制广告活动谈判困难、实施成本高昂，并且违背了过去 25 年开发的网络广告模式的核心原则，即第三方平台将代码直接插入主机站点，通常是“拍卖”基于关键字需求和各种其他因素的广告时段（以微秒为单位）。

由于几乎所有广告拦截系统都以网页中的第三方材料（即托管在“外来”域上的元素）为关键，广告商一直在反击 CNAME 伪装技术在过去的五年里。 CNAME 伪装欺骗跟踪者相信主机网站的子域（即 information.example.com 而不是 example.com）是该网站的真正附属物，而事实上它是与第三方广告安排的代理广告服务机制提供商。

2021 年 XNUMX 月的一项研究发现 22 年至 2018 年间，CNAME 伪装事件增加了 2020%，到 10 年 10,000 月，Tranco 排名前 2020 的网站中近 XNUMX% 至少采用了一个基于 CNAME 的跟踪器。

降低对 URL 的信任

CNAME 欺骗技术涉及对广告投放过程中涉及的 URL 进行操纵。任何信任 URL 链的广告拦截系统都将受到操纵和规避。因此，WebGraph 随机更改流程中提供的 URL（包括查询字符串、参数数量和参数名称），寻找使用模式而不是特定的禁止或接受的 URL。

系统必须考虑广告服务架构中的两种常见配置：一是主机直接与广告商串通；二是主机直接与广告商串通。第二种（更常见）情况是，广告商由于需要保护自己免受客户操纵而提供有限的合作。

在基于列表的方法（包括 AdGraph）中，广告服务系统对 URL 的成功操作几乎是一场彻底的胜利，将广告归因于“本地”来源，因此规避了几乎所有系统阻止广告内容的尝试。

签名还剩下什么？相反，WebGraph 侧重于广告系统通过各种半模糊方式共享信息的需求，例如网络跟踪器、iframe 和网络“监听器”之间的通信，它们不断轮询主机页面的实时状态，以获取有意义的活动广告的网络指标。此类活动包括将变量存储在 cookie 或基于 HTML5 的本地存储中。

WebGraph 使用 Mozilla 的 Web 隐私测量（打开WPM 框架）来跟踪 Firefox 中的此类活动。它捕获 JavaScript 层的所有活动，以及网络层的所有传出网络请求及其响应。

这种额外的审查为 AdGraph 之前提出的图形网络引入了新的“信息流”边缘，允许 WebGraph 显式记录和量化基于本地活动的信息共享模式，并且无论遥测或其他类型的内部通信的来源和目标 URL 是什么广告服务系统。

成果

研究人员使用 OpenWPM 的扩展版本系统地抓取了 Alexa 前 10,000 个网站中的 100,000 个网站，并随机抽取了 9,000 个排名在 1k-100k 之间的网站样本，在将结果传递给以 AdGraph 为模型的决策树分类器之前存储它们的图形表示。原创设计，并使用流行的广告过滤器列表作为基本事实。这样就构建了用于训练核心模型的数据集。

该系统取得了与 AdGraph 相当的结果，准确率达到 92.33%。然而，新系统对对抗性抵抗的恢复能力从 AdGraph 的几乎完全失败率上升到 WebGraph 下的仅 8% 的敏感度。

未来发展方向

该论文认为，广告网络需要重新架构其系统，以便在面对 WebGraph 方法时逃避检测，并建议此类更改将需要审查第三方广告商与广告商之间目前谨慎的信任关系。展示其广告的托管网站。

该论文还指出，WebGraph 没有考虑无状态跟踪技术，例如浏览器指纹识别（通过 Canvas 元素），这些技术使用系统当前未监控的 API。研究人员建议，未来可以扩展 WebGraph，以考虑这些类型的交互和本地存储指示符。

联合人工智能

一种根据本地浏览器行为阻止广告的机器学习方法

网络安全