Connect with us

网络安全

基于本地浏览器行为的机器学习广告屏蔽方法

mm

瑞士和美国的研究人员设计了一种新型的机器学习方法,用于检测网站广告材料,该方法基于广告材料与浏览器的交互方式,而不是通过分析其内容或网络行为 – 这两种方法在面对 CNAME 隐匿(见下文)时已被证明在长期内是无效的。

被称为 WebGraph 的框架使用基于图的 AI 广告屏蔽方法来检测促销内容,通过关注网络广告的基本活动,包括遥测尝试和本地浏览器存储,以至于唯一有效的规避技术就是不进行这些活动。

虽然之前的方法在检测率方面略高于 WebGraph,但它们都容易受到规避技术的影响,而 WebGraph 能够在面对对抗性响应(包括可能在面对这种新型广告屏蔽方法时出现的更复杂的假设响应)时达到 100% 的完整性。

该论文由来自瑞士联邦理工学院的两名研究人员领导,与来自加利福尼亚大学戴维斯分校和爱荷华大学的研究人员合作。

超越 AdGraph

这项工作是 2020 年与 Brave 浏览器合作的研究计划 AdGraph 的发展,该计划中有两名研究人员参与了新的论文。

AdGraph 与 WebGraph 的比较,虚线表示对前一种方法的架构创新。来源:https://arxiv.org/pdf/2107.11309.pdf

AdGraph 与 WebGraph 的比较,虚线表示对前一种方法的架构创新。 来源:https://arxiv.org/pdf/2107.11309.pdf

AdGraph 依赖于(广告)内容 特征,这些特征是从 URL 分析中派生出来的,作为检测商业材料的关键。然而,这些特征代表了对手试图检测广告检测系统的单一潜在失败点,并且可以制定方法来规避它们。这种对内容 属性 的依赖使得 AdGraph 本质上成为一个机械化的、基于手动策划的过滤列表的方法,共享它们的弱点。

CNAME 隐匿

来自网站自身域的材料属于“受信任”的类别,至于该域本身是受信任的。对于一个高权威的网站,运行广告活动以展示看似由权威网站本身托管的材料具有很高的价值,因为此类广告对基于过滤器的广告屏蔽列表和 2020 年的 AdGraph 方法都具有免疫性。

然而,定制活动难以协商,实施成本高,并且违反了过去 25 年中开发的网络广告模型的核心原则,即第三方平台直接将代码插入主机站点,通常在微秒内根据关键词可取性和其他各种因素“拍卖”广告位。

由于几乎所有广告屏蔽系统都依赖于网页中的第三方材料(即托管在“外来”域上的元素),广告商在过去五年中一直在使用 CNAME 隐匿技术 来反击。CNAME 隐匿欺骗跟踪器,使其相信主机站点的子域(例如 information.example.com 而不是 example.com)是网站的真正附属,而实际上它是一个与第三方广告提供商安排的代理广告服务机制。

2021 年 3 月的一项研究 揭示,CNAME 隐匿事件在 2018 年至 2020 年之间增加了 22%,截至 2020 年 10 月,Tranco 前 10,000 个网站中几乎有 10% 的网站至少使用了一个基于 CNAME 的跟踪器。

不信任 URL

CNAME 欺骗技术涉及广告服务过程中 URL 的操纵。任何信任 URL 链的广告屏蔽系统都将受到操纵和规避。因此,WebGraph 随机更改提供的 URL(包括查询字符串、参数数量和参数名称),寻找使用模式而不是特定的禁止或接受的 URL。

该系统必须考虑广告服务架构中的两个常见配置:一、主机直接与广告商合作;二、广告商由于需要保护自己免受客户操纵而提供有限的合作(更常见的场景)。

在基于列表的方法中,包括 AdGraph,广告服务系统成功操纵 URL 几乎是一个完全的胜利,赋予广告“本地”来源,从而规避几乎所有系统地阻止广告内容的尝试。

剩下的签名是什么?WebGraph 关注的是广告系统需要通过各种半隐蔽的方式共享信息,例如 web 跟踪器、iframe 和 web “监听器”之间的通信,它们不断地轮询主机页面的实时状态以获取与广告相关的有意义的活动。这种活动包括在 cookie 或 HTML5 基本的本地存储中存储变量。

WebGraph 使用 Mozilla 的 Web 隐私度量 (OpenWPM 框架)来跟踪 Firefox 中的此类活动。它捕获 JavaScript 层的所有活动和网络层的所有出站网络请求及其响应。

这种额外的审查引入了对以前由 AdGraph 提出的图网络的新“信息流”边缘,允许 WebGraph 根据本地活动明确记录和量化信息共享模式,无论起源和目的 URL 是用于遥测或广告服务系统中的其他类型的交互通信。

结果

研究人员使用 OpenWPM 的扩展版本系统地爬取了来自 Alexa 前 100,000 个网站的 10,000 个网站,以及 1,000 到 100,000 名网站中排名的 9,000 个随机样本网站,在将结果传递给决策树分类器(基于 AdGraph 的原始设计)之前存储了它们的图表示,并使用流行的广告过滤器列表作为基准事实。在这种方式下,构建了一个用于训练核心模型的数据集。

该系统实现了与 AdGraph 相似的结果,准确率为 92.33%。然而,新系统对对抗性抵抗的鲁棒性从 AdGraph 的几乎完全失败率上升到 WebGraph 的 8% 易受攻击性。

未来方向

该论文认为,广告网络需要显著地重新架构其系统,以便在面对 WebGraph 方法时避免检测,并且建议此类更改将需要重新审视第三方广告商与其广告出现的主机站点之间目前的信任关系。

该论文还指出,WebGraph 不考虑无状态跟踪技术,例如通过画布元素的浏览器指纹(使用 API),该系统目前不监视这些交互和本地存储指示符。研究人员建议 WebGraph 可以在未来扩展以考虑这些类型的交互和本地存储指示符。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai