网络安全
基于本地浏览器行为的机器学习广告屏蔽方法

瑞士和美国的研究人员设计了一种新的机器学习方法,用于检测网站广告材料,该方法基于广告材料与浏览器的交互方式,而不是通过分析其内容或网络行为 – 这两种方法在面对 CNAME 隐匿(见下文)时已经被证明在长期内是无效的。
被称为 WebGraph 的框架使用基于图的 AI 广告屏蔽方法来检测促销内容,通过关注网络广告的基本活动,包括遥测尝试和本地浏览器存储,以至于唯一有效的规避技术就是不进行这些活动。
尽管以前的方法实现了略高于 WebGraph 的检测率,但所有这些方法都容易受到规避技术的影响,而 WebGraph 能够在面对对抗性响应(包括可能在面对这种新型广告屏蔽方法时出现的更复杂的假设响应)时达到 100% 的完整性。
该论文由来自瑞士联邦理工学院的两名研究人员领导,与来自加利福尼亚大学戴维斯分校和爱荷华大学的研究人员合作。
超越 AdGraph
这项工作是 2020 年与 Brave 浏览器合作的研究计划 AdGraph 的发展,该计划中有两名研究人员参与了新的论文。
AdGraph 依赖于(广告)内容 特征,这些特征是从 URL 分析中得出的,用于检测商业材料的关键。但是,这些特征代表了对手试图检测广告检测系统存在的单一潜在故障点,并且可以制定方法来避免它们。这种对内容 属性 的依赖使 AdGraph 本质上成为一个机械化的、基于手动策划的过滤器列表的方法,共享它们的弱点。
CNAME 隐匿
来自网站自身域的材料属于“可信”类别,因为域本身是可信的。对于一个高权威网站,运行广告活动以展示看似由权威网站本身托管的材料具有很高的价值,因为这种广告对基于过滤器的广告屏蔽列表和 2020 年的 AdGraph 方法都具有免疫性。
然而,自定义活动难以协商,实施成本高昂,并且违背了过去 25 年中发展起来的网络广告模型的核心原则,即第三方平台直接将代码插入主机站点,通常在微秒内根据关键词的可取性和其他因素“拍卖”广告位。
由于几乎所有广告屏蔽系统都依赖于网页中的第三方材料(即托管在“外来”域上的元素),广告商在过去五年中一直在使用 CNAME 隐匿技术 进行反击。CNAME 隐匿欺骗跟踪器,使其相信主机站点的子域(例如 information.example.com 而不是 example.com)是网站的真正附属,而实际上它是一个与第三方广告提供商安排的代理广告服务机制。
2021 年 3 月的一项研究 发现,CNAME 隐匿事件在 2018 年至 2020 年之间增加了 22%,截至 2020 年 10 月,Tranco 前 10,000 个网站中几乎有 10% 的网站至少使用了一个基于 CNAME 的跟踪器。
不信任 URL
CNAME 欺骗技术涉及广告服务过程中 URL 的操纵。任何信任 URL 链的广告屏蔽系统都将受到操纵和规避。因此,WebGraph 随机更改提供的 URL(包括查询字符串、参数数量和参数名称),寻找使用模式而不是特定的禁止或接受的 URL。
该系统必须考虑广告服务架构中的两个常见配置:一是主机直接与广告商合作;二是更常见的场景,即广告商由于需要保护自己免受客户操纵而提供有限的合作。
在基于列表的方法中,包括 AdGraph,广告服务系统成功操纵 URL 几乎是一个完全的胜利,赋予广告“本地”来源,从而规避几乎所有系统地阻止广告内容的尝试。
剩下的是什么样的签名?WebGraph 关注的是广告系统需要通过各种半隐晦的方式(如 web 跟踪器、iframe 和 web “监听器”之间的通信)共享信息,这些监听器不断地轮询主机页面的实时状态,以获取与广告相关的 web 指标的有意义的活动,包括在 cookie 或 HTML5 基本的本地存储中存储变量。
WebGraph 使用 Mozilla 的 Web 隐私测量 (OpenWPM 框架) 来跟踪 Firefox 中的此类活动。它捕获 JavaScript 层的所有活动和网络层的所有出站网络请求及其响应。
这种额外的审查引入了图网络中新的“信息流”边缘,这些边缘以前由 AdGraph 提出,允许 WebGraph 根据本地活动明确记录和量化信息共享模式,而不依赖于 URL 的起源和目的地,用于遥测或广告服务系统中的其他内部通信。
结果
研究人员使用扩展版的 OpenWPM 系统地爬取了来自 Alexa 前 100,000 个网站的 10,000 个网站和 9,000 个网站的随机样本(排名在 1k-100k 之间),存储了它们的图表示,然后将结果传递给一个基于 AdGraph 原始设计的决策树分类器,并使用流行的广告过滤器列表作为基准。通过这种方式,构建了一个用于训练核心模型的数据集。
该系统实现了与 AdGraph 相似的结果,准确率为 92.33%。然而,新系统对对抗性抵抗的抵抗力从 AdGraph 的几乎完全失败率提高到 WebGraph 的 8% 易受性。
未来方向
该论文认为,广告网络需要显著重新架构其系统,以便在面对 WebGraph 方法时避免检测,并且这种变化将需要重新审视第三方广告商与其广告出现在其中的主机站点之间目前的信任关系。
该论文还指出,WebGraph 不考虑无状态跟踪技术,例如通过画布元素的浏览器指纹(使用 API,该系统当前不监视)。研究人员建议 WebGraph 可以在未来扩展以考虑这些交互和本地存储标志。













