Anderson 视角

通过 API 输出窃取机器学习模型

发布于 2022年5月18日

更新于 2026年5月24日

作者

Martin Anderson

加拿大最新研究提出了一种可能的方法，攻击者可以窃取昂贵的机器学习框架的成果，即使只有通过高度清洗和看似防御良好的 API（一种处理用户查询的接口或协议，服务器端处理，仅返回输出响应）访问专有系统。

随着研究领域越来越多地通过机器学习即服务（MLaaS）实现来盈利昂贵的模型训练，该研究表明，自监督学习（SSL）模型更容易受到此类模型泄露攻击，因为它们不需要标签，简化了提取过程，并且通常提供大量有用信息，以便复制（隐藏的）源模型。

在“黑盒”测试模拟中（研究人员仅授予自己与本地“受害者”模型相同的访问权限，就像典型的最终用户通过 Web API 访问一样），研究人员能够使用相对较少的资源复制目标系统：

‘[我们的]攻击可以窃取受害模型的副本，在下游任务中实现相当的性能，仅需训练受害模型所需查询的五分之一。对于在 1.2M 个未标记的 ImageNet 样本上训练的受害模型，下游 Fashion-MNIST 分类任务的准确率为 91.9%，我们的直接提取攻击使用 InfoNCE 损失窃取了编码器的副本，准确率为 90.5%，仅需 200K 个查询。 ‘

‘同样，对于在 50K 个未标记的 CIFAR10 样本上训练的受害模型，下游 CIFAR10 分类任务的准确率为 79.0%，我们的直接提取攻击使用 SoftNN 损失窃取了副本，准确率为 76.9%，仅需 9,000 个查询。’

研究人员使用了三种攻击方法，发现“直接提取”是最有效的方法。这些模型从本地重建的 CIFAR10 受害编码器中窃取，使用 9,000 个来自 CIFAR10 测试集的查询。来源：https://arxiv.org/pdf/2205.07890.pdf

研究人员还指出，适用于保护监督学习模型免受攻击的方法并不适用于在无监督基础上训练的模型——尽管这些模型代表了图像合成领域中一些最受期待和庆祝的成果。

新论文题为 关于防御自监督学习免受模型提取的困难，来自多伦多大学和人工智能向量研究所。

自我意识

在自监督学习中，模型在无标签数据上进行训练。没有标签，SSL 模型必须从数据的隐式结构中学习关联和组，并逐渐将这些组合成节点或表示。

在 SSL 方法可行的地方，它非常高效，因为它绕过了对昂贵的（通常外包和有争议的）人群标注的需求，并基本上使数据自主化。

新论文的作者考虑了三种 SSL 方法：SimCLR，一种 孪生网络；SimSiam，另一种基于表示学习的孪生网络；以及 Barlow Twins，一种在 2021 年发布时实现了 ImageNet 分类器的最新成果的 SSL 方法。

有标签数据（即通过监督学习训练的模型）的模型提取是一个相对成熟的研究领域。它也更容易防御，因为攻击者必须从受害模型中获取标签才能重新创建它。

来自以前的论文，对监督学习架构的“替代分类器”攻击模型。来源：https://arxiv.org/pdf/1812.02766.pdf

没有白盒访问权限，这不是一项简单的任务，因为典型的 API 请求输出通常包含的信息比典型的 SSL API 输出少。

从论文中*：

‘过去关于模型提取的工作集中在监督学习（SL）环境中，受害模型通常返回标签或其他低维输出，例如置信度或对数。 ‘

‘相比之下，SSL 编码器返回高维表示；对于流行的视觉架构 ResNet-50 Sim-CLR 模型，事实上的输出是一个 2048 维向量。 ‘

‘我们假设这种编码器的信息泄露显著高于 SL 模型，使其更容易受到提取攻击。’

架构和数据

研究人员测试了三种 SSL 模型推理/提取方法：直接提取，其中 API 输出通过合适的损失函数（如均方误差（MSE））与重建的编码器输出进行比较；重建投影头，其中模型的关键分析功能（通常在部署前丢弃）被重新组装并用于复制模型；以及 访问投影头，仅在原始开发人员提供架构时才有可能。

方法 #1 为直接提取，受害模型的输出与本地模型的输出进行比较；方法 #2 涉及重建原始训练架构中使用的投影头（通常不包含在部署模型中）。

研究人员发现，直接提取是获取功能性复制模型的最有效方法，并且具有难以被视为“攻击”的优点（因为它本质上与典型的有效最终用户行为几乎没有区别）。

作者在三个图像数据集上训练了受害模型：CIFAR10、ImageNet 和斯坦福大学的街景房屋编号（SVHN）。ImageNet 使用 ResNet50 进行训练，而 CIFAR10 和 SVHN 使用 ResNet18 和 ResNet24 进行训练，使用 SimCLR 的 PyTorch 实现。

模型的下游（即部署）性能在 CIFAR100、STL10、SVHN 和 Fashion-MNIST 上进行了测试。研究人员还尝试了更多“白盒”方法的模型挪用，尽管直接提取（最不特权的方法）产生了最好的结果。

为了评估攻击中推断和复制的表示，作者在模型中添加了一个线性预测层，并在下游任务的完整标记训练集上对其进行了微调，网络的其余层保持冻结。这样，预测层上的测试准确率可以作为性能指标。由于它不为推理过程做出贡献，因此这不代表“白盒”功能。

通过（非贡献）线性评估层实现的测试运行结果。粗体为准确率。

对结果进行评论，研究人员表示：

‘我们发现，模仿受害者的表示的直接目标在下游任务中实现了高性能，尽管攻击仅需要训练窃取的编码器所需查询数量的一小部分（在某些情况下少于 15%）。’

并继续说：

‘[它]很难防御使用 SSL 训练的编码器，因为输出表示会泄露大量信息。最有前途的防御方法是反应性方法，例如水印，可以在高容量编码器中嵌入特定的增强。’

* 我将论文中的内联引用转换为超链接。

首次发布于 2022 年 5 月 18 日。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

通过 API 输出窃取机器学习模型

自我意识

架构和数据

发现更多