网络安全

可解释的 AI 可能更容易泄露机密数据

Published August 26, 2021

Updated April 5, 2026

Martin Anderson

新加坡国立大学的研究人员得出结论，随着 AI 变得更加可解释，它将更容易规避机器学习系统中的重要隐私功能。他们还发现，即使模型不可解释，也有可能使用类似模型的解释来“解码”非可解释模型中的敏感数据。

研究人员的研究，题为 利用解释进行模型逆转攻击，强调了使用神经网络功能的“意外”不透明性作为一种设计安全功能的风险，尤其是由于一波新的全球倡议，包括欧盟的草案 AI 法规，正在描述可解释 AI（XAI）为机器学习在社会中最终正常化的先决条件。

在研究中，通过利用机器学习系统的多个解释，成功地从与面部表情相关的匿名数据中重建了实际身份。 来源：https://arxiv.org/pdf/2108.10800.pdf

研究人员评论：

‘可解释的人工智能（XAI）提供更多信息来帮助用户理解模型决策，但这种额外的知识暴露了更多的隐私攻击风险。因此，提供解释会损害隐私。’

私人数据的重新识别

参与机器学习数据集的人可能已经同意在匿名的假设下被包含；在个人可识别信息（PII）通过临时数据收集（例如，通过社交网络）进入 AI 系统的情况下，参与可能在技术上是合法的，但这会损害“同意”的概念。

几种方法已经出现，能够证明能够从看似不透明的机器学习数据流中去匿名化 PII。模型提取使用 API 访问（即“黑盒”访问，没有源代码或数据的特殊可用性）从高规模 MLaaS 提供商（包括亚马逊网络服务）中提取 PII，而成员推理攻击（MIAs）在类似约束下运行，可能会获取机密医疗信息；此外，归因推理攻击（AIAs）可以恢复敏感数据来自 API 输出。

揭示面部表情

对于这篇新论文，研究人员专注于一种模型逆转攻击，旨在从不应该能够泄露此信息的面部情绪数据子集中获取身份。

该系统的目标是将在野外发现的图像（无论是随意发布在互联网上还是在潜在的数据泄露中）与构成机器学习算法基础的数据集关联起来。

研究人员训练了一个逆转攻击模型，能够在没有对原始架构的特殊访问的情况下，从匿名化的 API 输出中重建贡献图像。以前在这个领域的工作集中在系统上，保护或揭示身份是目标系统和攻击系统的目标；在这种情况下，框架被设计为利用一个领域的输出并将其应用于不同的领域。

使用转置卷积神经网络（CNN）来预测基于情绪识别系统的目标预测向量（显著性图）的“原始”源面，使用 U-Net 架构来提高面部重建性能。

重新识别系统由可解释 AI（XAI）提供动力和信息，其中知识的神经元激活等许多贡献的公共 XAI 方面被利用来仅从其输出重建架构的内部机制，从而实现对贡献数据集图像的重新识别。

测试

在测试该系统时，研究人员将其应用于三个数据集：iCV-MEFED 面部表情；CelebA；以及 MNIST 手写数字。为了适应研究人员使用的模型大小，三个数据集分别重塑为 128×128、265×256 和 32×32 像素。每个数据集的 50% 用作训练数据，另一半用作攻击数据集来训练对手模型。

每个数据集都有不同的目标模型，每个攻击网络都缩放到支配该过程的解释的限制，而不是使用更深的神经网络，其复杂性将超过解释的概括。

用于驱动尝试的 XAI 解释类型包括梯度解释、梯度输入、Grad-CAM 和层次相关传播（LRP）。研究人员还评估了实验中多个解释。

在三个数据集上，具有相同目标和攻击任务的 XAI 感知逆转攻击促进的图像重建。

测试的指标是通过均方误差（MSE）评估的像素级相似度；图像相似度（SSIM），一种基于感知的相似度指数；攻击准确度，确定分类器是否可以成功重新标记重建图像；以及攻击嵌入相似度，它比较已知源数据和重建数据的特征嵌入。

在所有数据集上都实现了重新识别，根据任务和数据集的不同，实现程度也各不相同。此外，研究人员发现，通过构造一个替代目标模型（他们自然对其有完全的控制权），仍然可以根据已知的 XAI 原理实现外部“封闭”模型的数据重新识别。

研究人员发现，基于激活的（显著性图）解释比基于敏感性的（梯度）方法泄露了更多的 PII，并且获得了最准确的结果。

在未来的工作中，团队计划将不同类型的 XAI 解释纳入新攻击中，例如特征可视化和概念激活向量。

Related Topics:explainability Explainable AI explainable neural networks model inversion research

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

可解释的 AI 可能更容易泄露机密数据

私人数据的重新识别

揭示面部表情

测试

You may like