网络安全
可解释的 AI 可能更容易泄露机密数据

新加坡国立大学的研究人员得出结论,随着 AI 变得更加可解释,它将更容易规避机器学习系统中的重要隐私功能。他们还发现,即使模型不可解释,也有可能使用类似模型的解释来“解码”非可解释模型中的敏感数据。
研究人员的 研究,题为 利用解释进行模型逆转攻击,强调了使用神经网络功能的“意外”不透明性作为一种设计安全功能的风险,尤其是由于一波新的全球倡议,包括欧盟的 草案 AI 法规,正在 描述 可解释 AI(XAI)为机器学习在社会中最终正常化的先决条件。

在研究中,通过利用机器学习系统的多个解释,成功地从与面部表情相关的匿名数据中重建了实际身份。 来源:https://arxiv.org/pdf/2108.10800.pdf
研究人员评论:
‘可解释的人工智能(XAI)提供更多信息来帮助用户理解模型决策,但这种额外的知识暴露了更多的隐私攻击风险。因此,提供解释会损害隐私。’
私人数据的重新识别
参与机器学习数据集的人可能已经同意在匿名的假设下被包含;在个人可识别信息(PII)通过临时数据收集(例如,通过社交网络)进入 AI 系统的情况下,参与可能在技术上是合法的,但这会损害“同意”的概念。
几种方法已经出现,能够证明能够从看似不透明的机器学习数据流中去匿名化 PII。 模型提取 使用 API 访问(即“黑盒”访问,没有源代码或数据的特殊可用性)从高规模 MLaaS 提供商(包括 亚马逊网络服务)中提取 PII,而 成员推理攻击(MIAs)在类似约束下运行,可能会 获取 机密医疗信息;此外,归因推理攻击(AIAs)可以 恢复 敏感数据来自 API 输出。
揭示面部表情
对于这篇新论文,研究人员专注于一种模型逆转攻击,旨在从不应该能够泄露此信息的面部情绪数据子集中获取身份。
该系统的目标是将在野外发现的图像(无论是随意发布在互联网上还是在潜在的数据泄露中)与构成机器学习算法基础的数据集关联起来。
研究人员训练了一个逆转攻击模型,能够在没有对原始架构的特殊访问的情况下,从匿名化的 API 输出中重建贡献图像。以前在这个领域的工作集中在系统上,保护或揭示身份是目标系统和攻击系统的目标;在这种情况下,框架被设计为利用一个领域的输出并将其应用于不同的领域。
使用 转置 卷积神经网络(CNN)来预测基于情绪识别系统的目标预测向量(显著性图)的“原始”源面,使用 U-Net 架构 来提高面部重建性能。
测试
在测试该系统时,研究人员将其应用于三个数据集:iCV-MEFED 面部表情;CelebA;以及 MNIST 手写数字。为了适应研究人员使用的模型大小,三个数据集分别重塑为 128×128、265×256 和 32×32 像素。每个数据集的 50% 用作训练数据,另一半用作攻击数据集来训练对手模型。
每个数据集都有不同的目标模型,每个攻击网络都缩放到支配该过程的解释的限制,而不是使用更深的神经网络,其复杂性将超过解释的概括。
用于驱动尝试的 XAI 解释类型包括 梯度解释、梯度输入、Grad-CAM 和 层次相关传播(LRP)。研究人员还评估了实验中多个解释。
测试的指标是通过 均方误差(MSE) 评估的像素级相似度;图像相似度(SSIM),一种基于感知的相似度指数;攻击准确度,确定分类器是否可以成功重新标记重建图像;以及攻击嵌入相似度,它比较已知源数据和重建数据的特征嵌入。
在所有数据集上都实现了重新识别,根据任务和数据集的不同,实现程度也各不相同。此外,研究人员发现,通过构造一个替代目标模型(他们自然对其有完全的控制权),仍然可以根据已知的 XAI 原理实现外部“封闭”模型的数据重新识别。
研究人员发现,基于激活的(显著性图)解释比基于敏感性的(梯度)方法泄露了更多的 PII,并且获得了最准确的结果。


