Anderson 视角
可解释的 AI 可能更容易泄露机密数据

来自新加坡国立大学的研究人员得出结论,AI变得越可解释,就越容易破坏机器学习系统中的重要隐私功能。他们还发现,即使模型不可解释,也可以使用类似模型的解释来“解码”不可解释模型中的敏感数据。
该研究,题为《利用解释进行模型逆向攻击》,强调了使用神经网络功能的“意外”不透明性作为一种设计安全功能的风险——尤其是由于一波新的全球倡议,包括欧盟的人工智能法规草案,正在将可解释的AI(XAI)视为将机器学习规范化于社会的先决条件。

在研究中,通过利用机器学习系统的多个解释,成功地从所谓的匿名数据中重建了一个真实的身份,数据与面部表情有关。来源:https://arxiv.org/pdf/2108.10800.pdf
研究人员评论道:
“可解释的AI(XAI)提供更多信息以帮助用户了解模型决策,但这种额外的知识也暴露了更多的隐私攻击风险。因此,提供解释会损害隐私。”
私人数据的重新识别
机器学习数据集的参与者可能已经同意在匿名的假设下被包含;在个人可识别信息(PII)通过临时数据收集(例如,通过社交网络)进入AI系统的情况下,参与可能在技术上是合法的,但这使得“同意”的概念变得紧张。
近年来,已经出现了几种方法,可以从看似不透明的机器学习数据流中去匿名化PII。 模型提取使用API访问(即“黑盒”访问,无需源代码或数据的特殊访问)从高规模MLaaS提供商(包括亚马逊网络服务)中提取PII,而成员推理攻击(MIAs)在类似的约束下可以潜在地获取机密的医疗信息;此外,归属推理攻击(AIAs)可以从API输出中恢复敏感数据。
揭示面部表情
对于这篇新论文,研究人员专注于一种模型逆向攻击,旨在从不应能够泄露此信息的面部情绪数据子集中获取一个身份。
该系统的目标是将在野外发现的图像(无论是随意发布在互联网上还是在潜在的数据泄露中)与其在机器学习算法的基础数据集中包含的图像关联起来。
研究人员训练了一个逆向攻击模型,能够在无需原始架构的特殊访问的情况下,从匿名的API输出中重建贡献图像。
使用转置卷积神经网络(CNN)来预测基于情绪识别系统的目标预测向量(显著性图)的“原始”源面,使用U-Net架构来提高面部重建性能。
测试
在测试该系统时,研究人员将其应用于三个数据集:iCV-MEFED面部表情;CelebA;以及MNIST手写数字。为了适应研究人员使用的模型大小,将这三个数据集分别调整为128×128、265×256和32×32像素。每个数据集的50%用作训练数据,另一半用作攻击数据集来训练对手模型。
每个数据集都有不同的目标模型,每个攻击网络都根据支配该过程的解释的限制进行缩放,而不是使用更深的神经模型,其复杂性将超过解释的概括。
用于支持攻击的XAI解释类型包括梯度解释、梯度输入、Grad-CAM和层次相关性传播(LRP)。研究人员还评估了实验中的多个解释。
测试的指标是通过平均平方误差(MSE)评估的像素级相似度;基于感知的相似性指数(SSIM);通过成功重标记重建图像来确定的攻击准确性;以及比较已知源数据的特征嵌入与重建数据的攻击嵌入相似性。
在所有数据集上都实现了重新识别,根据任务和数据集的不同,实现程度也各不相同。此外,研究人员发现,通过构造一个替代目标模型(他们自然对其有完全的控制),仍然可以根据已知的XAI原理实现外部“封闭”模型的数据重新识别。
研究人员发现,基于激活的(显著性图)解释获得的结果最为准确,这些解释比基于敏感性的(梯度)方法泄露了更多的PII。














