存根 为什么对抗性图像攻击不是玩笑 - Unite.AI
关注我们.

网络安全

为什么对抗性图像攻击不是玩笑

mm
更新 on

在过去的五年里,用精心制作的对抗性图像来攻击图像识别系统一直被认为是一种有趣但微不足道的概念验证。 然而,澳大利亚的新研究表明,商业人工智能项目随意使用高度流行的图像数据集可能会造成持久的新安全问题。

 

几年来,阿德莱德大学的一组学者一直试图解释一些关于基于人工智能的图像识别系统的未来的真正重要的事情。

这是很难(而且非常昂贵)修复的事情 现在可以做些什么,一旦图像识别研究的当前趋势在 5-10 年内完全发展为商业化和工业化部署,补救措施的成本将非常高昂。

在我们开始讨论之前,让我们先看一下该团队在网站上发布的六个视频之一中被归类为巴拉克·奥巴马总统的花。 项目页:

来源:https://www.youtube.com/watch?v=Klepca1Ny3c

来源:https://www.youtube.com/watch?v=Klepca1Ny3c

在上图中,一个清楚知道如何识别巴拉克·奥巴马 (Barack Obama) 的面部识别系统被欺骗了,80% 的确定性是,一个拿着精心制作的印刷对抗性花朵图像的匿名男子也是巴拉克·奥巴马 (Barack Obama)。 系统甚至不关心“假脸”是在对象的胸部,而不是在他的肩膀上。

尽管令人印象深刻的是,研究人员能够通过生成连贯图像(一朵花)而不是通常的随机噪声来完成这种身份捕获,但在计算机视觉的安全研究中,类似这样的愚蠢漏洞似乎经常出现。例如,那些能够欺骗人脸识别的奇怪图案的眼镜 早在2016,或特制的对抗性图像 尝试重写路标.

如果你感兴趣的话,上面例子中被攻击的卷积神经网络(CNN)模型是VGGFace(VGG-16),接受过哥伦比亚大学的培训 PubFig 数据集。 研究人员开发的其他攻击样本使用不同组合的不同资源。

在 ImageNet 上的 WideResNet50 模型中,键盘被重新分类为海螺。 研究人员还确保该模型对海螺没有偏见。 请访问 https://www.youtube.com/watch?v=dhTTjjrxIcU 查看完整视频以了解扩展和其他演示

在 ImageNet 上的 WideResNet50 模型中,键盘被重新分类为海螺。 研究人员还确保该模型对海螺没有偏见。 请访问 https://www.youtube.com/watch?v=dhTTjjrxIcU 查看完整视频以了解扩展和其他演示

图像识别作为新兴的攻击媒介

研究人员概述和说明的许多令人印象深刻的攻击并不是对单个数据集或使用它们的特定机器学习架构的批评。通过切换数据集或模型、重新训练模型或任何其他“简单”补救措施也无法轻松防御它们,这些补救措施会导致机器学习从业者嘲笑这种欺骗性的零星演示。

相反,阿德莱德队的功绩体现了 中枢弱点 在当前图像识别AI开发的整个架构中; 这一弱点可能会使许多未来的图像识别系统容易被攻击者操纵,并使任何后续的防御措施处于不利地位。

想象一下,最新的对抗性攻击图像(例如上面的花)被作为“零日漏洞利用”添加到未来的安全系统中,就像当前的反恶意软件和防病毒框架每天更新其病毒定义一样。

新颖的对抗性图像攻击的潜力将是无穷无尽的,因为系统的基础架构没有预见到下游问题,正如所发生的那样 通过互联网是, 千年虫比萨斜塔.

那么,我们以什么方式为此设置场景呢?

获取攻击数据

通过访问训练计算机模型的图像数据集来生成诸如上面的“花”示例之类的对抗性图像。 您不需要对训练数据(或模型架构)进行“特权”访问,因为最流行的数据集(以及许多经过训练的模型)在强大且不断更新的 torrent 场景中广泛可用。

例如,计算机视觉数据集 ImageNet 中令人尊敬的巨人 可用于洪流 在所有的多次迭代中,绕过了它的惯例 限制,并提供关键的次要元素,例如 验证集.

资料来源:https://academictorrents.com

资料来源:https://academictorrents.com

如果您拥有数据,您可以(正如阿德莱德研究人员观察到的)有效地“逆向工程”任何流行的数据集,例如 城市景观国际金融交易会.

以 PubFig 为例,该数据集在前面的示例中启用了“奥巴马花”,哥伦比亚大学通过指导研究人员如何解决围绕图像数据集重新分配的版权问题日益增长的趋势 复制 通过精选链接获取数据集,而不是直接提供编译, 观察 “这似乎是其他大型网络数据库的发展方式”.

在大多数情况下,这是没有必要的:Kaggle 估计 计算机视觉中十个最流行的图像数据集是:CIFAR-10 和 CIFAR-100(都是 可直接下载); CALTECH-101 和 256(均可用,且目前均以种子形式提供); MNIST(正式可用,也在种子上); ImageNet(见上文); 帕斯卡 VOC (可使用,也在种子上); 可可女士(可使用,以及种子); 运动-1M (可使用); 和 YouTube-8M(可使用).

这种可用性也代表了更广泛的可用计算机视觉图像数据集,因为在“发布或灭亡”的开源开发文化中,模糊性就是死亡。

无论如何,稀缺性 管理 新的数据集、图像集开发的高成本、对“旧的最爱”的依赖以及趋势 只需调整旧数据集 所有这些都加剧了阿德莱德新论文中概述的问题。

对对抗性图像攻击方法的典型批评

机器学习工程师对最新对抗性图像攻击技术的有效性最常见和持续的批评是,这种攻击是 特定于特定数据集、特定模型或两者; 它不能“推广”到其他系统; 因此,这只是一个微不足道的威胁。

第二个最常见的抱怨是对抗性图像攻击是 “白盒”,这意味着您需要直接访问训练环境或数据。 在大多数情况下,这确实是一种不太可能发生的情况——例如,如果您想利用面部识别系统的训练过程 伦敦大都会警察局的,你必须侵入 NEC,使用控制台或斧头。

流行计算机视觉数据集的长期“DNA”

关于第一个批评,我们不仅应该考虑到少数计算机视觉数据集逐年在行业中占据主导地位(即用于多种类型物体的 ImageNet、用于驾驶场景的 CityScapes 以及 FF总部 用于面部识别); 而且,作为简单的带注释的图像数据,它们是“平台无关的”并且高度可转移。

根据其功能,任何计算机视觉训练架构都会发现 一些 ImageNet 数据集中的对象和类的特征。 某些架构可能会比其他架构发现更多功能,或者比其他架构建立更有用的连接,但是 所有 应该至少找到最高级别的特征:

ImageNet 数据,具有最小可行数量的正确识别——“高级”特征。

ImageNet 数据,具有最小可行数量的正确识别——“高级”特征。

正是这些“高级”特征可以区分数据集并对其进行“指纹识别”,并且这些特征是可靠的“挂钩”,可将长期对抗性图像攻击方法挂在其上,该方法可以跨越不同的系统,并与“旧的数据集,因为后者在新的研究和产品中得到延续。

更复杂的架构将产生更准确、更精细的标识、特征和类别:

然而,对抗性攻击生成器越依赖这些 降低 特征(即“年轻白人男性”而不是“面孔”),在使用交叉或更高版本的架构中效果越差 不同的版本 原始数据集的 - 例如子集或过滤集,其中完整数据集中的许多原始图像不存在:

对“归零”、预训练模型的对抗性攻击

如果您只是下载一个最初在非常流行的数据集上训练的预训练模型,并为其提供全新的数据,那么情况又如何呢?

该模型已经在(例如)ImageNet 上进行了训练,剩下的就是 权重,它可能需要几周或几个月的时间来训练,现在可以帮助您识别与原始(现在不存在)数据中存在的类似对象。

随着原始数据从训练架构中删除,剩下的就是模型按照最初学习的方式对对象进行分类的“倾向”,这本质上会导致许多原始“特征”一旦发生改变并变得脆弱。再次使用相同的旧对抗性图像攻击方法。

随着原始数据从训练架构中删除,剩下的就是模型按照最初学习的方式对对象进行分类的“倾向”,这本质上会导致许多原始“特征”一旦发生改变并变得脆弱。再次使用相同的旧对抗性图像攻击方法。

这些重量很有价值。 没有数据 or 权重,你基本上有一个没有数据的空架构。 您必须从头开始训练它,花费大量时间和计算资源,就像原作者所做的那样(可能使用比您可用的更强大的硬件和更高的预算)。

问题在于,配重已经非常良好且有弹性。 尽管它们会在训练中进行一些调整,但它们在新数据上的行为将与在原始数据上的行为相似,从而产生对抗性攻击系统可以重新输入的签名特征。

从长远来看,这也保留了计算机视觉数据集的“DNA” 十二岁或以上,并且可能经历了从开源工作到商业化部署的显着演变——即使原始训练数据在项目开始时就被完全抛弃了。 其中一些商业部署可能需要数年时间才能实现。

无需白盒

关于对抗性图像攻击系统的第二个常见批评,新论文的作者发现,他们用精心制作的花朵图像欺骗识别系统的能力在多种架构中具有高度可移植性。

虽然他们的“通用自然对抗补丁”(TnT)方法是第一个使用可识别图像(而不是随机扰动噪声)来欺骗图像识别系统的方法,但作者还指出:

'[TnTs] 可有效对抗多种最先进的分类器,包括广泛使用的分类器 WideResNet50 在大规模视觉识别任务中 影像网 人脸识别任务中的数据集到VGG-face模型 酒吧无花果 两者中的数据集 针对无目标 攻击。

TnT 可以拥有: i) 通过木马攻击方法中使用的触发器可实现的自然主义; ii) 的概括性和可移植性 对抗性例子 到其他网络。

“这引发了对已部署的 DNN 以及未来 DNN 部署的安全担忧,攻击者可以使用不显眼的自然对象补丁来误导神经网络系统,而不会篡改模型并冒被发现的风险。”

作者建议采用传统的对策,例如降低 Clean Acc 的性能。 理论上可以提供一些针对 TnT 补丁的防御,但是 “TnT 仍然可以成功绕过这种 SOTA 可证明的防御方法,大多数防御系统的鲁棒性达到 0%”。

可能的其他解决方案包括 联合学习,其中贡献图像的来源受到保护,以及可以在训练时直接“加密”数据的新方法,例如 最近建议 由南京航空航天大学主办。

即使在这些情况下,真正进行培训也很重要 图像数据——到目前为止,最流行的 CV 数据集的一小部分图像和相关注释已深深嵌入到世界各地的开发周期中,以至于更像软件而不是数据; 软件通常多年没有显着更新。

结论

对抗性图像攻击不仅通过开源机器学习实践成为可能,而且还通过企业人工智能开发文化来实现,这种文化鼓励重用成熟的计算机视觉数据集,原因如下:它们已经被证明是有效的; 它们比“从头开始”便宜得多; 它们由学术界和工业界的先锋思想和组织维护和更新,其资金和人员配置水平是单个公司难以复制的。

此外,在许多情况下,数据不是原始的(与城市景观不同),这些图像是在最近有关隐私和数据收集实践的争议之前收集的,使这些旧数据集处于一种 半合法的炼狱 从公司的角度来看,这可能看起来像是一个令人欣慰的“安全港”。

 

TNT 攻击! 针对深度神经网络系统的通用自然对抗补丁 由阿德莱德大学的 Bao Gia Doan、薛民辉、Ehsan Abbasnejad、Damith C. Ranasinghe 以及罗格斯大学计算机科学系的 Shiqing Ma 共同撰写。

 

 

更新于 1 年 2021 月 7 日上午 06:2 GMT+XNUMX – 更正了拼写错误。