人工智能

麻省理工学院研究团队设计人工智能网络以抵御对抗性示例

发布于 2021年3月14日

更新于 2026年5月25日

作者

Daniel Nelson

麻省理工学院的一组研究人员已经开发了一种深度学习算法，旨在帮助人工智能系统应对“对抗性”示例，这些示例可能会导致人工智能做出错误的预测和采取错误的行动。麻省理工学院团队设计的算法可以帮助人工智能系统在面对混乱的数据点时保持准确性，避免犯错误。

人工智能系统分析事件的输入特征以决定如何响应该事件。负责操控自动驾驶汽车的人工智能必须从汽车的摄像头中获取数据，并根据这些图像中的数据决定采取什么行动。然而，有可能被人工智能分析的图像数据并不准确地代表现实世界。摄像头系统中的故障可能会改变一些像素，导致人工智能得出错误的结论关于采取什么行动。

“对抗性输入”就像人工智能系统的视觉幻觉。它们是会以某种方式混淆人工智能的输入。对抗性输入可以被故意制作以使人工智能犯错误，通过以一种方式表示数据，使人工智能相信示例的内容是一种东西而不是另一种东西。例如，通过对猫的图像进行轻微的修改，可以创建一个对抗性示例，使计算机视觉系统错误地将图像分类为计算机显示器。麻省理工学院研究团队设计了一个算法来帮助防御对抗性示例，通过让模型对其接收的输入保持一定的“怀疑”。

麻省理工学院研究人员称他们的方法为“深度强化学习的认证对抗性鲁棒性”，或CARRL。CARRL由一个强化学习网络和一个传统的深度神经网络组成。强化学习使用“奖励”概念来训练模型，模型越接近目标，就会获得越多的奖励。强化学习模型用于训练一个深度Q网络，简称DQN。DQN的功能类似于传统的神经网络，但它们也将输入值与奖励水平关联起来，类似于强化学习系统。

CARRL通过模拟输入数据的各种可能值来运行。

假设人工智能试图跟踪一个较大图像中的点的位置，人工智能会考虑点的位置可能是对抗性影响的结果，并考虑点可能在的区域。然后，网络会根据最坏的情况下的点位置做出决定，选择在这种最坏的情况下能产生最高奖励的行动。

通常的防御对抗性示例的方法是运行输入图像的轻微修改版本，以查看人工智能网络是否始终做出相同的决定。如果对图像的修改不会显著影响结果，那么网络很可能对对抗性示例具有抵抗力。然而，这种方法在需要快速做出决定的场景中不可行，因为这些方法需要耗时的计算。因此，麻省理工学院团队旨在创建一个可以根据最坏情况假设做出决定的人工智能网络，能够在安全至关重要的场景中运行。

麻省理工学院研究人员通过让人工智能玩一场乒乓球游戏来测试他们的算法。他们通过向人工智能提供球在屏幕上稍微下方的示例来包含对抗性示例。随着对抗性示例的影响增加，标准的纠正技术开始失败，而CARRL能够通过比较赢得更多的游戏。CARRL还被测试在一个碰撞避免任务中。任务发生在一个虚拟环境中，两个代理试图在不相撞的情况下交换位置。研究团队修改了第一个代理对第二个代理的感知，CARRL能够成功地将第一个代理导向第二个代理，即使在不确定性很高的情况下，尽管CARRL最终变得过于谨慎，完全避开了其目的地。

无论如何，麻省理工学院航空航天工程系的博士后Michael Everett解释说，这项研究可能会对机器人处理不可预测情况的能力产生影响。正如Everett通过麻省理工学院新闻解释的那样：

“人们可以是对抗性的，比如站在机器人前面以阻挡其传感器，或者以不一定是最好的意图与机器人交互，”Everett说。“机器人如何思考人们可能尝试做的事情，并试图避免它们？我们想要防御什么样的对抗性模型？这是我们正在思考如何做的事情。”

Daniel Nelson

博客作者和程序员，专攻 Machine Learning 和 Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。

Unite.AI

麻省理工学院研究团队设计人工智能网络以抵御对抗性示例

发现更多