面试

Vahid Behzadan，安全可靠的智能学习 (SAIL) 实验室总监 – 访谈系列

发布时间

4年前

2020 年 4 月 27 日

安托万·塔迪夫

Vahid 是纽黑文大学计算机科学和数据科学助理教授。他也是该公司的董事安全可靠的智能学习 (SAIL) 实验室

他的研究兴趣包括智能系统的安全与保障、人工智能安全问题的心理建模、复杂自适应系统的安全、博弈论、多智能体系统和网络安全。

您在网络安全和确保人工智能安全方面拥有丰富的背景。您能分享一下您是如何被这两个领域所吸引的吗？

我的研究轨迹受到我的两个核心兴趣的推动：找出事物是如何崩溃的，以及了解人类思维的机制。我从青少年时期起就一直积极参与网络安全，因此围绕该领域的经典问题制定了我的早期研究议程。研究生学习几年后，我偶然发现了一个难得的机会来改变我的研究领域。当时，我刚刚读到 Szegedy 和 Goodfellow 关于对抗性示例攻击的早期著作，并发现攻击机器学习的想法非常有趣。随着我更深入地研究这个问题，我开始了解更广泛的人工智能安全领域，并发现它涵盖了我的许多核心兴趣，例如网络安全、认知科学、经济学和哲学。我也开始相信，这一领域的研究不仅令人着迷，而且对于确保人工智能革命的长期利益和安全至关重要。

您是安全可靠的智能学习 (SAIL) 实验室的主任，该实验室致力于为智能机器的安全性奠定坚实的基础。您能否详细介绍一下 SAIL 所开展的工作？

在 SAIL，我和我的学生致力于解决安全、人工智能和复杂系统交叉领域的问题。我们研究的主要重点是从理论和应用角度研究智能系统的安全性。在理论方面，我们目前正在研究多智能体设置中的价值对齐问题，并正在开发数学工具来评估和优化人工智能智能体在稳定性和稳健对齐方面的目标。在实践方面，我们的一些项目探索了自动驾驶汽车和算法交易等尖端人工智能技术的安全漏洞，旨在开发评估和提高此类技术抵御对抗性攻击的能力的技术。

我们还致力于机器学习在网络安全中的应用，例如自动渗透测试、入侵尝试的早期检测以及从社交媒体等开源数据源自动收集和分析威胁情报。

您最近领导了一项努力，提出了将人工智能安全问题建模为精神病理障碍。你能解释一下这是什么吗？

该项目解决了人工智能代理和系统快速增长的复杂性：仅通过查看其低级配置来诊断、预测和控制强化学习代理在非平凡环境中的不安全行为已经非常困难。在这项工作中，我们强调在研究此类问题时需要更高层次的抽象。受人类行为问题科学方法的启发，我们提出精神病理学作为一种有用的高级抽象，用于建模和分析人工智能和通用人工智能中出现的有害行为。作为概念验证，我们研究了学习玩经典贪吃蛇游戏的 RL 代理中奖励黑客的 AI 安全问题。我们证明，如果我们在环境中添加“药物”种子，智能体就会学习到可以通过成瘾的神经科学模型来描述的次优行为。这项工作还提出了基于精神病学治疗方法的控制方法。例如，我们建议使用人工生成的奖励信号作为药物治疗的类似物来改变代理的有害行为。

当谈到自动驾驶汽车时，您对人工智能安全有任何担忧吗？

自动驾驶汽车正在成为在网络物理系统中部署人工智能的突出例子。考虑到当前机器学习技术对错误和对抗性攻击的基本敏感性，我对半自动车辆的安全性深感担忧。此外，自动驾驶领域严重缺乏安全标准和评估协议。不过，我仍然充满希望。与自然智能类似，人工智能也容易犯错误。然而，如果此类错误的发生率和影响低于人类驾驶员，那么自动驾驶汽车的目标仍然可以实现。我们看到业界、学术界以及政府为解决这些问题做出了越来越大的努力。

黑客攻击街道标志使用贴纸或其他方式可能会混淆自动驾驶车辆的计算机视觉模块。您认为这是一个多大的问题？

这些贴纸和一般的对抗性示例给机器学习模型的稳健性带来了根本性挑战。引用 George EP Box 的话说，“所有模型都是错误的，但有些模型是有用的”。对抗性示例利用了模型的这种“错误”，这是由于模型的抽象性质以及训练模型所依据的采样数据的局限性。最近在对抗性机器学习领域的努力在提高深度学习模型对此类攻击的抵御能力方面取得了巨大进步。从安全角度来看，总会有办法欺骗机器学习模型。然而，保护机器学习模型的实际目标是将实施此类攻击的成本增加到经济不可行的程度。

您的重点是深度学习和深度强化学习的安全和保障功能。为什么这个这么重要？

强化学习 (RL) 是应用机器学习来控制问题的重要方法，根据定义，问题涉及对环境的操纵。因此，我认为与分类等其他机器学习方法相比，基于强化学习的系统在现实世界中造成重大损害的风险要高得多。随着深度学习与强化学习的集成，这个问题进一步加剧，使得强化学习能够在高度复杂的环境中得到采用。此外，我认为强化学习框架与人类智能认知的底层机制密切相关，研究其安全性和漏洞可以更好地洞察我们思维决策的局限性。

您认为我们已经接近实现通用人工智能（AGI）了吗？

这是一个众所周知很难回答的问题。我相信我们目前拥有一些可以促进 AGI 出现的架构的构建模块。然而，可能还需要几年或几十年的时间来改进这些架构并提高培训和维护这些架构的成本效率。在未来几年中，我们的代理将以快速增长的速度变得更加聪明。我不认为AGI的出现会以[科学有效]标题的形式宣布，而是作为逐步进展的结果。另外，我认为我们仍然没有一种广泛接受的方法来测试和检测 AGI 的存在，这可能会延迟我们实现第一个 AGI 实例。

我们如何维护一个能够自我思考并且很可能比人类聪明得多的 AGI 系统的安全？

我相信智能行为的格兰特统一理论是经济学，是对主体如何行动和互动以实现他们想要的目标的研究。人类的决策和行动是由他们的目标、信息和可用资源决定的。社会和协作努力是从其对这些群体的个体成员的好处中产生的。另一个例子是刑法，它通过对可能危害社会的行为赋予高昂的成本来阻止某些决定。同样，我相信控制激励和资源可以使人类和 AGI 实例之间出现平衡状态。目前，人工智能安全社区在价值一致性问题的框架下研究了这篇论文。

您密切关注的领域之一是反恐。您是否担心恐怖分子接管人工智能或通用人工智能系统？

人们对人工智能技术的滥用存在很多担忧。就恐怖行动而言，主要关注的是恐怖分子开发和实施自主攻击的难易程度。我越来越多的同事积极警告开发自主武器的风险（见 https://autonomousweapons.org/ ）。人工智能武器的主要问题之一是难以控制底层技术：人工智能处于开源研究的前沿，任何能够访问互联网和消费级硬件的人都可以开发有害的人工智能系统。我怀疑自主武器的出现是不可避免的，并相信很快就会需要新的技术解决方案来对抗此类武器。这可能会导致猫捉老鼠的循环，从而推动人工智能武器的发展，从长远来看，这可能会带来严重的生存风险。

我们可以做些什么来保护人工智能系统免受这些敌对代理的侵害？

第一步也是最重要的一步是教育：所有人工智能工程师和从业者都需要了解人工智能技术的漏洞，并在其系统的设计和实现中考虑相关风险。至于更多的技术建议，有各种可以采用的建议和解决方案概念。例如，在对抗性环境中训练机器学习代理可以提高其针对逃避和策略操纵攻击的弹性和鲁棒性（例如，请参阅我的论文，标题为“凡是不能杀死深度强化学习的东西，都会使其变得更强”）。另一种解决方案是直接考虑代理架构中对抗性攻击的风险（例如风险建模的贝叶斯方法）。然而，这一领域存在重大差距，需要通用的指标和方法来评估人工智能代理针对对抗性攻击的鲁棒性。当前的解决方案大多是临时的，无法提供针对所有类型攻击的通用恢复措施。

关于这些主题您还有什么想分享的吗？

2014 年，斯卡利等人。在 NeurIPS 会议上发表了一篇论文，主题非常有启发性：“机器学习：技术债务的高息信用卡”。尽管该领域在过去几年中取得了所有进步，但这一说法尚未失去其有效性。人工智能和机器学习的现状令人惊叹，但我们尚未填补人工智能基础和工程层面的大量重大空白。在我看来，这一事实是我们谈话中最重要的收获。我当然并不是要阻止人工智能技术的商业应用，只是希望工程界能够在决策中考虑到当前人工智能技术的风险和局限性。

我真的很喜欢了解不同类型人工智能系统的安全挑战。这确实是个人、企业和政府需要意识到的事情。想要了解更多内容的读者可以访问安全可靠的智能学习 (SAIL) 实验室.