通用人工智能

Vahid Behzadan，Secure and Assured Intelligent Learning (SAIL) Lab主任 – 采访系列

Published April 27, 2020

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vahid 是新罕布什尔大学计算机科学和数据科学的助理教授。他也是 Secure and Assured Intelligent Learning (SAIL) Lab 的主任

他的研究兴趣包括智能系统的安全性和保障性、人工智能安全问题的心理学建模、复杂适应性系统的安全性、博弈论、多智能体系统和网络安全。

您在网络安全和人工智能安全方面有着广泛的背景。可以分享一下您如何被这两个领域所吸引的吗？

我的研究轨迹受到两个核心兴趣的驱动：了解事物如何破坏，以及学习人类心智的机制。我从十几岁开始就积极参与网络安全，并因此围绕该领域的经典问题建立了我的早期研究议程。几年后，我在研究生阶段偶然发现了一个改变研究领域的机会。当时，我刚刚接触到 Szegedy 和 Goodfellow 早期关于对抗性示例攻击的工作，并发现攻击机器学习的想法非常有趣。随着我深入研究这个问题，我了解到了更广泛的人工智能安全和保障领域，并发现它涵盖了我的许多核心兴趣，例如网络安全、认知科学、经济学和哲学。我也相信，该领域的研究不仅令人着迷，而且对于确保人工智能革命的长期利益和安全至关重要。

您是 Secure and Assured Intelligent Learning (SAIL) Lab 的主任，该实验室致力于为智能机器的安全和保障性奠定基础。可以详细介绍一下 SAIL 的工作吗？

在 SAIL，我们的研究重点在于安全、人工智能和复杂系统的交叉点。我们的主要研究重点是从理论和应用两个方面研究智能系统的安全和保障性。从理论方面，我们目前正在研究多智能体环境中的价值对齐问题，并开发数学工具来评估和优化人工智能代理的目标，以实现稳定性和鲁棒性对齐。在实践方面，我们的一些项目探索了最先进的人工智能技术（如自动驾驶汽车和算法交易）的安全漏洞，并旨在开发评估和提高这些技术对对抗性攻击的抵御能力的技术。

我们还致力于将机器学习应用于网络安全，例如自动化渗透测试、入侵尝试的早期检测和自动化威胁情报收集和分析来自公开数据源（如社交媒体）。

您最近领导了一项提案，提出将人工智能安全问题建模为精神病理学障碍。可以解释一下这是什么吗？

该项目解决了人工智能代理和系统日益增长的复杂性：仅通过查看其低级配置，就已经很难诊断、预测和控制强化学习代理在非平凡环境中的不安全行为。我们强调了在研究这些问题时需要更高层次的抽象。在受人类行为问题科学方法的启发下，我们提出了精神病理学作为一种有用的高层次抽象来建模和分析人工智能和通用人工智能中的出现的有害行为。作为一个概念验证，我们研究了强化学习代理学习玩经典游戏 Snake 的奖励黑客攻击安全问题。我们展示了，如果我们在环境中添加一个“药物”种子，代理将学习一种可以通过神经科学模型描述为成瘾的次优行为。该工作还提出了基于精神病学中使用的治疗方法的控制方法。例如，我们提出了使用人工生成的奖励信号作为药物治疗来修改代理的有害行为。

您对自动驾驶汽车的人工智能安全有何担忧？

自动驾驶汽车正成为人工智能在网络物理系统中部署的突出例子。考虑到当前机器学习技术容易出错和受到对抗性攻击，我深深担心甚至半自动驾驶汽车的安全和保障。另外，自动驾驶领域缺乏安全标准和评估协议。然而，我仍然保持乐观。与自然智能一样，人工智能也会容易犯错。但是，如果人工智能系统的错误率和影响比人类驾驶员低，那么自驾驶汽车的目标仍然可以实现。我们正在见证行业和学术界，以及政府为解决这些问题而做出的日益增长的努力。

用贴纸黑客攻击街道标志或使用其他方法可以混淆自动驾驶汽车的计算机视觉模块。您认为这是一个多大的问题？

这些贴纸和一般的对抗性示例引发了机器学习模型的鲁棒性方面的基本挑战。引用 George E. P. Box 的话，“所有模型都是错误的，但有些是有用的”。对抗性示例利用了模型的“错误性”，这是由于它们的抽象性质以及它们所训练的数据样本的限制。最近，针对对抗性机器学习领域的努力已经取得了巨大的进步，以提高深度学习模型对此类攻击的抵御能力。从安全角度来看，总会有方法来欺骗机器学习模型。然而，保护机器学习模型的实际目标是提高实施此类攻击的成本，使其达到经济上不可行的程度。

您的重点是深度学习和深度强化学习的安全和保障特性。为什么这是如此重要？

强化学习（RL）是将机器学习应用于控制问题的主要方法，这本质上涉及操纵其环境。因此，我相信基于 RL 的系统比其他机器学习方法（如分类）具有更高的风险，可能会在现实世界中造成重大损害。这个问题进一步被深度学习与 RL 的集成所加剧，这使得 RL 可以在高度复杂的环境中采用。此外，我认为 RL 框架与人类智能的认知机制密切相关，研究其安全性和脆弱性可以带来对我们思维决策限制的更好见解。

您认为我们是否接近实现人工智能通用智能（AGI）？

这是一个很难回答的问题。我相信我们目前拥有了一些可以促进 AGI出现的架构构件。然而，可能需要几年或几十年来改进这些架构并提高训练和维护这些架构的成本效益。在未来几年里，我们的代理将以迅速增长的速度变得更加智能。我不认为 AGI 的出现将以科学上有效的标题的形式宣布，而是作为逐渐进步的结果。另外，我认为我们仍然没有一个被广泛接受的方法来测试和检测 AGI 的存在，这可能会延迟我们意识到 AGI 的第一个实例的时间。

如何在能够独立思考且可能比人类更智能的 AGI 系统中保持安全？

我相信智能行为的统一理论是经济学和研究代理如何行动和相互作用以实现其目标的学科。人类的决策和行动由其目标、信息和可用资源决定。社会和协作努力是从其成员的利益中产生的。另一个例子是刑法，它通过将高成本附加到可能损害社会的行为来阻止某些决策。同样，我相信控制激励和资源可以使人类和 AGI 实例之间实现平衡状态。目前，人工智能安全社区正在研究价值对齐问题。

您密切关注的一个领域是反恐怖主义。您是否担心恐怖分子接管人工智能或 AGI 系统？

人工智能技术的滥用有很多令人担忧的问题。在恐怖主义行动中，主要问题是恐怖分子可以轻松开发和实施自主攻击。我的许多同事正在积极警告开发自主武器的风险（见 https://autonomousweapons.org/ ）。人工智能武器的一个主要问题是控制底层技术的困难：人工智能处于开源研究的前沿，任何拥有互联网和消费级硬件的人都可以开发有害的人工智能系统。我怀疑自主武器的出现是不可避免的，并且相信很快就会需要新的技术解决方案来对抗此类武器。这可能会导致一个猫鼠游戏，推动人工智能武器的演变，这可能会在长期内带来严重的生存风险。

我们如何保护人工智能系统免受这些对抗性代理的影响？

首要步骤是教育：所有人工智能工程师和从业者都需要了解人工智能技术的漏洞，并在设计和实施系统时考虑相关风险。至于更技术性的建议，有各种提议和解决方案可以采用。例如，在对抗性环境中训练机器学习代理可以提高其对规避和策略操纵攻击的抵御能力和鲁棒性（例如，参见我的论文《无论什么不杀死深度强化学习，都会使其更强大》）。另一个解决方案是直接在代理的架构中考虑对抗性攻击的风险（例如，基于贝叶斯的风险建模方法）。然而，在这个领域存在一个重大差距，即需要通用的度量和方法来评估人工智能代理对对抗性攻击的鲁棒性。当前的解决方案大多是特定于应用的，并且无法提供对所有类型攻击的一般性抵御能力。

您是否还有其他想分享的关于这些主题的内容？

2014 年，Scully 等人在 NeurIPS 会议上发表了一篇题为“机器学习：技术债的高利息信用卡”的论文。即使在过去几年中，领域取得了巨大的进步，这个陈述仍然没有失去其有效性。当前的人工智能和机器学习状态简直令人惊叹，但我们仍然需要填补人工智能基础和工程维度中的许多重大差距。在我看来，这是我们对话中最重要的收获。我当然不想阻止人工智能技术的商业采用，但只是希望使工程社区能够在其决策中考虑当前人工智能技术的风险和局限性。

我真的很享受学习关于不同类型人工智能系统的安全和保障挑战。这个确实是个人、公司和政府需要意识到的东西。希望了解更多的读者可以访问 Secure and Assured Intelligent Learning (SAIL) Lab。

Antoine Tardif, CEO & Founder of Unite.AI

安托万是一位具有远见的领导者和Unite.AI的创始合伙人，他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者，他相信AI将对社会产生与电力一样的颠覆性影响，他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家，他致力于探索这些创新将如何塑造我们的世界。另外，他也是Securities.io的创始人，这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。

Unite.AI

Vahid Behzadan，Secure and Assured Intelligent Learning (SAIL) Lab主任 – 采访系列

You may like