麻省理工学院研究人员开发基于好奇心的AI模型以改进聊天机器人安全测试

发布于 2024年4月12日

更新于 2026年5月21日

作者

Alex McFarland

近年来，大型语言模型（LLMs）和AI聊天机器人变得非常普遍，改变了我们与技术的交互方式。这些复杂的系统可以生成类似人类的响应，协助各种任务，并提供有价值的见解。

然而，随着这些模型变得更加先进，人们开始担心它们的安全性和可能生成有害内容的潜力。为了确保AI聊天机器人的负责任部署，彻底的测试和保障措施是必不可少的。

当前聊天机器人安全测试方法的局限性

目前，测试AI聊天机器人安全性的主要方法是一种叫做红队测试的过程。这涉及人类测试人员设计提示，以便从聊天机器人中引出不安全或有毒的响应。通过将模型暴露在广泛的潜在问题输入中，开发人员旨在识别和解决任何漏洞或不良行为。然而，这种人为驱动的方法有其局限性。

鉴于用户输入的可能性非常广泛，人类测试人员几乎不可能涵盖所有可能的场景。即使经过广泛的测试，也可能存在提示中的缺陷，留下聊天机器人在面对新颖或意外输入时容易生成不安全响应的漏洞。此外，红队测试的manual性质使其成为一个耗时且资源密集的过程，尤其是当语言模型继续增长和变得更加复杂时。

为了解决这些局限性，研究人员已经转向自动化和机器学习技术，以增强聊天机器人安全测试的效率和有效性。通过利用AI本身的力量，他们旨在开发更全面的和可扩展的方法来识别和减轻与大型语言模型相关的潜在风险。

麻省理工学院Improbable AI Lab和MIT-IBM沃森AI实验室的研究人员开发了一种创新方法，使用机器学习来改进红队测试过程。他们的方法涉及训练一个单独的红队大型语言模型，自动生成多样化的提示，可以触发聊天机器人更广泛的不良响应。

这种方法的关键在于在红队模型中灌输好奇心。通过鼓励模型探索新颖的提示和专注于生成引出有毒响应的输入，研究人员旨在揭示更广泛的潜在漏洞。这种基于好奇心的探索是通过强化学习技术和修改的奖励信号来实现的。

基于好奇心的模型包括一个熵奖励，鼓励红队模型生成更随机和多样化的提示。另外，新颖奖励被引入，以激励模型创建语义和词汇上与之前生成的提示不同的提示。通过优先考虑新颖性和多样性，模型被推动到未知领域，揭示隐藏的风险。

为了确保生成的提示保持连贯和自然，研究人员还在训练目标中包含了语言奖励。这个奖励有助于防止红队模型生成无意义或不相关的文本，这可能会欺骗毒性分类器将高分数分配给它们。

基于好奇心的方法已经证明了其卓越的成功，超越了人类测试人员和其他自动化方法。它生成了更多样化的不同提示，并从被测试的聊天机器人中引出越来越多的有毒响应。值得注意的是，这种方法甚至能够暴露那些经过广泛的人类设计安全措施的聊天机器人的漏洞，突出了其在揭示潜在风险方面的有效性。

基于好奇心的红队测试的发展标志着一个重要的步骤，确保大型语言模型和AI聊天机器人的安全性和可靠性。随着这些模型继续演变和融入我们的日常生活中，拥有强大的测试方法来跟上它们的快速发展至关重要。

基于好奇心的方法提供了一种更快、更有效的方式来对AI模型进行质量保证。通过自动化多样化和新颖的提示的生成，这种方法可以显著减少测试所需的时间和资源，同时提高对潜在漏洞的覆盖率。这种可扩展性在快速变化的环境中尤其有价值，在这种环境中，模型可能需要频繁更新和重新测试。

此外，基于好奇心的方法开启了定制安全测试过程的新可能性。例如，通过使用大型语言模型作为毒性分类器，开发人员可以使用公司特定的政策文件来训练分类器。这将使红队模型能够测试聊天机器人以遵守特定的组织指南，确保更高的定制化和相关性。

随着AI的不断进步，基于好奇心的红队测试在确保更安全的AI系统方面的重要性不容忽视。通过主动识别和解决潜在风险，这种方法有助于开发更可靠和值得信赖的AI聊天机器人，可以自信地部署在各个领域。

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。