思想领袖
人工智能优先意味着安全优先

给孩子买辆崭新的自行车,所有人的目光都会集中在自行车上,而不是与之配套的闪亮头盔。但家长们却很在意头盔。
恐怕如今我们很多人在人工智能方面都像孩子一样。我们只关注它有多酷炫,以及它能让我们用它跑多快,却很少关注如何在使用它时确保安全。这很可惜,因为二者缺一不可。
简而言之,在没有事先周密规划安全措施的情况下应用人工智能,不仅仅是冒险,简直就是自寻死路。
人工智能安全究竟意味着什么?
人工智能安全涉及诸多步骤。但或许最重要的因素是 ,尤其是 服用它们。为了有效,人工智能安全必须…… 通过设计。
这意味着,在进行测试之前,我们会考虑如何防止造成伤害。我们会先确保人工智能的运行和结果符合我们的价值观和社会期望,而不是等到出现糟糕的结果之后才去研究如何确保人工智能的运行和结果符合我们的价值观和社会期望。
人工智能安全设计还包括考虑如何使其稳健可靠,即使在不利情况下也能保持可预测的运行状态。这意味着要让人工智能透明化,使其决策易于理解、可审计且公正无偏。
但这其中也包括审视人工智能将要运行的世界。我们需要哪些制度和法律保障措施,尤其是在遵守相关政府法规方面?而且,我必须强调人的因素:人工智能的使用会对与之互动的人们产生什么影响?
从设计上就保证安全,意味着在输入第一个提示之前,就将人工智能安全融入到我们所有的流程、工作流程和操作中。
风险大于担忧
并非所有人都认同这种观点。有些人一听到“安全第一”,就想到“小心翼翼、步履蹒跚,最终被时代抛在后面”。当然,安全第一并非如此。它不必扼杀创新或延缓产品上市。它也不意味着无休止地进行试点,最终却无法规模化。恰恰相反。
这确实意味着要了解风险 不会 将安全性融入人工智能的设计中。请考虑以下几个方面。
- 德勤金融服务中心 预测到 2027 年,仅在美国,GenAI 就可能造成 40 亿美元的欺诈损失,而 2023 年为 12.3 亿美元,复合年增长率达 32%。
- 带有偏见的决定。 案例文件 有偏见的医疗保健 由于人工智能是基于有偏见的数据进行训练的。
- 糟糕的决定会引发更多糟糕的决定。 比最初由人工智能故障引发的错误决策更糟糕, 研究表明 这些错误的决定可能会影响我们未来的思维方式和决策方式。
- 真正的后果. 人工智能提供的错误医疗建议已导致患者死亡。将人工智能的幻觉作为法律先例也引发了法律纠纷。此外,人工智能助手提供错误信息导致的软件故障,损害了公司产品及其声誉,并导致用户普遍不满。
事情接下来会变得更加有趣。
出现和 快速采用智能体人工智能能够自主运行并根据自身决策采取行动的人工智能,将凸显人工智能安全设计的重要性。
能够代表你行事的AI代理将非常有用。它不仅可以告诉你最佳航班信息,还能帮你找到并预订机票。如果你想退货,公司的AI代理不仅可以告诉你退货政策和退货流程,还能帮你处理整个退货交易。
很好——只要代理人不会凭空捏造航班信息,或者错误处理你的财务信息。或者搞错公司的退货政策,拒绝合理的退货申请。
不难看出,当前人工智能的安全风险很容易随着大量人工智能代理四处活动、做出决策和采取行动而蔓延开来,尤其是在它们不太可能单独行动的情况下。智能体人工智能的真正价值很大程度上来自于代理团队,每个代理负责一部分任务,并通过代理之间的协作来完成工作。
那么,如何在不阻碍创新和扼杀人工智能潜在价值的前提下,从设计之初就注重人工智能的安全性呢?
安全设计实践
临时性的安全检查并非解决之道。将安全措施融入人工智能实施的每个阶段才是正解。
首先要准备好数据。确保数据已标注(必要时已添加注释)、无偏见且高质量。这一点对于训练数据尤为重要。
利用人类反馈训练模型,因为人类的判断对于塑造模型行为至关重要。强化学习与人类反馈(RLHF)及其他类似技术允许标注者对响应进行评分和指导,从而帮助逻辑学习模型(LLM)生成安全且符合人类价值观的输出。
然后,在发布模型之前,务必进行压力测试。红队会使用对抗性提示、极端情况和越狱尝试来诱发不安全行为,从而暴露漏洞。在公开发布之前修复这些漏洞,可以防患于未然,确保安全。
虽然这种测试可以确保您的 AI 模型具有稳健性,但请继续监控它们,密切关注新出现的威胁以及可能需要对模型进行的调整。
同样,应定期监控内容来源和数字互动,以发现欺诈迹象。至关重要的是,应采用人工智能与人工相结合的方式,让人工智能自动化系统处理海量数据,而由经验丰富的人员进行审核,以确保监管到位和准确性。
应用智能体人工智能需要格外谨慎。一个基本要求是:训练智能体了解自身的局限性。当它遇到不确定性、伦理困境、新情况或风险极高的决策时,务必确保它知道如何寻求帮助。
此外,还要在代理程序中设计可追溯性。这一点尤为重要,它可以确保代理程序仅与已验证用户进行交互,从而避免欺诈者影响代理程序的行为。
如果代理看起来工作高效,你可能会想放手让他们自由发挥。但我们的经验表明,应该持续监控他们及其执行的任务,以防出现错误或异常行为。同时采用自动化检查和人工审核。
事实上,人工智能安全的关键要素之一是人类的定期参与。在决策或行动中,凡涉及批判性判断、同理心或细微差别和模糊之处时,都应有人类的参与。
再次强调,这些都是需要预先构建到人工智能实现中的实践方法。 通过设计它们并非是由于出了问题后匆忙想办法减少损失而导致的。
它有用吗?
从GenAI兴起到如今快速迈向智能体AI,我们始终秉持“人工智能安全至上”的理念,并运用“设计即安全”的框架与客户紧密合作。我们发现,与人们担心的会拖慢发展速度相反,这种理念实际上有助于加速发展。
例如,智能体人工智能有望将客户支持成本降低 25% 至 50%,同时提升客户满意度。但这都取决于信任。
使用人工智能的人必须信任它,而与人工智能客服人员或真正的人工智能代理互动的客户,不能经历任何可能动摇他们信任的互动。一次糟糕的体验就可能彻底摧毁消费者对品牌的信心。
我们不信任不安全的事物。因此,当我们把安全机制融入即将推出的人工智能的每一层时,我们就能充满信心地进行部署。而当我们准备好扩展规模时,我们也能快速且充满信心地完成部署。
将“人工智能安全第一”付诸实践或许看似困难重重,但您并非孤军奋战。众多专家可以提供帮助,合作伙伴也能分享他们的经验和心得,助您安全地利用人工智能的价值,而不会影响您的发展。
人工智能的发展至今为止令人兴奋,随着发展速度的加快,我感到无比激动。但我同时也庆幸自己时刻保持警惕。












