思想领袖

以人工智能为先的安全第一

发布于 2025年12月16日

更新于 2026年5月17日

作者

Joe Anderson, 咨询和数字转型高级总监 tại TaskUs

给孩子买一辆崭新的自行车，自行车会吸引所有的注意力——而不是伴随它的闪亮头盔。但父母们会感激头盔。

我担心我们今天很多人在人工智能方面就像孩子一样。我们专注于它的酷炫和速度，而不是我们如何在使用它时保持安全。这很遗憾，因为你不能在没有另一个的情况下获得其中一个的好处。

简单地说，没有仔细规划安全的前提下应用人工智能，不仅仅是冒险的——这是直接走向悬崖的道路。

什么是人工智能安全性?

人工智能安全性涉及一系列步骤。但也许最重要的元素是何时采取这些步骤。为了有效，人工智能安全性必须 由设计决定 。

这意味着我们在进行测试之前考虑如何防止伤害。我们首先弄清楚如何确保人工智能按照我们的价值观和社会期望运作和生成结果——而不是在获得可怕的结果之后。

设计人工智能安全性还包括思考如何使其变得强壮，即使在不利情况下也能可预测地运行。它意味着使人工智能变得透明，这样人工智能做出的决定就可以被理解、审计和无偏见。

但这也包括检查人工智能将要运行的世界。我们需要什么样的制度和法律保障，特别是为了遵守适用的政府法规？我也不能过多强调人员的重要性：人工智能的使用将对与之交互的人产生什么影响?

安全性设计意味着在我们开始编写第一个提示之前，将人工智能安全性融入所有我们的流程、工作流程和运营中。

风险大于顾虑

并不是每个人都同意。当他们听到“安全第一”时，一些人听到的是“一步一步地小心翼翼地走，否则你会被甩在后面”。当然，这不是安全第一的意思。这并不意味着要扼杀创新或减缓上市时间。也不意味着会有无休止的试验，最终无法扩大规模。恰恰相反。

这意味着了解不将安全性设计到人工智能中的风险。考虑以下几点。

德勤的金融服务中心预测，通用人工智能可能会导致美国alone的欺诈损失在2027年达到400亿美元，从2023年的123亿美元，复合年增长率为32%。
有偏见的决定。 案例文件有偏见的医疗保健是由于人工智能在有偏见的数据上进行训练所致。
不良决定导致更多不良决定。 比人工智能引发的最初不良决定更糟糕的是，研究表明这些不良决定可能会成为我们思考和做出未来的决定的依据。
真正的后果。提供不良医疗建议的人工智能导致了致命的患者结果。引用人工智能的幻觉作为法律先例导致了法律问题。软件错误是由于人工智能助手提供的错误信息导致公司产品和声誉受到损害，并导致广泛的用户不满。

事情即将变得更加有趣。

代理人工智能的出现和快速采用，即可以自主运行以根据其做出的决定采取行动的人工智能，将会放大设计人工智能安全性的重要性。

一个可以代表您采取行动的代理人工智能可能非常有用。它不仅可以告诉您最佳的航班，还可以为您预订航班。如果您想退货，公司的代理人工智能可以不仅告诉您退货政策和如何申请退货，还可以处理整个交易。

很好——只要代理人不产生幻觉或误处理您的财务信息。或者公司的退货政策有误并拒绝有效的退货。

很容易看出，当前的人工智能安全风险可能会随着大量人工智能代理运行并做出决定而迅速增加，尤其是当它们不太可能单独运行时。代理人工智能的真正价值将来自于代理人团队的合作，每个代理人处理任务的各个部分，并相互协作以完成工作。

那么，你如何在不阻碍创新和扼杀其潜在价值的情况下，通过设计实现人工智能安全性？

安全性设计在行动

临时的安全检查并不是答案。但是，将安全实践融入人工智能实施的每个阶段是可以的。

从数据开始。确保数据被标记、在需要时注释、无偏见和高质量。这对于训练数据尤为重要。

使用人类反馈训练您的模型，因为人类的判断对于塑造模型行为至关重要。强化学习与人类反馈（RLHF）和其他类似技术允许注释者对响应进行评分和指导，从而帮助大型语言模型生成与人类价值观和安全标准一致的输出。

然后，在发布模型之前，进行压力测试。试图使用对抗性提示、边缘情况和尝试越狱的红队可以暴露漏洞。在问题出现之前解决它们可以确保安全。

虽然这种测试可以确保您的AI模型强壮，但要继续监测它们，关注新出现的威胁和可能需要对模型进行的调整。

同样，定期监测内容来源和数字交互，以发现欺诈的迹象。关键是使用人工智能-人类混合方法，让人工智能自动处理大量需要监测的数据，而人类则处理审查以执行和确保准确性。

应用代理人工智能需要更大的谨慎。基本要求：训练代理人了解其局限性。当它遇到不确定性、伦理困境、新情况或特别高风险的决策时，确保它知道如何寻求帮助。

另外，设计代理人的可追溯性。这在代理人与经过验证的用户进行交互时尤为重要，以避免欺诈行为影响代理人的行为。

如果代理人似乎运行有效，可能会很诱人将它们释放并让它们按照自己的方式运行。但我们的经验表明，继续监测它们和它们正在完成的任务，以观察错误或意外行为是非常重要的。使用自动检查和人类审查。

事实上，人工智能安全的一个基本要素是定期的人类参与。人类应该在需要批判性判断、同理心或细微差别和模糊性时被故意纳入决策或行动中。

再次强调，这些都是您在人工智能实施之前就要构建的实践，由设计决定。它们不是在事情出错后才想到的解决方案。

它是否有效?

我们一直在将人工智能安全第一的理念和“由设计决定”的框架应用于客户，随着通用人工智能的出现和代理人工智能的快速发展。我们发现，与人们担心它会减缓进度相反，它实际上有助于加速进度。

代理人工智能有可能将客户支持成本降低25-50%，同时提高客户满意度。但这都取决于信任。

使用人工智能的人必须信任它，与人工智能代理或实际人工智能代理交互的客户不能经历任何可能破坏他们对品牌信任的交互。

我们不信任不安全的东西。当我们在即将推出的人工智能的每个层面都构建安全性时，我们可以自信地做到这一点。当我们准备扩大规模时，我们可以自信地快速扩大规模。

虽然将人工智能安全第一的实践放在行动中似乎令人望而生畏，但您并不孤单。有许多专家可以提供帮助和分享他们的经验和正在学习的知识，以便您可以在不减缓速度的情况下安全地利用人工智能的价值。

人工智能的旅程到目前为止非常令人兴奋，随着旅程的加速，我发现它令人振奋。但我也很高兴我戴上了头盔。

Joe Anderson, 咨询和数字转型高级总监 tại TaskUs

Joe Anderson 是 TaskUs 的咨询和数字转型高级总监，在那里他领导市场战略和创新。他专注于人工智能、客户体验和数字运营的交叉点，并领导 TaskUs 的新型代理人工智能咨询实践。

Unite.AI

以人工智能为先的安全第一

什么是人工智能安全性?

风险大于顾虑

安全性设计在行动

它是否有效?

You may like