思想领袖

通过设计实现人工智能代理的可信度，而不是偶然

发布于 2026年4月8日

更新于 2026年5月16日

作者

Ivana Bartoletti, 威富集团全球首席隐私和人工智能治理官

A photorealistic widescreen image of a compliance team overseeing an AI

人工智能代理的到来不是通过盛大的宣布，而是悄悄地融入到日常运营中。以前处于闲置状态、等待人类提示的系统现在正在采取主动。这种演变已经在组织内部发生，但关于人工智能治理的讨论仍然停留在以前的时代。我们的法律和组织结构从来没有考虑过自治的、非人类的行为者。对于受GDPR约束的公司来说，这不是一个理论上的问题，而是一个现实的运营挑战——并且它的发展速度比大多数合规团队能够舒适地处理的速度还快。

当人工智能工具开始回应

当讨论治理时，焦点通常在合规、风险管理和防止伤害上。虽然这些非常重要，但它们是为一个人工智能基本静态的世界而建造的：训练、测试、发布和监控都遵循可预测的周期。

随着人工智能代理被纳入决策过程中，中心挑战现在变得更多地关注行为和信任。高管必须问自己，“我们如何确保能够采取行动的系统也可以被信任？”信任是一种设计选择，必须有意识地做出，而不是通过说服来实现。遵循GDPR指南的组织了解到，合规性至关重要，并且具有法律后果。

人工智能代理破坏今天的GDPR假设的三种方式

当GDPR被设计时，它并不是为自治代理而写的。然而，GDPR的三个核心原则——目的限制、数据最小化、透明度和问责制——至关重要。人工智能代理以新的方式影响每一个原则，并且有三个关键领域需要解决。

第一个风险是人工智能代理“思考”一个任务的方式。与其运行一个固定的过程，它会将工作分解为许多小步骤，经常调用外部工具、从数据库中提取数据、做出猜测，并在此过程中处理个人数据。其中的大部分发生在视线之外。弄清楚使用了哪些数据、在哪个步骤以及为什么使用这些数据是很难做到的——然而，这正是GDPR期望的透明度和问责制。

第二个风险是代理使用内存的方式。它们可以在短期内存中持有个人数据，同时完成任务，并且可以在多个会话中持有长期内存。如果内存没有被仔细分离，一个人的交互信息可能会泄露到另一个人的交互中。如果您不强制执行明确的保留限制，个人数据可能会在应该被删除之后仍然存在。根据GDPR的删除权，这在代理的内存中变得很难管理，而不是在您的隐私团队可以轻松找到和查询的数据库中。

第三个风险是提示注入——基本上是欺骗代理。当代理读取文档、浏览互联网或处理传入消息时，这些来源中的恶意内容可以劫持其行为、迫使其泄露个人数据或提示其执行组织未经批准的操作。这是一种针对代理系统的已知攻击模式。这意味着您可能会遭受数据泄露，不是因为您的核心系统被黑客攻击，而是因为您的AI代理在执行任务时遇到了敌对内容——在GDPR下，您仍然负责。

建立真正的信任，而不仅仅是一个友好的界面

了解有一个区别是很重要的，即设计信任和获得信任。设计信任可以帮助说服用户相信某一点，通常是通过情感镜像、拟人化提示或说服性设计来实现的。

然而，持久的信任是关于系统以人类可以理解、预测和评估的方式行事。代理的推理、限制和意图都是合法的。这是GDPR兼容设计的前提，即透明度必须是有意义的。

信任堆栈的真正含义是什么？

组织的一种策略是利用分层的信任堆栈。这意味着每一层都明确了人类和机器之间的责任。

清晰的推理路径： 代理应该能够解释它如何和为什么产生了结果——不需要深入的技术细节，但以一种可以理解和核实的方式。这符合GDPR的透明度规则和第22条关于自动化决策的解释权。
清晰的权限限制： 必须对代理可以做什么、决定什么或推荐什么有明确的界限。不能随着时间的推移而悄悄扩大其自由度。对于GDPR来说，这意味着人类仍然做出决定；代理是一个工具，而不是控制器。
开放的目标： 代理的目标必须明确说明。人们应该知道它是否优化了准确性、安全性、速度或商业利益——并且该目标需要被写下来并被理解。
容易挑战和停止按钮： 人们必须能够无缝地质疑、纠正或关闭代理的决定。简单的退出方式对于信任至关重要——在第22条下，这也是一个法律要求。
内置的治理： 日志记录、检查、内存控制和监督需要从第一天开始就内置到系统中，而不是稍后添加。隐私保护设计不是可选的；它是使一切 else 工作的基础结构。

利用信任堆栈可以让自治变得安全可扩展。

当治理遇到现实世界经验

治理不仅仅是关于规则和流程。它也是关于系统对使用它们的人们的感受。人们需要感到他们仍然控制着一切。他们需要看到AI何时正在采取行动，了解为什么它正在做某事，并知道如何在它应该停止时介入。

仅仅符合合规性的系统，但感觉像一个黑盒子，会迅速失去信任。这需要非常有意的设计选择：不发送人类无法做出的信号，例如同理心或道德判断；清晰的信号，当AI不确定或有限时；以及不调整体验以制造情感依赖。

领导者应该超越“我们的AI是否负责？”的问题。一个更好的问题集是：“这个系统会使什么行为变得正常？它会悄悄地让人们远离什么？它会如何随着时间的推移塑造判断——以及我们是否准备好为此承担责任？”