思想领袖
企业AI部署后为什么会失效——以及如何解决

警告:问题不在于模型
2023年,纽约市推出了MyCity聊天机器人,以帮助企业导航复杂的法规。这个想法很简单:使法律信息更容易获取。
在实践中,该系统产生的答案不仅错误,而且具有法律误导性——从小费规则到住房歧视到付款法律。
后来的审计发现,71.4%的用户反馈为负面。与其解决根本问题,不如添加免责声明。聊天机器人甚至在关闭前保持“测试版”状态超过两年。
失败的原因不是技术问题。该系统在生产中崩溃,因为没有机制来确保准确性,没有明确的责任,也没有办法在事情出错时进行干预。
这就是企业AI今天的模式:技术是有效的,但组织没有设置好可靠地运行它的机制。
从试点到生产:一切都在哪里崩溃
建立试点相对简单——选择一个用例,选择一个模型,准备数据,找到赞助商。然而,在生产中运行一个系统则完全是另一回事。
差距就像跳入游泳池和从平流层跳下(如2012年Felix Baumgartner所做的)的区别——相同的基本物理学,但条件完全不同——而且失败的后果也完全不同。
在生产中,AI进入了真正的决策流程,与客户互动,并产生了法律和运营后果。那就是差距开始出现的地方——不在模型中,而是在它的治理中。
欧洲比大多数地区更早地暴露了这一问题。像EU AI法、GDPR和NIS2这样的法规并没有减慢采用速度——它们暴露了组织是否能够在现实约束下运行AI系统。
2025年,55%的欧盟大型企业已经在使用AI。采用已经在大规模发生。挑战在于部署后会发生什么。
在那时,基本的运营问题开始浮现。通常,没有人能回答这些问题:谁对AI输出和自主决策负责?当系统表现出意外行为时会发生什么?谁会在问题被媒体报道之前抓住它?
责任在于公司,而不是技术。 加拿大航空公司的聊天机器人 给客户提供了关于丧亲之痛票价的错误信息。客户依赖于它,后来被拒绝退款。法庭裁定航空公司负责——聊天机器人不是一个独立的实体。
同样的问题,从不同的角度来看: 麦当劳的McHire系统 暴露了近64,000名申请人的敏感数据。原因不是复杂的攻击——管理员登录使用“admin”和“123456”。系统看起来很先进。失败是基本的。
当你在一个活跃的系统上添加治理时,已经太晚了。部署一个系统是一个技术决策。可靠地运行它是一个组织决策。而这就是大多数公司低估的部分。
谁真正拥有AI风险?没有人。
这是核心问题,然而也是最少被讨论的问题。IT管理基础设施。法律处理合规性。业务团队推动用例。但是,没有人拥有端到端的AI风险。
这造成了两个直接的问题。 “启动”决策变慢——因为没有人愿意承担责任。 “停止”决策也同样变慢——因为没有人知道谁可以这样做。
数据反映了这一点。 不到10%的AI用例 从试点到生产,而且大多数组织难以产生可衡量的业务影响。与此同时,许多组织已经在部署AI——但根据 治理成熟度调查,只有7%拥有成熟且一致应用的治理。
为什么这会发生?因为大多数框架和公司政策定义了应该发生什么——而不是谁在重要时刻负责。当一个系统开始在星期五午夜产生不正确的输出时,问题不是理论性的。谁采取行动?谁有权决定?
当规模扩大时,这只会变得更糟。一套系统可以通过非正式方式管理。当你有三十套系统时,责任分散在各个团队中,没有人有完整的图景。
澳大利亚联邦银行 提供了一个明确的例子。该银行用AI语音机器人取代了45名客户服务工人,预计需求会下降。然而,需求并没有下降。电话量增加,经理介入处理过载,该银行不得不重新雇用所有45名员工。当被质疑时,它无法证明自动化已经减少了工作量。
没有人在部署前验证假设。当这些假设失败时,没有人拥有结果。这就是责任真空在实践中的样子。
拥有规则是不够的。你需要一个机制
大多数组织并不缺乏政策。他们缺乏在事情出错时起作用的系统。
一项政策定义了应该发生什么。一个机制决定了实际发生什么——当一个模型产生不正确的输出时,当一个供应商在后台更改某些内容时,或者当一个系统开始表现出意外行为时。
这在生产中变得可见——当必须在现实条件下做出决定时。
这些失败遵循一致的动态。在每种情况下,相同的运营差距以不同的形式出现。
所有权优先
每个部署的AI系统都需要一个明确负责的所有者——一个人,而不是一个团队或部门,有权批准、暂停和关闭它。
没有它,快速部署和安全干预都是不可能的。如澳大利亚联邦银行的例子所示,明确所有权的缺乏直接导致了运营失败。
数据和法律清晰度通常缺失
许多系统在没有记录的数据流、验证的法律依据或关于一旦系统投入生产时适用的义务的清晰度的情况下启动。
2025年,意大利监管机构对 DeepSeek 的行动阐明了这一点。问题不在于模型质量——而在于无法解释如何处理个人数据。结果是欧洲用户的服务中断。
测试很少反映现实世界使用
系统通常根据其性能良好的场景进行评估,但不针对其可能失败的案例。
MyCity聊天机器人是一个明确的例子。基本边缘案例——关于劳动法、住房歧视或付款规则——在部署前没有被捕获。一旦暴露在真实用户面前,这些失败就立即变得公开了。
测试不仅仅是关于性能——它是关于在用户、监管机构或记者之前识别系统可能失败的地方。
干预不明确或太慢
即使问题是可见的,也经常没有明确的触发器或权限来暂停或关闭系统。
Zillow Offers 以大规模展示了这一点。该系统使用算法来定价和购买房屋。随着市场在2021年冷却,系统继续以高价购买。没有检测到漂移的机制,也没有明确的决策点来停止它。结果是损失超过8.8亿美元,并关闭了整个部门。
监控不是所有权
监控通常被简化为仪表板,但那不是防止失败的原因。
重要的是定义的责任:谁跟踪信号,什么触发升级,谁被期望采取行动。
德勤澳大利亚 的案例展示了缺乏明确责任时会发生什么。一个政府报告包括了编造的引用和不正确的法律引用,因为没有人明确负责在交付前验证输出。结果是部分退款和声誉损害。
代理AI:即将到来的将更加困难
生成AI产生输出。代理AI采取行动。这改变了整个风险。
不再是评估单个响应——一条指令可以触发一系列跨系统的决策——API调用、数据访问、事务、更新——通常没有人在每个步骤进行干预。
当事情出错时,问题不再是准确性。它是可追溯性。哪个步骤导致了问题?使用了什么数据?谁授权了该操作?在许多情况下,这些问题在事后很难回答。
现有的差距变得至关重要。模糊的所有权、薄弱的监控和缺乏干预不仅持续存在——它们也会加剧。一个有缺陷的答案可以被纠正。一个有缺陷的行动可以在有人注意到之前产生后果。
早期信号已经指向这个方向。 Gartner 估计,到2027年,超过40%的代理AI项目将被取消——不是由于模型限制,而是因为组织难以控制成本、风险和结果。这种模式与我们在部署后看到的生成AI相同。只是赌注更高。
监管机构已经以一个简单的原则做出反应:自动化不会消除责任。对于组织来说,这意味着:如果所有权和控制权今天尚不明确,扩展到代理系统将不会解决这个问题。它会放大这个问题。
运营它——否则失去它
AI不再是限制因素。模型广泛可用,功能强大,日益商品化。真正的区别在于不是一个组织是否可以构建AI——而是它是否可以在启动后可靠地运行它。
这就是大多数失败发生的地方——不在于如何构建系统,而在于如何运行系统。成功的组织将不是拥有最先进模型的组织。它们将是拥有最清晰的运营结构的组织。
这可以直接测试。拿你的最重要的AI系统,并回答三个问题:
- 谁可以关闭它?
- 你如何知道它何时失败?
- 当它失败时会发生什么?
如果这些答案不明确,该系统尚未准备好投入生产。
模型可能已经准备好了。组织尚未准备好。












