思想领袖

企业AI部署后为什么会崩溃——以及如何解决

Published May 13, 2026

Zuzana Drotárová, Head of Regional Competency, Avenga

警告：问题不在于模型

2023年，纽约市推出了MyCity聊天机器人，以帮助企业应对复杂的法规。这个想法很简单：使法律信息更容易获取。

在实践中，该系统产生的答案不仅错误，而且具有法律误导性——从小费规则到住房歧视到付款法律。

后来的审计发现，71.4%的用户反馈为负面。与其解决根本问题，不如添加免责声明。聊天机器人甚至在关闭前一直处于“测试”状态超过两年。

失败并非技术原因。该系统在生产中崩溃，因为没有机制确保准确性，没有明确的责任，也没有办法在事情出错时进行干预。

这是企业AI今天背后的模式：技术有效，但组织尚未准备好在其上线后可靠地运行它。

从试点到生产：一切都在这里崩溃

建立试点相对简单——选择一个用例，选择一个模型，准备数据，找到赞助商。在生产中运行系统则完全是另一回事。

差距就像从池塘跳入和从平流层跳下的区别，就像2012年费利克斯·鲍姆加特纳所做的那样。相同的基本物理学，完全不同的条件——而失败的后果也大不相同。

在生产中，AI进入了真正的决策流程，与客户互动，并产生了法律和运营后果。这就是差距开始出现的地方——不在模型中，而是在它的管理中。

欧洲比大多数地区更早地使这一点变得明显。像EU AI法、GDPR和NIS2这样的法规不会减慢采用速度——它们暴露了组织是否能够在真正的约束下运行AI系统。

2025年，55%的欧盟大型企业已经在使用AI。采用已经在大规模发生。挑战是部署后会发生什么。

在那时，基本的运营问题开始浮现。通常，没有人能回答它们：谁对AI输出和自主决策负责？当系统表现出意外的行为时会发生什么？谁会在问题被媒体报道之前抓住它？

责任在于公司，而不是技术。加拿大航空公司的聊天机器人向客户提供了关于丧亲假的错误信息。客户依赖于它，后来被拒绝退款。法庭裁定，航空公司负责——聊天机器人不是一个独立的实体。

同样的问题，换个角度：麦当劳的McHire系统暴露了近64,000名申请人的敏感数据。原因不是复杂的攻击——管理员登录使用“admin”和“123456”。系统看起来很先进。失败是基本的。

当你在现有系统上添加治理时，已经太晚了。部署系统是一个技术决策。可靠地运行它是一个组织决策。而这正是大多数公司低估的部分。

谁真正拥有AI风险？没有人。

这是问题的核心，然而又是最少被讨论的。IT管理基础设施。法律处理合规性。业务团队推动用例。但没有人拥有端到端的AI风险。

这造成了两个直接的问题。启动决策变慢——因为没有人愿意承担责任。停止决策也同样变慢——因为没有人知道谁可以这样做。

数据反映了这一点。不到10%的AI用例从试点到生产，而且大多数组织难以产生可衡量的业务影响。同时，许多组织已经在部署AI——但根据治理成熟度调查，只有7%拥有成熟且一致应用的治理。

为什么这种情况会发生？因为大多数框架和公司政策定义了应该发生什么——而不是谁在重要时刻负责。当系统开始在星期五午夜产生不正确的输出时，问题不是理论性的。谁采取行动？谁有权决定？

这在规模上变得更糟糕。一套系统可以被非正式管理。当你有三十套系统时，责任分散在各个团队中，没有人拥有完整的图景。

澳大利亚联邦银行提供了一个明确的例子。银行用AI语音机器人取代了45名客户服务人员，预计需求会下降。然而，需求并没有下降。电话量增加，经理们介入处理超载，银行不得不重新雇用所有45名员工。当被质疑时，它无法证明自动化已经减少了工作量。

没有人在部署前验证假设。当这些假设失败时，没有人拥有结果。这就是责任真空在实践中的样子。

拥有规则是不够的。你需要一个机制

大多数组织并不缺乏政策。他们缺乏在事情出错时有效的系统。

政策定义了应该发生什么。机制决定了实际发生什么——当模型产生不正确的输出时，当供应商在后台更改某些内容时，或者当系统开始表现出意外的行为时。

这种差异在生产中变得明显——当在真正的条件下做出决定时。

这些失败遵循一致的动态。在每种情况下，相同的运营差距出现——只是以不同的形式出现。

所有权优先

每个部署的AI系统都需要一个明确负责的所有者——一个人，而不是一个团队或部门，具有批准、暂停和关闭系统的权力。

没有它，快速部署和安全干预都是不可能的。正如在澳大利亚联邦银行的例子中，缺乏明确的所有权直接导致了运营失败。

数据和法律清晰度通常缺失

许多系统在没有记录的数据流、验证的法律依据或关于一旦系统上线后适用的义务的清晰度的情况下启动。

2025年，意大利监管机构对DeepSeek采取行动，清楚地说明了这一点。问题不在于模型质量——而在于无法解释个人数据如何处理。结果是欧洲用户的服务中断。

测试很少反映真实世界使用

系统通常被评估为在其表现良好的场景中，但不是在其失败最重要的场景中。

MyCity聊天机器人是一个明确的例子。基本的边缘案例——关于劳动法、住房歧视或付款规则——在部署前没有被捕获。一旦暴露在真正的用户面前，这些失败就变得公开了。

测试不仅仅是关于性能——而是关于在用户、监管机构或记者之前识别系统失败的地方。

干预不明确或太慢

即使问题是可见的，通常也没有明确的触发器或权限来暂停或关闭系统。

Zillow Offers在大规模上展示了这一点。该系统使用算法来定价和购买房屋。随着2021年市场的冷却，该系统继续以高价购买。没有机制来及时检测漂移，也没有明确的决策点来停止它。结果是损失超过8.8亿美元，并关闭了整个部门。

监控不是所有权

监控通常被简化为仪表板，但这并不是防止失败的原因。

重要的是明确的责任：谁跟踪信号，什么触发升级，谁被期望采取行动。

德勤澳大利亚的案例展示了缺乏这一点会发生什么。政府报告包括了编造的引用和不正确的法律参考，因为没有人明确负责在交付前验证输出。结果是部分退款和声誉损害。

代理AI：即将到来的挑战将更加困难

生成AI产生输出。代理AI采取行动。这改变了整个风险。

不再是评估单个响应，而是一条指令可以触发一系列跨系统的决策——API调用、数据访问、事务、更新——通常没有每个步骤的人类干预。

当事情出错时，问题不再是准确性。它是可追溯性。哪个步骤导致了问题？什么数据被使用？谁授权了该操作？在许多情况下，这些问题很难在事后回答。

现有的差距变得至关重要。模糊的所有权、薄弱的监控和缺乏干预不仅持续——而且加剧。一个有缺陷的答案可以被纠正。一个有缺陷的行动可以在有人注意到之前产生后果。

早期信号已经指向这个方向。Gartner估计，到2027年，超过40%的代理AI项目将被取消——不是由于模型限制，而是因为组织难以控制成本、风险和结果。这与我们在部署后看到的生成AI模式相同。只是赌注更高。

监管机构已经以一个简单的原则做出反应：自动化不会消除责任。对于组织来说，这意味着：如果今天所有权和控制不明确，扩展到代理系统不会解决问题。它会放大它。

运营它——否则失去它

AI不再是限制因素。模型广泛可用、功能强大且日益商品化。真正的区别不是组织是否可以构建AI——而是它是否可以在上线后可靠地运行。

这是大多数失败发生的地方——不在于如何构建系统，而在于如何运行系统。成功的组织将不是拥有最先进模型的组织。它们将是拥有最清晰的运营结构的组织。

这可以直接测试。拿你的最重要的AI系统，回答三个问题：

谁可以关闭它？
你如何知道它何时失败？
当它失败时会发生什么？

如果这些答案不明确，该系统尚未准备好投入生产。

模型可能已经准备好了。组织尚未准备好。