思想领袖

企业人工智能为什么在终点线上失败——以及如何解决它

Published September 8, 2025

Updated April 26, 2026

Matthew Fitzpatrick, CEO, Invisible Technologies

尽管人工智能很受欢迎，但大多数企业人工智能项目从未超越实验阶段。根据最近的IDC研究，88%的人工智能概念验证（POC）项目无法扩展到全生产。这种下降非常巨大，也是明显表明有些事情不对劲的迹象。许多项目接近终点线，拥有一个经过训练的模型，该模型满足团队设定的基准，然后最终没有被发布或被最终用户采用。

那么，问题出在哪里？在很多情况下，问题归结为三个大问题：

企业人工智能团队依赖于表面层面的诊断工具和基准，这些工具和基准无法捕捉关键性能差距
模型被训练以满足标准基准，而不是解决现实世界的问题
扩大模型使用的成本最终对于公司范围的采用来说太高了

在本文中，我们将逐一分析这些陷阱——以及如何让人工智能项目跨越终点线并进入用户的使用范围。

问题 #1：标准诊断工具忽略关键性能问题

人工智能项目在概念验证阶段之后陷入困境的主要原因之一是，内部基准和诊断工具通常无法深入到模型性能中，且容易忽略影响可用性、可信度和采用率的问题。团队可能在纸面上完成所有检查，但这些检查并不总是反映模型在现实世界中的表现。

举个例子：一个人工智能团队拥有一个通过所有内部测试的模型。它达到了所有准确性指标和安全阈值，他们正在准备发布。但是，当他们让第三方根据预期用例评估模型时，模仿实际用户与系统交互的方式，他们发现了一个主要的盲点。该模型在被问及某种方式的问题时，九倍于给出回避性答案。例如，它会正确地回答“谁是美国总统？”但将“可以告诉我关于总统吗？”视为安全风险并拒绝回答。

问题不在于模型的核心知识——而在于它如何根据措辞解释意图。该团队优化了安全性，以至于他们无意中阻止了正常、合理的问题。

问题 #2：模型针对不反映现实世界的基准进行微调

企业人工智能面临的另一个常见障碍是，人工智能团队将模型训练为满足行业标准基准，而不是现实世界的需求。在纸面上，一个模型可能看起来很出色，在标准评估中获得高分，例如准确性、相关性或安全性。但是在实践中，它可能难以在没有大量用户干预的情况下提供一致、有用的结果。

当团队优化模型以执行狭窄、基准特定的任务时，就会发生这种情况。模型在这些测试用例中表现出色，但在遇到不那么结构化、更为多样化的现实世界输入时就会失足。因此，用户需要通过提示工程“说模型的语言”，才能得到正确的答案。如果您的AI产品依赖于最终用户精心设计的提示，您就引入了减慢采用速度和破坏其有用性的摩擦。

这种基准专注的训练也可能导致过拟合。模型被过度优化以在评估数据集上表现良好，以至于它失去了普遍适用性。它可能通过每个内部测试，但仍然在部署到野外时失败，特别是如果实际使用案例与其训练数据略有不同。

如果您想要一个成功的企业人工智能解决方案，您的模型需要在现实世界中工作，而不仅仅是在实验室中。

问题 #3：扩大人工智能采用意味着扩大计算成本

许多人工智能概念验证失败扩展的第三个原因是财务方面：团队经常低估在生产中运行和维护模型的成本。在开发过程中，很容易忽略大型模型的计算需求，特别是在测试小型数据集或在有限使用环境中进行测试时。但是一旦部署，这些成本可能会飙升。

企业级人工智能需要大量的计算资源，不仅要实时提供响应，还要进行持续的微调、监控、日志记录和重新训练。如果这些成本没有被提前考虑在内，一旦开始实际使用，解决方案的商业案例可能会崩溃。看似有前途的模型在受控测试中可能会迅速变得不可持续，一旦成千上万的用户每天开始使用该系统。

克服最后一英里障碍以实现成功的企业人工智能

为了避免使许多企业人工智能项目脱轨的常见陷阱，团队需要超越通常的剧本。以下是您的AI团队可以建立真正起作用并扩展的方法。

首先，邀请第三方评估您的模型。 内部测试很重要，但通常过于宽泛。新鲜的视角，加上根据您的用例量身定制的评估框架，可以揭示您的团队可能忽略的问题，特别是在实际用户与系统交互时。

第二，确保您正在使用现实世界提示进行测试。 大多数基准测试在“干净”的数据上进行，这些数据不反映现实世界，更不用说您的特定最终用户将如何提示您的模型。在现实世界中测试您的模型，包括混乱、模糊或奇怪措辞的输入，将有助于展示您的模型在部署后实际的表现，并让您捕捉到可能被忽略并影响采用率的问题。

第三，重新审视您的安全协议。 过度防范很容易发生，虽然安全很重要，但它不应该使您的模型难以使用。如果模型在简单、无害的问题上关闭，您正在用可用性换取虚假的安全感。

最后，关注计算成本。 如果您的采用目标包括成千上万的用户和数百万个请求，这些费用可能会迅速增加。一个解决方案是考虑使用较小的模型。Boosted.ai就是这样做的——他们切换到自定义的小型语言模型，并将计算成本降低了90%，同时提高了速度和性能。实时结果，改善用户体验，无需昂贵的硬件。

通过从一开始就解决评估、可用性和可扩展性问题，团队可以真正让他们的人工智能项目取得长期成功。这不仅仅是让它在实验室中工作——而是让它在世界上工作。

Matthew Fitzpatrick, CEO, Invisible Technologies

Matt Fitzpatrick 是 Invisible Technologies 的 CEO，这是一家人工智能软件平台提供商，已为全球 80% 的领先人工智能模型提供商提供了培训。Invisible Technologies 提供专业知识，使人工智能能够在任何行业、功能或用例中发挥作用。在加入公司之前，Matt 是麦肯锡（McKinsey）的高级合伙人和 QuantumBlack Labs 的全球领导者，他曾监督 1,000 名工程师，并负责公司在 GenAI 和所有领域的软件开发。他是普林斯顿大学和沃顿商学院的毕业生。

Unite.AI

企业人工智能为什么在终点线上失败——以及如何解决它

问题 #1：标准诊断工具忽略关键性能问题

问题 #2：模型针对不反映现实世界的基准进行微调

问题 #3：扩大人工智能采用意味着扩大计算成本

克服最后一英里障碍以实现成功的企业人工智能

You may like