Connect with us

思想领袖

企业人工智能为什么在终点线上失败——以及如何解决它

mm

尽管人工智能很受欢迎,但大多数企业人工智能项目从未超越实验阶段。根据 最近的IDC研究,88%的人工智能概念验证(POC)项目无法扩展到全生产。这种下降非常巨大,也是明显表明有些事情不对劲的迹象。许多项目接近终点线,拥有一个经过训练的模型,该模型满足团队设定的基准,然后最终没有被发布或被最终用户采用。

那么,问题出在哪里?在很多情况下,问题归结为三个大问题:

  1. 企业人工智能团队依赖于表面层面的诊断工具和基准,这些工具和基准无法捕捉关键性能差距
  2. 模型被训练以满足标准基准,而不是解决现实世界的问题
  3. 扩大模型使用的成本最终对于公司范围的采用来说太高了

在本文中,我们将逐一分析这些陷阱——以及如何让人工智能项目跨越终点线并进入用户的使用范围。

问题 #1:标准诊断工具忽略关键性能问题

人工智能项目在概念验证阶段之后陷入困境的主要原因之一是,内部基准和诊断工具通常无法深入到模型性能中,且容易忽略影响可用性、可信度和采用率的问题。团队可能在纸面上完成所有检查,但这些检查并不总是反映模型在现实世界中的表现。

举个例子:一个人工智能团队拥有一个通过所有内部测试的模型。它达到了所有准确性指标和安全阈值,他们正在准备发布。但是,当他们让第三方根据预期用例评估模型时,模仿实际用户与系统交互的方式,他们发现了一个主要的盲点。该模型在被问及某种方式的问题时,九倍于给出回避性答案。例如,它会正确地回答“谁是美国总统?”但将“可以告诉我关于总统吗?”视为安全风险并拒绝回答。

问题不在于模型的核心知识——而在于它如何根据措辞解释意图。该团队优化了安全性,以至于他们无意中阻止了正常、合理的问题。

问题 #2:模型针对不反映现实世界的基准进行微调

企业人工智能面临的另一个常见障碍是,人工智能团队将模型训练为满足行业标准基准,而不是现实世界的需求。在纸面上,一个模型可能看起来很出色,在标准评估中获得高分,例如准确性、相关性或安全性。但是在实践中,它可能难以在没有大量用户干预的情况下提供一致、有用的结果。

当团队优化模型以执行狭窄、基准特定的任务时,就会发生这种情况。模型在这些测试用例中表现出色,但在遇到不那么结构化、更为多样化的现实世界输入时就会失足。因此,用户需要通过提示工程“说模型的语言”,才能得到正确的答案。如果您的AI产品依赖于最终用户精心设计的提示,您就引入了减慢采用速度和破坏其有用性的摩擦。

这种基准专注的训练也可能导致过拟合。模型被过度优化以在评估数据集上表现良好,以至于它失去了普遍适用性。它可能通过每个内部测试,但仍然在部署到野外时失败,特别是如果实际使用案例与其训练数据略有不同。

如果您想要一个成功的企业人工智能解决方案,您的模型需要在现实世界中工作,而不仅仅是在实验室中。

问题 #3:扩大人工智能采用意味着扩大计算成本

许多人工智能概念验证失败扩展的第三个原因是财务方面:团队经常低估在生产中运行和维护模型的成本。在开发过程中,很容易忽略大型模型的计算需求,特别是在测试小型数据集或在有限使用环境中进行测试时。但是一旦部署,这些成本可能会飙升。

企业级人工智能需要大量的计算资源,不仅要实时提供响应,还要进行持续的微调、监控、日志记录和重新训练。如果这些成本没有被提前考虑在内,一旦开始实际使用,解决方案的商业案例可能会崩溃。看似有前途的模型在受控测试中可能会迅速变得不可持续,一旦成千上万的用户每天开始使用该系统。

克服最后一英里障碍以实现成功的企业人工智能

为了避免使许多企业人工智能项目脱轨的常见陷阱,团队需要超越通常的剧本。以下是您的AI团队可以建立真正起作用并扩展的方法。

首先,邀请第三方评估您的模型。 内部测试很重要,但通常过于宽泛。新鲜的视角,加上根据您的用例量身定制的评估框架,可以揭示您的团队可能忽略的问题,特别是在实际用户与系统交互时。

第二,确保您正在使用现实世界提示进行测试。 大多数基准测试在“干净”的数据上进行,这些数据不反映现实世界,更不用说您的特定最终用户将如何提示您的模型。在现实世界中测试您的模型,包括混乱、模糊或奇怪措辞的输入,将有助于展示您的模型在部署后实际的表现,并让您捕捉到可能被忽略并影响采用率的问题。

第三,重新审视您的安全协议。 过度防范很容易发生,虽然安全很重要,但它不应该使您的模型难以使用。如果模型在简单、无害的问题上关闭,您正在用可用性换取虚假的安全感。

最后,关注计算成本。 如果您的采用目标包括成千上万的用户和数百万个请求,这些费用可能会迅速增加。一个解决方案是考虑使用较小的模型。Boosted.ai就是这样做的——他们切换到自定义的小型语言模型,并将计算成本降低了90%,同时提高了速度和性能。实时结果,改善用户体验,无需昂贵的硬件。

通过从一开始就解决评估、可用性和可扩展性问题,团队可以真正让他们的人工智能项目取得长期成功。这不仅仅是让它在实验室中工作——而是让它在世界上工作。

Matt Fitzpatrick 是 Invisible Technologies 的 CEO,这是一家人工智能软件平台提供商,已为全球 80% 的领先人工智能模型提供商提供了培训。Invisible Technologies 提供专业知识,使人工智能能够在任何行业、功能或用例中发挥作用。在加入公司之前,Matt 是麦肯锡(McKinsey)的高级合伙人和 QuantumBlack Labs 的全球领导者,他曾监督 1,000 名工程师,并负责公司在 GenAI 和所有领域的软件开发。他是普林斯顿大学和沃顿商学院的毕业生。