思想领袖
企业AI成功或失败的决定因素:数据质量

自2022年底OpenAI推出ChatGPT以来,每家公司都在争相加快AI的发展步伐。硬件巨头如Nvidia正在出售比以往任何时候都更多的GPU,而大型模型构建者如OpenAI和Anthropic继续构建越来越大的模型。
然而,即使拥有最先进的模型和最大的预算,许多AI项目仍然未能达到预期。我们已经在医疗保健、交通、金融等各个行业看到这种情况发生。原因并不是什么复杂的技术问题:AI的好坏取决于其训练数据和实时接收的数据。当这些数据被错误标记、过时或不完整时,任何模型都无法产生一致或可靠的结果。
这是许多公司今天面临的主要问题。他们大量投资于AI工具,但他们的数据系统仍然分散和不可靠。结果是假象的进步。虽然模型产生了令人印象深刻的答案,但这些答案往往是基于脆弱的基础。AI成功的真正障碍不是模型性能,而是数据质量。
什么是真正的好数据
高质量的数据不仅仅是准确的数据。它意味着当前、完整和与问题相关的信息。想象一下,一位客户试图在电子商务网站上取消订单。系统需要检查订单详情、发货状态和付款记录。如果这些数据点存在于不同的系统中,并且这些系统不能相互通信,AI助手将无法提供有用的答案。
好的数据可以瞬间连接这些点。它使AI能够看到完整的图景,而不是图景的碎片。另一方面,差的数据迫使模型进行猜测。当AI开始猜测时,它会犯错误,这些错误会导致经济损失和信任破坏。最近的例子表明,这种假设的危险性有多大。
纽约市的商业聊天机器人因从过时或不完整的法律信息中获取数据而提供了违法建议。 加拿大航空公司的客户服务机器人因缺乏公司政策背景而做出虚假的退款声明。甚至大型招聘系统也因有偏见或错误标记的数据而错误地过滤了候选人,如EEOC的首次AI相关和解所示。这些失败不仅仅是技术问题,它们也是声誉和财务问题,它们源于训练数据不可靠的AI系统。
行业研究证实了这个问题的规模。Gartner报告称,80%的AI项目因数据质量和治理不善而无法扩大规模。同样,MIT斯隆管理评论调查发现,数据问题,而不是算法,是企业AI项目失败的首要原因。
文化与代码同样重要
提高数据质量不是可以通过单一工具或命令来解决的问题。它需要文化转变。这就是为什么商业领导者必须将数据视为需要关怀和问责的活系统。仅仅声明“让数据变得更好”是不够的。组织的每个部分都必须了解信息如何移动、谁拥有它以及它如何更改。
我们已经看到这种转变在现实系统中如何发生。许多AI应用程序依赖于每晚的数据更新。如果您的数据库每天更新一次,您的模型的知识将始终滞后于现实。在快速变化的环境中,这种延迟可能意味着过时的见解和糟糕的决策。公司需要重新思考他们的整个数据流,从信息收集到信息传递给模型的整个过程。
做好这件事可以节省大量时间和成本。当数据管道被设计成清晰和有目的时,AI系统可以学习和对最新、最相关的信息做出反应。当它们没有被设计成清晰和有目的时,团队会花更多时间清理数据而不是使用它。
数据管理专家通常指出,强大的数据质量的关键是人、流程和平台之间的反馈环。没有这种环,信息会变得过时,模型会失去与现实世界条件的联系——有时被称为数据漂移。
平衡速度与完整性
通常存在一种紧张关系,即快速移动和保持准确性。许多组织希望从他们的AI投资中获得即时的结果,但匆忙可能会导致更大的问题。目标应该是具有完整性的数据敏捷性。换句话说,构建能够快速移动而不失去精度的系统。
为此,每家公司都应该定义明确的数据流动路径,从源头到模型的实时数据流动。它还帮助定义了什么样的信息可以进入模型,什么必须保持在外部。敏感或私人数据永远不应该进入模型,即使用户从技术上讲可以访问它。保护这种边界建立信任,并防止AI系统泄露或滥用信息。
随着AI变得更加自治,人类的监督仍将至关重要。模型不应该对业务行为有完全的控制权。它当然不应该做出任何决定。相反,它应该提出请求。更重要的是,人类必须始终审查和批准其行为,以确保它们符合公司政策和法规。
从基础开始构建质量
在规模上维持数据质量不仅仅是清理错误的问题。它始于架构。您需要确定最可靠的数据存储在哪里,然后设计一个系统,将其汇集到一个可信的位置。从那里,您可以跟踪模型使用的数据及其来源。
这种方法可以防止混淆并保持系统的透明度。它还可以帮助团队更快地排除故障,当出现问题时。 当您知道哪些数据喂养了模型的答案时,您可以在问题传播之前验证和纠正问题。
企业AI的未来将属于那些将质量融入基础设施的公司。我们预计会看到更多能够处理推理和数据集成的AI系统,这些系统将成为一个包。这些“AI电器”可以使组织更容易部署智能系统,而不会失去对其数据的控制。
分析师预测,能够有效地统一和治理其数据的组织将会看到更快的采用和更高的AI项目投资回报率。最近的一份关于数据准备就绪的报告解释了这种能力如何将创新公司与那些在早期试点后停滞不前的公司区分开来。区别往往在于他们的AI系统是否建立在一致且结构良好的信息之上。
结论
数据质量可能不如模型设计的突破性进展那么令人兴奋,但它是决定AI是否成功或失败的关键因素。没有干净、当前和一致的数据,即使是最先进的系统也会失足。有了这些数据,即使是谦逊的AI项目也可以创造持久的价值。
每位投资于AI的领导者都应该问一个简单的问题:我们是否信任驱动我们决策的数据?从我们所见,能够自信地回答“是”的公司正是那些已经在AI竞赛中领先的公司。












