为什么数据质量决定企业人工智能的成败

发布时间 2025 年 11 月 17 日

奥伦·埃尼 RavenDB创始人兼首席执行官

自 OpenAI 在 2022 年底推出 ChatGPT 以来，各家公司都在竞相加快人工智能的发展步伐。像英伟达这样的大型硬件厂商的 GPU 销量空前高涨，而像 OpenAI 和 Anthropic 这样的大型模型构建商也在不断构建规模越来越大的模型。

然而，即便拥有最先进的模型和最雄厚的预算，许多人工智能项目仍然未能达到预期效果。我们已经看到这种情况在医疗保健、交通运输、金融等各个行业普遍存在。原因并不难理解：人工智能的性能取决于其训练数据和实时接收数据的质量。如果数据标注不准确、过时或不完整，任何模型都无法提供一致或可靠的结果。

这就是许多公司如今面临的一大难题。他们斥巨资研发人工智能工具，而数据系统却依然分散且不可靠。结果就是，他们营造出一种进步的假象。尽管模型能够给出令人印象深刻的答案，但这些洞见往往建立在薄弱的基础之上。人工智能成功的真正障碍并非模型性能，而是数据质量。

真正好的数据意味着什么

高质量数据不仅仅意味着准确性，它还意味着信息的时效性、完整性以及与当前问题相关的特性。试想一下，一位顾客试图在电商网站上取消订单。系统需要核查订单详情、物流状态和支付记录。如果这些数据点分散在彼此无法互通的不同系统中，人工智能助手就无法给出有效的答案。

优质数据能够瞬间将这些点连接起来，让人工智能看到完整的图景，而非零碎的信息。相反，劣质数据会迫使模型进行猜测。而当人工智能开始猜测时，它就会犯错，造成经济损失并损害信任。最近的案例表明，这种假设可能非常危险。

纽约市的商业聊天机器人因为引用了过时或不完整的法律信息，所以提供了非法建议。加拿大航空的客户服务机器人由于缺乏公司政策方面的背景信息，导致出现了虚假的退款申请。即使是大型招聘系统，也会因为数据存在偏见或标签错误而错误地筛选候选人，正如以下案例所示：美国平等就业机会委员会 (EEOC) 达成的首例人工智能相关和解协议这些失败不仅是技术上的，还涉及声誉和经济损失，其根源在于人工智能系统使用了不可靠的数据进行训练。

行业研究证实了这一问题的严重性。Gartner报告称： 80%的人工智能项目失败由于数据质量和治理不善，难以实现规模化。同样，麻省理工学院斯隆管理评论也指出了这一点。研究发现，导致企业人工智能项目失败的首要原因是数据问题，而不是算法问题。

提升数据质量并非一朝一夕就能完成，它需要文化上的转变。因此，企业领导者必须将数据视为一个需要精心维护和负责的鲜活系统。这不仅仅是宣称“要改进数据”——这远远不够。组织中的每个部门都必须了解信息的流动方式、所有权归属以及信息变更后的处理机制。

我们已经看到这种情况在实际系统中是如何发生的。许多人工智能应用依赖于每晚的数据更新。如果你的数据库每天只刷新一次，那么你的模型知识将始终滞后于现实。在瞬息万变的环境中，这种延迟可能意味着过时的洞察和糟糕的决策。企业需要重新思考整个数据流，从信息的收集方式到信息传递给模型的方式。

做好数据管道设计可以节省大量时间和成本。当数据管道设计清晰明确、目标明确时，人工智能系统就能学习并利用最新、最相关的信息。反之，团队花费在清理数据上的时间比使用数据的时间还要多。

专家数据管理人们常常指出，高质量数据的关键在于人员、流程和平台之间的反馈循环。如果没有这个循环，信息就会过时，模型就会脱离现实世界的情况——这个问题有时被称为数据漂移。

快速行动与保持精准之间往往存在矛盾。许多组织希望人工智能投资能够立竿见影，但操之过急可能会导致日后更大的问题。目标应该是兼顾数据敏捷性和完整性。换句话说，就是构建能够快速响应且不失精准度的系统。

因此，每家公司都应该明确数据从源头到模型的实时流动路径。同时，明确哪些信息可以进入模型，哪些信息必须被排除在外也至关重要。即使用户在技术上拥有访问权限，敏感或私密数据也绝不应该进入模型。保护好这条边界有助于建立信任，并防止人工智能系统泄露或滥用信息。

随着人工智能的自主性不断增强，人工监督仍然至关重要。模型不应完全掌控业务行为，更不应自行做出任何决策。相反，它应该只负责提出请求。更重要的是，必须始终由人工审核并批准其行为，以确保其符合公司政策和规章制度。

大规模维护数据质量不仅仅是清理错误那么简单，它始于架构。你需要确定最可靠的数据存储在哪里，然后设计一个系统，将这些数据集中到一个可信的位置。之后，你就可以追踪模型使用了哪些数据以及这些数据的来源。

这种方法可以避免混淆，保持系统透明。它还能帮助团队在出现问题时更快地进行故障排除。当您确切地知道哪些数据为模型提供了答案时，就可以在问题扩散之前进行验证和纠正。

企业人工智能的未来将属于那些将质量默认融入基础设施的公司。我们预计未来会出现更多即插即用的人工智能系统，它们能够在一个软件包中同时处理推理和数据集成。这些“人工智能一体机”可以帮助企业更轻松地部署智能系统，同时又能确保对数据的控制权。

分析师预测，能够有效统一和管理数据的组织将更快地采用人工智能项目，并获得更高的投资回报率。数据准备情况报告文章解释说，这种能力能够区分那些持续创新的公司和那些在早期试点后就停滞不前的公司。区别往往在于它们的AI系统是否建立在一致且结构良好的信息之上。

与模型设计的突破相比，数据质量或许听起来并不那么引人注目，但它却是决定人工智能成败的关键所在。如果没有干净、及时且一致的数据，即使是最智能的系统也会举步维艰。有了高质量的数据，即使是规模不大的人工智能项目也能创造持久的价值。

每一位投资人工智能的领导者都应该问自己一个简单的问题：我们是否信任驱动我们决策的数据？从我们所看到的来看，那些能够自信地回答“是”的公司，已经在人工智能竞赛中处于领先地位。

相关话题：data 数据管理数据质量 RavenDB

Oren Eini 是创始人兼首席执行官 RavenDBRavenDB 是一个多模型 NoSQL 文档数据库，深受全球开发者和企业的信赖。除了是 RavenDB 数据库发展壮大的主要推动者之外，Oren 还是一位活跃的博主，并经常在全球各地的行业活动中发表演讲。