思想领袖

人工智能开发中脏数据的高昂成本

Published November 1, 2024

Updated April 27, 2026

Eli Goodman, CEO & Co-Founder of Datos

人工智能开发中的现代黄金热潮并不是什么秘密。根据2024 年工作趋势指数由 Microsoft 和 Linkedin 发布，超过 40% 的商业领袖预计在未来几年内将使用人工智能（AI）从头开始完全重塑他们的商业流程。这一地震般的转变不仅仅是一种技术升级；它是商业运营、决策和与客户互动方式的根本转变。这种快速发展正在推动对数据和第一方数据管理工具的需求。根据Forrester的报告，令人惊讶的92% 的技术领袖计划在 2024 年增加他们的数据管理和 AI 预算。

在最新的麦肯锡全球人工智能调查中，65% 的受访者表示他们的组织正在定期使用生成式人工智能技术。虽然这种采用标志着一个重大的飞跃，但它也凸显了一个关键挑战：输入这些人工智能系统的数据质量。在一个有效的人工智能只有在其训练数据的基础上才是好的行业中，可靠和准确的数据变得越来越难以获得。

脏数据的高昂成本

脏数据并不是一个新问题，但其影响在人工智能时代被放大。早在 2017 年，麻省理工学院（MIT）的一项研究估计，脏数据使公司损失了惊人的 15% 至 25% 的收入。2021 年，Gartner 估计，不良数据每年使组织损失平均12.9 亿美元。

脏数据——不完整、不准确或不一致的数据——可以对人工智能系统产生连锁效应。当人工智能模型在低质量数据上训练时，所产生的洞察和预测从根本上是有缺陷的。这不仅会破坏人工智能应用的有效性，还会对依赖这些技术进行关键决策的企业构成重大风险。

这给企业数据科学团队带来了巨大的头痛，他们不得不越来越多地将有限的资源集中在清理和组织数据上。在最近由 DBT 进行的一份工程报告中，57% 的数据科学专业人员将数据质量不佳列为他们工作中的主要问题。

对人工智能模型的影响

脏数据对人工智能开发的影响主要体现在三个方面：

准确性和可靠性降低：人工智能模型依赖于从数据中提取的模式和相关性。当输入数据受到污染时，模型会产生不可靠的输出；这被广泛称为“人工智能幻觉”。这可能导致错误的策略、产品失败和客户信任的丧失。
偏见放大：脏数据通常包含偏见，如果不加控制，这些偏见会被固化到人工智能算法中。这可能会导致歧视性做法，特别是在招聘、贷款和执法等敏感领域。例如，如果人工智能招聘工具是在有偏见的历史招聘数据上训练的，它可能会不公平地偏向某些人群而不是其他人群。
运营成本增加：有缺陷的人工智能系统需要不断地调整和重新训练，这会消耗额外的时间和资源。公司可能会发现自己陷入了一个修复错误的循环，而不是创新和改进。

即将到来的数据末日

“我们正迅速接近一个‘临界点’——非人类生成的内容将远远超过人类生成的内容数量。人工智能本身的进步为数据清理和验证提供了新的工具。然而，网络上的人工智能生成内容的数量正在呈指数级增长。

随着更多的人工智能生成内容被推到网络上，而这些内容又是由在人工智能生成内容上训练的 LLMs 生成的，我们正在面临一个未来，第一方和可信数据将成为稀缺和宝贵的商品。

数据稀释的挑战

人工智能生成内容的泛滥带来了几个重大的行业挑战：

质量控制：区分人类生成的数据和人工智能生成的数据变得越来越困难，使得确保用于训练人工智能模型的数据质量和可靠性更加困难。
知识产权问题：随着人工智能模型无意中抓取和学习人工智能生成的内容，关于数据所有权和权利的问题出现，可能导致法律纠纷。
伦理影响：数据来源的缺乏透明度可能导致伦理问题，例如虚假信息的传播或偏见的强化。

数据即服务成为基础

数据即服务（DaaS）解决方案越来越多地被用来补充和增强第一方数据以用于训练目的。DaaS 的真正价值在于数据本身经过标准化、清理和评估，以适应不同忠实度和商业应用场景，以及标准化流程以适应系统的消化。随着该行业的成熟，我预测我们将开始看到数据行业内的标准化。我们已经在零售媒体领域看到这种标准化的推动。

随着人工智能继续渗透到各个行业，数据质量的重要性将只会增加。优先考虑干净数据的公司将获得竞争优势，而忽视它的公司将迅速落后。

人工智能开发中脏数据的高昂成本是一个不容忽视的问题。数据质量差会破坏人工智能系统的基础，导致有缺陷的洞察、增加成本和潜在的伦理陷阱。通过采用全面数据管理策略和培养重视数据完整性的文化，组织可以减轻这些风险。

在数据成为新石油的时代，确保其纯度不仅是一种技术必要性，也是一种战略性迫切需求。今天投资于干净数据的企业将是明天创新前沿的领导者。

Related Topics:dirty data thought leaders