思想领袖
人工智能开发中脏数据的高昂成本
人工智能开发中的现代黄金热潮并不是什么秘密。根据2024 年工作趋势指数由 Microsoft 和 Linkedin 发布,超过 40% 的商业领袖预计在未来几年内将使用人工智能(AI)从头开始完全重塑他们的商业流程。这一地震般的转变不仅仅是一种技术升级;它是商业运营、决策和与客户互动方式的根本转变。这种快速发展正在推动对数据和第一方数据管理工具的需求。根据Forrester的报告,令人惊讶的92% 的技术领袖计划在 2024 年增加他们的数据管理和 AI 预算。
在最新的麦肯锡全球人工智能调查中,65% 的受访者表示他们的组织正在定期使用生成式人工智能技术。虽然这种采用标志着一个重大的飞跃,但它也凸显了一个关键挑战:输入这些人工智能系统的数据质量。在一个有效的人工智能只有在其训练数据的基础上才是好的行业中,可靠和准确的数据变得越来越难以获得。
脏数据的高昂成本
脏数据并不是一个新问题,但其影响在人工智能时代被放大。早在 2017 年,麻省理工学院(MIT)的一项研究估计,脏数据使公司损失了惊人的 15% 至 25% 的收入。2021 年,Gartner 估计,不良数据每年使组织损失平均12.9 亿美元。
脏数据——不完整、不准确或不一致的数据——可以对人工智能系统产生连锁效应。当人工智能模型在低质量数据上训练时,所产生的洞察和预测从根本上是有缺陷的。这不仅会破坏人工智能应用的有效性,还会对依赖这些技术进行关键决策的企业构成重大风险。
这给企业数据科学团队带来了巨大的头痛,他们不得不越来越多地将有限的资源集中在清理和组织数据上。在最近由 DBT 进行的一份工程报告中,57% 的数据科学专业人员将数据质量不佳列为他们工作中的主要问题。
对人工智能模型的影响
脏数据对人工智能开发的影响主要体现在三个方面:
- 准确性和可靠性降低:人工智能模型依赖于从数据中提取的模式和相关性。当输入数据受到污染时,模型会产生不可靠的输出;这被广泛称为“人工智能幻觉”。这可能导致错误的策略、产品失败和客户信任的丧失。
- 偏见放大:脏数据通常包含偏见,如果不加控制,这些偏见会被固化到人工智能算法中。这可能会导致歧视性做法,特别是在招聘、贷款和执法等敏感领域。例如,如果人工智能招聘工具是在有偏见的历史招聘数据上训练的,它可能会不公平地偏向某些人群而不是其他人群。
- 运营成本增加:有缺陷的人工智能系统需要不断地调整和重新训练,这会消耗额外的时间和资源。公司可能会发现自己陷入了一个修复错误的循环,而不是创新和改进。
即将到来的数据末日
“我们正迅速接近一个‘临界点’——非人类生成的内容将远远超过人类生成的内容数量。人工智能本身的进步为数据清理和验证提供了新的工具。然而,网络上的人工智能生成内容的数量正在呈指数级增长。
随着更多的人工智能生成内容被推到网络上,而这些内容又是由在人工智能生成内容上训练的 LLMs 生成的,我们正在面临一个未来,第一方和可信数据将成为稀缺和宝贵的商品。
数据稀释的挑战
人工智能生成内容的泛滥带来了几个重大的行业挑战:
- 质量控制:区分人类生成的数据和人工智能生成的数据变得越来越困难,使得确保用于训练人工智能模型的数据质量和可靠性更加困难。
- 知识产权问题:随着人工智能模型无意中抓取和学习人工智能生成的内容,关于数据所有权和权利的问题出现,可能导致法律纠纷。
- 伦理影响:数据来源的缺乏透明度可能导致伦理问题,例如虚假信息的传播或偏见的强化。
数据即服务成为基础
数据即服务(DaaS)解决方案越来越多地被用来补充和增强第一方数据以用于训练目的。DaaS 的真正价值在于数据本身经过标准化、清理和评估,以适应不同忠实度和商业应用场景,以及标准化流程以适应系统的消化。随着该行业的成熟,我预测我们将开始看到数据行业内的标准化。我们已经在零售媒体领域看到这种标准化的推动。
随着人工智能继续渗透到各个行业,数据质量的重要性将只会增加。优先考虑干净数据的公司将获得竞争优势,而忽视它的公司将迅速落后。
人工智能开发中脏数据的高昂成本是一个不容忽视的问题。数据质量差会破坏人工智能系统的基础,导致有缺陷的洞察、增加成本和潜在的伦理陷阱。通过采用全面数据管理策略和培养重视数据完整性的文化,组织可以减轻这些风险。
在数据成为新石油的时代,确保其纯度不仅是一种技术必要性,也是一种战略性迫切需求。今天投资于干净数据的企业将是明天创新前沿的领导者。












