思想领袖
人工智能计划无需完美数据:实用主义者对企业人工智能的看法

企业 AI 市场将达到 $十亿204 2030通过90% 的组织计划在未来三年内增加 AI 投资。然而,麻省理工学院的研究表明,XNUMX% 的 AI 项目未能完成试点阶段。其主要原因并非模型复杂程度,而是数据质量。
董事会在 ChatGPT 和 Claude 之间争论不休。他们问错了问题。真正的问题是组织数据是否已为任何 AI 部署做好准备。大多数公司在支离破碎、不一致、上下文贫瘠的数据基础上构建复杂的 AI 功能。
不幸的是,这会导致代价高昂的失败。金融机构部署的聊天机器人会幻化收入数字。零售商部署的推荐引擎会推荐已停产的产品。制造商投资的预测分析甚至无法回答基本的运营问题。这些失败源于匆忙实施高级模型,而忽略了基础数据准备。
了解数据复杂性挑战
企业数据分为三类。每类数据都需要不同的准备方法。了解这些差异决定了人工智能的成功。
结构化数据看起来很熟悉。信息存储在数据库和电子表格中,行列清晰。许多组织认为,组织良好的交易系统意味着人工智能已做好准备。这种假设带来了问题。人工智能系统难以处理结构化数据,并非因为数据混乱,而是因为上下文信息存在差异。当人工智能遇到跨多个数据库表的“ProductID”字段时,如果没有明确的指令,它就无法理解这些关系。结果就是人工智能只能访问数据,却无法对其进行有意义的分析。
非结构化数据 挑战与机遇截然相反。这类数据包括电子邮件、文档、演示文稿、视频以及其他人类生成的内容,其中蕴含着大多数组织知识。传统的分析工具难以处理非结构化数据。现代人工智能系统旨在处理此类数据。成功需要系统性的准备。组织不可能上传数千份 PDF 文件并期望获得有意义的洞察。有效的实施需要内容细分、元数据创建和搜索优化。
半结构化数据占据了复杂的中间地带。JSON 文件、系统日志和报告将有组织的元素与叙述性内容融合在一起。常见的错误是将这些来源视为纯粹的非结构化数据,从而丢失了宝贵的有组织的组成部分。成功的 AI 实施需要解析结构化元素,同时保留非结构化洞察,然后重新组合它们以进行全面的分析。
每种数据类型都需要特定的准备策略。AI 系统必须进行配置才能应对这种复杂性。对所有数据采取统一处理的组织创建的 AI 实现,在处理某种数据类型时表现出色,但在处理其他数据类型时则可能失败。
影响人工智能性能的背景差距
语境 是AI成功的关键因素,也是最容易被忽视的因素。人类分析师凭借数十年的商业知识进行数据解读。在审查季度报告时,他们明白“收入”代表的是税后美国销售额(以美元计算)。而AI系统却不具备这样的理解能力。如果没有明确的上下文,AI可能会将“47%”理解为收入数字,而实际价值是4.7万美元。这会导致业务建议存在根本性缺陷。
上下文差异不仅仅局限于基本的数据解读。每个组织都会对常见指标制定独特的定义。“客户获取成本”在初创公司和成熟企业中的含义截然不同。“客户流失率”的计算方法在不同行业和公司之间差异巨大。人工智能系统需要对这些组织细微差别进行明确的指导,才能提供有意义的洞察。
传统的文档方法无法有效实现 AI 落地。存储在服务器上的静态数据字典对 AI 系统不可见,并且很快就会过时。成功的组织会创建可供 AI 主动参考的动态文档。这些文档会随着业务规则的发展而自动更新。
自动化与人工输入之间的平衡在此至关重要。机器擅长识别技术关系。它们能够识别跨数据库系统的A列与B表之间的关联。只有人类的专业知识才能提供业务背景。人类能够解释某些指标的重要性、它们的计算方法,以及哪些指标属于正常范围,哪些指标属于令人担忧的范围。有效的人工智能实施需要将自动化发现与人类知识管理相结合。
人工智能时代的风险放大
人工智能的实施以前所未有的规模和速度放大了现有的数据问题。当人工智能系统跨组织边界访问、处理和共享信息时,传统的数据治理挑战将变得更加复杂。
为人类用户设计的访问控制机制被证明不适用于人工智能系统。传统的安全模型可能会授予销售分析师访问特定文件夹的权限。但人工智能助手可能会通过看似无害的查询,无意中将敏感信息泄露给未经授权的用户。客户服务人工智能可能会访问竞争对手的定价数据,并在客户沟通中分享。组织需要足够复杂的安全框架,以了解人工智能在不同情况下可以共享和不可以共享的内容。
当人工智能系统做出影响个人的决策时,合规性要求变得更加复杂。当人类做出数据驱动的决策时,GDPR合规性就变得极具挑战性。现在,组织必须解释人工智能算法是如何得出具体结论的。他们必须维护自动化决策的审计线索。他们必须确保人工智能训练数据符合隐私法规。当决策者是算法系统而非人类分析师时,“解释权”便有了新的含义。
建立信任需要新的测试和监控方法。传统的质量保证侧重于系统在预期条件下是否正常运行。而人工智能系统需要持续监控,以检测其故障时间、严重程度以及原因。组织必须对每个人工智能决策实施实时监控,而不仅仅是系统性能指标。
反馈循环对于改进至关重要。当用户纠正AI响应时,该纠正代表着宝贵的训练数据。但前提是组织能够捕捉并系统地整合这些数据。这需要收集用户反馈、验证纠正并相应地更新AI行为的流程。
自主研发还是购买的决策
组织面临着选择:是发展内部 AI 能力,还是与外部平台合作。每种方法都有其独特的优势和挑战,必须与组织能力和战略目标相一致。
构建内部 AI 能力可实现最大程度的控制和定制化潜力。组织可以根据自身独特需求开发定制系统,并完全掌控数据和算法。然而,这需要大量的资源。成功的内部开发通常需要由数据工程师、AI 专家和领域专家组成的团队。开发周期通常为 12-24 个月。隐性成本包括:紧跟快速发展的 AI 技术、全天候维护系统以及向高管层解释进度延迟。
平台解决方案有望加快实施速度并降低技术成本。企业可以上传数据、配置基本设置并开始生成 AI 洞察。然而,企业必须根据自身具体需求仔细评估平台功能。关键考虑因素包括数据格式兼容性、行业特定理解、数据安全和隐私保护,以及与现有系统的集成能力。
混合方法通常对许多组织最为有效。从平台解决方案入手,可以帮助企业快速证明 AI 的价值,同时了解自身的具体需求。一旦组织了解了哪些方法有效,他们就能做出明智的决策,决定哪些功能值得内部开发,哪些需要继续使用平台。
前进的实用框架
成功的人工智能实施始于诚实的评估,而非雄心勃勃的规划。企业应该从盘点现有数据资产开始。这一过程通常会揭示出比最初预期更多的复杂性和不一致性。成功的企业不会试图进行全面的人工智能转型,而是会识别出人工智能能够提供明确价值的具体、可衡量的问题。
基础工作需要付出巨大努力,但仍然至关重要。这包括数据清理、上下文文档、访问控制实施以及明确定义成功指标的试点测试。组织应规划切合实际的时间表。以月或年为单位,而非以周为单位。循序渐进地构建能力。
当竞争对手还在专注于选择AI模型时,那些完成这项基础工作的公司将获得显著优势。技术选择远不如为任何AI系统的成功做好充分的准备重要。
等待的成本
无论组织是否做好了准备,人工智能革命都将持续进行。企业可以选择现在就投资于适当的数据准备,也可以选择在以后尝试改进解决方案,但成本和复杂性会大幅提升。成为人工智能领导者的组织会及早认识到,成功并非取决于选择最复杂的模型,而是取决于构建数据基础,使任何人工智能系统都能提供有意义的商业价值。
企业领导者面临的问题并非要实施哪种AI技术,而是他们的组织是否已完成确保任何AI实施成功所需的艰苦工作。AI能力每月都在进步。可持续的竞争优势属于拥有足够强大的数据基础,能够支持未来任何技术发展的企业。