思想领袖
AI 计划不需要完美的数据:对企业 AI 的务实观点

企业 AI 市场将在 2030 年达到 2040 亿美元。92% 的组织计划在未来三年的时间内增加他们的 AI 投资。然而,MIT 研究表明,90% 的 AI 项目无法超越试验阶段。主要原因不是模型的复杂性,而是数据质量。
董事会正在讨论 ChatGPT 和 Claude。他们正在问错误的问题。真正的问题是组织的数据是否为任何 AI 实现做好了准备。最公司建立了复杂的 AI 能力,但数据基础却是破碎的、不一致的和缺乏上下文的。
这不幸地造成了昂贵的失败。金融机构部署的聊天机器人会编造收入数字。零售商实施的推荐引擎会建议停产的产品。制造商投资的预测分析无法回答基本的运营问题。这些失败源于急于实施高级模型,同时跳过了基础数据准备。
理解数据复杂性挑战
企业数据存在三种类别。每种类别都需要不同的准备方法。了解这些差异决定了 AI 的成功。
结构化数据看起来很熟悉。信息存储在数据库和电子表格中,具有清晰的行和列。许多组织假设组织良好的交易系统意味着 AI 就绪。但是,这个假设会带来问题。AI 系统难以处理结构化数据,不是因为组织不良,而是因为上下文缺失。当 AI 遇到多个数据库表中的“产品 ID”字段时,它无法理解这些关系,除非有明确的指令。结果是 AI 可以访问数据,但无法对其进行有意义的分析。
非结构化数据 提出了相反的挑战和机遇。这种类别包括电子邮件、文档、演示文稿、视频和其他人类生成的内容,其中大部分组织知识居住。传统的分析工具难以处理非结构化数据。现代 AI 系统旨在处理它。成功需要系统化的准备。组织不能上传成千上万的 PDF 文件并期望有意义的见解。有效的实施需要内容分段、元数据创建和搜索优化。
半结构化数据占据了复杂的中间地带。JSON 文件、系统日志和报告混合了组织元素和叙事内容。常见的错误是将这些来源视为纯粹的非结构化数据,这会丢失有价值的组织化组件。成功的 AI 实施需要解析结构化元素,同时保留非结构化的见解,然后重新组合它们以进行全面分析。
每种数据类型都需要特定的准备策略。AI 系统必须配置为处理这种复杂性。组织如果将所有数据统一处理,就会创建 AI 实施,这些实施在一种数据类型上表现良好,但在其他数据类型上表现不佳。
上下文缺失:AI 性能的致命缺陷
上下文 是 AI 成功的最关键因素。它也是最常被忽视的。人类分析师带来了几十年的商业知识来解释数据。当查看季度报告时,他们理解“收入”代表的是税后美国销售收入(美元)。AI 系统没有这样的理解。没有明确的上下文,AI 可能会将“47%”解释为收入数字,而实际值是 470 万美元。这导致了基本上有缺陷的商业建议。
上下文缺失超出了基本的数据解释。每个组织都为常见的指标开发了独特的定义。“客户获取成本”在初创公司和成熟企业中意味着完全不同的东西。“流失率”计算在各个行业和公司中有很大差异。AI 系统需要明确的指令来理解这些组织细微差别,以提供有意义的见解。
传统的文档方法无法满足 AI 实施。存储在服务器上的静态数据字典对 AI 系统来说是不可见的,并且很快就会过时。成功的组织创建了活的文档,AI 可以主动引用。随着业务规则的演变,这些文档会自动更新。
自动化与人类输入的平衡在这里变得至关重要。机器擅长识别技术关系。它们认识到列 A 与表 B 之间的连接,跨越数据库系统。然而,只有人类的专业知识才能提供商业上下文。人类解释为什么某些指标很重要,它们如何计算,以及什么样的表现范围是正常的或令人担忧的。有效的 AI 实施将自动化发现与人类知识的策划相结合。
AI 时代的风险放大
AI 实施以前所未有的规模和速度放大了现有的数据问题。传统的数据管理挑战在 AI 系统访问、处理和跨组织边界共享信息时变得极其复杂。
为人类用户设计的访问控制机制被证明对于 AI 系统来说是不充分的。传统的安全模型可能会授予销售分析师访问特定文件夹的权限。但是,AI 助手可能会无意中将敏感信息泄露给未经授权的用户,通过看似无害的查询。客户服务 AI 可能会访问竞争对手的定价数据,并在客户沟通中共享它。组织需要足够复杂的安全框架来理解 AI 在不同情况下可以和不能共享什么信息。
当 AI 系统做出影响个人的决定时,合规性要求变得更加复杂。GDPR 合规性在人类做出数据驱动的决定时已经很具有挑战性。现在,组织必须解释 AI 算法如何得出特定的结论。他们必须保持审计跟踪以进行自动化决策。他们必须确保 AI 训练数据符合隐私法规。“解释权”在算法系统而不是人类分析师做出决定时具有新的意义。
建立信任需要新的测试和监控方法。传统的质量保证专注于系统在预期条件下是否正常工作。AI 系统需要持续监控以检测何时失败、失败程度和原因。组织必须为每个 AI 决策实施实时监控,而不仅仅是系统性能指标。
反馈循环对于改进至关重要。当用户纠正 AI 响应时,该纠正代表了有价值的训练数据。但是,只有当组织捕获和系统地纳入它时才会如此。这需要收集用户反馈、验证更正并相应地更新 AI 行为的过程。
在构建与购买之间进行导航
组织面临着在内部开发 AI 能力和与外部平台合作之间的选择。每种方法都带有不同的优势和挑战,这些优势和挑战必须与组织的能力和战略目标保持一致。
内部开发 AI 能力提供了最大程度的控制和定制潜力。组织可以开发出专门针对其独特需求的系统。他们保留对其数据和算法的完全所有权。然而,所需的资源是巨大的。成功的内部开发通常需要数据工程师、AI 专家和领域专家的团队。开发需要 12-24 个月。隐藏的成本包括跟上快速演变的 AI 技术、24 小时维护系统以及向高管领导层解释时间表延迟。
平台解决方案承诺更快的实施和减少的技术开销。组织可以上传数据、配置基本设置并开始生成 AI 见解。然而,组织必须仔细评估平台功能与其特定需求的匹配程度。关键考虑因素包括数据格式兼容性、行业特定理解、数据安全和隐私保护以及与现有系统的集成能力。
混合方法通常对许多组织来说是最好的选择。从平台解决方案开始允许公司快速证明 AI 的价值,同时了解他们的特定需求。一旦组织了解什么有效,他们就可以对哪些功能需要内部开发做出明智的决定,而哪些功能可以继续使用平台。
向前迈进的实用框架
成功的 AI 实施从诚实的评估开始,而不是雄心勃勃的规划。组织应该首先清点现有的数据资产。这个过程通常会揭示比最初预期更多的复杂性和不一致性。与其尝试全面转向 AI,不如成功的公司找出特定的、可衡量的问题,AI 可以提供明确的价值。
基础工作需要大量的努力,但仍然至关重要。这包括数据清理、上下文文档、访问控制实施和具有明确的成功指标的试点测试。组织应该计划现实的时间表。要想到数月或数年,而不是数周。逐步建立能力。
完成基础工作的公司将在竞争对手仍专注于选择 AI 模型时获得显著优势。技术选择的重要性远远低于使任何 AI 系统成功的准备工作。
等待的代价
AI 革命无论组织的准备程度如何都会继续进行。公司可以选择现在投资适当的数据准备。或者,他们可以尝试稍后以更高的成本和复杂性来改装解决方案。将成为 AI 领导者的组织将认识到,成功不在于选择最复杂的模型,而在于建立能够让任何 AI 系统提供有意义的业务价值的数据基础。
面临企业领导者的问题不是哪种 AI 技术需要实施。它是他们的组织是否完成了使任何 AI 实施成功所需的艰难工作。AI 能力每月都在进步。可持续的竞争优势属于那些拥有足够强大的数据基础来支持任何新兴技术的公司。












