数据团队已死,数据团队万岁
是的,这个标题具有点击诱饵性和挑衅性,但作为一名在数据领域工作多年的首席技术官,我见证了一场足以证明这种戏剧性说法的变革。传统的“数据团队”——那些在后台处理报告和仪表板的团队——实际上已经消亡。取而代之的是一种新型数据团队的出现:一个以人工智能为先、产品驱动、能直接影响收入的强大力量。他们不再是成本中心,而是利润创造者。从商业智能到机器学习的历程不久之前,数据团队还是商业智能的代名词。我们是公司数据的“历史学家”,生活在SQL和电子表格中,负责回答“上个季度发生了什么?”随着Hadoop等大数据技术的出现以及“数据科学家”成为新的热门职位,数据团队也在进化。到2010年代中期,我们做的不仅仅是报告;我们涉足数据可视化和交互式分析,为每个部门制作动态仪表板。工作内容包括数据整理、混合来自不同来源和形态的数据集,并试图理解领域知识。随后,2010年代末迎来了机器学习时代。数据团队开始雇佣数据科学家来构建预测模型,并在海量数据集中发掘洞察。我们从描述过去转向预测未来:流失模型、推荐引擎、需求预测——应有尽有。但即便如此,我们的产出仍然是幻灯片和洞察报告,而不是实时产品。我们就像一个内部服务机构,通过分析为业务提供建议。换句话说,我们是成本中心——有价值,是的,但与核心产品和收入仍隔着一层。在最好的情况下,机器学习团队被分散到独立的单元或嵌入产品组中,以便他们的模型和推断能够完全集成到平台中。巨大的鸿沟导致了无数项目失败、投资沉没和机会丧失。生成式AI:从支持职能到利润中心然后生成式AI来了,一切随之改变。强大的大型语言模型的发布,例如GPT系列和Llama等开源变体,几乎在一夜之间颠覆了整个格局。突然间,数据团队不再仅仅是分析业务,而是成为构建AI产品和体验不可或缺的一部分。当你成功地将一个LLM集成到面向客户的应用程序或内部工作流程中时,你不再仅仅是告知业务;你是在驱动业务。一个实施得当的生成式AI系统可以自动化客户支持、生成营销内容、个性化用户体验,甚至为新兴的智能体AI系统提供训练所需的数据。这些能力直接影响收入流。实际上,数据团队的工作成果已经从PowerPoint幻灯片转变为实时的AI驱动应用程序。生成式AI团队始于创新小组,交付能产生“惊叹效应”的概念验证。很快,每个人都成了AI工程师,影子IT在组织中蔓延。数据团队很快发现自己面临一个新问题:“你们何时能成为利润中心?”随着AI工程师开始创造惊人的工具,合并两个团队的时机显然已经成熟:即控制数据的团队和构建应用程序的团队。试想一家零售公司部署了一个用于处理销售咨询的生成式AI聊天机器人,或者一家银行推出了一个AI驱动的个性化投资顾问。这些都不是传统的IT副业项目——它们是创造客户价值并产生收入的数字产品。然而,与此同时,为了大规模创建这些系统,AI工程团队需要能够访问并操作传统团队已准备好的数据。高管们已经注意到了。现在对数据团队的期望极高,董事会和首席执行官都指望我们提供下一个由AI驱动的增长向量。我们已经从幕后分析师转变为一线创新者。这是一个令人兴奋的位置,但也伴随着大规模交付成果的巨大压力。从探索到产品——一道单向门从探索性分析到以产品为中心的AI的转变是深刻且不可逆转的。为何不可逆转?因为生成式AI对业务的影响太大,无法再将其降级为研发玩具。根据最近的一项全球调查,96%的IT领导者已将AI集成到其核心流程中——而一年前这一比例仅为88%。换句话说,几乎每家企业都已从试验AI转变为将其嵌入关键任务工作流程。一旦你跨越了AI正在交付价值的门槛,你就无法回头了。这种由AI驱动的新焦点改变了数据团队的节奏和心态。过去,我们可以从容地进行长期的探索项目和开放式分析。如今,如果我们正在构建一个AI功能,它就需要像任何面向客户的产品一样,具备生产就绪、合规且可靠的特性。我们已经进入了有些人称之为数据科学的“自主时代”。指导我们工作的核心问题不再是“我们能发现什么洞见?”,而是“我们能构建什么样的智能系统来实时根据洞见采取行动?”生成式AI系统不仅仅是在回答问题;它们开始做出决策。这是一扇单向门:在体验了这种自主性和影响力之后,企业将不再满足于静态报告和人工决策。现在,数据团队比以往任何时候都更需要以利益相关者和产品为导向。残酷真相:为何大多数生成式AI项目会失败在所有的兴奋之中,存在一个清醒的现实:大多数生成式AI项目会失败。事实证明,成功部署生成式AI极具挑战性。麻省理工学院最近的一项研究发现,惊人的95%的企业生成式AI试点项目从未带来可衡量的投资回报率。只有大约5%的AI试点项目真正实现了快速的收入增长或有意义的商业影响。这并非因为缺乏潜力,而是因为正确实施AI的复杂性。深入研究失败的原因,麻省理工学院的研究描绘了一幅清晰的图景。许多项目因“炒作胜过实干”而步履蹒跚——团队追逐华而不实的演示用例,而不是投资于集成、验证和监控这些枯燥的基础工作。其他项目则因经典的“垃圾进,垃圾出”综合征而失败——糟糕的数据质量和孤立的数据管道在AI甚至还没开始工作之前就注定了项目的失败。通常,出问题的不是AI模型本身,而是其周围的环境。正如研究人员所言,生成式AI不会在实验室里失败;它会在企业中失败,当它与模糊的目标、糟糕的数据和组织惰性发生碰撞时。在实践中,大多数AI试点项目在概念验证阶段就停滞不前,从未升级到全面生产部署。这一现实检验是一个宝贵的教训。它告诉我们,尽管数据团队现在备受瞩目,但大多数团队都在努力满足提高了的期望。要使生成式AI大规模成功,我们必须跨越比过去商业智能时代高得多的门槛。超越巧妙的提示:数据、治理与基础设施至关重要是什么将5%成功的AI项目与95%失败的项目区分开来?根据我的经验(研究也证实),成功者专注于基础能力——数据、治理和基础设施。生成式AI不是魔法;它建立在数据之上。如果没有高质量、治理良好的数据管道来为模型提供数据,即使是最好的AI也会产生不稳定的结果。Summit Partners在最近的一份分析报告中说得很好:“任何使用AI的系统或流程的成功,都取决于为其提供动力的数据的质量、结构和可访问性。”实际上,这意味着组织在采用生成式AI时必须加倍重视数据架构和治理。您是否有统一的、可访问的数据存储供您的AI使用(我指的是所有数据存储,包括数据中心、超大规模云提供商和第三方SaaS系统等)?这些数据是否经过清洗、整理并符合法规要求?是否有清晰的数据血缘和可审计性(以便您可以信任AI输出并了解其产生过程)?这些问题现在已成为首要任务。生成式AI正迫使公司最终整顿其数据体系。治理也获得了新的重要意义。当一个AI模型可能产生错误答案(或冒犯性答案)时,强有力的治理不是可选项,而是强制要求。诸如版本控制、偏见检查、人在回路审查以及对敏感数据输入的严格安全措施等控制手段至关重要。如果没有适当的治理、培训和明确定义的目标,即使是一个强大的AI工具也难以在业务中获得关注。我们也不能忘记基础设施。大规模部署生成式AI需要强大的计算能力和严谨的工程实践。模型需要实时提供服务,可能跨越数百万次查询且延迟要低。它们通常需要GPU或专用硬件,以及持续的监控、再训练和生命周期管理。简而言之,您需要安全、可扩展且具有弹性的工业级AI基础设施。这正是私有AI概念作为将基础设施与数据和治理统一起来的框架应运而生的地方。私有AI指的是在受控和安全的环境中开发AI。数据工程师万岁!我们熟知的数据团队已逝,但新的数据团队永存——愿它们在这个人工智能驱动的世界中,以洞察力、责任感和无畏精神主宰一切。