思想领袖
数据团队已死,长_live 数据团队

是的,标题很吸引眼球,也很有挑衅性,但作为一名有多年数据经验的CTO,我见证了一个足以证明这种戏剧性的转变。传统的“数据团队”——后台办公室的报告和仪表盘处理团队——已经基本上消失了。取而代之的是,一种新的数据团队正在出现:一种以AI为先的、产品驱动的、具有直接收入影响的强大团队。他们不再是成本中心,而是盈利团队。
从商业智能到机器学习的旅程
不久前,数据团队与商业智能(BI)是同义词。我们是公司数据的历史学家,生活在SQL和电子表格中,负责回答“上个季度发生了什么?”当像Hadoop这样的大数据技术出现,数据科学家成为新的时髦工作时,数据团队演变了。到2010年代中期,我们不仅仅是报告;我们涉足数据可视化和交互式分析,制作动态仪表盘供每个部门使用。工作是关于数据处理、混合来自不同来源和形状的数据集,并尝试理解领域知识。
然后,2010年代后期带来了机器学习时代。数据团队开始聘请数据科学家来构建预测模型并在大量数据集中发现见解。我们从描述过去转变为预测未来:流失模型、推荐引擎、需求预测——你可以随便说。然而,即使在那时,我们的输出也是幻灯片和见解,而不是实时产品。我们作为内部服务局,通过分析为业务提供建议。换句话说,我们是成本中心——有价值,是的,但与核心产品和收入有一步之遥。
在最好的情况下,机器学习团队被分散到单独的单位或嵌入到产品团队中,以便他们的模型和推理可以被完全集成到平台中。 这种巨大的差异导致了众多失败的项目、沉没的投资和失去的机会。
GenAI:从支持功能到利润中心
然后GenAI到来了,一切都改变了。像GPT家族和Llama这样的强大大型语言模型的发布,几乎在一夜之间改变了整个格局。突然,数据团队不再只是分析业务,而是成为构建AI产品和体验的重要组成部分。当你成功地将LLM集成到面向客户的应用程序或内部工作流中时,你不再只是告知业务;你正在推动它。一个成功实施的GenAI系统可以自动化客户支持、生成营销内容、个性化用户体验,甚至提供数据以告知和训练新兴的智能AI系统。这些功能直接影响收入流。实际上,数据团队的工作成果已经从PowerPoint幻灯片转变为实时的AI驱动应用程序。
GenAI团队从创新团队开始,提供能够产生“哇”因素的概念验证。很快,每个人都成为AI工程师,在整个组织中传播影子IT。
数据团队很快面临一个新问题:“你什么时候会成为利润中心?”当AI工程师开始创建惊人的工具时,很明显是时候将两个团队合并了:控制数据的团队和构建应用程序的团队。
考虑一个零售公司,它部署了一个GenAI聊天机器人来处理销售查询,或者一个银行推出了一个AI驱动的个性化投资顾问。这些不是传统的IT侧项目——它们是创造客户价值和产生收入的数字产品。然而,同时,要以规模创建这些系统,AI工程团队需要能够访问和操作传统团队准备好的数据。
高管们已经注意到了这一点。数据团队的期望现在非常高,董事会和CEO正在寻找我们来提供下一个AI驱动的增长向量。我们已经从幕后分析师转变为前线创新者。这是一个令人兴奋的位置,但也带来了巨大的压力,需要在规模上交付成果。
从探索到产品——一扇单向门
从探索性分析到产品中心的AI转变是深刻且不可逆转的。为什么不可逆转?因为GenAI对业务的影响被证明太大了,无法将其退回到一个研发玩具。根据最近的一项全球调查,96%的IT领导者已经将AI集成到核心流程中——仅仅一年前,这个数字是88%。换句话说,几乎每个企业都从尝试AI转变为将其嵌入到关键的工作流程中。一旦你跨过了AI在生产中提供价值的门槛,就没有回头路了。
这种新的AI驱动的关注点改变了数据团队的节奏和思维方式。过去,我们有长期发现项目和开放式分析的奢侈。今天,如果我们正在构建一个AI功能,它需要是生产就绪的、合规的和可靠的——就像任何面向客户的产品一样。我们已经进入了所谓的“自主数据科学时代”。指导我们的工作不再是“我们可以发现什么见解?”而是“我们可以构建什么智能系统来实时处理见解?”
GenAI系统不仅仅是在回答问题;它们开始做出决定。这是一扇单向门:一旦公司经历了这种自主性和影响力,他们就不会满足于静态报告和手动决策。现在比以往任何时候都更需要数据团队面向利益相关者和产品。
艰难的真相:为什么大多数GenAI计划失败
在所有的兴奋中,有一个清醒的现实:大多数GenAI计划失败。成功部署GenAI被证明是极其具有挑战性的。 最近的一项麻省理工学院研究发现,令人惊讶的是,95%的企业GenAI试点项目从未交付可衡量的ROI。只有大约5%的AI试点实际实现了快速的收入增长或有意义的业务影响。这并不是由于缺乏潜力——而是因为做AI的正确方式具有挑战性。
深入研究失败的原因,麻省理工学院的研究画出了一个明确的图景。许多项目由于“炒作超过实干”而陷入困境——团队追逐华丽的演示用例,而不是投资于集成、验证和监控的基础工作。其他人由于“垃圾进,垃圾出”综合征而失败——糟糕的数据质量和孤立的数据管道在AI开始工作之前就使项目陷入困境。往往不是AI模型有问题,而是周围的环境。正如研究人员所说,GenAI不会在实验室中失败;它在企业中失败,当它与模糊的目标、糟糕的数据和组织惯性相碰撞时。
这种现实检查是一个宝贵的教训。它告诉我们,即使数据团队现在处于聚光灯下,多数团队仍然难以满足提高的期望。为了使GenAI在规模上取得成功,我们必须跨越比过去BI时代更高的门槛。
超越巧妙的提示:数据、治理和基础设施很重要
什么将5%成功的AI项目与95%失败的项目区分开来?根据我的经验(以及研究证实),获胜者关注基础能力——数据、治理和基础设施。GenAI不是魔术;它是建立在数据之上的。没有高质量、良好治理的数据管道来为您的模型提供数据,即使是最好的AI也会产生不规则的结果。 Summit Partners 在最近的分析中说得好:“任何使用AI的系统或流程的成功都取决于驱动它的数据的质量、结构和可访问性。”
在实际操作中,这意味着组织在采用GenAI时必须加倍关注数据架构和治理。您是否拥有统一、可访问的数据存储,供您的AI可以使用(我是指所有数据存储,包括数据中心、超大规模系统、第三方SaaS系统等)?这些数据是否清理、整理并遵守法规?是否有明确的数据血统和可审计性(因此您可以信任AI输出并知道它们是如何产生的)?这些问题现在处于前沿。
治理也具有了新的重要性。当一个AI模型可能产生错误答案(或令人反感的答案)时,健全的治理不是可选的——它是强制性的。版本控制、偏差检查、人工审查和对敏感数据输入的严格安全措施都是必不可少的。没有适当的治理、培训和明确定义的目标,即使是强大的AI工具也会难以在业务中获得关注。
让我们不要忘记基础设施。以规模部署GenAI需要大量的计算能力和严格的工程。模型需要实时提供,可能需要数百万个查询,并且延迟低。它们通常需要GPU或专用硬件,以及持续的监控、保留和生命周期管理。简而言之,您需要工业级的AI基础设施,这种基础设施是安全的、可扩展的和可靠的。这就是Private AI的概念作为一个框架来整合基础设施、数据和治理的由来。Private AI指的是在受控和安全的环境中开发AI,确保数据安全和合规性。
最终,GenAI的成功取决于三个支柱的和谐:数据、治理和基础设施。没有一个,您就有可能加入95%从未扩展到演示阶段的项目。
为什么AI工程师不能独自完成
考虑到这些要求,很明显,仅仅雇用几个有才华的AI工程师就不是银弹。我们在过去几年中在数据行业中已经学到了这一课。在数据科学热潮的早期,公司试图找到“独角兽”数据科学家,他们可以做所有事情——构建模型、编写代码、处理数据和部署。在那之后,这个神话已经被揭穿。正如一位资深数据科学家所说,“一个放在笔记本中的模型实际上对业务没有任何作用。”您需要将该模型嵌入到应用程序或流程中,以便它能够产生价值。并且这样做需要一个跨多个技能领域的团队合作。
在2010年代后期,我们看到数据团队分化为不同的角色:数据工程师开始构建强大的管道,机器学习工程师专注于模型的生产,分析工程师管理分析层等等。
今天,GenAI将标准提升得更高。是的,您需要AI专家(提示工程师、LLM微调器等),但这些专家如果没有成熟的数据管道、治理框架和安全平台来合作,就会遇到困难。AI工程师可以在沙盒中原型化一个很好的语言模型,但将其转变为成千上万或数百万人使用的产品,需要与安全团队、合规官、数据架构师、站点可靠性工程师等进行合作。
AI是一项团队运动。很诱人认为您可以将一个最先进的模型放入您的业务中,突然拥有一个AI驱动的企业。成功于AI的公司是那些建立了跨职能团队的公司,或者说是“AI工厂”,将所有这些碎片组合在一起。他们的数据团队已经演变成全栈AI产品团队,将数据、建模、工程和运营专业知识融合在一起。他们以数据驱动、产品导向的方式构建和部署工具,并将价值生成嵌入到每个KPI中。
新一代数据团队
那么,未来对新“数据团队”来说会是什么样的呢?以下是未来几年中这些团队将面临的内容:
- 手动ETL/ELT较少: 单调的数据处理将会减少。有了更多自动化的数据管道和AI辅助集成,团队将不再花费大量时间清理和移动数据。数据准备的苦力活将越来越多地由智能系统处理,允许人类专注于更高层次的设计和质量控制。
- 较少的仪表盘: 不断调整仪表盘过滤器的时代正在消退。AI将使自然语言查询和动态见解交付成为可能。用户将从AI(带有源数据)那里获得对话式答案,而不是为每个问题预先构建仪表盘。数据团队将花费较少的时间开发静态报告,更多的时间训练AI实时生成见解。
- 更多AI本地产品开发: 数据团队将处于产品创新中心。无论是开发新的面向客户的AI功能还是内部AI工具以优化运营,这些团队都将作为产品团队。他们将采用软件开发实践、快速原型设计、A/B测试和用户体验设计——不仅仅是数据分析。每个数据团队实际上都将成为一个AI产品团队,直接为业务创造价值。
- 自治代理的崛起: 在不太遥远的未来,数据团队将部署自治AI代理来处理常规决策和任务。与其仅仅预测结果,这些代理将被授权采取某些行动(在监督下)。想象一个AI运营代理,可以检测到异常并自动打开一个补救票,或者一个销售AI代理,可以实时调整电子商务定价。数据团队将负责构建和管理这些代理,推动自动化的边界。
考虑到这些变化,人们可能会说“我们所知道的数据团队已经死了。”电子表格专家和仪表盘管道工已经让位给了新东西:AI优先的团队,这些团队精通数据、代码和商业战略。但这并不是一场葬礼,而是一场庆祝。新一代的数据团队才刚刚开始,他们比以往任何时候都更有价值
所以,请记住,数据工程师已经死了,长_live 数据工程师! 我们所知道的数据团队已经消失了,但新数据团队将会统治这个AI驱动的世界,带着洞察力、责任感和大胆的创新。
