

人工智能行业存在一个测量问题。多年来,成功的定义是基于计算能力,如谁拥有最多的GPU、最大的集群或最快的训练运行。数十亿美元被投入到基础设施中以赢得这场竞赛。但是,当人工智能从实验转向生产时,该模型开始崩溃。企业不再购买GPU。他们甚至不购买推理能力。他们购买结果,如摘要、推荐、决策、内容。换句话说,他们购买令牌。然而,大多数人工智能基础设施仍然被设计为以计算为最终目标。事实并非如此。人工智能中的真正价值单位是令牌。并且,早期认识到这一转变的公司将定义市场的下一个时代。人工智能令牌工厂的崛起如果令牌是产品,则人工智能基础设施需要像生产系统一样运行,而不是科学项目。这就是人工智能令牌工厂的概念出现的地方。人工智能令牌工厂不仅仅是软件堆栈中的另一层。它是对堆栈本身的重新思考。与其优化单个模型性能或原始硬件利用率,它专注于一个结果:在规模上高效地生产令牌。这意味着抽象基础设施复杂性,动态地将工作负载分配到异构环境中,并不断地优化吞吐量、延迟、利用率和每个令牌的成本。今天的模型基本上是GPU租赁加上额外的步骤。组织提供昂贵的硬件,拼凑碎片化的工具,并希望利用率最终证明投资是合理的。令牌工厂完全颠倒了这个等式。它提供输出,而不是基础设施,并从第一天开始将效率作为核心设计原则。这不是渐进式的进步。这是从基础设施作为容量转变为基础设施作为生产的转变。为什么旧模型无法持久当前的人工智能基础设施模型不仅效率低下,而且越来越不可持续。GPU短缺暴露了第一个裂痕。需求继续超过供应,迫使组织采用碎片化的多供应商部署。最初作为临时解决方案的东西很快成为常态:在没有统一操作层的情况下拼凑在一起的异构环境。问题在于,大多数现有堆栈从一开始就不是为这种现实而设计的。它们不能有效地跨架构优化,实时适应,也不能提供对性能和成本的清晰可见性。结果是,复杂性随着规模的增长而增长得更快。每个新模型、框架、加速器或云平台都会引入另一个运营开销层。团队花费大量时间管理编排、兼容性、路由、调度和可观察性问题,而不是改进结果。本应是扩展优势的东西很快变成了协调问题。同时,经济学也变得越来越难以忽视。早期的人工智能部署可以在增长和实验中掩盖低效率。那段时间窗口正在关闭。高管们现在正在问更艰难的问题:为什么推理成本如此不可预测?为什么GPU利用率仍然如此低?为什么组织为经常闲置的硬件支付高价?为什么将基础设施支出与业务结果联系起来如此困难?答案很简单:该系统是为访问而设计的,而不是为效率而设计的。从计算中心到令牌中心架构转向令牌工厂既是哲学上的,也是架构上的转变。首先,市场正在从GPU即服务转向结果即服务。客户不想管理基础设施;他们想要保证的结果。逻辑终点是基于输出而不是资源的消费。其次,碎片化的堆栈正在让位给统一的控制平面。在异构环境中,可见性和控制力是一切。令牌工厂提供对使用情况、成本和性能的实时洞察,并能够对其采取行动。组织需要了解:谁正在生成令牌?以什么成本?在哪个硬件上?在哪些工作负载下?以及以什么效率?没有这些答案,优化就变成了猜测。最后,行业的重点正在从执行转向持续优化。挑战不再仅仅是运行模型,而是智能地运行模型,因为组织正在确定:哪些工作负载属于哪些硬件?如何在控制成本的同时最大化吞吐量?如何防止令牌使用失控?令牌工厂将这些问题视为首要问题,而不是事后补充。为什么今天的人工智能交付模型不够传统的人工智能堆栈(跨硬件供应商、云平台、推理服务)主要是为快速增长而构建的,而不是为系统效率而构建的。每一层都增加了价值,但也增加了成本、抽象和运营碎片化。结果是一个具有叠加利润、有限透明度和日益增加的供应商锁定的系统。组织最终在各个隔离区内优化,而不是在整个系统中优化。令牌工厂从根本上挑战了这种模型。通过解除硬件和价值交付之间的耦合,它们实现了端到端的优化。工作负载可以在环境之间流畅地移动。架构可以在不需要大量重写的情况下演变。效率变得可衡量、可管理且可以持续改进。这就是企业和新兴的云计算可以更有效地与超大规模企业竞争。不是通过匹配他们的规模,而是通过在效率方面超越他们。谁将获胜也许这种转变最具破坏性的方面是它赋予了谁的权力。你不需要拥有数据中心甚至GPU就可以运营令牌工厂。重要的是对编排、优化和交付的控制。这为一组更广泛的参与者打开了大门: 具有大型、持久人工智能工作负载的企业。 针对特定垂直领域或用例进行优化的新云提供商。 向上移动堆栈的基础设施供应商。 在这种模型中,竞争优势不再来自于囤积计算能力。它来自于比任何其他人都更好、更快、更便宜地生产令牌。新的战场:每个令牌的成本人工智能竞争的下一阶段不会仅仅因为模型质量而获胜。它将因为效率而获胜。更具体地说,每个令牌的成本。谁可以以其他人无法做到的成本提供等效或更好的输出?谁可以在不让基础设施支出失控的情况下扩展?谁可以将人工智能转变为可预测的、利润丰厚的业务?这些不是基础设施问题。它们是需要生产思维的生产问题。未来不是建立在GPU之上GPU不会消失,但它们不再是故事的主角。令牌才是真正的主角。仍然专注于计算的组织将面临不断上涨的成本和递减的回报。那些转向令牌中心系统的组织将解锁一个根本不同的模型,该模型将基础设施与结果和成本与价值对齐。人工智能令牌工厂不是一个遥远的概念。它们是市场的必然演化。唯一真正的问题是谁先建造它们,谁会被甩在后面。


我们花了十年时间与影子IT作斗争。未经授权的SaaS应用程序。流氓电子表格。未经批准的Dropbox账户。IT领导者围绕这个问题建立了整个合规程序,大多数人仍然失败了。Reco AI的2025年影子人工智能报告发现,只有47%的企业内部的SaaS应用程序是正式授权的——而且平均每个组织现在管理着490个这样的应用程序。那是旧问题。新的问题更糟糕。影子人工智能问题这次不同当员工注册未经批准的项目管理工具时,损害是有限的。一个团队的任务存储在错误的地方。也许有些数据泄露。数据泄露的类型相当可预测。人工智能不同。员工现在使用人工智能工具来撰写客户沟通,生成财务报告,总结机密会议,并构建自动化工作流程,往往没有告诉任何人。微软2024年的工作趋势指数发现,78%的AI用户将自己的AI工具带到工作中。不因为他们试图制造麻烦或恶意,而是因为这些工具真正有用,他们感到必须更好地表现。然而,他们的组织太慢了,无法提供流程、程序和工具。这里的问题是输出。当一个AI工具草拟客户合同,总结法律电话或生成季度董事会报告时,风险不仅仅是“我们不知道他们使用了什么工具”。而是这些输出中嵌入的数据实践、准确性和决策对组织来说是完全不可见的。没有人审查过提示。没有人验证过结果。甚至没有人知道它发生了。而且因为AI看起来如此自信,大多数用户不会核对来源,盲目接受结果。KPMG 2025年对影子人工智能的分析报告指出,44%的员工在工作中使用人工智能的方式违反了他们公司的政策和指南。这不是一种边缘行为。这几乎是半数劳动力。为什么自主代理使其变得更加困难(和更好)这里是对话变得有趣的地方。我们不再只是谈论员工将文本粘贴到ChatGPT中。我们正在进入人工智能代理的时代——自主系统,可以连续运行,执行多步骤任务,连接到企业工具,并在每个决策中不需要人类干预。德勤2025年技术趋势报告将其描述为向“硅基工作力”的转变,并指出许多早期的代理人工智能实现之所以失败,正是因为组织试图自动化为人类设计的现有流程,而不是重新思考工作应该如何流程。这是一个岔路口。自主人工智能可以朝两个方向发展:路径一:更多的影子IT,但更糟糕。员工使用个人账户启动代理,运行在公司IT上,通过个人API密钥连接到公司工具,生成没有人可以看到、审计或复制的输出。代理每天运行报告。报告是错误的。没有人在几周内发现它,因为没有人知道它的存在。这不是假设。它现在正在组织中发生,这些组织将人工智能采用视为个人生产力游戏。路径二:治理自主性。同一个代理运行相同的每日报告——但在一个环境中,团队可以看到它在做什么,触摸什么数据,谁设置了它,以及它产生了什么。代理是共享的,而不是孤立的。它的输出是可见的。它的权限是范围化的。当事情出错时,有一条痕迹。这两条路径之间的区别不是技术。它是环境。治理人工智能在实践中是什么样子治理是那些令建设者害怕的词语。它通常意味着“慢”。更多的批准。更多的流程。更多的工作人员与管理风险人员之间的摩擦。但是,治理人工智能不一定要这样运作。我见过的最佳实现共享了一些特征:默认可见性。每个AI生成的输出——每个报告,每个警报,每个草稿——对团队都是可见的,而不是埋藏在某个人的个人聊天记录中。这不是关于监视。这是关于共享的上下文。当一个代理生成每周的竞争对手分析时,整个团队都应该能够看到它,质疑它,并在其基础上进行构建。范围权限,而不是全局访问。监视错误日志的代理不需要访问CRM。草拟社交内容的代理不需要访问财务数据。最小权限原则并不是新鲜事物。只是很少应用于人工智能系统——而且应该这样做。实际存在的审计跟踪。麦肯锡关于代理人工智能安全的剧本强调,自主代理呈现出“一系列新颖和复杂的风险和漏洞,需要立即关注和行动”。其中最基本的是:如果您无法追踪代理做了什么,访问了什么数据,做出了什么决定,您就无法治理它。句号。团队级别的控制,而不仅仅是IT级别的控制。这是大多数治理框架出错的地方。它们将所有人工智能控制集中在IT或安全中,这会产生与影子人工智能相同的瓶颈。做对的人工智能的组织正在将控制权推向团队级别——让经理和团队负责人配置、范围和监控他们团队使用的代理,在IT设置的护栏内,但不需要微观管理。组织在哪里做对了部署AI代理的公司并不一定拥有最复杂的模型。他们拥有最明确的运营边界。我在三个领域看到最强的结果:报告和监控。运行计划报告的代理——每日站立会议、每周指标摘要、错误日志摘要——并直接将其投入团队频道。这里的价值不仅仅是自动化。它是可靠的。报告每天早上都会运行,无论有人记得拉取数据还是不。由于它对团队可见,错误会更快被发现。内容和通信工作流程。草拟,而不是发布。代理生成内部更新、会议摘要或外部内容的第一稿——然后将其提交给人类审查。这里的治理部分很重要,因为当输出发送给客户时,质量标准与发送给内部Slack频道时不同。分析和警报。代理监视仪表盘,标记异常,并在指标超出预期范围时推送警报。这取代了每个团队都曾经遇到的“有人应该监视它”的问题,那个问题曾经让他们失去一个周末,因为没有人注意到生产问题。大多数组织仍然做错了什么最大的错误是将人工智能治理视为政策问题,而不是基础设施问题。您可以编写尽可能多的可接受使用政策。但如果您的员工没有一个被批准、易于使用的环境来部署人工智能,并且实际上适用于他们的日常需求,他们就会绕过您的政策。这不是人员问题。这是一个设计问题。IDC对影子人工智能的分析指出,隐秘的生产力是“扼杀企业人工智能采用的同时制造安全噩梦”,因为组织陷入了想要收益和害怕风险之间的矛盾。结果是无所作为——这是最坏的可能结果,因为它保证了未经控制的采纳。第二个错误是将治理和速度对立起来。它们不是。最好的治理人工智能环境也是最快的环境——因为团队不必花时间重建已经存在的工作,不必调试无法看到的代理,也不必重建由于某人离开公司而带走个人人工智能账户而破坏的工作流程。边疆是环境,而不是模型该行业的注意力集中在模型能力上。更大的上下文窗口。更好的推理。多模态输入。这些都很重要。但对于大多数试图完成工作的团队来说,瓶颈不是模型。它是模型运行的环境。团队可以看到它在做什么吗?他们可以控制它访问什么吗?他们可以分享它产生的内容吗?他们可以相信它正在使用正确的数据和正确的约束吗?这些是基础设施问题,而不是模型问题。而且它们将区分组织从人工智能中获得真正、持续的价值和仅仅添加另一个影子IT层的组织。边疆不是建立更聪明的模型。它是建立环境,使智能模型可以真正被信任为可行的环境。这些是基础设施问题,而不是模型问题。它们将区分组织从人工智能中获得真正、持续的价值和仅仅添加另一个影子IT层的组织。边疆不是建立更聪明的模型。它是建立环境,使智能模型可以真正被信任为可行的环境。


AI 音樂創作領域有一個新競爭者。 ElevenLabs(一家已經在AI聲音和音頻領域佔據重要地位的公司)正式推出了Eleven Music,而且我覺得它可能是迄今為止發布的最雄心勃勃的AI音樂平台。根據ElevenLabs的說法,Eleven Music被設計為“世界上最全面的AI音頻平台”,而在探索了它所提供的所有功能後,我不得不說,這個說法很難被反駁。我最為震驚的是它的質量。它與Merlin和Kobalt簽署了許可協議,這意味著您使用Eleven Music生成的音樂具有法律基礎。這是一個巨大的優勢。同時,像Suno和Udio這樣的競爭對手正在努力應對來自一些最大音樂公司的侵犯版權指控。在這篇Eleven Music評測中,我將討論其優缺點、它是什麼、誰是其最佳使用者以及其關鍵功能。然後,我將展示如何使用Eleven Music在幾分鐘內生成一首帶有歌詞的歌曲。最後,我將比較它與我最好的三個替代方案:Suno、Udio和Soundraw。無論您是尋找完美的電影配樂的電影製片人、需要免版稅背景音軌的播客主持人,還是創作者,您已經厭倦了支付許可費用,Eleven Music都在針對您。讓我們看看它是否適合您。評測Eleven Music可以快速生成高品質的音頻,並提供有用的工具,如混音、多語言支持和商業許可。然而,free plan可能會讓初學者感到限制。 優缺點 高品質的44.1kHz音頻 真實的人聲和樂器 快速的歌曲生成 免版稅的商業許可 支持多語言和混音 通過市場的商業化機會 手機應用程序可用於iOS 一些人聲聽起來很機械 AI生成的歌詞可能感覺很通用 提示系統可能對初學者來說難以學習 免費計劃非常有限(例如,不允許下載或商業用途生成) 歌曲生成可能需要幾分鐘的時間來生成更長/更複雜的曲目 與傳統的數字音頻工作站(DAW)相比,控制度不夠 什麼是Eleven...


霍莉·格兰特,DXC Technology 首席战略与创新官,是一位拥有深厚经验的技术和运营高管,经验涵盖企业 AI 战略、金融科技、创业领导和运营转型。在 DXC,她帮助塑造公司的 AI 首要创新计划,包括企业级 AI 编排、咨询服务和产品孵化工作,旨在帮助组织从实验性 AI 试点转向运营部署。在加入 DXC 之前,她曾在长期股票交易所(LTSE)担任多个领导职务,最后担任首席运营官,她专注于金融科技领域的运营扩张和战略增长。DXC Technology 是一家全球 IT 服务和咨询公司,专注于帮助企业跨云计算、网络安全、人工智能、数据基础设施和企业运营现代化其关键系统。该公司由计算机科学公司(CSC)和惠普企业服务部门合并而成,与包括医疗保健、银行、制造、保险和政府在内的各个行业的组织合作。近年来,DXC越来越多地将自己定位为围绕AI本地企业转型,提供将生成性AI、智能自动化、可观察性、数字孪生和大规模IT现代化集成到复杂企业环境中的服务。该公司还强调“AI首先”的运营模式,旨在帮助企业在现有基础设施中安全部署AI,而不是完全替换传统系统。您在战略、运营和创新交叉点上建立了职业生涯,从早期扩张组织到现在领导DXC的战略与创新。您过去的经历如何塑造您对LabX的构想和设计,以及如何创建一个专注于真实商业影响的AI孵化环境?我的职业生涯让我穿梭于家族办公室、初创公司、风险投资和现在的财富500强公司转型期。在所有这些环境中,我看到的规律是,想法本身不会成功。真正创造价值的想法往往具备三个特点:真正的客户需求、合适的市场时机和明确的适当范围。缺少任何一个因素,即使是天才想法也会停滞不前。这种模式塑造了我对LabX的思考方式。你需要一个胜利理论——真正的策略——但你也需要运营能力来使其成为现实,并且需要适应和学习的纪律。策略没有执行就是一堆幻想。执行没有策略就是没有进步的动作。LabX的设计是同时包含这两方面。在我们的CEO Raul Fernandez的领导下,DXC将AI熟练度和创新放在了转型战略的中心。LabX是我们如何将这种信念转化为产品、能力和客户成果的方式——足够快以至于重要。许多企业正在尝试使用AI,但难以将其从试点项目转移到生产环境。根据您在DXC的观察,组织在扩大AI应用方面面临的最大障碍是什么?两个障碍反复出现,且都与技术无关。第一个是变革管理。AI改变了人们的工作方式、他们的责任和决策方式。如果你不让你的员工一起成长,最优雅的模型也会被闲置。第二个是,公司在扩大AI应用时没有改变其底层运营模式。他们将智能添加到特定系统或应用程序中,以便单个用户使用,但其他团队成员无法使用。AI是一种横向智能——它在跨功能、数据和工作流时创造最大的价值。当运营模式不改变时,这种价值会被局限在本地,而不是在整个企业中复合。所以,试点项目成功了,大家都在庆祝,但实际上什么也没有扩大。这就是我们在LabX中尝试破除的模式,通过从第一天开始为企业范围的解锁进行设计。LabX采用大约90天或更短的概念到MVP周期。为了使大型企业以这样的速度移动,哪些心态、治理或开发流程的变化是必要的?最大的心态转变是愿意更早地做出决定,并拥有更不完美的信息——以及放弃不起作用的东西的纪律。大的企业习惯了长期的规划周期,因为他们觉得这样很安全。实际上,他们并不安全。在市场发展如此迅速的环境中,慢的“是”和慢的“否”都是昂贵的。在LabX内部,我们分配一个小型三人组——设计、产品和工程——来针对真正的客户问题进行冲刺。他们构建最小可行产品,测试其价值和可扩展性,并在90天内毕业出具有商业前景的想法。使这种速度成为可能的不是缺乏治理,而是正确的治理。安全、隐私、合规和负责任的AI审批都是从第一天开始就纳入流程的,而不是最后添加的。每个产品在扩大规模之前都会经过正式的治理审查。对于大多数企业来说,达到这种速度的节奏需要保护一个空间,让其合法地以这种方式移动——而不强迫每个实验都经过与多年平台构建相同的周期时间。就是LabX为我们做的事情。DXC将LabX描述为一种验证高潜力AI概念的方式,然后再将其扩大到客户。这种“客户零”方法如何确保AI解决方案是基于真实的运营需求而不是理论用例?客户零是我们的优势。在LabX产品上市之前,它必须先在DXC内部生存下来。我们管理着11.5万名员工,跨越70个国家,受监管的行业,复杂的客户合同,传统系统和真正的运营风险。这不是一个理想的演示环境——这是企业现实。传统的初创公司可以快速移动,但他们很难复制在这种复杂性中运营的真实体验。当我们首先在自己内部测试一个产品时,我们会找到它在真实数据、真实工作流和真实监管约束下会出现问题的地方——这些问题六个月后会在客户环境中出现。到我们将产品带给客户时,我们不再推销理论。我们可以说:“这是它在我们自己的运营中做了什么,这是我们改变了什么,这是我们衡量的东西。”这也让我们保持诚实。如果一个产品不能在内部证明自己,它就不会毕业。这比说“它在演示中有效”要高的标准。企业环境通常充满了传统系统、碎片化的数据和监管约束。您如何设计能够在这种现实复杂性中有效运行的AI工作流?我们从复杂环境的假设开始——这是基准,而不是例外。从架构上讲,我们采用可分解的平台方法。领先的AI工具每月都在变化,而不是每年。如果你将自己绑定到单一模型、供应商或框架,你就押注今天的领导者将来会继续领先。这是一个糟糕的赌注。可分解的架构让我们可以在前沿不断变化时交换组件,保持对真正最佳的流利度,并将工具与真正的客户挑战进行压力测试,而不是供应商的营销。在监管和数据方面,合规性从第一天开始就被设计进去了。每个产品都经过治理审查,负责AI审批是流程的一部分,而不是事后补充。跨70个国家的高监管行业运营强迫我们遵守这种纪律——这实际上对我们带来了好处,当我们将产品带给具有相同约束的客户时。传统的IT咨询依赖于长期的规划周期和僵化的实施框架。随着AI的发展速度超过这些周期,咨询模式需要如何改变?诚实的答案是,整个模型都需要转变,但如果我必须选择关键点,那就是价值主张。该行业已经花费了几十年时间出售可交付成果——幻灯片、路线图、实施计划——并为努力付出代价。在AI本地世界中,客户不想要可交付成果。他们想要结果。他们想要工作流程真正运行,成本真正降低,收入真正出现。一旦你承诺出售结果,其他一切都必须改变以支持它。团队组成变得更加技术化。参与变得从建议和离开转变为构建和运营。定价转变为远离小时制。做工作的人需要像运行指导委员会一样舒适地交付代码。这是我们行业的一项重大文化变化,并非所有人都能适应。那些做到的人在五年后将与今天大不相同。LabX也作为员工和技术合作伙伴的实验环境。内部实验在构建组织范围的AI熟练度方面有多重要?这是整个游戏。您不通过阅读AI来构建AI熟练度——您通过尝试、观看它们崩溃并再次尝试来构建。对于30年IT专业人士和刚毕业两年的年轻人来说,这都是正确的。我们最近在一个业务单元内部运行了一个AI挑战,并在两周内获得了1300多个独特的想法。这不是关于工具的统计数据——这是关于当你给人们思考外盒的许可时会发生什么的统计数据。创造力已经存在于组织内部。我们的工作是创造空间让其成长。LabX还运行轮换计划:DXC各地的技术专家会花六到十二周的时间嵌入到我们这里,使用最新的AI工具构建真正的产品。当他们回到自己的团队时,他们带来了新的技能,更重要的是,他们带来了不同的思考方式。他们开始向同事和客户提出不同的问题。他们成为可能性的冠军。这种在整个员工中的复合效应比我们交付的任何单一产品都值得更多。DXC将其方法框定为Human+,强调AI应该扩展人类能力,而不是取代它们。从实际角度来看,这种理念如何影响AI解决方案在企业中的设计和部署?我将直接说:行业中正在形成一种观点,即企业AI最有价值的事情是减少员工人数。我认为这是想象力的失败。成本纪律很重要,但真正的机会是增长:新的收入流、新的产品、新的服务,这些在AI出现之前根本不可行。AI的最高价值用例是使人们能够做出创造新业务价值的工作,而不是仅仅优化现有的工作。正确理解这一点的公司将比那些将AI视为纯粹的成本锻炼的公司表现更好。在实践中,Human+意味着我们设计AI来处理高容量的常规流程,以便我们的员工可以专注于更高价值的工作:战略思考、创造性问题解决、客户关系和复杂的判断。我们在每次部署中保持人类专业知识和监督的核心,特别是在决策具有真正后果的地方。这就是与客户建立信任的方式,也是解锁持久竞争优势的方式。当组织尝试将AI集成到现有的工作流程中时,您看到他们犯了哪些常见错误,这些错误会减慢采用速度或限制真正的商业价值?我看到两个错误不断重复。第一个是从技术开始,而不是从问题开始。有人爱上了一个模型或供应商的演示,整个项目就变成了部署这个东西,而不是解决真正重要的业务问题。第二个是将AI视为IT项目,而不是业务转型。如果你完全将AI交给CIO,并要求业务保持不变,你会得到一个没人使用的工具和明年没有人愿意为其辩护的预算。对这两种情况的解药很简单:从业务问题开始,组建正确的跨职能团队——人员、流程、技术——并从你要创造的结果反向构建。这就是我们在LabX采取的态度,也是我们与客户合作的方式,比如Ferrovial,我们帮助他们部署了AI Workbench——一种结合咨询、工程和安全企业服务的生成性AI产品,目前已被24,000多名员工使用,拥有30多个AI代理实时做出决策。这种规模的实现并非将其视为IT项目。展望未来,您预计像LabX这样的AI孵化环境将如何影响企业在未来几年内开发、测试和部署新技术?我认为将会很明显:这个时代的赢家不会是那些拥有最华丽的点解决方案的公司。他们将是集成者——那些能够将AI跨越运营模式、跨功能和跨工作流程拼接在一起的人,使得智能不会被困在单一工具或单个用户的屏幕中。这是一个比部署模型更难的问题。它需要深厚的企业背景、跨遗留和现代系统工作的能力,以及改变工作实际完成方式的纪律。这也是我最兴奋的机会。像LabX这样的孵化环境是我们获得经验的地方。它们是我们学习什么会在规模上破碎、什么治理在实践中真正意味着什么以及客户会和不会采用什么的场所。投资这种空间的企业——无论是内部还是通过合作伙伴——将在三年后拥有与现在大不相同的能力曲线。我们在这个空间中构建的人将继续找到新的问题来解决,因为技术不会减慢速度,机会也不会减少。


当我离开微软并继续与企业合作他们的AI部署时,我发现大多数人对AI系统感到兴奋,但实际上这些系统无法做出真正的人类判断。当然,他们可以写作、总结和产生令人惊叹的文本,听起来像是一个决定,但当你将这些系统投入到真正的运营环境中,存在权衡、不确定性、不完整的指令和实际后果时,他们会很快挣扎。这与麻省理工学院Project NANDA的数据相符,显示虽然60%的组织评估了AI工具,但只有20%达到试点阶段,只有5%达到生产阶段。换句话说,行业正在努力构建能够在真正的工作流中坚持的系统。在企业环境中,特别是在供应链、制造和运营等领域,获得答案并不难;难的是知道哪个答案值得信任,哪些变量最重要,以及如果做错了,什么可能会在下游破坏。在我看来,这是一个专长和判断的问题。为了澄清,AI在产生更好的输出方面取得了非凡的进步。但是,产生更好的输出并不等同于做出更好的决定。这些是两个不同的里程碑,我认为行业花了很多时间把它们当作可以互换的东西。缺乏专长和判断力是我对构建AI感兴趣的原因,人类专家可以教会AI像他们一样做出复杂的决定。AI不应该仅仅是关于自动化任务,而是关于有效和安全地将人类判断力转移到能够坚持的AI中。大型语言模型(LLM)听起来像决策者,但它们不是毫无疑问,LLM是有用的,但它们本身并不是决策系统。它们是包裹在语言中的预测系统。语言是有说服力的,这是问题的一部分。如果一个系统可以流利地解释自己,我们很容易高估它的理解程度。你问它一个商业问题,它会给你一个结构化的答案,包括权衡、注意事项和一个整洁的小结,这让它听起来比实际上更聪明。听起来连贯和在操作上胜任不是同一件事,这也是许多企业AI系统出问题的地方。模型可以告诉你什么是一个好的决定听起来像什么,但没有任何关于什么使得一个决定在压力下、随着时间的推移或在背景下是好的理解。这是许多组织难以超越实验的原因之一。 Gartner发现,至少50%的生成AI项目在概念验证后被放弃,远在它们产生真正的运营影响之前,通常是由于不明确的价值和风险控制。信息与专长不同使用AI时容易陷入的一个陷阱是,假设如果一个系统拥有足够的信息,它应该能够像专家一样表现。听起来很合理,但当你在日常生活中思考它时,增加我们对某事物的信息并不自动使我们成为专家。你可以阅读所有的航空手册,但仍然不准备好降落飞机。你可以记住所有的供应链最佳实践,但当三件事情同时出错时,你仍然会僵住。我可以继续下去,但重点是信息并不等同于能力。能力来自经验,特别是反复接触混乱的情况,答案并不明显。每天,我都看到今天的大多数AI系统都是在静态示例中训练的。这对于生成预测很有帮助,但这只是决策的一个小部分。企业并不缺乏数据,但它们需要结构化的实践环境,这意味着为系统提供环境,让它们可以反复: 遇到现实场景 做出选择 看到发生了什么 收到反馈 随着时间的推移而改进 AI可以使用预测算法进行训练,但这种方法有局限性。接下来需要的是可以在模拟环境中使用人类监督进行训练的AI。我称之为机器教学,这是一种将复杂的决策分解为场景和技能的方法,为人类专家提供了一个指导,教AI通过模拟。最终的反馈和试错过程使得代理能够从构建这些过程的人那里学习和行动,具有真正的自主性。停止将AI视为单一实体我看到的另一个错误是,人们假设一个大型模型应该以某种方式做所有事情。没有一个篮球队只由一个人组成。没有一个工厂是由一个人运营的。复杂的系统之所以有效,是因为不同的组件执行不同的任务,并且有一个结构将它们结合在一起。AI应该以同样的方式构建。我不认为企业决策的长期未来是一个巨大的模型坐在公司的中间,假装具有普遍的能力。它更可能看起来像代理团队。一个代理可以成为数据检索的专家。另一个更擅长评估场景。另一个处理规划。一个检查合规性或捕捉矛盾。另一个代理更像一个主管,决定何时升级或何时信心不足以继续。团队架构对我来说更有意义,因为它映射到真正的组织实际上是如何工作的,并且符合更广泛的市场趋势。 麦肯锡的发现证实,组织通过在AI周围重新设计工作流程和运营结构来获得最大的价值。并非所有的决定都是以同样的方式做出的,人们经常假设同样的模型、同样的数据和同样的推理类型可以处理所有的决定。实际上,不同的决定需要不同的机制。决定实际上是如何做出的在我的经验中,大多数决定往往属于几个类别: 控制系统(规则和公式): 决策是通过将预定义的方程或规则应用于已知输入来完成的。如果X发生,做Y。 搜索和优化: 决策是通过评估许多可能的选项并根据定义的目标选择最好的选项来完成的。 强化学习(试错): 决策是通过采取行动、观察结果并根据奖励或惩罚调整来学习的。 练习和经验(人类式学习): 决策是通过反复接触、指导反馈和在现实世界场景中积累的判断来塑造的。 大多数企业AI在前两个类别中表现良好。第三和第四类别对于AI来说更具挑战性,因为那是人类判断力所在的地方。没有结构的自主性就是风险每当人们谈论自主AI时,谈话往往分为两个极端。一个人认为这些系统基本上是魔术,已经准备好运行一切。另一个人认为它们不应该被信任任何有意义的事情。我不认为任何一种观点都有用。我们应该专注于结构化的自主性,因为没有监督、升级逻辑、边界或问责制的自主性是风险的主要来源。风险问题现在也越来越多,包括在诸如国家标准与技术研究所的AI风险管理框架等努力中,这反映了组织如何认真对待监督、问责制和运营信任的问题。企业AI的未来在于代理团队。从AI中获得最多价值的组织将不是那些自动化最多单词的组织。他们是那些弄清楚如何将真正的专长转移到能够在环境变得混乱时坚持的系统中的组织。那,在我看来,是令人印象深刻的AI和真正有用的AI之间的区别,真正产生了真正的投资回报率。