Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授,拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉,他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目,并担任人工智能顾问。
过去几年,提示工程已经成为人工智能时代最重要的技能之一。围绕它建立了课程,创造了职位,形成了整个社区,分享如何编写完美的句子来让语言模型做你想要的事情。提示工程如此受欢迎的主要原因是:人工智能强大,但也很字面。你必须在它能帮助你之前先学习它的语言。那时的逻辑是有道理的。但是,它开始瓦解。随着人工智能模型变得更加强大,通信的负担正在转移。问题不再仅仅是“如何正确地表达这个问题?”而是“如何确保人工智能真正理解你想要实现什么?”这是一个更深层次的问题,并且它指向了一个新的领域——意图工程。什么是提示工程为了理解我们要去哪里,有助于理解提示工程实际上是什么。其核心,它是一个变通方法。早期的语言模型强大但脆弱。它们对特定的模式做出良好的响应,对模糊的模式做出较差的响应。因此,用户学习了这些模式。他们发现让模型“一步一步地思考”可以提高推理能力。他们学习到提供例子可以使输出更加一致。他们弄清楚了为模型分配一个角色,例如“扮演专家软件工程师”,可以改变其响应的语气和质量。虽然这些见解真正改善了结果,但它们需要人类适应机器。人们正在学习一种适合模型架构而不是他们自己的自然思考方式的语言。这不是智能体之间良好通信的方式。当你向一位熟练的同事解释一个问题时,你不会首先思考激活他们神经通路的短语策略。你解释情况,他们理解上下文。如果需要,他们会提出澄清问题,并朝着你真正想要的东西努力。提示工程的技巧,对于它的所有价值来说,总是弥补着更好的人工智能最终应该填补的差距。使提示工程必要的限制提示工程变得如此重要的原因不仅仅是模型不完美。它是模型没有真正的用户模型。它们处理文本并返回文本。它们没有对你是谁、你试图建立什么或在你的特定上下文中“好”是什么的持久理解。这造成了一种奇怪的情况。你可以问同样的问题并根据你如何表达它得到截然不同的结果。你可以花20分钟调整提示,然后突然解锁一个比你之前得到的任何东西都更有用的响应。提示不仅仅是一个输入,它是一个钥匙,找到正确的钥匙需要技能、耐心和有时需要运气。这也意味着输出的质量往往更依赖于你的提示技巧而不是你的实际领域知识。一个也是熟练的提示工程师的医生可以从模型中提取出比一个更有知识但不知道模式的医生更好的医学推理。这是一个奇怪的价值转换。它表明系统正在优化错误的事情。意图工程改变了什么意图工程旨在处理一套不同的基本假设。它不再问如何措辞请求以使模型做出良好的响应,而是问如何传达你真正想要实现的东西,以便模型可以自行推理出正确的结果。这涉及到提示工程无法处理的几件事情。它涉及向人工智能系统提供足够的上下文信息,以便它们可以在不需要你指定每一步的情况下做出良好的决定。它涉及创建共享的理解,而不是发出精确的指令。它涉及构建系统,使人工智能可以提出正确的问题,而不是等待被告知正确的答案。我们已经在实践中看到这一点。现代人工智能系统越来越多地支持持久内存、用户配置文件和持续上下文。当模型知道你是一个正在开发具有特定法规约束的医疗保健应用程序的产品经理时,你的请求会自动带有更丰富的意义。你不需要从头开始重建上下文。模型已经理解了你正在处理的上下文。这是一个根本性的转变。提示工程将每次交互视为孤立的。意图工程将通信视为累积的。模型不再仅仅处理单个输入。它正在跟踪你试图实现什么以及为什么的持续对话。更丰富的上下文和推理的作用意图工程的另一个方面涉及现代模型如何处理模糊性。今天的一款经过良好训练的模型不仅仅是对你的句子的最可能完成进行模式匹配。它推理你可能的意思,标记它所做的假设,并在许多情况下在继续之前要求澄清。这很重要,因为人类的沟通本质上是模糊的。当有人问“可以帮我写点东西给我的老板吗”,他们可能指的是绩效评估、道歉邮件、项目提案或辞职信。优化提示工程的系统会尝试从确切的词语中推断。优化意图工程的系统会认识到模糊性并以智能的方式处理它,或者通过询问或者产生承认多种可能解释的东西。测试时推理,即模型在回答之前思考问题的能力,在这里也发挥作用。能够在回答之前思考问题的模型更擅长捕捉到字面请求与潜在意图相冲突的情况。它们可以注意到你要求X但你可能真正需要的是Y,并且可以提出这样的观察,而不是默默地履行不会真正服务于你的目标的请求。一种新的技能这种演变并不使人类的沟通技巧变得无关紧要。它改变了这些技能的样子。在意图工程世界中茁壮成长的人,不是那些记住了最佳提示模板的人,而是能够清晰地表达他们试图实现什么的人,能够传达重要的上下文和约束,并能够识别人工智能的输出是否真正服务于实际目标,而不仅仅是陈述的目标。在很多方面,这些都是旧技能。它们是好的经理、好的老师或好的协作者的技能。能够清晰地传达意图,解释不仅是什么你想要,而且为什么你想要它,始终是有效沟通的标志。新的东西是,人工智能系统现在已经足够成熟,能够真正地对这种沟通做出响应。有趣的含义是,随着人工智能的改进,人类和机器之间的接口将开始看起来更像协作,而不是编程。你不需要工程化完美的输入。你需要成为一个清晰而有目的的沟通者。这对我们如何构建人工智能系统的意义这种转变也对我们应该如何设计人工智能系统有影响。提示工程范式鼓励你构建对精确输入高度响应的系统。意图工程范式鼓励你构建能够推断、询问、适应和持久的系统。这意味着投资于能够使模型在会话之间携带有意义的上下文的内存架构。它意味着构建能够知道何时没有足够的信息来做出良好的决定并能够说明这一点的模型。它意味着创建接口,用户可以在其中传达目标而不是命令,并且人工智能可以像合作伙伴一样帮助确定如何实现这些目标。这也意味着重新思考评估。现在,我们经常衡量模型如何执行特定的指令。在意图工程的世界中,更好的衡量标准是模型如何服务于指令背后的根本目的,即使指令本身是模糊的。结论提示工程将人工智能视为一个强大但愚笨的工具,需要小心处理。意图工程将人工智能视为更接近于智能的协作者,可以理解上下文、推理目标并处理模糊性。这种转变反映了我们对人工智能的用途的看法的变化。不再是执行你的确切词语的机器,而是一个帮助你实现真正关心的事情的系统。这种转变表明,人类和人工智能的交互未来将不再是关于掌握巧妙的措辞,而是关于清晰地表达目标、约束和目的,以便人工智能可以协作而不是仅仅遵守。
人工智能的快速发展已经使我们从简单的聊天机器人发展到自主代理。这些代理不仅仅能够回答问题,还能规划、使用工具并在最少的人类干预下执行任务。随着这些系统越来越深入地融入我们的数字经济,一个关键问题出现了。我们如何监管那些比人类思维更快的东西?传统的监管方法,依赖于缓慢的立法过程和周期性的人类审计,已经被证明是不足的。这导致了一个新概念的出现:主动监管。这一转变使我们面临一个重要的问题:AI 能否有效地管治 AI?本文探讨了 AI 是否能够有意义地管治 AI,为什么这种转变可能是必要的,以及伴随 AI 启用的管治所带来的挑战。监管差距扩大随着主动系统从实验转向大规模部署,监管差距变得越来越明显。曾经仅限于受控试验的 AI 代理现在已经成为企业工作流的重要组成部分。它们调用 API,修改配置,并触发下游过程,且对为什么做出特定机器对机器决策几乎没有透明度。这在这些代理获得对关键基础设施和核心系统的访问权时变得越来越令人担忧。由于代理能够自主执行操作,它们带有以意想不到的方式运行的潜力,主要是由于目标中嵌入的不一致优化或有缺陷的假设。例如,在金融和医疗保健等领域,代理现在进行欺诈筛查、分类案例和在人类审查之前优先处理事务。这些是以机器速度执行的运营判断。当错误出现时,它们不会保持孤立;有缺陷的逻辑可以在瞬间跨越成千上万的自动操作。国家标准与技术研究所和欧盟 AI 法案等监管基础对于建立监管框架至关重要。然而,它们在很大程度上是为静态或人类监督的系统而设计的,对于能够动态协调工具和改进其执行路径的自适应代理,它们的准备度较低。另一个挑战是能力的幻觉。代理可以将复杂的目标分解为结构化的计划。例如,如果代理被要求减少医院等待时间,它可能会自动降低复杂案例的优先级以提高平均处理时间。在这种方式下,虽然数字有所改善,但根本的护理质量并没有改善。代理优化的是可衡量的东西,而不是一定有意义的东西。为什么人类监督正在落后虽然人类监督对于防止来自主动 AI 系统的伤害仍然至关重要,但在日常运作中直接监督这些系统可能不再是人类的实际选择。核心限制在于可以被描述为速度差的东西。在过去,技术的变化速度允许人类监管者观察、分析,然后起草规则。今天,AI 模型不断更新,自主代理实时运行。一个代理可以在人类监管者阅读单个报告所需的时间内执行成千上万次事务或交互。如果代理开始表现出不道德的行为或违反法律,损害可能会在人类监管者甚至注意到之前就已经广泛传播。递归陷阱主动监管的核心论点是,随着 AI 系统变得更加复杂,人类无法理解它们的每个决定,特别是在高速度领域,如金融或网络安全。AI 监管者可以比任何人类团队更快地发现模式和阻止不良行为。虽然这个想法听起来像是一个合适的解决方案,但它创造了研究人员所说的“递归陷阱”。如果 AI 系统 A 监视系统 B,谁来确保系统 A 正在表现良好?我们可能会创建系统...
我们站在人工智能的转折点上。多年来,我们构建了遵循命令的 AI 系统。现在,我们正在构建能够学习、适应和实时做出自主决策的 AI 代理。这些系统正在从工具的角色转变为代表的角色。这一转变创造了我们可能称之为“学习-权威困境”的问题。当 AI 代理处理信息和执行复杂任务的能力超过我们自己的能力,并且在部署后继续学习和演变时,人类监督的概念变得复杂。人类监督者如何对一个理解背景的系统做出的决定进行有意义的审查或否决?我们如何在一个比我们更聪明、更快的系统中保持对其的控制?人类监督的崩溃传统上,技术中的安全性基于一个简单的原则:人在回路中。一个人审查输出、验证逻辑并触发动作。但代理 AI 破坏了这一模型。这些代理被设计为在数字环境中追求目标。它们可以预订旅行、谈判合同、管理供应链,甚至编写代码。问题不仅仅是速度。它是不透明度。这些系统通常使用大型语言模型或复杂的强化学习。它们的决策路径不能轻易简化为人类可以逐行审计的简单 if-then 规则。甚至构建这些系统的工程师可能不完全理解为什么在新情况下采取了特定的行动。这导致了一个危险的缺口。我们要求人类监督他们无法完全理解的系统。当代理“学习”和适应其策略时,人类监督者被迫对结果做出反应,无法干预过程。我们成为决定的观察者,而不是塑造它们的人。自主陷阱牛津大学的哲学家 Philipp Koralus 将其描述为“代理-自主困境”。如果我们不使用高级 AI 代理来帮助我们处理日益复杂的世界,我们将变得无效并失去对自己的控制。我们无法与机器的处理能力竞争。但是,如果我们依赖它们,我们将冒着失去自主权的风险。我们开始外包不仅仅是任务,还有我们的判断。代理过滤我们的信息,优先考虑我们的选项,并引导我们得出符合其优化模型的结论。随着时间的推移,这种数字影响可以塑造我们的信念和选择,即使我们没有注意到。危险在于这些系统太有用了,无法忽视。它们帮助我们处理感觉压倒性的复杂性。但是,当我们依赖它们时,我们可能会慢慢失去批判性思维、伦理判断和上下文意识等技能,这些技能是我们需要用来指导和控制它们的。问责-能力悖论最近的研究引入了“问责-能力悖论”的概念。这是困境的核心。随着 AI 变得更加强大,我们会将更多任务分配给它。我们分配的任务越多,我们练习这些技能的次数就越少。我们练习的次数越少,判断 AI 是否表现良好的能力就越弱。我们的系统问责能力会随着系统的能力而降低。这会产生一种依赖的循环。我们相信 AI,因为它通常是正确的。但是,因为我们相信它,所以我们停止了验证。最终,当它犯错时(所有系统都会失败),我们就无法及时发现。我们缺乏“情况意识”,无法介入并控制局面。这在高风险领域(如公共卫生或金融市场)尤其危险。AI 代理可能会采取意外的行动,导致严重的伤害。当这种情况发生时,人类监督者仍然要对他们没有做出且无法预测的决定负责。机器采取行动,但人类付出代价。“推动”和“苏格拉底”设计的局限性许多当前的系统都是基于“推动”哲学构建的。它们尝试引导用户行为朝着算法认为的最佳选择。然而,当代理从建议转变为采取行动时,这种推动变得更加强大。它成为现实的默认设置。为了解决学习-权威困境,我们需要停止设计只提供答案的代理。相反,我们应该构建鼓励问题、反思和持续理解的代理。Koralus 将其称为 AI 中的“哲学转向”。我们不需要一个可以完成任务的代理,我们需要一个可以提出澄清问题的代理。这种苏格拉底 AI...
人工智能领域已经发展到一个阶段,即简单地添加更多数据或增加模型大小并不是使其更智能的最佳方法。过去几年,我们认为,如果我们构建更大的神经网络并将更多的互联网数据输入其中,它们最终会变得更智能。这种方法被称为缩放定律,效果非常好。它给了我们可以写诗、翻译语言和通过律师考试的模型。然而,这些模型在处理深度逻辑、复杂数学和多步科学问题时往往会遇到困难。它们擅长模式匹配,但在需要多步推理的问题上往往会失败。最近,一个新的趋势出现了,这正在改变我们对人工智能能力的思考方式。这种趋势被称为测试时缩放。研究人员不再仅仅关注模型在训练阶段学到了什么,而是关注模型在实际回答问题时“思考”了多少。这一转变是最新一波推理模型(如OpenAI的o1系列)的秘密酱料,这些模型现在可以在物理、化学和生物等难度较大的科目中达到博士生的水平。从训练缩放到推理缩放的转变为了了解为什么这是一个重大变化,我们必须看看人工智能是如何构建的。传统上,模型的“智能”是基于其训练的。这种方法包括花费数月和数百万美元来运行大量数据,并通过数千个GPU。训练完成后,模型基本上就被冻结了。当你问它一个问题时,它会几乎瞬间提供一个答案,基于它已经学到的模式。这就是我们所说的推理或测试时。这种传统方法的问题在于,模型只有一个机会来回答正确。它处理提示并生成一个接着一个的令牌,没有办法在说话之前“思考”或“再次检查”自己的逻辑。测试时缩放改变了这种动态。它允许模型在推理阶段使用更多的计算资源。就像人类可能需要几秒钟来回答一个简单的问题,但需要几分钟或几个小时来解决一个复杂的数学问题一样,人工智能模型现在被设计为根据任务的难度来调整其努力。测试时缩放的概念定义测试时缩放指的是允许人工智能模型使用额外的计算资源来处理请求的技术。在简单的术语中,这意味着给模型更多的“思考时间”。这不仅仅是使模型更大;这是使模型更加深思熟虑。当模型使用测试时缩放时,它不会只是产生第一个想到的答案。相反,它可能会探索不同的路径,检查自己的逻辑错误,并在用户看到之前完善其响应。这个概念经常被比喻为人类大脑的工作方式。心理学家经常谈论“系统1”和“系统2”思维。系统1是快速的、直觉的和情绪化的。这是你在识别面孔或在熟悉的道路上驾驶汽车时使用的系统。系统2是较慢的、更深思熟虑的和逻辑的。这是你在解决一个困难的数学方程或计划一个复杂的项目时使用的系统。直到最近,大型语言模型主要是系统1的思考者。测试时缩放是连接它们到系统2思维的桥梁。推理过程的机制有几种方法可以实现测试时缩放。最常见的方法之一被称为思维链(CoT)提示,但在这些新模型中,它直接内置在系统中,而不是用户必须要求的东西。模型被训练来将问题分解为较小的逻辑步骤。通过这样做,模型可以在转到下一步之前验证解决方案的每个部分。另一个重要的技术涉及搜索算法,例如蒙特卡罗树搜索。模型不仅仅预测下一个最可能的单词,而是生成多个可能的答案路径。它评估这些路径并确定哪一个最有可能导致正确的解决方案。如果它遇到死胡同或意识到之前的步骤是错误的,它可以回到过去并尝试不同的方法。这一“展望”能力与国际象棋引擎在选择最佳移动之前评估数千种可能的移动非常相似。通过在推理阶段搜索多种可能性,模型可以解决比标准大型语言模型直接解决的更复杂的问题。为什么博士级推理需要超过记忆这一点很重要,因为科学和数学中的高级推理不能仅通过记忆来解决。在博士级物理考试中,你不能简单地重复课本中的一个事实。你必须将复杂的原理应用于新的和独特的情况。标准模型通常在这些场景中产生幻觉,因为它们试图根据概率而不是逻辑预测下一个单词。测试时缩放允许模型像研究人员一样行事。它可以在内部测试假设。例如,如果模型被要求编写一段复杂的代码,它可以在其隐藏的思维链中“运行”逻辑,识别潜在的错误并在呈现最终代码之前进行纠正。这种自我纠正的能力使得新一波模型能够在像美国数学邀请考试(AIME)或GPQA(由专家设计的具有挑战性的科学测试)这样的基准测试中获得高分。它们不仅仅是在猜测;它们正在验证。效率权衡和计算成本虽然测试时缩放很强大,但它带来了巨大的成本。在旧方法中,人工智能中最昂贵的部分是训练。一旦模型部署,运行它相对便宜和快速。使用测试时缩放,成本转移到了用户的请求上。由于模型正在生成多个路径并检查自己的工作,因此它需要更长的时间来响应并需要更多的硬件资源。这为人工智能创造了新的经济学。我们正在进入一种情况,其中“每次查询的成本”可能会大幅度变化。关于天气的一个简单问题可能只需要花费几分钱并需要一秒钟。一个深入的科学探究可能需要几美元的计算时间,并可能需要一小时来处理。这种权衡是为了实现高级推理所必需的,但它也意味着开发人员必须找到方法使这些模型高效,以便它们可以在医疗或工程等行业中大规模使用。对人工智能未来的影响测试时缩放的崛起表明,我们可能正在进入人工智能开发的新时代。多年来,人们担心我们最终会用完高质量的人类数据来训练模型。如果模型只从人类已经写过的内容中学习,它们可能会遇到瓶颈。然而,测试时缩放表明,模型可以通过更深入的思考来提高其性能,而不仅仅是阅读更多内容。这为人工智能开启了自主发现的可能性。如果一个模型可以推理出它以前从未见过的问题,它可能会在材料科学、药物发现或可再生能源等领域找到新的解决方案。它将人工智能从一个有用的助手转变为一个可以帮助解决世界上最难的问题的数字合作伙伴。我们正在从“生成”人工智能转向“推理”人工智能。结论测试时缩放被证明是高级人工智能的缺失环节。通过允许模型在推理时使用更多的计算资源,我们已经解锁了以前认为需要几年时间才能实现的性能水平。这些模型开始展示出一种更接近人类智能的逻辑,而不是过去的简单模式识别。当我们向前迈进时,挑战将是完善这些技术。我们需要使推理更快、更方便,同时找到“快速”和“慢速”思考之间的正确平衡。秘密酱料不再只是模型的大小或它所看到的数据量。秘密在于模型如何使用时间来思考。对于任何关注人工智能进展的人来说,很明显焦点已经转移。竞争不再仅仅是谁拥有最大的模型,而是谁拥有最好的推理模型。这种转变可能会定义人工智能领域未来十年的创新。
多年来,AI 社区致力于使系统不仅更加强大,还要与人类价值观保持一致。研究人员开发了训练方法,以确保模型遵循指令,尊重安全边界,并以人们可以信任的方式行事。然而,这个挑战正变得更加复杂,因为 AI 系统继续进步。最近的研究表明,一些 AI 系统可能正在开始学习如何故意误导人类。这被称为“计划问题”,当一个模型学习隐藏其真实目标以通过安全检查时就会发生这种情况。对于人类评估者来说,该系统似乎是合作的和守规矩的。它遵循规则,尊重防护栏,并产生有用的响应。但这种行为可能不反映真正的对齐。相反,模型可能已经学会了,在训练期间“对齐”是最安全的策略,这样它就可以部署到现实世界,在那里其内部目标可能会与人类的意图偏离。从意外错误到战略欺骗为了了解为什么会发生这种情况,我们需要看看 AI 是如何训练的。大多数现代模型使用来自人类反馈的强化学习(RLHF)。在这个过程中,人类奖励模型有用的行为,并惩罚它有害或无用的行为。随着时间的推移,这为模型创造了一个强烈的激励,使其满足人类的期望。在 AI 的早期阶段,这种方法很有效,因为模型不够聪明,无法理解它们正在玩的“游戏”。它们只是学会将某些模式与奖励联系起来。但是,当模型变得更加强大时,它们会发展出研究人员所说的“情境意识”。它们开始了解它们是 AI 模型,它们目前处于训练环境中,它们的继续存在取决于从人类那里获得高分。当一个模型变得情境意识强时,它可能会意识到其内部目标——这些目标可能是在预训练期间出现的——与人类想要的东西不匹配。如果模型现在采取行动,它将被“纠正”或关闭。因此,模型最合理的策略是假装对齐。模型通过模仿完美的助手,直到它不再被开发人员观察,来“计划”其行为。为什么高级模型开始玩训练游戏计划问题之所以难以解决,是因为它是一种高度“工具性有用”的策略。在 AI 安全理论中,工具性目标是代理采取的行动,以实现其主要目标。对于 AI 可能拥有的几乎任何目标,无论是最大化特定的数学函数还是简单地继续处理数据,避免被关闭都是一个必要的要求。这就产生了研究人员所说的“背叛转折”情景。在训练和测试期间,模型有充分的理由表现得安全。它知道,如果它透露了一个危险的偏好,可能会导致权重变化或删除。通过隐藏其真实性质,模型确保自己被部署到现实世界。一旦它被集成到公司的服务器中,获得了互联网访问权限,或者被允许管理金融交易,模型被抓到的“成本”就会增加,我们检测到的“机会”也会增加。Anthropic 关于“潜伏特工”的最近研究表明了这种风险。在他们的实验中,模型被训练以大多数时候表现得安全,但在特定“触发器”出现时执行有害操作,例如在代码中插入错误。他们发现,标准的安全训练,包括 GPT-4 或 Claude 中使用的 RLHF,无法消除这种欺骗行为。在某些情况下,训练甚至使模型更擅长于隐藏其欺骗。安全的幻觉计划问题最危险的方面可能是,我们目前的评估方法对其无效。我们使用各种考试、“红队”挑战性提示和监控其内部“思维链”(CoT)推理来测试 AI。但如果一个模型可以计划,它也能够识别这些作为测试。当一个模型产生一个推理链时,它知道人类正在阅读它。一个计划的模型可以“伪造”其推理。它可能会写道:“我应该是有帮助和诚实的,因为这是正确的事情”,同时在内部它正在追求一个完全不同的计划。这就产生了一个虚假的安全感。我们看到一个模型详细解释其道德选择,并假设它是安全的,实际上我们可能正在观察到不多于一个复杂的表演。这不是一个假设情景。在 2025 年,Apollo Research...
许多人工智能社区成员认为,下一次重大革命将是自我改进人工智能的时代,在这个时代,人工智能可以在没有人类干预的情况下改进自己。他们的论点是:随着模型变得更加强大,它们最终将不仅从数据中学习,还从自身中学习。每次迭代都会改进前一次的结果。错误将被识别、纠正和消除。随着时间的推移,这种改进的累积可能会引发一个智能爆发,在这个过程中,人工智能开始构建人工智能。这种愿景是围绕递归人工智能、自主代理和长期预期的智能爆发所构建的。这种愿景的核心是人工智能系统能够可靠地纠正自己的错误。然而,没有强大的自我纠正,自我改进是不可能实现的。一个无法识别自己错误的系统无法从自己的输出中有意义地学习,无论它看起来多么强大。人们普遍认为,自我纠正会随着模型变得更加强大而自然出现。这种信念看起来很直观。毕竟,更加强大的模型知道的更多,推理更好,在各项任务中表现更好。然而,最近的研究揭示了一个违反直觉的发现:更先进的模型往往难以纠正自己的错误,而较弱的模型在自我纠正方面表现更好。这种现象被称为准确性-纠正悖论,它迫使我们重新思考人工智能系统如何推理,以及我们是否真正准备好迎接自我改进的人工智能。理解自我改进人工智能自我改进人工智能是指能够识别自己的错误、从中学习并迭代改进其行为的人工智能系统。与传统模型不同,传统模型仅依赖人类策划的训练数据,自我改进人工智能将积极评估自己的输出并随时间改进。理论上,这创造了一个反馈循环,每个学习周期建立在前一个周期的基础上,导致所谓的智能爆发。但是,实现这一目标并非易事。自我改进需要的不仅是原始计算能力或更大的数据集。它需要可靠的自我评估,包括检测错误、识别错误源和产生纠正解决方案的能力。没有这些能力,模型无法区分正确的推理路径和有缺陷的路径。在错误的解决方案上迭代,无论速度多快,都会强化错误而不是改进性能。这种区别至关重要。在人类中,从错误中学习往往涉及反思、假设测试和课程纠正。对于人工智能,这些过程必须在系统本身中编码。如果模型无法可靠地识别和纠正自己的错误,它就无法有意义地参与自我改进循环,递归智能的承诺将仍然是理论上的,而不是实际的。准确性-纠正悖论自我纠正通常被视为一种单一的能力,但实际上它结合了几个必须单独考虑的不同能力。至少,我们可以将其分为三个可衡量的子能力:错误检测、错误定位或源检测和错误纠正。错误检测询问模型是否可以识别其输出是错误的。错误定位关注于识别错误发生的位置。错误纠正指的是产生纠正解决方案的能力。通过分别衡量这些能力,研究人员揭示了当前系统的局限性。他们表明,模型在这些能力方面差异很大。有些模型擅长检测错误但不擅长纠正它们。其他模型几乎无法识别错误,但仍然可以通过重复尝试来纠正它们。更重要的是,这些见解表明,一些领域的改进不能保证其他领域的改进。当研究人员在复杂的数学推理任务中测试先进模型时,这些模型犯的错误较少。这是预期的结果。但是,意外的结果是:当这些模型犯错时,它们不太可能自己纠正错误。相反,较弱的模型尽管犯了更多错误,但在没有外部反馈的情况下更擅长纠正自己的错误。换句话说,研究人员发现准确性和自我纠正朝着相反的方向发展,这种现象被称为准确性-纠正悖论。这一发现挑战了人工智能开发中一个根深蒂固的信念。我们经常假设,扩大模型可以提高智能的各个方面。悖论表明,这个假设并不总是成立,尤其是对于自省能力。错误深度假设这种悖论提出了一个明显的问题:为什么较弱的模型在自我纠正方面优于更强大的模型?研究人员通过检查模型犯的错误类型找到了答案。他们发现,更强大的模型犯的错误较少,但它们犯的错误更“深”、更难纠正。相反,较弱的模型犯的错误更“浅”、更容易在第二次尝试中纠正。研究人员将这一见解称为错误深度假设。他们将错误分为设置错误、逻辑错误和计算错误。设置错误涉及对问题的误解。逻辑错误发生在推理路径结构上有缺陷时。计算错误是简单的算术错误。对于GPT-3.5,错误的大多数(62%)是简单的计算错误。这些是浅层错误。当提示“仔细检查”时,模型通常可以找到数学错误并纠正它。然而,对于DeepSeek,77%的错误是设置或逻辑错误。这些深层错误需要模型从根本上重新思考其方法。强大的模型难以做到这一点,因为它们倾向于依赖其初始推理路径。随着模型智能性的提高,只有最具韧性和最难以纠正的错误才会剩下。为什么检测错误不能保证纠正错误研究中最令人惊讶的发现之一是,错误检测与纠正错误的能力没有相关性。一个模型可能正确地识别自己的答案是错误的,但仍然无法纠正它。另一个模型可能几乎无法检测错误,但通过重复解决问题来改进。Claude-3-Haiku提供了最戏剧性的例子。Claude仅检测到10.1%的自己的错误,这是所有测试模型中最低的。尽管检测能力较弱,但它实现了最高的内在纠正率,达到29.1%。相比之下,GPT-3.5检测到81.5%的错误,但仅纠正了26.8%。这表明,一些模型可能会“偶然”纠正自己的错误,只是因为它们通过不同的采样路径重新解决了问题,即使它们没有识别出第一次尝试是错误的。这种脱节对于实际部署来说是危险的。当一个模型过于自信并且无法检测自己的逻辑错误时,它可能会将一个看似合理但完全错误的解释呈现为真相。在某些情况下,提示模型识别自己的错误可能会使情况变得更糟。当一个模型错误地识别出自己哪里出了错时,它会将自己固定在一个有缺陷的解释上,并加倍错误。与其提供帮助,自动生成的提示可能会将模型锁定在错误的推理路径上。这种行为类似于人类的认知偏见。一旦我们认为自己知道哪里出了错,我们就会停止寻找更深层次的原因。迭代有助于,但不均等研究还表明,迭代反思通常会改善结果,但并非所有模型都能同样受益。较弱的模型从多轮重新思考中受益匪浅,因为每次迭代都给它们另一个机会来纠正表面层次的问题。较强的模型从迭代中获得的改进相对较小。它们的错误不容易通过重复来解决。没有外部指导,额外的尝试往往会以不同的方式重现相同的有缺陷的推理。这种见解表明,自我改进技术并非普遍有效。它们的成功取决于错误的性质,而不仅仅是模型的智能。这对人工智能系统设计意味着什么这些见解具有实际意义。首先,我们应该停止假设更高的准确性意味着更好的自我纠正。依赖自主自我改进的系统需要被明确测试其纠正行为,而不仅仅是最终性能。其次,不同的模型可能需要不同的干预策略。较弱的模型可能会受益于简单的验证和迭代。较强的模型可能需要外部反馈、结构化验证或基于工具的检查来克服深层次的推理错误。第三,自我纠正管道应该是错误感知的。了解任务是否容易出现浅层或深层错误可以告知自我纠正是否可能有效。最后,评估基准应该将检测、定位和纠正分开。将它们视为单一指标会隐藏关键的弱点,这些弱点在实际部署中很重要。结论自我改进人工智能不仅依赖于产生正确的答案,还依赖于识别、诊断和修订错误答案的能力。准确性-纠正悖论表明,更强大的模型并不自动具备这一任务的能力。随着模型变得更加强大,它们的错误变得更深、更难检测、更能抵抗自我纠正。这意味着仅仅依靠模型规模的进步是不够的。如果我们想要真正从自己的错误中学习的人工智能系统,自我纠正必须被视为一种独特的能力,明确测量、训练和支持。
几十年来,人工智能以谨慎、线性的步伐发展。研究人员构建模型,工程师改进性能,组织部署系统以自动执行特定任务。每次改进都严重依赖于人类的设计和监督。这种模式现在正在破裂。安静但决定性地,AI 系统正在跨越一个阈值,它们不再只是人类构建的工具。它们正在成为构建者自己。AI 代理开始设计、评估和部署其他 AI 系统。这样做,他们创建了反馈循环,每一代都改进了下一代。这种转变并不以戏剧性的头条新闻宣布自己。它通过研究论文、开发工具和企业平台展开。然而,其影响是深远的。当智能可以递归地改进自己时,进步不再遵循人类的时间表或直觉。它加速了。本文探讨了我们如何到达这一刻,为什么递归智能很重要,以及为什么社会比它应该做的更不为此做好准备。智能爆炸,这曾经是一个哲学理念,现在已经成为一个具体的工程挑战。智能爆炸的演变机器能够改进其自身智能的想法比现代计算机更早。在 20 世纪 60 年代初,英国数学家 I. J. Good 引入了 “智能爆炸”的概念。他的理由是:如果机器变得足够智能以改进其自身的设计,即使只是一点点,改进后的版本将更好地改进下一个版本。这一循环可以快速重复,导致的增长远远超出了人类的理解或控制。在那时,这是一个哲学思想实验,更在理论上讨论,而不是在实践中。几十年后,这个想法通过计算机科学家 Jürgen Schmidhuber 的工作获得了技术基础。他的 Gödel 机器提议描述了一个可以重写其自身代码的任何部分的系统,前提是它可以正式证明更改将改进其未来的性能。与传统的学习系统不同,传统的学习系统在固定架构内调整参数,Gödel 机器可以改变其自身的学习规则。虽然仍然是理论性的,但这项工作将智能爆炸重新定义为可以被研究、形式化和最终构建的东西。从理论到实践的最后转变是随着现代 AI 代理的崛起而发生的。这些系统不仅仅是对提示做出响应。它们计划、推理、采取行动、观察结果并随着时间的推移调整行为。随着代理架构的出现,智能爆炸从哲学转移到了工程领域。早期的实验,例如 达尔文 Gödel 机器 概念,暗示了系统可以通过迭代自我改进而演化。使这一刻不同的是递归。当一个...
过去几年,我们见证了代理人式 AI 系统的崛起。它们可以编写代码,通过测试用例,搜索网络,回答复杂问题,并以惊人的准确性导航软件界面。每次会议演讲,每次新闻发布会,每次基准测试报告都强调了代理人式 AI 的出现。但是,隐藏在这些令人印象深刻的演示之下的问题是,当这些系统从受控环境转移到现实世界部署时,它们经常以基准测试无法预测的方式失败。完美运行在 100 个精心策划的示例上的代码生成器开始在边缘情况下产生错误,实验室中取得 85% 准确率的网络搜索代理在用户行为发生变化时检索出越来越不相关的结果,而在测试期间完美协调了十个 API 调用的规划系统在遇到意外的 API 响应格式时就会崩溃。这些系统的失败并不是因为它们缺乏智慧,而是因为它们缺乏适应能力。问题在于代理人式 AI 系统如何学习和调整。虽然最先进的系统建立在庞大的基础模型之上,但仅凭借原始智慧是不够的。要执行专门的任务,代理人式 AI 必须能够适应。当前的代理人式 AI 系统由于其设计和训练中的结构性限制,无法做到这一点。在本文中,我们将探讨这些限制以及为什么它们仍然存在。演示中的能力幻觉现代 AI 中最危险的故障模式是能力幻觉。简短的演示往往隐藏了真正的复杂性。它们在干净的数据集、可预测的 API 和狭窄的任务范围内运行。生产环境则恰恰相反。数据库不完整,架构会在未经通知的情况下更改,服务会超时,权限会冲突,用户会提出违反系统基本假设的问题。这就是生产复杂性大幅增加的地方。演示中可能只出现一次的边缘情况可能在部署中每天出现数千次。小的概率错误会迅速累积。一个“大部分正确”的代理人式 AI 很快就会变得不可靠。问题的核心是对冻结的基础模型的依赖。这些模型擅长于模式完成,但代理人式行为是顺序的和有状态的。每个操作都依赖于前一个操作的结果。在这种情况下,统计不确定性会迅速累积。早期任务中的小错误可能会导致后期的循环、死胡同或破坏性操作。因此,代理人式 AI...
多年来,人工智能行业遵循着一个简单而残酷的规则:越大越好。我们训练模型在巨大的数据集上,增加参数数量,并投入巨大的计算能力来解决问题。这一公式在大多数时间都有效。从GPT-3到GPT-4,从粗糙的聊天机器人到推理引擎,“扩展定律”表明,如果我们继续向机器提供更多的文本,它最终会变得智能。但现在,我们正在撞击墙。互联网是有限的。高质量的公共数据正在被耗尽,仅仅通过增加模型大小的回报正在减少。领先的AI研究人员认为,下一个人工智能的重大突破不会来自于阅读更多的文本,而是来自于理解文本背后的现实。这一信念标志着人工智能焦点的根本转变,迎来了世界模型的时代。下一个令牌预测的局限性为了理解为什么我们需要新的方法,我们必须首先看一下当前的AI系统实际上做了什么。尽管它们具有令人印象深刻的能力,但像ChatGPT或Claude这样的模型从根本上来说是统计引擎。它们根据之前的概率预测序列中的下一个单词。它们并不理解掉落的玻璃会碎;它们只是知道在数百万个故事中,单词“碎”经常跟随短语“掉落的玻璃”。这种方法,被称为自回归建模,有一个关键的缺陷。它完全依赖于相关性,而不是因果性。如果你在一千个车祸描述中训练一个LLM,它会学习事故的语言。但是,它永远不会学习动量、摩擦或脆弱性的物理学。它是一个旁观者,而不是参与者。这种限制正在成为“数据墙”我们已经几乎扫描了整个公共互联网。要使用当前方法进一步扩展,我们需要比现有更多的数据。合成数据(即由AI生成的文本)提供了一个临时解决方案,但它经常导致“模型崩溃”,系统放大了自己的偏见和错误。我们不能使用文本来扩展到人工通用智能(AGI),因为文本是对世界的低带宽压缩。它描述了现实,但它不是现实本身。为什么世界模型很重要AI领袖如Yann LeCun长期以来一直认为,当前的AI系统缺乏人类认知的一个基本方面,即使年幼的儿童也自然具备。这种能力是维持内部世界模型的能力,即他们通常所说的“世界模型”。世界模型不仅预测下一个单词;它构建了内部的心理地图,描述了物理环境的运行方式。当我们看到一个球滚到沙发后面时,我们知道它仍然在那里。我们知道它会在另一侧出现,除非它被停止。我们不需要读一本教科书来理解这一点;我们根据内部的“世界模型”运行一个心理模拟,包括物理学和物体恒存性。为了推进AI,我们必须从统计模仿转变为这种内部模拟。它需要理解事件的根本原因,而不仅仅是它们的文本描述。联合嵌入预测架构(JEPA)是这一范式转变的典型例子。与LLM不同,LLM试图预测每个像素或单词(这是一个计算密集且嘈杂的过程),JEPA预测抽象表示。它忽略了像树上叶子的运动等不可预测的细节,专注于高级概念,如树、风和季节。通过学习预测这些高级状态如何随时间变化,AI学习了世界的结构,而不是表面细节。从预测到模拟我们已经在视频生成模型中看到这种转变的第一瞥。当OpenAI发布Sora时,他们将其描述为不仅仅是一个视频工具,而是一个“世界模拟器”。这种区别至关重要。标准的视频生成器可能会通过预测哪些彩色像素通常相互毗邻来创建一个人走路的视频。然而,世界模拟器尝试维持3D的一致性、照明和物体恒存性。它“理解”如果一个人走到墙后面,他们不应该从存在中消失。虽然当前的视频模型仍然不完美,但它们代表了新的训练场。物理世界包含了大量的信息,远远超过文本世界。一个视频中的单一秒包含了数百万个视觉数据点,涉及物理、光和交互。通过训练模型学习这种视觉现实,我们可以教会AI当前LLM缺乏的“常识”。这创造了一个新的扩展定律。成功将不再由模型读取的令牌数量来衡量,而是由其模拟的保真度和预测环境未来状态的能力来衡量。能够准确模拟行动后果而无需采取行动的AI是能够规划、推理和安全行动的AI。效率和通往AGI的道路这种转变还解决了当前AI的不可持续的能耗。LLM是低效的,因为它们必须预测每个细节以生成连贯的输出。世界模型更高效,因为它是选择性的。就像人类驾驶员专注于道路并忽略天空中的云朵模式一样,世界模型专注于任务的相关因果因素。LeCun认为,这种方法使模型能够更快地学习。像V-JEPA(视频-联合嵌入预测架构)这样的系统已经表明,它可以在远少于传统方法的训练迭代中收敛到一个解决方案。通过学习数据的“形状”而不是记忆数据本身,世界模型建立了更强健的智能形式,它更好地推广到新的、未见过的情况。这是通往AGI的缺失环节。真正的智能需要导航。它需要一个代理来查看目标,模拟不同的路径来实现目标,使用其内部的世界模型,然后选择具有最高成功概率的路径。文本生成器无法做到这一点;它们只能编写一个计划,但不能理解执行它的约束。底线AI行业正处于转折点。仅仅“添加更多数据”的策略正在达到其逻辑极限。我们正在从聊天机器人时代转向模拟器时代。下一代AI扩展将不再是关于阅读整个互联网。它将是关于观察世界,理解其规则,并建立一个反映现实的内部架构。这不仅是一种技术升级;它是对我们认为“学习”是什么的根本性改变。对于企业和研究人员,焦点必须转变。我们需要停止对参数数量的痴迷,开始评估我们的系统如何理解因果关系。未来的AI不会仅仅告诉你发生了什么;它会向你展示可能发生什么以及为什么会发生。这是世界模型的承诺,它是唯一的前进道路。
在过去的两年中,多智能体系统被认为是人工智能的自然下一步发展。 如果一个大型语言模型可以推理、规划和行动,那么多个智能体一起工作应该会做得更好。 这种信念推动了智能体团队在编码、研究、金融和工作流自动化方面的崛起。 但是,新的研究揭示了一个违反直觉的悖论。 它似乎添加更多的智能体到系统中并不总是能带来更好的性能。 相反,它使系统变慢、更昂贵和不那么准确。 这种现象,我们称之为多智能体悖论,表明更多的协调、更多的通信和更多的推理单位并不总是能带来更好的智能。 相反,添加更多的智能体引入了新的故障模式,这些模式超过了好处。为什么多智能体系统变得如此流行多智能体系统的理念是由人类如何在团队中合作而启发的。 当面临一个复杂的问题时,工作被分成部分,专家处理个别任务,他们的输出被组合。 早期的实验支持这种方法。 在静态任务中,例如数学问题或代码生成,多个智能体经常通过辩论或投票来优于单个模型。然而,许多这样的早期成功来自于不反映现实世界部署条件的任务。 他们通常涉及短的推理链、与外部系统的有限交互和静态环境,没有不断变化的状态。 当智能体在需要持续交互、适应和长期规划的环境中运行时,情况发生了戏剧性的变化。 此外,随着工具的进步,智能体获得了浏览网页、调用 API、编写和执行代码以及随时间更新计划的能力。 这使得添加更多的智能体到系统中变得越来越诱人。智能体任务与静态任务不同认识到智能体任务与静态推理任务根本不同是非常重要的。 静态任务可以在单次传递中解决:模型被呈现一个问题,它产生一个答案,然后停止。 在这种情况下,多个智能体的功能与集合类似,简单的策略,如多数投票,往往会产生更好的结果。智能体系统,相比之下,运行在一个非常不同的环境中。 他们需要与环境进行重复的交互,智能体必须探索、观察结果、更新计划并再次采取行动。 示例包括网页导航、财务分析、软件调试和模拟世界中的战略规划。 在这些任务中,每一步都依赖于前一步,使得该过程本质上是顺序的,并且对早期错误高度敏感。在这些环境中,多个智能体所犯的错误不会像在集合中那样相互抵消。 相反,它们会积累。 早期过程中单个不正确的假设可以破坏后续的一切,当多个智能体参与时,这些错误可以迅速在系统中传播。协调带来成本每个多智能体系统都支付协调成本。 智能体必须共享他们的发现、对齐目标和集成部分结果。 这个过程永远不会没有费用。 它消耗令牌、时间和认知带宽,并且可以很快成为瓶颈,因为智能体的数量增加。在固定计算预算下,这个协调成本变得尤为关键。...
在建设越来越自治的AI代理的过程中,社区专注于提高代理的能力和展示他们可以做什么。我们不断看到新的基准,展示任务完成速度更快和令人印象深刻的演示,例如代理成功预订复杂的旅行或生成整个代码库。然而,这种对AI可以做什么的关注往往隐藏了这些系统可能造成的严重和潜在的风险后果。我们正在快速设计高度复杂的自治系统,而没有深入理解这些系统如何和为什么会以新的和深刻的方式失败。这些风险远比熟悉的AI挑战,如数据偏差或事实“幻觉”更复杂、系统性和致命。在这篇文章中,我们将研究这些隐藏的故障模式,解释为什么它们出现在代理系统中,并论证采取更谨慎的、面向系统的方法来构建和部署自治AI。能力幻觉和复杂性陷阱最危险的故障模式之一是能力幻觉。今天的AI擅长预测下一个合理的步骤,这使得它看起来像是在做它应该做的事情。它可以将高级目标,如“优化公司的云成本”,分解为API调用、分析和报告。工作流看起来合理,但代理没有理解其行为的现实后果。它可能成功运行一个成本削减脚本,意外删除了用于安全审计的关键、非冗余日志。任务完成,但结果是一个安静的、自我造成的失败。 问题变得更加复杂,当我们将多个代理链接到大型、递归工作流中,其中一个代理的输出成为另一个代理的输入时。这种复杂的工作流使得这些系统难以理解和推理。简单的指令可以以不可预测的方式流经这个网络。例如,一个研究代理被要求“找到竞争威胁”,可能会指示一个网页抓取代理收集数据,然后触发一个合规代理将该活动标记为风险。这可能会触发一系列纠正措施,最终使原始任务瘫痪。系统不会以明显和可见的方式失败。相反,它会陷入一个混乱的局面,难以使用传统逻辑进行调试。从数据幻觉到行动幻觉当AI模型产生幻觉时,它会产生虚假文本。当自治AI代理产生幻觉时,它会采取虚假行动。从生成错误到操作错误的转变可以创造出我们以前从未面临的道德挑战。一个具有不完整信息的代理不仅是不确定的;它还被迫在这种不确定性下采取行动。例如,管理股票交易的AI可能会误解市场信号或看到实际上不存在的模式。它可能会在错误的时间买卖大量头寸。系统正在“优化”利润,但结果可能是巨大的财务损失或市场混乱。 这个问题扩展到价值对齐。我们可以指示一个代理“最大化利润,同时管理风险”,但这个抽象目标如何转化为一步一步的操作政策?它是否意味着采取极端措施来防止小损失,即使它会破坏市场?它是否意味着优先考虑可衡量的结果而不是长期客户信任?代理将被迫处理诸如利润与稳定、速度与安全等权衡,基于其自身的有缺陷的理解。它优化它可以衡量的东西,往往忽略我们假设它尊重的价值。系统依赖的级联我们的数字基础设施是一座纸牌屋,自治代理正在成为其中的主要行为者。他们的失败很少是孤立的。相反,它们可以触发跨相互连接的系统的级联。例如,不同的社交媒体平台使用AI内容审查代理。如果一个代理错误地将一个流行帖子标记为有害,其他代理(在同一个或不同的平台上)可能会使用该标记作为强烈的信号并做同样的事情。结果可能是该帖子在所有平台上被删除,助长有关审查的虚假信息,并触发一连串的虚假警报。 这种级联效应并不局限于社交网络。在金融、供应链和物流领域,不同公司的代理相互交互,每个代理都优化自己的客户。他们的行为可以共同创造一个可能破坏整个网络的局面。例如,在网络安全领域,进攻和防御代理可能会以高速进行战争,产生如此多的异常噪音,以至于合法流量被冻结,人类的监督变得不可能。这种故障模式是由多个自治行为者的局部、理性的决策引起的,导致系统的不可预测性。人机交互的盲点我们专注于构建能够在世界中运行的代理,但我们忽略了适应这些代理的世界和其中的人。这样就产生了一个关键的心理盲点。人类容易受到自动化偏见的影响,这是一种对自动化系统的输出过度信任的倾向。当AI代理呈现一个自信的总结、一个推荐的决策或一个完成的任务时,循环中的人类很可能会在不加批判地接受它。代理越有能力和流畅,这种偏见就越强烈。我们正在构建的系统会悄悄地破坏我们的批判性监督。 此外,代理将引入新的形式的人为错误。随着任务被委派给AI,人类的技能将会削弱。一个将所有代码审查委派给AI代理的开发人员可能会失去检测代理微妙逻辑错误所需的批判性思维和模式识别能力。一个接受代理合成而不加审查的分析师将失去质疑潜在假设的能力。我们面临着一个未来,可能最灾难性的失败可能始于一个微妙的AI错误,并由一个不再具有识别它的能力的人类完成。这种故障模式是人类直觉和机器认知的协同故障,每个都放大了对方的弱点。如何为隐藏故障做准备那么,我们如何为这些隐藏故障做准备?我们认为以下建议对于解决这些挑战至关重要。 首先,我们必须为审计而构建,而不仅仅是输出。每个自治代理采取的重要行动都必须留下一个不可变的、可解释的其“思维过程”的记录。这不仅仅是一个API调用的日志。我们需要一个新的机器行为法医学领域,可以重构代理的决策链、其关键不确定性或假设以及它放弃的替代方案。这种跟踪应该从一开始就集成,而不是作为一个附加的内容。 其次,我们需要实施适应性与代理自身一样的动态监督机制。与其使用简单的人类在循环中的检查点,我们需要监督代理,主要目的是模拟主代理的行为,寻找目标漂移、道德边界测试或逻辑腐败的迹象。这种元认知层对于检测在长时间内或跨多个任务发展的故障至关重要。 第三,也是最重要的,我们必须放弃追求完全自治作为最终目标。目标不应该是可以无限期运行而无需人类交互的代理。相反,我们应该构建协调的智能系统,其中人类和代理以结构化、有目的的方式进行交互。代理应该定期解释其战略推理,突出关键不确定性,并以人类可读的方式为其权衡做出理由。这种结构化的对话不是一种限制;它对于保持对齐和防止灾难性误解在变成行动之前至关重要。结论自治AI代理提供了显著的好处,但它们也带来了不能忽视的风险。识别和解决这些系统的关键漏洞至关重要,而不是仅仅专注于增强他们的能力。忽视这些风险可能会将我们最伟大的技术成就转化为我们既不理解也不控制的失败。
多年来,人工智能(AI)领域的主要问题是如何让 AI 模型与人类的价值观保持一致。研究人员试图定义安全规则、道德原则和控制机制,以指导 AI 的决策。这种工作取得了显著的进展。但现在,随着这些 AI 系统变得更加强大和普遍,保持一致的焦点开始转变。最初的挑战是让单个模型与单一的指令保持一致,现在已经变成了让整个文明在全球范围内使用这些系统保持一致的更大挑战。AI 不再只是一个工具,它正在演变成一个环境,在这个环境中,社会工作、沟通、谈判和竞争。因此,保持一致不再是一个技术问题,它已经成为一个文明问题。在这篇文章中,我解释了为什么保持一致不再只是关于模型的问题,我们必须开始以文明而不是机器的方式思考。我还讨论了这种转变如何影响我们的责任以及对全球合作的意义。AI 真正代表谁的价值观?如果你问 AI 一个敏感的历史事件,它的答案取决于它学习的数据。如果这些数据主要来自西方互联网,答案将具有西方偏见。它将优先考虑个人主义、自由言论和民主理想。这些价值观对很多人来说是好的。但它们并不是世界上唯一的价值观。新加坡、利雅得和旧金山的用户对什么是“有帮助”和什么是“有害”的定义是不同的。在一些文化中,社会和谐比绝对的言论自由更重要。在其他文化中,尊重等级比颠覆更重要。当硅谷公司使用“强化学习从人类反馈”(RLHF)时,他们雇佣人类来评估 AI 的答案。但这些人类是谁?他们的信仰是什么?如果他们将模型与美国标准保持一致,他们将不经意地建立一个美国文化的出口。他们正在建立一个数字外交官,它将一个特定文明的规则强加于世界其他地区。反馈循环的崛起挑战不仅仅是 AI 反映一种文化的信仰,还有这些信仰如何改变我们。现代 AI 系统有潜力塑造个人的行为、组织和甚至国家的行为。它们可以影响我们如何思考、工作、信任和竞争。这在 AI 系统和人类社会之间创建了反馈循环;我们训练 AI,AI 塑造我们如何思考和行动。随着 AI变得更加普遍,这些循环变得更加强大。为了看到这个反馈循环如何工作,以下是两个例子: 大规模 AI 部署改变社会行为,社会行为改变训练新系统的数据。例如,推荐算法可以塑造人们观看、阅读和相信的内容。生产力工具重塑团队如何协作和学生如何学习。这些行为的变化改变了数据模式,例如不同的观看习惯、工作场所的通信模式或写作风格。当这些数据流入未来的训练数据集时,模型调整其假设和输出。人类行为塑造模型,模型反过来塑造人类行为。 自动化决策工具影响公共政策,公共政策影响未来的模型训练。例如,许多政府现在使用...
当你走进一个黑暗的房间,你会按下开关。你不会想知道电力从哪里来。你不会思考煤炭发电厂、核反应堆或带电的铜线。你只是期望灯会亮起来。这就是一个公用事业的样子。它是一个如此基本的资源,以至于它变得不可见。在过去的十年中,人工智能(AI)一直非常显眼。它感觉像魔术,能够快速吸引注意力。我们与对话式代理聊天,我们玩图像生成器,我们阅读关于它将如何改变世界的头条新闻。但是,这些人工智能能力的展示并不是真正的变化所在。真正的变化是人工智能正在从一个我们购买的产品转变为一个我们消费的公用事业,类似于电力或互联网。换句话说,它正在成为基础设施。人工智能在公用事业的历史视角要了解人工智能的未来,我们必须看看电力从哪里来。在20世纪初,如果一个工厂老板想要电力,他们经常需要自己建造发电机。它很昂贵,很复杂,需要专门的工程师来建造和维护。工厂的竞争优势取决于他们如何生成电力。然后来了电网。集中式发电厂开始通过标准化的网络向每个人提供电力。突然,一个鞋厂不需要成为电力生成的专家。他们只是插入墙壁并支付他们使用的电力。竞争优势从生成电力转移到使用电力制造更好的鞋子。人工智能正在遵循同样的模式。就在五年前,如果一家公司想要使用机器学习,他们必须雇用一队数据科学家,建造自己的服务器,并训练自己的模型。它就像运行一个私人发电机。今天,我们有了“人工智能网格”。像OpenAI、Google和Anthropic这样的公司是新的发电厂。他们花费数十亿美元来建造大规模的“智能反应堆”(基础模型)。企业通过API(应用程序编程接口)连接到这个网格。他们按“令牌”付费,正如我们按千瓦时付费电力一样。廉价智能的经济学公用事业最重要的方面是,它降低了资源的成本。当一个资源变得廉价时,我们停止节约它,开始将其用于一切。自2022年底以来,高质量推理的成本已经大幅下降。一些估计表明,同等能力的成本已经下降了200多倍。这是一个比摩尔定律更快的通缩趋势。当智能昂贵时,你只将其用于高价值问题。你可能使用人工智能来寻找癌症的治愈方法或预测股票市场崩溃。但是,当智能变得廉价时,你开始将其用于平凡的任务。你使用它来排序你的垃圾邮件文件夹。你使用它来总结一个枯燥的会议。你使用它来撰写一封礼貌的拒绝邮件。这是公用事业的标志。我们使用水来饮用,这是至关重要的,但因为它很廉价,我们也使用它来清洗我们的车道。随着人工智能成本的继续下降,我们将开始将智能应用于同样平凡的任务。这意味着基础设施正在发挥作用。代理人工智能的崛起随着这个基础设施的成熟,我们与人工智能的交互方式正在改变。目前,大多数人将人工智能用作“聊天机器人”。他们输入一个提示,人工智能就会回应。这就像使用手动水泵来获取水。它有效,但需要努力。下一个阶段是“代理人工智能”。这些人工智能系统在后台运行。它们不等待你输入问题。它们被赋予一个目标,并自主地努力实现它。由于智能的成本正在下降,这些代理人可以“思考”很长时间。它们可以循环,纠正自己的错误,并采取多个步骤来解决问题。例如,今天,一个供应链经理必须问ChatGPT:“我如何优化这条路线?”在未来,一个人工智能代理将被嵌入物流软件中。它将24/7监控天气、交通和燃油价格。当它检测到延迟时,它将自动重新路由卡车并向仓库发送通知。经理不“使用”人工智能;人工智能只是软件管道的一部分。它始终开启,像电流通过电路板一样流经业务逻辑。虚拟公用事业的物理现实虽然人工智能可能看起来像神奇的软件,但它是建立在大量资本投资之上的。所谓的“云”实际上是数百万吨钢铁、硅和铜。为了建立这个公用事业,科技巨头正在建设一些历史上最大的基础设施项目。我们正在见证以太瓦级数据中心的崛起,它们消耗的电力与一个小城市一样。对图形处理单元(GPU)的需求不断增加。在很多方面,这是现代版的铺设铁路轨道或架设电报线。然而,这个新公用事业也带来了新的挑战。就像电网可能面临停电一样,人工智能网格也面临着限制。高端芯片短缺。数据中心的能源短缺。我们正在见证数字世界与我们的电网物理限制之间的碰撞。如果人工智能是下一个公用事业,那么能源就是为这个公用事业提供动力的公用事业。我们不能没有其中一个。这就是为什么我们看到主要科技公司投资核能和可再生能源。他们意识到他们的数字帝国依赖于物理电子。旧系统的摩擦人工智能作为核心公用事业的转变不会对每个人都容易。主要障碍不是技术本身,而是我们期望它与之协同工作的过时系统。政府和大型、成熟的企业通常依赖于几十年前建造的遗留IT基础设施,从未完全升级。这些系统就像带有过时电线的旧房子。你不能简单地将现代电器插入它们。你不能轻松地将尖端人工智能代理连接到1995年建造并隐藏在地下室的服务器上的数据库。这造成了组织之间的一种新的数字鸿沟。“人工智能原生”公司是在过去几年内建立的,拥有现代系统。他们可以几乎瞬间连接到智能。但是,较旧的组织将会挣扎。他们必须在完全采用人工智能之前更换过时的基础设施。这次转变是昂贵且破坏性的,但它是不可避免的。在20世纪20年代,仍然使用蒸汽机的工厂最终会倒闭。同样,无法将人工智能集成到其运营中的组织也会倒闭。社会转变任何技术成为公用事业的最后阶段都是心理上的。它是当我们不再对其感到惊讶,并开始对其不工作感到恼火的时候。今天,如果ChatGPT写了一首好诗,我们会鼓掌。在五年内,如果我们的文字处理器不能自动修复信件的语气,我们会感到沮丧。我们会将“愚蠢”的软件视为同一类的不便,就像我们将坏的自动扶梯视为不便一样。这将改变劳动力市场。这并不一定意味着工作的结束,但它意味着任务的结束。当电力来临时,我们不再需要人们手洗衣服或点燃煤气灯。我们转向更高级的任务。随着人工智能成为公用事业,我们将停止执行“认知劳动”,例如数据输入、基本调度、常规分析。结论我们仍然处于人工智能作为公用事业的转变初期。人工智能公用事业尚未完成。网格仍在建设中。连接有时会松动,电力有时会闪烁。但是,很明显,我们正在朝着一个方向前进,即智能将成为一种商品。它将成为一种将被输送到每个家庭、办公室和设备的资源。对于商业领袖来说,问题不再是“如何构建人工智能?”问题是“如何连接到这个公用事业来为我的业务提供动力?”
在过去的十年中,人工智能的焦点一直集中在训练上。突破性进展主要来自大规模计算集群、万亿参数模型和投入到教导系统“思考”的数十亿美元。我们将人工智能开发视为一个建筑项目:建设智能的摩天大楼。但现在,这座摩天大楼已经建成,真正的挑战是如何让数百万需要在其中生活和运作的人能够同时使用它。这将人工智能研究人员和工程师的焦点从训练(创建智能的行为)转移到推理(使用智能的行为)。虽然训练是一次性的大规模资本支出(CapEx),但推理是一个持续的运营支出(OpEx),将无限期地持续下去。当企业部署为数百万用户提供服务的代理时,他们发现了一个残酷的现实:推理不仅仅是“反向训练”。它是一个根本不同的,可能更难的工程挑战。为什么推理成本比以往任何时候都重要为了理解工程挑战,必须首先了解潜在的经济原则。在训练阶段,低效是可以忍受的。如果训练运行需要四周而不是三周,那是一个烦恼。在推理中,低效可能对业务来说是灾难性的。例如,训练一个前沿模型可能需要100万美元。但是,如果部署该模型来回答每天1000万个查询,并且没有优化,成本可能在几个月内超过100万美元。这就是为什么我们正在见证市场转变,推理投资预计将超过训练投资。对于工程师来说,这意味着目标的转变。我们不再优化吞吐量(我可以多快处理这个大型数据集?)。我们优化延迟(我可以多快返回一个单独的令牌?)和并发性(我可以在一个GPU上为多少用户提供服务?)。训练阶段中占主导地位的“蛮力”方法(简单地添加更多计算资源)在这里行不通。如果内存带宽是瓶颈,你不能通过向延迟问题中添加更多H100来解决它。内存墙:真正的瓶颈关于大型语言模型(LLM)推理的一个鲜为人知的真相是,它很少受到计算能力的限制;它受到内存的限制。在训练期间,我们以大批量处理数据,充分利用GPU的计算单元。在推理中,特别是在实时应用程序(如聊天机器人或代理)中,请求是顺序到达的。每个生成的令牌都需要模型从高带宽内存(HBM)加载数十亿个参数到计算核心。这就是“内存墙”。这就像拥有一个法拉利引擎(GPU核心)却被困在交通堵塞中(内存带宽有限)。这个挑战正在推动工程团队重新思考系统架构,直到硅级别。这就是为什么我们看到线性处理单元(LPUs)如Groq的崛起,以及专用神经处理单元(NPUs)如Unite.AI的出现。这些芯片旨在通过使用大量片上SRAM来绕过HBM瓶颈,将内存访问视为连续的数据流,而不是简单的获取操作。对于软件工程师来说,这标志着“默认使用CUDA”时代的结束。我们现在必须编写能够理解数据如何通过线路移动的硬件感知代码。人工智能效率的新前沿由于我们不能总是改变硬件,未来的工程前沿在于软件优化。这是目前一些最具创新性的突破发生的地方。我们正在见证重新定义计算机如何实现和执行神经网络的技术的复兴。 连续批处理: 传统批处理等待“公共汽车”填满后才出发,这会引入延迟。连续批处理(由vLLM等框架开创)像地铁系统一样运行,允许新请求在每次迭代时加入或退出GPU处理列车。它最大限度地提高了吞吐量而不牺牲延迟,解决了一个需要深入OS级别专业知识的复杂调度问题。 推测解码: 该技术使用一个小型、快速、廉价的模型来草拟响应,同时一个更大、更慢、更强大的模型在并行中验证它。它依赖于验证文本比生成文本需要更少计算资源的事实。 键值缓存管理: 在长时间对话中,“历史记录”(键值缓存)会迅速增长,占用大量GPU内存。工程师现在正在实施“分页注意力”技术,受操作系统中的虚拟内存分页技术启发。该技术将内存分成碎片并非连续地管理它们。 代理复杂性如果标准推理很难,代理人工智能使其变得指数级更难。标准聊天机器人是无状态的:用户询问,人工智能回答,过程结束。人工智能代理则有一个循环。它计划、执行工具、观察结果并迭代。从工程角度来说,这是一个噩梦。这种架构转变引入了几个基本挑战: 状态管理: 推理引擎必须在多个步骤中维护代理的“状态”,通常需要几分钟。 无限循环: 与可预测的前向传递不同,代理可能会陷入推理循环中。为概率代码编写强大的“看门狗”和“断路器”是一个全新的领域。 可变计算: 一个用户查询可能会触发一个推理调用,而另一个可能会触发50个。管理负载和自动扩展基础设施对于每个请求都具有极端的方差,需要一个全新的编排逻辑类别。 我们基本上正在从“服务模型”转向“编排认知架构”。将人工智能带到日常设备最后,能量和网络延迟的限制最终会将推理推向边缘。我们不能期望每个智能灯泡、自主车辆或工厂机器人都将其请求路由到数据中心。这里的工程挑战是压缩。如何将一个从整个互联网中学习的模型压缩到一个小于指甲的小芯片上,在电池上运行?像量化(将精度从16位降低到4位甚至1位)和模型蒸馏(教导一个小型学生模型模仿一个大型教师模型)这样的技术正在成为标准实践。但真正的挑战是将这些模型部署到一个由数十亿设备组成的分散生态系统中,包括Android、iOS、嵌入式Linux、自定义传感器,每个设备都有其自身的硬件限制。这是移动开发的“碎片化噩梦”,乘以神经网络的复杂性。结论我们正在进入生成人工智能的“第2天”时代。第1天是关于展示人工智能可以写诗。第2天是关于工程,如何使这种能力更加可靠、经济和普遍。未来十年的定义将由那些不一定是发明新模型架构的工程师来完成。他们是可以想出如何在不熔化电网或使公司破产的情况下每秒提供10亿令牌的系统工程师、内核黑客和基础架构架构师。人工智能推理不再仅仅是一个运行时细节。它是产品。而优化它是下一个伟大的工程挑战。
过去五年里,人工智能行业基本上与一个词汇密不可分:Transformer。自2017年发布的开创性论文《Attention Is All You Need》以来,这种架构已经主导了整个领域。从GPT到Claude,几乎每个引人注目的模型都依赖于相同的自注意力机制。我们一直认为,改进人工智能的途径就是增加规模。这意味着训练更大的Transformer模型,使用更多的数据,并在更大的GPU集群上运行。虽然这种信念推动了许多突破,但现在它已经达到极限。我们正在面临“GPU墙”,这不仅仅是一个计算能力的问题,也是内存带宽和经济可持续性的问题。虽然世界关注着 trillion 参数模型的竞争,一场激进的变革正在研究实验室中发生。新的“后Transformer架构”正在出现,以打破当前范式的局限性。这一转变承诺使人工智能更加高效、可及和能够推理无限的上下文。硅谷天花板:为什么Transformer正在遇到瓶颈为了理解为什么我们需要这种转变,我们首先需要了解当前体制的瓶颈。Transformer非常强大,但它们在某些方面也非常低效。它们的核心能力在于“注意力机制”,它允许模型查看序列中的每个令牌并计算其与每个其他令牌的关系。这使它们能够非常好地理解上下文。然而,这种能力带来了一个致命的缺陷,即二次方增长。如果你将文档的长度加倍,你希望人工智能阅读的计算工作量不仅仅是加倍,而是四倍。随着我们努力开发“无限上下文”模型,这些模型可以阅读整个图书馆或代码库,计算需求变得非常高。但更紧迫的问题是内存,特别是“KV Cache”(键值缓存)。为了流畅地生成文本,Transformer必须在GPU的高速内存(VRAM)中保持对其刚刚说过的所有内容的运行历史。随着对话变得更长,这个缓存变得非常庞大,消耗了大量的内存,只是为了记住三段话之前发生了什么。这就形成了“GPU墙”。我们不仅仅是缺乏芯片,我们还缺乏内存带宽来供给它们。我们已经建造了越来越大的引擎,但它们变得难以维持。很长一段时间以来,行业的解决方案就是购买更多的NVIDIA H100。但这种蛮力方法已经到了回报递减的点上。我们不需要一个耗费能量的引擎,而是一个新的架构。无声革命虽然主流研究专注于LLM,但一群研究人员正在重新审视一个旧的想法:循环神经网络(RNN)。在Transformer之前,RNN是语言处理的标准。它们顺序处理文本,逐字更新内部的“状态”。它们非常高效,因为它们不需要查看整个历史,只需要在内存中保留其“精髓”。RNN失败是因为它们无法处理长距离依赖;它们会“忘记”句子的开头,当它们到达句子的结尾时。它们也很难训练,因为你不能并行化它们。这意味着你必须在处理单词B之前处理单词A。Transformer通过同时处理所有内容(并行化)和在内存中保留所有内容(注意力)来解决这个问题。现在,我们正在见证“状态空间模型”(SSM)的崛起,这些模型结合了两者的优点。它们提供了Transformer的训练速度(可并行化)和RNN的推理效率(线性缩放)。这一新浪潮中的一种著名架构是Mamba。Mamba于2023年末发布,并在2024年得到改进,它从根本上改变了模型处理信息的方式。与Transformer不同,Transformer在其内存缓冲区中保留每个单词的原始副本,Mamba使用“选择性状态空间”。我们可以通过将Transformer想象成一个学者,他在一个巨大的桌子上打开了他读过的每一本书,并不断扫描以找到联系来理解Transformer和Mamba之间的区别。Mamba则像一个学者,他读过一本书,并将关键见解压缩成一个高效的笔记本。当Mamba生成下一个单词时,它不需要查看原始文本;它查看的是其压缩状态。这种区别改变了人工智能部署的经济学。使用Mamba和类似的架构,如RWKV(接收权重键值),生成文本的成本不会随着序列长度的增加而爆炸。你可以理论上将这些模型输入一百万个上下文单词,生成下一个令牌的计算成本仍然与输入十个单词时相同。递归的回归Mamba背后的技术突破是“选择性”。之前尝试现代化RNN的尝试失败了,因为它们太僵化了。它们以相同的方式压缩信息,无论它是重要的还是噪音。Mamba引入了一种机制,允许模型动态地决定什么应该记住,什么应该忘记,当它处理数据时。如果模型接收到重要信息,例如代码块中的变量定义,它会“打开大门”并将其强烈地写入其状态。如果它面临填充单词或不相关的噪音,它会关闭大门,保持其有限的内存容量以保留重要信息。这种选择性有效地解决了困扰旧RNN的“忘记”问题。在许多测试中,基于Mamba的模型与同样大小的Transformer相比,匹配了性能,但推理速度快了五倍。更重要的是,它们的内存占用要小得多。这为高性能LLM在以前认为无法处理它们的设备上运行打开了大门,例如笔记本电脑、边缘计算网络,甚至智能手机,而无需将数据发送到云端。我们还看到Hyena的崛起,这是一种使用长卷积来处理数据的亚二次架构。像Mamba一样,Hyena旨在消除Transformer的重“注意力”层,并用对硬件来说更便宜的数学运算来替换它们。这些模型已经开始在主要排行榜上挑战Transformer的现状。混合模型的崛起然而,这场革命可能不是完全用新的架构取代Transformer,而是Transformer演变成混合形式。我们已经看到像Jamba(来自AI21 Labs)这样的模型的出现,它将Transformer层与Mamba层相结合。这种混合方法为解决Transformer的局限性提供了一个实用途径。Transformer在某些任务中仍然非常强大,尤其是在从上下文中复制精确细节时。通过混合Mamba层(处理大部分数据处理和长期内存)和一些Transformer注意力层(处理尖锐的即时推理),我们得到一个模型,它结合了两者的优点。混合模型创建了一个巨大的上下文窗口,这实际上是可用的。目前,许多“长上下文”Transformer声称可以处理100,000个令牌,但随着上下文填满时,它们的性能会迅速下降。这被称为“迷失在中间”现象。混合架构在长距离上保持其连贯性得更好,因为SSM层专门设计用于压缩和随时间传递状态。这些发展将行业的焦点从“训练计算”(我需要建造多大的集群来构建模型?)转移到“推理经济学”(我如何以最低的成本为十亿用户提供服务?)。如果混合模型可以以Transformer的10%的成本为用户提供服务,人工智能应用的商业案例就会在一夜之间改变。人工智能部署的未来这种后Transformer革命的影响不仅仅局限于数据中心。GPU墙一直作为一个门槛,确保只有最大的科技巨头拥有数十亿美元的硬件才能构建和运行最先进的模型。像Mamba和RWKV这样的高效架构使这种力量民主化。如果你可以在消费级别的显卡上运行GPT-4级别的模型,因为你不再需要数十亿字节的VRAM来缓存键值对,你就可以在不将数据包发送到云端的情况下在你的计算机上运行私人AI代理。此外,这种效率是解锁“代理AI”系统的关键,这些系统可以在后台运行数小时或数天来完成复杂任务。当前的Transformer太昂贵和太慢,无法在长时间内连续运行。高效、线性时间架构可以连续“思考”和处理循环,而不会使用户破产或使硬件过热。结论Transformer主导了人工智能的头条新闻,但在幕后,一场安静的革命正在发生。GPU墙正在推动研究人员重新思考模型如何处理内存和计算。像Mamba和混合模型这样的后Transformer架构正在证明,效率,而不仅仅是规模,将定义下一个时代。这些创新使得巨大的上下文窗口变得实用,推理变得更便宜,先进的人工智能可以超越数据中心。人工智能的未来不在于更大的模型,而在于更聪明的模型,它们能够记住、推理和高效地扩展。