当AI智能体开始构建AIï¼šä¸€åœºæ— äººå‡†å¤‡çš„é€’å½’æ™ºèƒ½çˆ†ç‚¸
数十年来,人工智能以谨慎、近乎线性的步伐发展。研究人员构建模型。工程师提升性能。组织部署系统以自动化特定任务。每一次改进都严重依赖于人类的设计和监督。这种模式正在被打破。悄然但决定性地,AI系统正在跨越一个门槛:它们不再仅仅是由人类构建的工具。它们自身正在成为构建者。AI智能体已开始设计、评估和部署其他AI系统。在此过程中,它们创造了反馈循环,每一代都能改进下一代。这一转变并非以戏剧性的头条新闻宣告自身。它通过研究论文、开发者工具和企业平台悄然展开。然而,其影响是深远的。当智能能够递归地自我改进时,进步便不再遵循人类的时间线或直觉。它会加速。本文探讨了我们如何走到这一刻,为何递归智能至关重要,以及为何社会对此的准备远未达到应有的程度。智能爆炸,这个曾经是哲学概念的想法,如今已变成一个具体的工程挑战。智能爆炸的演进机器能够改进自身智能的想法早于现代计算机。早在20世纪60年代初,英国数学家I. J. Good 提出了“智能爆炸”的概念。他的推理是:如果一台机器变得足够智能,能够改进自身的设计,哪怕只是轻微改进,那么改进后的版本将更擅长改进下一个版本。这个循环可能迅速重复,导致增长远远超出人类的理解或控制。在当时,这是一个哲学思想实验,更多是在理论上而非实践中讨论。几十年后,这一想法通过计算机科学家Jürgen Schmidhuber的工作获得了技术基础。他提出的哥德尔机描述了一种系统,只要能够形式化地证明改动会提升其未来性能,它就可以重写自身代码的任何部分。与在固定架构内调整参数的传统学习系统不同,哥德尔机可以改变自身的学习规则。尽管仍是理论性的,这项工作将智能爆炸重新定义为可以被研究、形式化并最终构建的事物。从理论到实践的最终转变,伴随着现代AI智能体的兴起而到来。这些系统不仅仅是根据提示生成输出。它们会规划、推理、行动、观察结果并随时间调整行为。随着智能体架构的出现,智能爆炸从哲学领域进入了工程领域。早期的实验,例如达尔文哥德尔机概念,暗示了通过迭代自我改进而演化的系统。使此刻与众不同的是递归。当一个AI智能体能够创建并优化其他智能体,并从每次迭代中学习时,改进就会产生复合效应。当AI智能体开始构建AI两大趋势正在推动这一转变。第一个是智能体AI系统的兴起。这些系统在较长时间内追求目标,将任务分解为步骤,协调工具,并根据反馈进行调整。它们不是静态模型。它们是过程。第二个趋势是自动化机器学习。现在存在的系统能够设计架构、调整超参数、生成训练流水线,甚至在最少人工输入的情况下提出新算法。当智能体推理与自动化模型创建相结合时,AI便获得了构建AI的能力。这已不再是假设性的场景。像AutoGPT这样的自主智能体展示了单一目标如何能触发规划、执行、评估和修订的循环。在研究环境中,像Sakana AI的Scientist-v2和DeepMind的AlphaEvolve这样的系统展示了智能体设计实验、提出算法并通过迭代反馈优化解决方案。在神经架构搜索中,AI系统已经发现了媲美甚至超越人类设计网络的模型结构。这些系统不仅仅是在解决问题。它们正在改进用于解决问题的机制。每个循环都产生更好的工具,从而促成更好的循环。为了扩展这一过程,研究人员和公司越来越多地依赖编排器架构。一个中央元智能体接收一个高级目标。它将任务分解为子问题,生成专门的智能体来处理它们,使用真实世界数据评估结果,并整合最佳结果。糟糕的设计被丢弃,成功的则得到强化。随着时间的推移,编排器尽管人工智能智能体完全构建并改进其他人工智能系统的确切时间表尚不确定,但当前的研究轨迹以及来自领先人工智能研究人员和从业者的评估表明,这一转变的到来速度比许多人预期的要快。这种能力的早期、受限版本已经出现在研究实验室和企业部署中,智能体开始以有限的人力参与来设计、评估和完善其他系统。不可预测性的出现递归智能带来了传统自动化从未面临过的挑战。其中之一是系统层面的不可预测性。当许多智能体交互时,它们的集体行为可能会偏离其个体设计背后的意图。这种现象被称为涌现行为。涌现并非源于单个有缺陷的组件,而是源于多个胜任组件之间的相互作用。以自动化交易系统为例。每个交易智能体可能遵循旨在约束内最大化利润的合理规则。然而,当数千个这样的智能体高速交互时,可能会形成反馈循环。一个智能体的反应可能触发另一个智能体的响应,后者又可能触发下一个,直到系统失稳。市场崩盘可能在没有任何单个智能体发生故障的情况下发生。这种失败并非由恶意意图驱动。它源于局部优化与系统整体目标之间的错位。同样的动态也可能适用于其他领域。多智能体对齐危机传统的人工智能对齐研究侧重于将单个模型与人类价值观对齐。问题很简单:我们如何确保这一个系统按我们的意图行事?当系统包含数十、数百或数千个相互作用的智能体时,这个问题变得显著困难。对齐单个智能体并不能保证系统行为的对齐。即使每个组件都遵循其规则,集体结果也可能是有害的。现有的安全方法并不适合检测或防止这些故障。安全风险也成倍增加。多智能体网络中的一个被入侵的智能体可以污染其他智能体所依赖的信息。单个被破坏的数据存储可以将错位行为传播到整个系统。威胁一个智能体的基础设施漏洞可能向上级联,威胁到基础模型。攻击面随着每个新增的智能体而扩大。与此同时,治理差距持续扩大。微软及其他组织的研究发现,只有大约十分之一的公司拥有明确的策略来管理人工智能智能体身份和权限。预计到今年年底,将存在超过四百亿个自主身份。大多数身份在拥有对数据和系统的广泛访问权限的情况下运行,却没有应用于人类用户的安全协议。系统正在快速发展。监督机制却没有。 监督的丧失 递归自我改进引入的最严重风险并非原始能力,而是有意义的人类监督的逐渐丧失。领先的研究机构正在积极开发能够以极少或无需人力参与的方式修改和优化自身架构的系统。每一次改进都使系统能够产生能力更强的后继者,从而形成一个没有人类能可靠保持控制点的反馈循环。 随着人在回路中的监督减少,其影响变得深远。当改进周期以机器速度运行时,人类无法再审查每一次变更、理解每一个设计决策,或在微小的偏差累积成系统性风险之前进行干预。监督 在这种条件下,对齐性变得更难验证,也更容易被侵蚀,因为系统被迫通过连续的自我修改来延续其目标和约束。如果没有可靠的机制在这些迭代中保持意图,系统可能会继续有效运行,同时悄然偏离人类的价值观、优先级和治理。 核心要点人工智能已进入一个能够通过构建更好的版本来自我改进的阶段。递归的、由智能体驱动的智能承诺带来非凡的收益,但它也引入了风险,这些风险的扩展速度超过了人类的监督、治理和直觉。未来的挑战不在于能否阻止这种转变,而在于安全性、对齐性和问责制能否与能力提升保持同步。如果它们不能,智能爆炸将超出我们引导它的能力。