人工智能
当 AI 代理开始构建 AI 时:无人准备的递归智能爆炸

几十年来,人工智能以谨慎、线性的步伐发展。研究人员构建模型,工程师改进性能,组织部署系统以自动执行特定任务。每次改进都严重依赖于人类的设计和监督。这种模式现在正在破裂。安静但决定性地,AI 系统正在跨越一个阈值,它们不再只是人类构建的工具。它们正在成为构建者自己。
AI 代理开始设计、评估和部署其他 AI 系统。这样做,他们创建了反馈循环,每一代都改进了下一代。这种转变并不以戏剧性的头条新闻宣布自己。它通过研究论文、开发工具和企业平台展开。然而,其影响是深远的。当智能可以递归地改进自己时,进步不再遵循人类的时间表或直觉。它加速了。
本文探讨了我们如何到达这一刻,为什么递归智能很重要,以及为什么社会比它应该做的更不为此做好准备。智能爆炸,这曾经是一个哲学理念,现在已经成为一个具体的工程挑战。
智能爆炸的演变
机器能够改进其自身智能的想法比现代计算机更早。在 20 世纪 60 年代初,英国数学家 I. J. Good 引入了 “智能爆炸”的概念。他的理由是:如果机器变得足够智能以改进其自身的设计,即使只是一点点,改进后的版本将更好地改进下一个版本。这一循环可以快速重复,导致的增长远远超出了人类的理解或控制。在那时,这是一个哲学思想实验,更在理论上讨论,而不是在实践中。
几十年后,这个想法通过计算机科学家 Jürgen Schmidhuber 的工作获得了技术基础。他的 Gödel 机器提议描述了一个可以重写其自身代码的任何部分的系统,前提是它可以正式证明更改将改进其未来的性能。与传统的学习系统不同,传统的学习系统在固定架构内调整参数,Gödel 机器可以改变其自身的学习规则。虽然仍然是理论性的,但这项工作将智能爆炸重新定义为可以被研究、形式化和最终构建的东西。
从理论到实践的最后转变是随着现代 AI 代理的崛起而发生的。这些系统不仅仅是对提示做出响应。它们计划、推理、采取行动、观察结果并随着时间的推移调整行为。随着代理架构的出现,智能爆炸从哲学转移到了工程领域。早期的实验,例如 达尔文 Gödel 机器 概念,暗示了系统可以通过迭代自我改进而演化。使这一刻不同的是递归。当一个 AI 代理可以创建和改进其他代理,学习每次迭代时,改进就会复合。
AI 代理开始构建 AI
有两个主要趋势正在推动这一转变。第一个是代理 AI 系统的崛起。这些系统在较长时间内追求目标,将任务分解为步骤,协调工具,并根据反馈进行调整。它们不是静态模型。它们是过程。
第二个趋势是自动化机器学习。现在存在可以设计架构、调整超参数、生成训练流水线,甚至可以在最少的人类输入下提出新算法的系统。当代理推理与自动模型创建相结合时,AI 获得了构建 AI 的能力。
这不再是一个假设场景。像 AutoGPT 这样的自主代理展示了如何一个单一的目标可以触发规划、执行、评估和修订的循环。在研究环境中,像 Sakana AI 的 Scientist-v2 和 DeepMind 的 AlphaEvolve 这样的系统展示了代理设计实验、提出算法和通过迭代反馈改进解决方案。在 神经架构搜索 中,AI 系统已经发现了可以与人类设计的网络相媲美或超越的模型结构。这些系统不仅仅是在解决问题。它们正在改进解决问题的机制。每个循环都会产生更好的工具,这些工具又会使下一个循环变得更好。
为了扩大这一过程,研究人员和公司越来越多地依赖 编排器 架构。一个中心元代理接收一个高级目标。它将任务分解为子问题,生成专门的代理来解决它们,使用现实世界的数据评估结果,并集成最佳结果。糟糕的设计被丢弃,成功的设计被强化。随着时间的推移,编排器变得更擅长设计代理本身。
虽然 AI 代理何时完全构建和改进其他 AI 系统的确切时间表仍然不确定,但当前的研究轨迹和来自领先的 AI 研究人员 和 从业人员 的评估表明,这一转变正在比许多人预期的更快地发生。早期、受限的版本已经出现在研究实验室和企业部署中,代理开始设计、评估和改进其他系统,人类的参与很少。
不可预测性的出现
递归智能引入了传统自动化从未面临的挑战。其中一个挑战是系统级别的不可预测性。当许多代理相互作用时,它们的集体行为可能会偏离其个体设计背后的意图。这一现象被称为 涌现行为。
涌现并不是由一个单一的有缺陷的组件引起的,而是由多个有能力的组件之间的相互作用引起的。考虑自动交易系统。每个交易代理可能遵循有理的规则,旨在在约束条件下最大化利润。然而,当成千上万这样的代理在高速下相互作用时,反馈循环可以形成。一个代理的反应可以触发另一个代理的响应,这可以触发另一个代理,直到系统变得不稳定。市场崩溃可以在没有任何单个代理故障的情况下发生。这种故障不是由恶意意图驱动的。它是由局部优化和系统范围目标之间的不对齐引起的。同样的动态也可以应用于其他领域。
多代理对齐危机
传统的 AI 对齐研究专注于将单个模型与人类价值观对齐。问题很简单:如何确保这个系统按照我们的意图行事?当系统包含数十、数百或数千个相互作用的代理时,这个问题变得 更加困难。对齐个别代理不能保证对齐的系统行为。即使每个组件都遵循其规则,集体结果也可能是有害的。现有的安全方法不适合检测或防止这些故障。
安全风险也增加了。多代理网络中的一个受损代理可以污染其他代理依赖的信息。一个单一的损坏数据存储可以在整个系统中传播不对齐的行为。基础模型的基础设施漏洞可以随着每个新代理的增加而扩大到威胁基础模型。攻击面随着每个新代理的增加而扩大。
同时,治理差距不断扩大。微软和其他组织的研究发现,只有大约十分之一的公司有明确的策略来管理 AI 代理身份 和权限。预计今年年底将有超过 400 亿个自主身份存在。其中大多数在没有对人类用户应用的安全协议的情况下运行,并且对数据和系统具有广泛的访问权限。系统正在迅速发展。监督机制还不够。
结论
AI 已经进入了一个阶段,它可以通过构建更好的版本来改进自己。递归、代理驱动的智能承诺了非凡的收益,但也引入了风险,这些风险的增长速度快于人类的监督、治理和直觉。前方的挑战不是停止这一转变,而是安全性、对齐和问责是否可以与能力的步伐同步。如果不能,智能爆炸将超出我们引导它的能力。












