通用人工智能
AlphaEvolve:谷歌DeepMind迈向AGI的开创性一步

谷歌DeepMind推出了AlphaEvolve,一种自主发现新算法和科学解决方案的进化编码代理。该研究在论文AlphaEvolve:用于科学和算法发现的编码代理中被提出,这代表了迈向人工一般智能(AGI)和甚至人工超级智能(ASI)的基础步骤。AlphaEvolve采取了一条完全不同的路径,专注于自主创造力、算法创新和持续自我改进,而不是依赖静态微调或人工标记的数据集。
AlphaEvolve的核心是一个由大型语言模型(LLM)驱动的自包含进化管道。该管道不仅生成输出,还会变异、评估、选择和改进代码跨越多个世代。AlphaEvolve从一个初始程序开始,通过引入精心结构化的更改来迭代地改进它。
这些更改以LLM生成的差异(diff)形式出现,即基于先前的示例和显式指令由语言模型建议的代码修改。软件工程中的“差异”指的是两个文件版本之间的差异,通常突出要删除或替换的行和要添加的新行。在AlphaEvolve中,LLM通过分析当前程序并根据包含性能指标和先前成功编辑的提示来生成这些差异,提出小的编辑,如添加一个函数、优化一个循环或更改一个超参数。
每个修改后的程序都使用针对任务量身定制的自动评估器进行测试。最有效的候选者被存储、引用并作为未来迭代的灵感而重组。随着时间的推移,这个进化循环导致了越来越复杂的算法的出现,通常超过了由人类专家设计的算法。
理解AlphaEvolve背后的科学
在其核心,AlphaEvolve建立在进化计算的原理之上,这是一种受生物进化启发的人工智能子领域。该系统从代码的基本实现开始,将其视为一个初始的“生物体”。通过世代,AlphaEvolve修改此代码,引入变异或“突变”,并使用一个定义明确的评分函数来评估每个变异的适应度。表现最好的变体幸存下来,并作为下一代的模板。
这种进化循环通过以下方式协调:
- 提示采样:AlphaEvolve通过选择和嵌入以前成功的代码样本、性能指标和特定任务的指令来构造提示。
- 代码变异和提议:该系统使用一组强大的LLM(Gemini 2.0 Flash和Pro)来生成对当前代码库的特定修改,形式为差异。
- 评估机制:一个自动评估函数通过执行它并返回标量分数来评估每个候选者的性能。
- 数据库和控制器:一个分布式控制器协调这个循环,在一个进化数据库中存储结果,并通过诸如MAP-Elites之类的机制平衡探索与利用。
这种反馈丰富的自动进化过程与标准的微调技术有着根本的不同。它使AlphaEvolve能够生成新颖的、高性能的和有时违反直觉的解决方案,推动了机器学习可以自主实现的界限。

将AlphaEvolve与RLHF进行比较
为了欣赏AlphaEvolve的创新,我们需要将其与强化学习从人类反馈(RLHF)进行比较,这是一种用于微调大型语言模型的主导方法。
在RLHF中,人类偏好用于训练一个奖励模型,该模型通过强化学习算法(如近端策略优化(PPO))来指导LLM的学习过程。RLHF提高了模型的对齐度和有用性,但它需要大量的人类参与来生成反馈数据,并且通常在静态的单次微调模式下运行。
AlphaEvolve则:
- 从循环中删除了人类反馈,转而使用机器可执行的评估器。
- 支持通过进化选择实现持续学习。
- 由于随机突变和异步执行,探索了更广泛的解决方案空间。
- 可以生成不仅是对齐的,而且是新颖和科学上重要的解决方案。
当考虑AGI的未来轨迹时,AlphaEvolve的区别至关重要:AlphaEvolve不仅改进预测,还找到新的通往真理的路径。
应用和突破
1. 算法发现和数学进步
AlphaEvolve已展示了其在核心算法问题上的开创性发现能力。最值得注意的是,它发现了一种使用仅48个标量乘法来乘以两个4×4复值矩阵的新算法,超越了Strassen 1969年的49个乘法结果,并打破了56年来的理论天花板。AlphaEvolve通过多次迭代进化了高级张量分解技术,从而超过了几种最先进的方法。
除了矩阵乘法,AlphaEvolve对数学研究做出了重大贡献。它在50多个开放问题上进行了评估,涵盖了组合数学、数论和几何等领域。它在约75%的案例中匹配了最佳已知结果,并在约20%的案例中超过了这些结果。这些成功包括改进Erdős的最小重叠问题,11维空间中更密集的解决方案,以及更高效的几何打包配置。这些结果凸显了其作为自主数学探索者的能力,能够在没有人类干预的情况下完善、迭代和进化日益优化的解决方案。
2. 跨谷歌计算栈的优化
AlphaEvolve还在谷歌的基础设施中实现了有形的性能改进:
- 在数据中心调度中,它发现了一种新的启发式方法,改进了作业放置,恢复了0.7%的以前被搁置的计算资源。
- 对于Gemini的训练内核,AlphaEvolve设计了一种更好的矩阵乘法的tiling策略,产生了23%的内核加速和1%的整体训练时间减少。
- 在TPU电路设计中,它确定了RTL(寄存器传输级)中算术逻辑的简化,已被工程师验证并纳入下一代TPU芯片中。
- 它还通过编辑XLA中间表示来优化编译器生成的FlashAttention代码,在GPU上将推理时间减少了32%。
这些结果共同验证了AlphaEvolve在多个抽象级别上(从符号数学到低级硬件优化)运行并实现实际性能增益的能力。
- 进化编程:一种使用突变、选择和继承来迭代完善解决方案的AI范式。
- 代码超优化:自动搜索函数的最有效实现,通常会产生令人惊讶的、违反直觉的改进。
- 元提示进化:AlphaEvolve不仅进化代码,还进化它与LLM通信的指令,实现了编码过程的自我完善。
- 离散化损失:一种正则化项,鼓励输出与半整数或整数值对齐,对于数学和符号清晰度至关重要。
- 幻觉损失:一种机制,通过将随机性注入中间解决方案,鼓励探索并避免局部最小值。
- MAP-Elites算法:一种质量多样性算法,维护了一个高性能解决方案的多样化群体,跨特征维度实现了强大的创新。
对AGI和ASI的影响
AlphaEvolve不仅仅是一个优化器;它是未来智能代理可以展示创造性自主性的一个预见。该系统能够制定抽象问题并设计自己的解决方案代表了迈向人工一般智能的重大步骤。这不仅仅是预测数据;它涉及结构化推理、策略形成和适应反馈——智能行为的标志。
其迭代生成和完善假设的能力也表明了机器学习方式的演变。与需要大量监督训练的模型不同,AlphaEvolve通过实验和评估的循环来改进自己。这种动态的智能形式使其能够在复杂问题空间中导航,放弃弱解决方案,提升强大解决方案,而无需直接的人类监督。
通过执行和验证自己的想法,AlphaEvolve同时扮演着理论家和实验家的角色。它超越了执行预定义任务的范畴,进入了发现的领域,模拟了自主的科学过程。每个提出的改进都经过测试、基准测试和重新集成,使其能够根据实际结果而不是静态目标不断完善。
也许最值得注意的是,AlphaEvolve是递归自我改进的早期实例,即AI系统不仅可以学习,还可以增强其自身的组件。在几种情况下,AlphaEvolve改进了支持其基础模型的训练基础设施。尽管仍然受到当前架构的限制,但这为未来设定了一个先例。随着更多问题被框定在可评估的环境中,AlphaEvolve可以扩展到越来越复杂和自我优化的行为,这是人工超级智能(ASI)的基本特征。
局限性和未来轨迹
AlphaEvolve当前的局限性在于其依赖于自动评估函数。这限制了其在只能用数学或算法形式化的问题上的实用性。它目前还不能在需要隐含人类理解、主观判断或物理实验的领域中发挥有意义的作用。
然而,未来方向包括:
- 混合评估的集成:将符号推理与人类偏好和自然语言批评相结合。
- 在模拟环境中部署,实现体现的科学实验。
- 将进化输出提取到基础LLM中,创建更有能力和样本高效的基础模型。
这些轨迹指向了越来越自主的系统,能够进行自主的、具有高风险的解决问题。
结论
AlphaEvolve是一个重大的进步,不仅仅是在AI工具方面,也是在我们对机器智能本身的理解方面。通过将进化搜索与LLM推理和反馈相结合,它重新定义了机器可以自主发现的内容。它是自我改进系统的早期但重要的信号,这些系统能够进行真正的科学思考,不再是理论性的。
展望未来,AlphaEvolve的底层架构可以递归地应用于自身:进化其自身的评估器,改进突变逻辑,完善评分函数,并优化基础模型的训练管道,以支持其学习和推理。这种递归优化循环代表了技术机制,用于引导向AGI的发展,在这里,系统不仅仅完成任务,还会改进使其学习和推理成为可能的基础设施。
随着AlphaEvolve在更复杂和抽象的领域中扩展,并且随着人类在该过程中的干预减少,它可能会表现出加速的智能增益。这种自我改进的循环,不仅应用于外部问题,还应用于其自身的算法结构,是AGI的关键理论组成部分,AGI具有所有这些益处,可以为社会提供服务。凭借其创造力、自主性和递归性,AlphaEvolve可能不仅被铭记为DeepMind的产品,也可能被铭记为第一个真正的一般和自我演化的人工智能思维的蓝图。












