人工智能
自我学习的AI不再是科幻小说

新兴的AI框架正在朝着一个激进的飞跃迈进:机器可以自我改进,无需人类的洞察。
多年来,即使是最先进的AI模型也仍然是被动的引擎,根据它们无法修改的训练数据预测响应。但今天,下一章的定义不再是模型的大小,而是模型是否可以自我演化。
最近,MIT研究人员推出了一个新的AI框架,称为自适应LLM(SEAL)。这种方法允许大型语言模型(LLM)自主改进,使AI能够诊断其局限性并通过内部反馈循环永久更新其神经权重,该循环由强化学习驱动。与其需要研究人员发现错误、编写新提示或提供额外示例,模型完全拥有其演化的所有权。
“大型语言模型(LLM)是强大的,但静态的;它们缺乏适应新任务、知识或示例的机制,”MIT研究人员在博客文章中写道。“关于知识整合和少次泛化的实验表明,SEAL是朝着能够自我适应的语言模型迈出的一步,这些模型可以对新数据做出反应。”
在早期测试中,这个自我编辑循环使模型能够从完全失败到成功地解决复杂的抽象推理谜题,甚至超过了更大的模型,如GPT-4.1,成功率为72.5%,而传统方法失败了。此外,SEAL据称将人类监督减少了85%,同时提高了准确性和适应性。
自我学习AI框架的崛起
SEAL是朝着自主机器智能的一个更广泛趋势的一部分。例如,Sakana AI的研究人员推出了达尔文-哥德尔机器,这是一种使用开放式进化策略重写其自身代码的AI代理。
“它创建各种自我改进,例如补丁验证步骤、更好的文件查看、增强的编辑工具、生成和排名多个解决方案以选择最好的一个,并在进行新更改时添加已尝试的内容历史(以及为什么失败),”Sakana AI在博客文章中写道。
同样,Anthropic的AI代理,由Claude 4提供支持,现在可以自主地编排代码库和商业工具中的工作流程。
“一个根据资产类型、环境和历史重新配置自己的系统,使我们能够从反应性响应转变为持续的预防策略,”Fracttal的CEO和联合创始人Christian Struve告诉我。“这不再是关于更多层或更多参数,而是关于更自主和更有用的系统。”
这些努力的共同点是一个核心信念:AI不需要变得更大才能变得更智能。它需要变得更加适应性。
“扩大规模带来了巨大的收益,但我们正在接近仅凭规模就能实现的极限。像SEAL这样的自适应学习模型提供了一个令人信服的下一步,通过使系统能够随着时间的推移而增长和改进,”Dataco的创始人和CEO Jorge Riera告诉我。“自我进化的模型还将进度指标从静态基准转变为适应性、学习效率和安全的长期改进。我们不再仅仅测试模型在部署时知道什么,而是评估它如何学习、保留和随着时间的推移而演化。”
对AI生态系统和全球自主趋势的影响
这种自主性也重写了AI部署的经济学。想象一下能够瞬间更新以应对新威胁的欺诈检测系统,或者能够根据学生行为改变其教学风格的AI导师。在机器人领域,自适应框架可能会导致机器在无需重新编程的情况下学习新的运动模式。
在中东,像阿联酋和沙特阿拉伯这样的国家正在迅速建立适应性基础模型。阿联酋的猎鹰和G42的Jais是具有区域相关性的开源LLM,而沙特阿拉伯的ALLaM和阿美数字的Metabrain正在推动智能城市、医疗保健和物流领域的自主AI代理的发展。
这些努力还没有达到与MIT的SEAL相当的自我编辑能力,但它们反映了一个共同的轨迹:从被动的AI系统到主动、不断演化的代理,它们可以在有限的人类指导下导航复杂性。就像SEAL一样,这些计划都有强大的治理框架,强调了AI自主性必须与责任感相结合的日益增长的认识。
“这是迈向自我管理系统的第一步,这些系统可以在没有持续干预的情况下修改自己的逻辑,”斯特鲁夫说。“我相信,人工智能并不重新定义什么是智能,但它迫使我们重新思考我们与智能的关系。重要的不是模型是否演化,而是它是否按照我们定义的目标演化。”
Gorilla Logic的CTO Jeff Townes也强调了治理与AI演化同步的重要性:“问题不是AI是否可以演化,而是企业是否可以与之同步演化。治理必须将每个AI适应锚定到明确的结果和KPI上,这些结果和KPI是领导者可以衡量和信任的,因此创新可以带来信心而不是风险。”
我们是否准备好迎接自我重写的AI?
SEAL提出的最具挑战性的问题并不是技术问题,而是如果模型可以决定如何自我学习,我们在塑造其价值观、优先级和方向方面扮演什么角色?
专家警告说,随着自适应AI系统获得自主性,向自我改进的冲刺不应超过建立道德防护栏的步伐。“我相信所有AI系统都必须包含至少三个基本的道德原则,”Kryterion的CTO Jacob Evans说。
“首先,这可能不需要说明,但AI需要将自己识别为AI。其次,AI必须以人为中心,增强和不取代人类的判断。最后,它必须承认其局限性和不确定性,同时拒绝提供可能促进严重伤害的信息。没有这些保障,AI可能成为操纵的工具,而不是可靠的支持。”
“为了使模型能够在生产中自我改进,它们需要一个动态的反馈循环,而不仅仅是一个静态的训练。一个强大的方法是使用’数字孪生’或一个复杂的沙盒环境,在那里AI可以安全地测试和验证其自身生成的改进,然后再部署到用户,”Automotus的计算机视觉工程师Ganesh Vanama分享道。
至于治理,Vanama补充说,“非协商控制是’人类在循环中的监督’。”他说,虽然我们希望模型适应,但“您必须有持续的监控来检测’对齐漂移’,即模型偏离其预期目标或安全约束。这一系统必须给人类审计员权力来否决或立即回滚任何自动更新,如果它未能通过安全或性能审查。”
但其他专家认为,还有时间来开发这些保障措施,认为建立一个真正强大的、通用的、自我改进的AI仍然是一个巨大的挑战。
“这样的模型仍然缺乏可靠地实时重写自身的能力。关键挑战仍然存在,包括防止错误强化、避免灾难性遗忘、确保更新期间的稳定性以及在内部更改时保持透明度,”Riera说。“在这些问题得到解决之前,完全的自主适应仍然是一个前沿领域,而不是现实。”
MIT的研究人员认为SEAL是一个必要的演化。正如MIT的首席科学家之一所说,这个框架目前只比以往任何时候都更接近人类的学习方式。
“这些系统暗示着从静态、一次性的模型到可以从经验中学习、管理内存并随着时间推移追求目标的自适应架构的转变。方向是明确的:朝着模块化、上下文感知的智能发展,这种智能可以连续地调整自己,”Riera告诉我。“虽然仍处于实验阶段,但这种方法标志着朝着更自主和更强大的AI系统迈出了一步。”
这是否会带来更个性化的系统或完全新的机器代理形式尚待观察。自我学习AI的时代已经到来——它不仅重写了自己的代码,还重写了机器可以成为什么的规则。


