人工智能的下一个扩展法则:不是更多的数据,而是更好的世界模型
多年来,人工智能行业遵循一个简单而严格的规则:越大越好。我们在海量数据集上训练模型,增加参数数量,并投入巨大的计算能力来解决问题。这个公式在大多数时候都行之有效。从GPT-3到GPT- 4,从粗糙的聊天机器人到推理引擎,“扩展法则”表明,只要我们持续向机器输入更多的文本,它最终就会变得智能。但我们现在正碰壁。互联网是有限的。高质量的公共数据正被老年人,简单地让模型变得更大所带来顶尖的AI研究人员认为,人工智能的下一次重大飞跃不会仅仅来自阅读更多文本。这将来自于理解文本背后的现实。这种信念引发AI关注点的根本性转变,将着眼于世界模型时代的到来。尽管下一个词元预测的呼吸要理解为什么我们需要新的方法,我们必须首先看看当前AI系统实际在做什么。像ChatGPT或Claude这样的模型能力令人印象深刻,但它们本质上是统计引擎。它们之前的内在依据他们并不认识到玻璃杯会碎裂的概率;他们只是知道在数百万个故事中,“碎裂”这个词经常出现在“玻璃杯的玻璃杯”这个主板前面。这种被称为自回归建模的方法,存在一个关键缺失它完全依赖于相关性,而不是因果关系。如果你在一个LLM上训练一千个事故描述,它是学会的是事故的语言。但它绝非学会动量、摩擦力或易碎性的物理原理。它是一个旁观者,而非参与者。这种阻碍正成为“数据墙”。我们几乎已经爬取了整个公共互联网。要使用当前方法进一步扩展,我们将需要比现有数据多几十倍的数据,且呈指数级增长。合成数据(即AI生成的文本)提供了一个临时的解决方案,但它通常导致“模型崩溃”,即系统放大自身的偏见和错误。我们无法仅靠文本来扩展实现通用人工智能(AGI),因为文本是对世界的低带宽压缩。它是现实描述,但它本身不是现实。为何世界模型关键像Yann LeCun这样的人工智能领导者长期以来一直认为,当前的人工智能系统缺乏人类认知的一个基本方面,而这个方面即使是幼儿也天生具备。这就是我们维持一个关于世界如何运作的内部模型的能力,他们通常称为世界模型。一个世界模型预测下一个词;它构建了一个关于物理环境的能力,如如何运作的内部心智地图。当我们看到一个球滚到沙发后面时,我们知道它仍然在那里。我们知道除非被挤压,否则它会在另一侧出现。不需要阅读教科书来理解这一点;我们基于我们内部物理关于和物体恒存性的“世界模型”来运行一个心智模拟。要让AI取得进步,它必须从系统出发计划修改转向这种内部模拟。它需要理解事件的根本原因,而不仅仅是它们的文本描述。联合嵌入预测架构(JEPA)是这种范式转变的一个典型例子。与尝试预测每个像素或单词(这个过程计算成本高昂和噪声充满)的LLM不同,JEPA预测的是抽象的特征。忽略它不可预测的细化比如树上单个叶子的运动,而关注于高层次的概念,如树、风和季节。通过学习预测这些高层次状态如何随时间变化,AI学习的是世界的结构,而不是表面细节。从预测到模拟我们已经在视频生成模型中看到了他们这种转变的初步看法。当OpenAI发布Sora时,将其描述不仅只是一个视频工具,再加上一个“世界模拟器”。这种区分至关重要。一个标准的视频生成器可以通过预测哪些彩色像素通常相邻来创建一个人行走的视频。然而,一个世界模拟器试图随着时间的推移来保持3D一致性、提示和物体恒存性。它“理解”如果这个人走到墙后面,他们不应该从存在中消失了。虽然当前的视频模型还远非完美,但它们代表了新的场。物理世界包含的信息量远大于文本世界。一桩预设的视频包含数百万个关于物理、光线和交互的视觉数据点。通过在视觉这种现实上模型的训练,我们可以在AI当前LLM所缺乏的“常识”中进行训练。创造了一个新的“常识”。扩展法则。成功将不再通过一个模型阅读了多少万亿个词元来轻松。它将通过其模拟的保真度以及其预测环境未来状态的能力来日常。一个能够准确模拟某个行动后果而进而实际采取该行动的AI,是一个能够规划、推理并安全行动的AI。效率与走向AGI之路这种转变也解决了当前AI不可持续的能源成本问题。LLM效率低下,它们必须预测每个细节以生成连贯的输出。世界模型则更高效,因为它具有灵活性。正如人类所有权集中于道路而忽略天空中云的图案一样,世界模型集中于任务相关的因果因素。LeCun,这种方法允许模型学习得更快。 V-JEPA(视频联合嵌入预测架构)这样的系统已经表明,它可以用比传统方法更少的训练迭代次数来收敛到一个解决方案。通过学习数据的“形状”而不是记忆数据本身,世界模型构建了一种更成熟的智能形式,能够更好地泛化到新的、未见过的身体。实现是A GI所撤回的一环。真正的智能导航需要。它需要一个智能体携带一个目标,利用其内部世界模型模拟实现该目标的不同路径,然后选择成功概率最高的路径。文本生成器无法实现这一点;它们只能写一个计划,无法理解执行计划的约束条件。关键要点人工智能行业正具体一个转折点。“只需添加更多数据”的策略正达到其最核心终点。我们正从聊天机器人时代迈向模拟器时代。下一代AI扩展将不再是关于阅读整个互联网。它将关乎观察世界,理解其规则,并构建一个反映现实的内部架构。这一次不仅仅是技术升级;它是我们对“学习”认知的根本性改变。对于企业和研究人员而言,关注点必须转变。我们需要停止痴迷于参数数量,开始评估我们的系统对因果关系的理解程度。未来的AI不仅会告诉你发生了什么;它会向你展示可能发生什么,以及为什么。这就是世界模型的承诺,也是唯一的前进道路。