AI的下一个扩展法则:不是更多数据,而是更好的世界模型
多年来,人工智能行业遵循着一个简单而残酷的规则:越大越好。我们在海量数据集上训练模型,增加参数数量,并投入巨大的计算能力来解决问题。这个公式在大多数时候都行之有效。从GPT-3到GPT-4,从粗糙的聊天机器人到推理引擎,“扩展法则”表明,只要我们持续向机器输入更多文本,它最终会变得智能。但我们如今正碰壁。互联网是有限的。高质量的公共数据正被耗尽,仅仅让模型变得更大所带来的回报正在递减。顶尖的AI研究人员认为,人工智能的下一次重大飞跃不会仅仅来自阅读更多文本。它将来自理解文本背后的现实。这一信念标志着AI关注点的根本性转变,预示着世界模型时代的到来。下一个词元预测的局限要理解为什么我们需要新方法,我们必须首先看看当前AI系统实际在做什么。尽管像ChatGPT或Claude这样的模型能力令人印象深刻,但它们本质上是统计引擎。它们根据之前内容的概率来预测序列中的下一个词。它们并不理解掉落的玻璃杯会碎裂;它们只是知道在数百万个故事中,“碎裂”这个词常常跟在“掉落的玻璃杯”这个短语后面。这种方法被称为自回归建模,存在一个关键缺陷。它完全依赖于相关性,而非因果关系。如果你在一个LLM上训练一千个车祸描述,它学会的是事故的语言。但它从未学会动量、摩擦力或易碎性的物理原理。它是一个旁观者,而非参与者。这种局限性正成为“数据墙”。我们几乎已经爬取了整个公共互联网。要使用当前方法进一步扩展,我们将需要比现有数据多得多的数据,且呈指数级增长。合成数据(即AI生成的文本)提供了一个临时的解决方案,但它常常导致“模型崩溃”,即系统放大自身的偏见和错误。我们无法仅凭文本来扩展实现通用人工智能(AGI),因为文本是对世界的低带宽压缩。它描述现实,但它本身并非现实。为何世界模型至关重要像Yann LeCun这样的AI领导者长期以来一直认为,当前的AI系统缺乏人类认知的一个基本方面,而这个方面即使是幼儿也天生具备。这就是我们维持一个关于世界如何运作的内部模型的能力,他们通常称之为世界模型。一个世界模型不仅仅预测下一个词;它构建了一个关于物理环境如何运作的内部心智地图。当我们看到一个球滚到沙发后面时,我们知道它仍然在那里。我们知道除非被阻挡,否则它会在另一侧出现。我们不需要阅读教科书来理解这一点;我们基于我们内部关于物理和物体恒存性的“世界模型”来运行一个心智模拟。为了让AI取得进步,它必须从统计模仿转向这种内部模拟。它需要理解事件的根本原因,而不仅仅是它们的文本描述。联合嵌入预测架构(JEPA)是这种范式转变的一个典型例子。与试图预测每个像素或单词(这个过程计算成本高昂且充满噪声)的LLM不同,JEPA预测的是抽象的表征。它忽略不可预测的细节,比如树上单个叶子的运动,而专注于高层次的概念,如树、风和季节。通过学习预测这些高层次状态如何随时间变化,AI学习的是世界的结构,而非表面细节。从预测到模拟我们已经在视频生成模型中看到了这种转变的初步迹象。当OpenAI发布Sora时,他们将其描述不仅仅是一个视频工具,更是一个“世界模拟器”。这种区分至关重要。一个标准的视频生成器可能通过预测哪些彩色像素通常彼此相邻来创建一个人行走的视频。然而,一个世界模拟器则试图随时间推移保持3D一致性、光照和物体恒存性。它“理解”如果这个人走到墙后面,他们不应该从存在中消失。虽然当前的视频模型还远非完美,但它们代表了新的训练场。物理世界包含的信息量远大于文本世界。一秒钟的视频包含数百万个关于物理、光线和交互的视觉数据点。通过在这种视觉现实上训练模型,我们可以教会AI当前LLM所缺乏的“常识”。这创造了一个新的扩展法则。成功将不再通过一个模型阅读了多少万亿个词元来衡量。它将通过其模拟的保真度以及其预测环境未来状态的能力来衡量。一个能够准确模拟某个行动后果而无需实际采取该行动的AI,是一个能够规划、推理并安全行动的AI。效率与通往AGI之路这种转变也解决了当前AI不可持续的能源成本问题。LLM效率低下,因为它们必须预测每一个细节以生成连贯的输出。世界模型则更高效,因为它具有选择性。正如人类驾驶员专注于道路而忽略天空中云的图案一样,世界模型专注于任务相关的因果因素。LeCun认为,这种方法允许模型学习得更快。像 V-JEPA(视频联合嵌入预测架构)这样的系统已经表明,它可以用比传统方法少得多的训练迭代次数来收敛到一个解决方案。通过学习数据的“形状”而非记忆数据本身,世界模型构建了一种更稳健的智能形式,能够更好地泛化到新的、未见过的情境。这是实现AGI所缺失的一环。真正的智能需要导航。它需要一个智能体审视一个目标,使用其内部世界模型模拟实现该目标的不同路径,然后选择成功概率最高的路径。文本生成器无法做到这一点;它们只能写一个计划,无法理解执行计划的约束条件。核心要点人工智能行业正处在一个转折点。“只需添加更多数据”的策略正达到其逻辑终点。我们正从聊天机器人时代迈向模拟器时代。下一代AI扩展将不再是关于阅读整个互联网。它将关乎观察世界,理解其规则,并构建一个反映现实的内部架构。这不仅仅是一次技术升级;它是我们对“学习”认知的根本性改变。对于企业和研究人员而言,关注点必须转变。我们需要停止痴迷于参数数量,开始评估我们的系统对因果关系的理解程度。未来的AI不仅会告诉你发生了什么;它会向你展示可能发生什么,以及为什么。这就是世界模型的承诺,也是唯一的前进道路。