通用人工智能
AI 的下一个扩展规律:不再是更多数据,而是更好的世界模型

多年来,人工智能行业遵循着一个简单而残酷的规则:越大越好。我们训练模型在大量数据集上,增加参数数量,并将巨大的计算能力投入到问题中。这一公式在大多数时间里都有效。从 GPT-3 到 GPT-4,从粗糙的聊天机器人到推理引擎,”扩展规律” 表明,如果我们继续给机器更多的文本,它最终会变得智能。
但我们现在 遇到了瓶颈。互联网是有限的。高质量的公共数据正在耗尽,仅仅通过使模型更大所带来的回报正在 减少。领先的 AI 研究人员 认为,人工智能的下一个重大突破不会仅仅来自于阅读更多的文本。它将来自于理解文本背后的现实。这一信念标志着 AI 重点的根本转变,迎来了世界模型的时代。
下一个令牌预测的局限性
为了理解为什么我们需要一种新的方法,我们必须首先看看当前的 AI 系统实际上做了什么。尽管它们具有令人印象深刻的能力,但像 ChatGPT 或 Claude 这样的模型从根本上来说是 统计引擎。它们根据之前的概率预测序列中的下一个单词。它们不知道掉落的玻璃会破碎;它们只是知道在数百万个故事中,单词 “破碎” 经常跟随短语 “掉落的玻璃”。
这种方法,被称为 自回归建模,有一个关键的缺陷。它完全依赖于相关性,而不是因果性。如果你在一千个关于汽车碰撞的描述中训练一个 LLM,它会学习事故的语言。但它永远不会学习动量、摩擦或脆弱性的物理学。它是一个旁观者,而不是参与者。
这种限制正在成为 “数据墙“。我们几乎已经扫描了整个公共互联网。为了使用当前方法进一步扩展,我们需要比现有数据多得多的数据。合成数据(即由 AI 生成的文本)提供了一个临时解决方案,但它通常会导致 “模型崩溃“,系统放大了自己的偏见和错误。我们无法使用仅文本来扩展到人工通用智能(AGI),因为文本是对世界的低带宽压缩。它描述了现实,但它不是现实本身。
为什么世界模型很重要
AI 领导者,如 Yann LeCun,一直认为当前的 AI 系统缺乏人类认知的一个基本方面,即使是年幼的儿童也自然具备。这种能力是维持内部世界模型的能力,通常被称为 世界模型。世界模型不仅预测下一个单词;它构建了物理环境的内部心智地图。当我们看到一个球在沙发后面滚动时,我们知道它仍然在那里。我们知道它会在另一边出现,除非它被停止。我们不需要阅读一本教科书来理解这一点;我们根据内部的 “世界模型” 运行一个心智模拟,模拟物理和物体恒存性。
为了使 AI 进步,它必须从统计模仿转变为这种内部模拟。它需要理解事件的根本原因,而不仅仅是它们的文本描述。
联合嵌入预测架构(JEPA) 是这种范式转变的典型例子。与 LLMs 不同,后者试图预测每个单独的像素或单词(这是一个计算成本高且噪音大的过程),JEPA 预测抽象表示。它忽略了不可预测的细节,例如树上单个叶子的运动,并专注于高级概念,例如树、风和季节。通过学习预测这些高级状态如何随时间变化,AI 学习了世界的结构,而不是表面细节。
从预测到模拟
我们已经在视频生成模型中看到了这种转变的第一迹象。当 OpenAI 发布 Sora 时,他们将其描述为不仅仅是一个视频工具,而是一个 “世界模拟器“。
这种区别至关重要。一个标准的视频生成器可能会通过预测哪些彩色像素通常相互邻近来创建一个人走路的视频。一个世界模拟器,然而,尝试维持 3D 一致性、照明和物体恒存性随时间的变化。它 “理解” 如果一个人走到墙后面,他们不应该从存在中消失。
虽然当前的视频模型仍然远远不完美,但它们代表了新的训练场。物理世界包含的信息远远超过文本世界。一个视频中的单一秒钟包含了关于物理、光和交互的数百万个视觉数据点。通过训练模型学习这种视觉现实,我们可以教会 AI 缺乏的 “常识”。
这创造了一个新的扩展规律。成功将不再由模型读取的令牌数量来衡量。它将由模拟的保真度和预测环境未来状态的能力来衡量。能够在不采取行动的情况下准确模拟行动后果的 AI 是一个可以规划、推理和安全行动的 AI。
效率和通往 AGI 的道路
这种转变还解决了当前 AI 的不可持续的 能耗。LLM 是低效的,因为它们必须预测每个细节才能生成一个连贯的输出。一个世界模型更高效,因为它是有选择性的。就像人类驾驶员专注于道路并忽略天空中的云图案一样,一个世界模型专注于任务的相关因果因素。
LeCun 论证,这种方法使模型能够学习得更快。像 V-JEPA(视频-联合嵌入预测架构) 这样的系统已经证明,它可以在远少于传统方法的训练迭代中收敛到一个解决方案。通过学习数据的 “形状” 而不是记忆数据本身,世界模型构建了一个更强健的智能形式,它可以更好地推广到新的、未见过的情况。
这是 AGI 缺失的环节。真正的智能需要导航。它需要一个代理查看目标,使用其内部世界模型模拟实现该目标的不同路径,然后选择最有可能成功的路径。文本生成器无法做到这一点;它们只能写出一个计划,但不能理解执行它的约束。
结论
AI 行业正处于转折点。”再添加更多数据” 的策略正在达到其逻辑终点。我们正在从聊天机器人时代转向模拟器时代。
下一代 AI 扩展将不再是关于阅读整个互联网。它将是关于观察世界、理解其规则并构建一个反映现实的内部架构。这不仅仅是一个技术升级;这是对我们认为 “学习” 的定义的根本性变化。
对于企业和研究人员,重点必须转变。我们需要停止痴迷于参数数量,并开始评估我们的系统如何理解因果关系。未来的 AI 不仅会告诉你发生了什么;它会展示可能发生什么以及为什么会发生。这是世界模型的承诺,也是唯一的前进道路。












