AI的下一个扩展定律:不再是更多的数据,而是更好的世界模型
作者 Dr. Tehseen Zia 多年来,人工智能行业遵循着一个简单而残酷的规则:越大越好。我们训练模型在巨大的数据集上,增加参数数量,并投入巨大的计算能力来解决问题。这一公式在大多数时间都有效。从GPT-3到GPT-4,从粗糙的聊天机器人到推理引擎,“扩展定律”表明,如果我们继续向机器提供更多的文本,它最终会变得智能。但现在,我们正在撞击墙。互联网是有限的。高质量的公共数据正在被耗尽,仅仅通过增加模型大小的回报正在减少。领先的AI研究人员认为,下一个人工智能的重大突破不会来自于阅读更多的文本,而是来自于理解文本背后的现实。这一信念标志着人工智能焦点的根本转变,迎来了世界模型的时代。下一个令牌预测的局限性为了理解为什么我们需要新的方法,我们必须首先看一下当前的AI系统实际上做了什么。尽管它们具有令人印象深刻的能力,但像ChatGPT或Claude这样的模型从根本上来说是统计引擎。它们根据之前的概率预测序列中的下一个单词。它们并不理解掉落的玻璃会碎;它们只是知道在数百万个故事中,单词“碎”经常跟随短语“掉落的玻璃”。这种方法,被称为自回归建模,有一个关键的缺陷。它完全依赖于相关性,而不是因果性。如果你在一千个车祸描述中训练一个LLM,它会学习事故的语言。但是,它永远不会学习动量、摩擦或脆弱性的物理学。它是一个旁观者,而不是参与者。这种限制正在成为“数据墙”我们已经几乎扫描了整个公共互联网。要使用当前方法进一步扩展,我们需要比现有更多的数据。合成数据(即由AI生成的文本)提供了一个临时解决方案,但它经常导致“模型崩溃”,系统放大了自己的偏见和错误。我们不能使用文本来扩展到人工通用智能(AGI),因为文本是对世界的低带宽压缩。它描述了现实,但它不是现实本身。为什么世界模型很重要AI领袖如Yann LeCun长期以来一直认为,当前的AI系统缺乏人类认知的一个基本方面,即使年幼的儿童也自然具备。这种能力是维持内部世界模型的能力,即他们通常所说的“世界模型”。世界模型不仅预测下一个单词;它构建了内部的心理地图,描述了物理环境的运行方式。当我们看到一个球滚到沙发后面时,我们知道它仍然在那里。我们知道它会在另一侧出现,除非它被停止。我们不需要读一本教科书来理解这一点;我们根据内部的“世界模型”运行一个心理模拟,包括物理学和物体恒存性。为了推进AI,我们必须从统计模仿转变为这种内部模拟。它需要理解事件的根本原因,而不仅仅是它们的文本描述。联合嵌入预测架构(JEPA)是这一范式转变的典型例子。与LLM不同,LLM试图预测每个像素或单词(这是一个计算密集且嘈杂的过程),JEPA预测抽象表示。它忽略了像树上叶子的运动等不可预测的细节,专注于高级概念,如树、风和季节。通过学习预测这些高级状态如何随时间变化,AI学习了世界的结构,而不是表面细节。从预测到模拟我们已经在视频生成模型中看到这种转变的第一瞥。当OpenAI发布Sora时,他们将其描述为不仅仅是一个视频工具,而是一个“世界模拟器”。这种区别至关重要。标准的视频生成器可能会通过预测哪些彩色像素通常相互毗邻来创建一个人走路的视频。然而,世界模拟器尝试维持3D的一致性、照明和物体恒存性。它“理解”如果一个人走到墙后面,他们不应该从存在中消失。虽然当前的视频模型仍然不完美,但它们代表了新的训练场。物理世界包含了大量的信息,远远超过文本世界。一个视频中的单一秒包含了数百万个视觉数据点,涉及物理、光和交互。通过训练模型学习这种视觉现实,我们可以教会AI当前LLM缺乏的“常识”。这创造了一个新的扩展定律。成功将不再由模型读取的令牌数量来衡量,而是由其模拟的保真度和预测环境未来状态的能力来衡量。能够准确模拟行动后果而无需采取行动的AI是能够规划、推理和安全行动的AI。效率和通往AGI的道路这种转变还解决了当前AI的不可持续的能耗。LLM是低效的,因为它们必须预测每个细节以生成连贯的输出。世界模型更高效,因为它是选择性的。就像人类驾驶员专注于道路并忽略天空中的云朵模式一样,世界模型专注于任务的相关因果因素。LeCun认为,这种方法使模型能够更快地学习。像V-JEPA(视频-联合嵌入预测架构)这样的系统已经表明,它可以在远少于传统方法的训练迭代中收敛到一个解决方案。通过学习数据的“形状”而不是记忆数据本身,世界模型建立了更强健的智能形式,它更好地推广到新的、未见过的情况。这是通往AGI的缺失环节。真正的智能需要导航。它需要一个代理来查看目标,模拟不同的路径来实现目标,使用其内部的世界模型,然后选择具有最高成功概率的路径。文本生成器无法做到这一点;它们只能编写一个计划,但不能理解执行它的约束。底线AI行业正处于转折点。仅仅“添加更多数据”的策略正在达到其逻辑极限。我们正在从聊天机器人时代转向模拟器时代。下一代AI扩展将不再是关于阅读整个互联网。它将是关于观察世界,理解其规则,并建立一个反映现实的内部架构。这不仅是一种技术升级;它是对我们认为“学习”是什么的根本性改变。对于企业和研究人员,焦点必须转变。我们需要停止对参数数量的痴迷,开始评估我们的系统如何理解因果关系。未来的AI不会仅仅告诉你发生了什么;它会向你展示可能发生什么以及为什么会发生。这是世界模型的承诺,它是唯一的前进道路。