人工智能

塔布拉拉萨的终结：预训练的世界模型如何重新定义强化学习

Published October 26, 2025

Updated April 25, 2026

Dr. Tehseen Zia

很长一段时间里，强化学习（RL）的核心思想是人工智能代理应该从头开始学习每个新任务，就像一张白纸一样。这一“塔布拉拉萨”方法带来了令人惊叹的成就，例如人工智能掌握复杂的游戏。然而，它的效率非常低，需要大量的数据和计算才能学习甚至简单的行为。

现在，一个根本性的转变正在发生。代理不再需要从零开始，而可以使用预训练的”世界模型“。这些模型带有内置的知识，关于环境如何工作，大大减少了学习新任务所需的数据和时间。这一转变反映了人工智能领域更广泛的趋势，其中基础模型已经改变了人工智能处理语言和视觉任务的方式。

从头学习的隐性成本

传统的强化学习代理面临着一个艰巨的挑战。他们必须学习环境的外观、环境如何对他们的行为做出反应，以及哪些行为会带来奖励。这种重大的学习负担是为什么即使简单的任务也需要数百万次交互才能使代理表现良好。像 OpenAI Five 这样的大规模系统，在多个月的训练和多次设计迭代后，达到了人类在 Dota 2 中的表现水平。每次架构或算法发生变化，模型都需要从头开始重新训练，使得开发过程变得极其昂贵和耗时。这一低效率使得没有大量资源的研究人员难以处理计算密集型的问题。塔布拉拉萨方法还浪费了大量的计算资源，每当代理的设计发生变化时，就会丢弃代理已经学习到的所有内容。

在机器人领域，塔布拉拉萨学习的数据需求尤其具有挑战性。物理机器人无法像模拟机器人那样快速收集数据，因此不太可能进行数百万次交互来实现学习。安全问题增加了另一个层次的难度，因为机器人必须避免可能造成伤害或损害的行为。这些限制阻止了强化学习在现实世界应用中发挥最大影响。

世界模型作为环境模拟器

世界模型的灵感来自于人类的学习方式。婴儿并不是一张白纸，他们在能够正式推理之前，很早就对物理、人和空间有了基本的理解。同样，人工智能代理可以通过被动地观看大量的数据（如图像、视频或模拟）来学习关于世界的知识，然后开始通过奖励来学习。

世界模型本质上是学习模拟环境行为的AI系统。它们不仅仅将观察结果映射到行为，还可以预测环境将如何对这些行为做出反应。这种预测能力使得代理能够想象不同的场景并在不需要昂贵的现实世界试验的情况下测试可能的行为。从本质上讲，模型充当代理可以用来计划其行动的内部模拟器。

一些最大的突破来自于将自监督学习和生成模型与强化学习相结合。像 Dreamer、World Models 和 PlaNet 这样的方法使得代理能够在其内部模拟中想象和计划。代理不再需要不断地与真实环境交互，而是可以在这些“梦境”世界中训练，这使得学习变得更加高效。

从微调到预训练：RL方法的转变

随着世界模型的出现，强化学习领域正在经历与自然语言处理和计算机视觉转变相同的过程。大量语言模型（LLM）通过在大量数据上预训练，然后对特定任务进行微调，已经获得了令人印象深刻的能力。同样的想法现在被应用于强化学习：首先进行一般的预训练，然后适应特定任务。

预训练的世界模型正在改变强化学习代理需要学习的内容。代理不再需要从头开始学习环境如何工作，而是专注于将其现有的知识适应于特定任务。换句话说，目标从学习世界转变为学习如何在世界中行动。这一变化使得学习变得更快、更高效。例如，预训练的视觉语言操作模型，如 OpenAI 的 Sora 和 DeepMind 的 Genie，使得代理能够理解复杂的场景并预测其行为的后果。这一新方法将强化学习从单任务学习者转变为基础代理，该代理可以通过微调或提示快速适应许多不同的领域，同时保持或提高最终性能。这种方法还使得代理能够使用比传统方法少得多的数据来解决任务，同时保持或提高最终性能。这是创建能够快速学习、平滑适应和高效运行的AI系统的重要一步，以应对广泛的现实世界挑战。

世界模型如何实现智能

从本质上讲，世界模型将经验转化为紧凑、可预测的表示。它们可以回答诸如“如果我做 X 会发生什么？”或“哪个动作序列可以实现 Y？”的问题。这种预测能力为强化学习代理带来了三个关键优势：

无交互模拟：代理可以通过在其世界模型中想象成千上万种可能的未来来学习，消除了昂贵的现实世界探索的需要。
规划和推理：具有内部模型的代理可以评估长期结果并做出超越反应性行为的决定。
迁移学习：由于世界模型捕获了一般结构，因此它们可以在各种任务中重用，大大减少了重新训练的成本。

预训练代理的新生态系统

预训练世界模型中最令人印象深刻的能力之一是零样本任务解决。零样本强化学习中，代理可以立即处理新任务，而无需额外的训练或规划。这是从基于奖励的强化学习到可控代理的基本转变，这些代理可以遵循任意指令。这些代理可以通过想象类似于大型语言模型使用提示执行不同任务的场景来适应不同的目标。

一个围绕这一概念的整个生态系统正在形成。领先的研究实验室正在构建能够跨文本、视觉、机器人和模拟运行的通用基础代理。像 OpenAI 的 Sora 和 Google DeepMind 的世界模型这样的项目是此类代理的早期示例。这些系统将多模态感知、记忆和控制集成到一个统一的框架中，该框架可以推理物理和数字环境。

同时，强化学习即服务（RLaaS）的兴起使得这些工具广泛可用。开发人员不再需要从头开始构建代理，而可以对预训练的决策模型进行微调，以适应机器人、游戏或工业自动化等任务。这就像 LLM 即服务如何改变语言应用一样。这些发展正在将焦点从“训练代理”转移到“部署智能”，降低了进入壁垒，并扩大了现实世界的适用性。

挑战和开放性问题

尽管预训练的世界模型具有巨大的潜力，但它仍然是一个新兴领域，存在几个开放性挑战。一个主要问题是模型偏差。如果预训练模型对世界的理解不完整或有偏差，则可能导致代理学习有缺陷的行为。可扩展性是另一个障碍，因为构建准确的世界模型以适应复杂、高维或不可预测的环境，需要大量的计算资源。还有现实差距的问题，即在模拟或互联网数据上训练的模型在现实世界的物理环境中难以可靠地执行。最后，随着人工智能代理变得更加自治，伦理和安全问题变得越来越重要，使得安全探索和适当的对齐成为必不可少的。克服这些挑战需要在模型可解释性、不确定性估计和安全感知学习等领域取得进展。

结论

强化学习正在经历一个根本性的转变，远离为每个新任务从头开始训练人工智能的做法。通过使用预训练的“世界模型”，这些模型作为环境如何工作的内部模拟器，代理现在可以以大大减少的数据和时间学习新任务。这将强化学习从狭隘、低效的过程转变为更灵活、更可扩展的方法，为能够快速适应现实世界挑战的人工智能铺平了道路。