机器人

Meta V-JEPA 2：将常识带给机器人的 AI 模型

Published July 17, 2025

Updated April 26, 2026

Dr. Assad Abbas

Meta V-JEPA 2: The AI Model Bringing Common Sense to Robots

Meta 的视频联合嵌入预测架构 2 (V-JEPA 2) 是人工智能 (AI) 领域的一个重大进步。它帮助机器人理解和预测物理交互。该模型是在超过一百万小时的视频上进行训练的。这使得机器人能够学习和预测接下来会发生什么。它还使机器人能够在新环境中计划行动，从而使它们能够更有效地与陌生物体交互。

V-JEPA 2 使用自监督学习。它直接从视频数据中学习，而无需人类注释。这使其与其他依赖标记数据的 AI 模型不同。机器人可以根据视觉上下文预测结果。它们可以根据需要适应和计划行动。这使我们更接近实现高级机器智能 (AMI)。

在 Meta 的联合嵌入预测架构 (JEPA) 的基础上，V-JEPA 2 提高了行动预测和世界建模能力，使机器人能够在陌生环境中处理新任务。Meta 正在与研究社区分享此模型，以加速 AI 进步和改善机器人能力。

为什么机器人中的常识一直很难实现

常识是指做出基本决策的能力。例如，知道杯子会倾倒或理解椅子可能会阻挡路径。对于人类来说，这些知识来自于自然的经验。然而，机器人在发展这种直觉时面临挑战。

大多数机器人都是为特定任务和受控环境而编程的。它们在这些任务中表现良好。但是，当情况发生变化或出现意外元素时，机器人会挣扎。它们经常无法识别因果关系或预测行动的后果。例如，机器人可能知道如何将杯子放在平面上。但是，它可能无法预见倾斜杯子会导致它倾倒。

当前的 AI 模型，例如基于强化学习 (RL) 的模型，存在局限性。RL 需要大量的试错学习。这使得该过程缓慢且耗费资源。大型语言模型 (LLM) 在语言方面表现出色，但缺乏物理世界的基础。它们经常产生幻觉，仅基于文本做出响应，使它们在动态情况下不可靠。传统的计算机视觉模型也具有局限性。这些模型是特定任务的，无法适应新或意外的场景。

为了解决这些问题，专家建议使用世界模型。世界模型使机器人能够模拟和预测未来行动，基于过去的经验。这些模型帮助机器人了解世界的物理动态。例如，预测当物体被移动或两个物体碰撞时会发生什么。Meta 的 V-JEPA 2 是第一个将这些原则整合的模型。它直接从原始视频数据中学习。这使其能够适应真实世界环境，使机器人能够根据动态物理交互进行推理和规划。

了解 V-JEPA 2

V-JEPA 2 是由 Meta 的基本 AI 研究 (FAIR) 团队创建的自监督学习模型。与需要标记数据的传统 AI 模型不同，V-JEPA 2 通过预测视频序列的缺失部分直接从未标记的视频中学习。这一过程称为表示级预测。与其关注每个像素，V-JEPA 2 使用抽象表示，捕捉环境中物体和动作之间的关键动态和关系。

该模型建立在 Meta 的联合嵌入预测架构 (JEPA) 之上，旨在了解物理动态。它有两个关键组件：一个编码器，用于处理原始视频以创建有用的表示，并且一个预测器，使用这些表示来预测未来事件。V-JEPA 2 在超过一百万小时的视频上进行训练，使其能够学习物理世界中的复杂模式。通过从视频中学习，该模型可以预测未来行动和交互，改善机器人计划和决策的方式。

V-JEPA 2 帮助机器人执行零次规划。这意味着机器人可以处理新环境中的任务，即使没有先前的训练。相反，机器人可以执行任务，例如拾取物体并将其放在新位置，即使它们以前从未见过这些任务。这种能力使 V-JEPA 2 在行动预测和世界建模方面取得了显著的改进，使机器人更适应新情况。

该模型从原始视频数据中学习，使机器人能够预测未来事件。这使机器人在真实世界情况下更具能力。V-JEPA 2 将我们更接近能够像人类一样规划和执行任务的机器人。Meta 正在与研究社区分享 V-JEPA 2，以加速 AI 进步。使用 V-JEPA 2 的机器人可以在动态环境中运行，快速适应，并更高效地规划任务。

V-JEPA 2 的工作原理：两阶段过程

V-JEPA 2 通过两个不同的阶段工作。每个阶段都使模型能够从原始视频数据中学习，并随后将这些知识应用于真实世界任务中做出明智的决定。

阶段 1：无操作表示学习

V-JEPA 2 首先在超过 100 万小时的视频和 100 万张图像上进行大规模预训练。该模型通过预测视频序列的缺失部分来学习。它将视频处理为 3D tubelets，这些 tubelets 作为模型的主要标记。该模型采用视觉变换器 (ViT) 架构和 3D 旋转位置嵌入 (3D-RoPE) 以更有效地捕捉空间和时间信息。

编码器处理 tubelets 以创建高维特征向量。这些向量代表视频的空间和时间动态。该模型使用掩码降噪目标，其中大部分视频被隐藏。该模型尝试通过使用可见部分来预测隐藏内容。指数移动平均 (EMA) 目标编码器有助于模型避免平凡解决方案，并确保稳定的学习。损失函数最小化预测和 EMA 目标编码器输出之间的 L1 距离，重点关注更高级的概念，例如对象恒存和运动，而不是像素级细节。

阶段 2：操作条件规划和控制

在第二阶段，模型转为操作条件训练。编码器权重被冻结，并使用来自机器人交互的数据训练新的预测器。这些数据包括视频观察和相应的控制操作，通常来自 DROID 数据集（约 62 小时的机器人数据）。现在，模型可以根据当前状态和可能的操作预测环境的未来状态。

V-JEPA 2 设置了一个目标条件下的能量最小化问题。它将当前观察和目标图像编码为特征图。然后，模型预测状态将如何根据不同的操作序列而改变。最佳操作序列是通过最小化预测的未来状态和目标表示之间的 L1 距离来找到的。交叉熵方法 (CEM) 用于轨迹优化。

仅执行最佳序列的第一操作，然后在递归控制循环中重复该过程。这使得实时规划和适应成为可能。通过使用 3D tubelet 处理，V-JEPA 2 捕获了空间和时间依赖关系，使机器人能够推理运动、物体交互和复杂环境中其操作的后果。这使得零次规划和控制成为可能，即使在新场景中，也无需任务特定的示例或奖励工程。

V-JEPA 2 在机器人中的应用

V-JEPA 2 正在改变机器人与世界交互的方式。虽然许多应用程序仍在开发中，但该模型在受控环境中已经展示了强大的能力。

拾取和放置操作

在实验室环境中，V-JEPA 2 已使机器人能够执行最少训练的拾取和放置任务。使用来自 DROID 数据集的仅 62 小时数据，机器人可以操作各种物体，包括刚性和可变形物体。这一能力在物流、制造和家庭机器人等领域至关重要，因为物体的大小和复杂性各不相同。

动态环境中的导航

V-JEPA 2 可以建模时间动态，使其适用于具有移动人员、动物或障碍的动态环境中的实时导航。虽然它尚未用于自主车辆或无人机，但其预测能力可以帮助机器人预测变化并调整其路径。这对于繁忙环境中的安全性和效率至关重要。

人机交互

通过学习预测人类行动，V-JEPA 2 可以改善人机协作。机器人可以在共享空间中更自然、更安全地响应，例如医院、家庭或工业楼层。虽然仍在进行中，但这种能力代表了向具有社会意识的机器人迈出的一步，这些机器人可以适应其周围环境。

泛化和零次规划

V-JEPA 2 可以泛化到任务和环境中。机器人可以在新情况下使用学习的表示，而无需额外的训练。这一零次规划使机器人能够快速适应新任务，从而减少了收集新数据或重新训练的需要。

实时决策和效率

具有其高效设计，V-JEPA 2 支持实时规划和控制。Meta 报告称，V-JEPA 2 在某些基准测试中比 Nvidia 的 Cosmos 模型快 30 倍。这对于需要快速决策的任务（如机器人操作或动态环境中的导航）至关重要。

实际挑战和局限性

虽然 V-JEPA 2 在自监督学习和机器人规划方面取得了显著进展，但在广泛部署之前仍存在需要解决的挑战。以下是主要限制：

仅依赖视觉数据

V-JEPA 2 仅在视频和图像数据上进行训练。这使其在视觉任务中有效，但限制了其执行多感官任务的能力，例如触觉操作或使用听觉提示。真实世界的机器人依赖于多个感官输入。

对相机位置和校准的敏感性

该模型依赖于单目 RGB 输入，这可能会在机器人基座或参考框架不可见时降低性能。可能需要手动调整相机设置以确保一致的性能。

长期和多步规划的局限性

V-JEPA 2 在短期任务中表现良好，但在长期规划中却存在困难。预测中的错误积累和操作空间的扩展使得复杂、多步骤的操作变得困难。

高计算需求

虽然比 Nvidia 的 Cosmos 模型快，但 V-JEPA 2 拥有超过 12 亿个参数。这需要大量的计算资源，这可能会对基础设施有限的小型实验室或组织构成挑战。

在无结构环境中的泛化

V-JEPA 2 在受控环境中表现良好，但可能在陌生或无结构环境中遇到问题。其在拾取和放置任务中的成功率约为 80%，但可能在边缘情况下失败。

与完整机器人堆栈的集成

为了有用，V-JEPA 2 必须与电机控制器、实时传感器和任务规划器集成。实现动态环境中的平滑互操作性仍然是一个挑战。

伦理和偏见考虑

与所有大型模型一样，V-JEPA 2 可能会从其训练数据中继承偏见。在涉及人机交互的真实世界应用中，这些偏见可能会导致意外的结果。伦理监督至关重要。

结论

V-JEPA 2 代表了 AI 和机器人领域的重大进步。它使机器人能够像人类一样理解和与物理世界交互。虽然该模型在预测行动、理解世界和无需先前训练进行规划方面表现出色，但它仍面临着几个挑战。

V-JEPA 2 依赖于视觉数据，并且在多感官任务、长期规划和与完整机器人系统集成方面存在一些局限性。然而，其能够实时做出决策和适应新环境的能力使其对于复杂的真实世界情况非常有用。

Meta 正在继续改进 V-JEPA 2，这将有助于推进 AI 并使机器人变得更智能。这一进展将对医疗保健、物流和自动驾驶车辆等行业具有价值。V-JEPA 2 具有巨大的潜力，并将在机器人的未来中发挥至关重要的作用。

Dr. Assad Abbas

阿萨德·阿巴斯博士（Dr. Assad Abbas）是巴基斯坦伊斯兰堡COMSATS大学的终身副教授，他在美国北达科他州立大学获得了博士学位。他的研究重点是包括云计算、雾计算、边缘计算、大数据分析和人工智能在内的先进技术。阿巴斯博士在著名的科学期刊和会议上发表了大量的论文，并做出了重要的贡献。他也是 MyFastingBuddy 的创始人。