人工智能
NVIDIA Cosmos:通过模拟赋予物理AI的力量

物理AI系统的开发,例如工厂车间中的机器人和街道上的自动驾驶汽车,严重依赖于大型、高质量的数据集进行训练。然而,收集现实世界的数据是昂贵的、耗时的,并且通常仅限于少数大型科技公司。NVIDIA的Cosmos平台通过使用先进的物理模拟来生成现实的合成数据,从而解决了这个挑战。这使得工程师能够在没有收集现实世界数据的成本和延迟的情况下训练AI模型。本文讨论了Cosmos如何改善对基本训练数据的访问,并加速安全、可靠的AI的开发,以适用于现实世界的应用。
理解物理AI
物理AI指的是能够感知、理解和在物理世界中行动的智能系统。与传统的AI不同,传统AI可能分析文本或图像,物理AI必须处理现实世界的复杂性,例如空间关系、物理力和动态环境。例如,自动驾驶汽车需要识别行人、预测他们的动作,并在实时调整其路径,同时考虑天气和道路条件等因素。同样,仓库中的机器人必须在精确地导航障碍和操作物体。
物理AI的开发具有挑战性,因为它需要大量的数据来训练模型以适应多样化的现实世界场景。收集这些数据,无论是驾驶录像还是机器人任务演示,都可能耗时且昂贵。另外,在现实世界中测试AI可能存在风险,因为错误可能导致事故。NVIDIA Cosmos通过使用基于物理的模拟来生成现实的合成数据来解决这些挑战。
什么是世界基础模型?
NVIDIA Cosmos的核心是世界基础模型(WFMs)的集合。这些AI模型专门设计用于模拟虚拟环境,这些环境与物理世界非常相似。通过生成物理感知的视频或场景,WFMs模拟对象如何基于空间关系和物理定律相互作用。例如,WFMs可以模拟汽车在雨中行驶,显示水如何影响牵引力或车头灯如何反射在湿润的表面上。
WFMs对于物理AI至关重要,因为它们提供了一个安全、可控的空间来训练和测试AI系统。开发人员可以使用WFMs生成合成数据——环境和交互的现实模拟。这种方法不仅降低了成本,还加速了开发过程,并允许在没有现实世界测试风险的情况下测试复杂、罕见的场景(例如不寻常的交通情况)。WFMs是通用模型,可以为特定应用程序进行微调,类似于大型语言模型被适应用于翻译或聊天机器人等任务。
介绍NVIDIA Cosmos
NVIDIA Cosmos是一个平台,旨在使开发人员能够为物理AI应用程序(尤其是自动驾驶汽车(AV)和机器人)构建和自定义WFMs。Cosmos集成了先进的生成模型、数据处理工具和安全功能,以开发与物理世界交互的AI系统。该平台是开源的,模型在宽松的许可下提供。
平台的主要组件包括:
- 生成世界基础模型(WFMs): 预训练模型,模拟物理环境和交互。
- 高级标记器: 高效压缩和处理数据的工具,用于更快的模型训练。
- 加速数据处理管道: 由NVIDIA的计算基础设施驱动的大型数据集处理系统。
Cosmos的一个关键创新是其物理AI的推理模型。该模型为开发人员提供了创建和修改虚拟世界的能力。他们可以根据特定的需求定制模拟,例如测试机器人的物体抓取能力或评估自动驾驶汽车对突然障碍的反应。
NVIDIA Cosmos的关键特性
NVIDIA Cosmos提供各种组件来解决物理AI开发中的特定挑战:
- Cosmos传输WFMs: 这些模型接受结构化视频输入(例如分割图、深度图或激光扫描),并生成可控的、逼真的视频输出。这种功能对于创建用于训练感知AI(例如帮助自动驾驶汽车识别物体或机器人识别周围环境的系统)的合成数据特别有用。
- Cosmos预测WFMs: Cosmos预测模型根据多模态输入(包括文本、图像和视频)生成虚拟世界状态。它们可以预测未来场景(例如场景如何随时间变化),并支持多帧生成以处理复杂序列。开发人员可以使用NVIDIA的物理AI数据集自定义这些模型以满足他们的特定需求,例如预测行人运动或机器人动作。
- Cosmos推理WFM: Cosmos推理模型是一个完全可定制的WFM,具有时空感知能力。其推理能力使其能够理解空间关系以及它们如何随时间变化。该模型使用链式推理来分析视频数据并预测结果,例如一个人是否会步入斑马线,或者一个盒子是否会从货架上掉下来。
应用和用例
NVIDIA Cosmos已经对该行业产生了重大影响,几家领先公司采用了该平台用于他们的物理AI项目。这些早期采用者凸显了Cosmos在各个领域的多功能性和实用影响:
- 1X:使用Cosmos进行高级机器人开发,以提高他们开发AI驱动机器人的能力。
- Agility Robotics:扩大与NVIDIA的合作伙伴关系,以利用Cosmos开发人形机器人系统。
- Figure AI:使用Cosmos推进人形机器人,专注于能够执行复杂任务的AI。
- Foretellix:在自动驾驶汽车模拟中应用Cosmos,以生成广泛的测试场景。
- Skild AI:使用Cosmos开发用于各种应用的AI驱动解决方案。
- Uber:将Cosmos集成到他们的自动驾驶汽车开发中,以提高自驾驶系统的训练数据。
- Oxa:使用Cosmos加速工业移动自动化。
- Virtual Incision:探索Cosmos用于外科机器人,以提高医疗保健中的精度。
这些用例展示了Cosmos如何满足从交通到医疗保健的广泛需求,通过为这些物理AI系统提供合成数据。
未来影响
NVIDIA Cosmos的推出对于物理AI系统的开发至关重要。通过提供一个开源平台、强大的工具和模型,NVIDIA使物理AI开发对更广泛的开发人员和组织开放。这可能会导致多个领域的重大进步。
在自动驾驶交通中,增强的训练数据和模拟可能会带来更安全、更可靠的自动驾驶汽车。在机器人领域,能够执行复杂任务的机器人的更快开发可能会改变制造、物流和医疗保健等行业。在医疗保健领域,像Virtual Incision探索的外科机器人等技术可能会提高医疗程序的精度和结果。
结论
NVIDIA Cosmos在物理AI的开发中发挥着至关重要的作用。该平台允许开发人员通过提供预训练的、基于物理的世界基础模型(WFMs)来生成高质量的合成数据,以创建现实的模拟。凭借其开源访问、先进功能和道德保障,Cosmos实现了更快、更高效的AI开发。该平台已经在交通、机器人和医疗保健等行业推动了重大进步,通过为与物理世界交互的智能系统提供合成数据。












