人工智能
道路上的推理:NVIDIA的Alpamayo能否解决自动驾驶的“边缘案例”问题?

自动驾驶汽车在过去十年中取得了显著进步,行驶了数百万英里,并在高速公路、受控测试区域和特定城市地区表现良好。然而,即使在2026年,现实世界的驾驶仍然暴露了关键的局限性。例如,在大雨中进行无保护的左转、在施工区域中遇到褪色或缺失的车道标线,以及在交叉路口遇到使用即兴手势的紧急人员时,仍然会挑战先进的自动驾驶系统。
这些情况并不是罕见的异常现象,可以通过更多的数据来解决。相反,它们凸显了当前自动驾驶汽车技术中的一个更深层次的问题。现代系统在检测物体和绘制环境方面很有能力,但它们难以推理未来事件、解释其他道路使用者的意图并做出上下文敏感的决定。因此,感知alone是不足以确保复杂、不可预测场景中的安全性的。
为了解决这个挑战,NVIDIA在CES 2026上推出了Alpamayo。这个开源的视觉语言动作模型家族在感知之上添加了一个显式的推理层。通过将感知与推理相结合,Alpamayo使得车辆可以更安全地导航罕见和复杂的驾驶情况,同时为每个决定提供可解释的解释。因此,它代表了一个朝着可以思考、解释和适应的自动驾驶系统迈出的一步,而不是仅仅观察。
理解自动驾驶中的边缘案例问题
边缘案例是自动驾驶汽车中最复杂的问题之一。这些是罕见的情况,其中最安全的行动取决于微妙的上下文、未成文的社会规则和与其他道路使用者的实时交互。例如,行人可能会挥手让汽车通过交叉路口,即使他们技术上有优先权。或者,施工区域可能有褪色的车道标线,与临时锥体相矛盾。这些情况并不经常发生,也许每几千英里才会发生一次,但它们会导致大量的安全事故和系统错误。
加利福尼亚州2024年的解除接管报告清楚地表明了这一点。在31家获得许可的自动驾驶汽车公司中,2800多辆测试车辆行驶了数十万英里。然而,许多故障发生在不寻常的道路布局、即兴交通控制或人类行为不可预测的情况下。这些正是传统的自动驾驶模型难以处理的罕见情况。相比之下,人类可以使用经验、快速思考和判断来导航这些情况。自动驾驶系统通常在现实世界与它们在训练中看到的不同时会失败。
现代自动驾驶技术在感知方面非常出色。系统可以使用摄像头、激光雷达和雷达以高精度检测车辆、骑行者、行人和交通标志。在此基础上,端到端模型将传感器数据直接转换为转向和油门命令。在熟悉的道路上,这使得车辆可以平稳、安全地行驶。
然而,感知alone无法处理所有情况。它无法回答在复杂或不可预测场景中出现的重要问题。例如,一名行人会不会走到街上?在这一刻是让步更安全还是冒险?为什么一个动作比另一个更安全?黑盒模型使这些问题更加困难,因为它们无法解释自己的决定。因此,安全团队和监管机构可能难以信任这些系统。
基于规则的规划器也有局限性。虽然它们提供清晰的指示,但为每种罕见情况编程规则几乎是不可能的。因此,仅仅依靠感知或固定的规则会留下安全和决策的缺口。
这些挑战表明,自动驾驶汽车需要一个推理层。这样的系统可以理解情况,预测接下来可能发生什么,并做出人类和监管机构可以信任的决定。另外,推理模型可以产生可以被审查的解释,增加对车辆行为的信心。
NVIDIA Alpamayo和向基于推理的自主性转变
NVIDIA推出了Alpamayo,这是一个专注于推理的平台,旨在解决继续阻碍向Level 4自动驾驶进步的边缘案例。然而,Alpamayo不作为一个完全的自动驾驶系统在车辆内部运行,而是一个开源的研究和开发环境。它结合了三个紧密相连的组件:视觉语言动作基础模型、AlpaSim模拟框架和大规模物理AI驾驶数据集。这些元素共同支持研究、测试和改进必须在不确定性和社会复杂性下运行的驾驶策略,同时保持对人类审查者的可理解性。
该平台的核心是Alpamayo 1。在这个模型中,大约100亿个参数将广泛的视觉和语言骨干与专用的动作和轨迹预测模块相结合。因此,系统可以处理来自多个摄像头视图的输入,预测未来车辆运动,并为每个决定生成清晰的自然语言解释。这些解释遵循一个结构化的序列。首先,系统识别附近的道路使用者。接下来,它估计他们可能的意图。然后,它评估可见性限制和安全风险。最后,它选择一个合适的动作。例如,当一辆送货车堵塞了一部分车道时,模型可能会考虑行人从后面出现的可能性。然后,它检查相邻车道的交通情况。因此,它可能会选择一个谨慎的路径调整,而不是进行突然的车道变换。这个决定是由推理而不是仅凭置信度支持的。
训练方法进一步强化了这一推理焦点。最初,Alpamayo从大型多模态数据集中开发出一般的因果理解。之后,它使用来自现实世界记录和模拟的特定数据进行改进。此外,基于物理的模拟强制执行安全约束,例如保持足够的停车距离和避免不安全的责任假设。同时,系统评估替代的未来结果,而不是依赖于单一预测。因此,通过考虑接下来可能发生什么并偏爱保守的响应,模型降低了在陌生条件下的失败风险。
相比之下,感知驱动的系统通常在常规设置中表现良好,但在道路布局、天气或人类行为与以前的经验不同的情况下会挣扎。通过产生可以被审查的解释,Alpamayo为工程师提供了对故障原因的更清晰的洞察。另外,它为监管机构提供了一个更透明的安全评估基础,这支持了超越有限的试点部署的进步。
Alpamayo如何应用链式思维推理到边缘案例
Alpamayo通过适应现实道路行为的显式、现实世界推理来解决困难的驾驶情况。与其对整个场景做出反应,不如说系统将每种情况分解为一系列逻辑步骤。因此,决定不是作为单一输出产生的,而是结构化分析的结果。这种方法反映了人类的推理,并降低了在陌生条件下的意外行为。
首先,模型识别场景中的所有相关代理,包括车辆、行人、骑行者和临时物体。接下来,它通过检查运动模式、上下文和社会线索来推断可能的意图。之后,它评估可见性限制、遮挡和可能的隐藏危险。此外,它考虑了反事实结果,例如如果行人突然向前一步会发生什么。只有然后,它才将多个可能的轨迹与安全约束进行比较,并选择最终的动作。同时,系统产生了一个清晰的、自然语言的推理痕迹,解释了每一步的顺序。
这个过程在模糊的环境中变得至关重要。例如,当一辆送货车堵塞了一条狭窄的城市车道的一部分时,Alpamayo不会仅仅依赖于一个学习到的模式。相反,它一步一步地推理出这种情况。它识别了车辆后面的遮挡区域。然后,它预测了行人或骑行者的可能出现。之后,它检查了短时间范围内的来车情况。因此,它可能会选择一个小的横向调整,以保持安全缓冲区,而不是进行完整的车道变换。这个决定是由推理而不是仅凭置信度支持的。
此外,链式思维推理在测试和故障分析期间提高了透明度。工程师可以检查决定路径的哪个部分失败,例如意图推断不正确或风险评估过于乐观。因此,错误变得更容易诊断和纠正。这与黑盒模型不同,行为可以被观察,但不能被有意义地解释。
模拟进一步加强了这个推理过程。通过AlpaSim框架,Alpamayo在封闭环环境中运行,每个动作都会影响接下来的状态。开发人员可以注入罕见但现实的边缘案例,包括突然在眩光下的行人、大型车辆的激进合并或依赖手势而不是信号的交叉路口。由于感知、推理和动作共同运行,系统必须在压力下推理,而不是重放静态场景。
最后,通过教师-学生结构实现了可扩展性。大型Alpamayo模型在数据中心执行链式思维推理,并在真实和模拟数据上生成轨迹和推理痕迹。较小的模型然后从这些输出中学习,并将相同的推理结构带入车载硬件的部署中。因此,即使在计算限制下,因果逻辑也得以保留。同时,标准化的推理痕迹支持一致的测试和监管审查。这些机制共同加强了可靠性,并将自动驾驶系统推向了在现实世界边缘案例中安全运行的目标。
通过推理和模拟关闭长尾数据缺口
基于推理的系统,如Alpamayo,不是通过收集更多的驾驶数据来解决边缘案例问题。相反,它们改变了现有数据的解释、扩展和测试方式。因此,进展取决于更有效地使用数据,而不是仅仅增加行驶里程。NVIDIA通过其物理AI驾驶数据集与AlpaSim模拟环境的紧密集成来解决这个挑战,这两个环境都旨在支持推理驱动的开发。
NVIDIA的物理AI数据集包括1700多小时的同步驾驶数据,收集自25个国家和成千上万的城市。这些数据结合了来自摄像头、激光雷达和雷达的输入,以捕捉广泛的现实道路行为。重要的是,这些记录超出了单一地区或驾驶文化。因此,它们反映了不同的交通规范、天气模式、道路设计和非正式驾驶习惯。这种多样性使得模型接触到现实世界复杂性的真实例子,例如不明确的交叉路口、损坏的车道标线或道路上的谈判取代了严格的规则遵循。因此,推理模型是在更接近现实世界复杂性的条件下训练的。
然而,现实数据alone无法代表每种罕见的情况。因此,模拟在关闭长尾缺口方面发挥了关键作用。通过AlpaSim,开发人员可以生成大量的受控但现实的场景,这些场景反映了困难和不常见的情况。这些可能包括部分传感器退化、不可预测的行人运动或不熟悉的环境危险。由于模拟在封闭环中运行,每个驾驶决定都会影响接下来的状态。因此,系统必须在演变的条件下推理,而不是对静态输入做出反应。
验证也变得更加结构化。在测量轨迹准确性之外,开发人员还可以检查推理痕迹是否在压力下保持一致和可信。这样可以评估不仅车辆是否表现得安全,而且其决策过程是否合理,从而将安全评估从试验和错误转变为系统化的推理。通过将多样化的现实世界数据与推理感知模拟相结合,Alpamayo有助于以可衡量和可审查的方式减少长尾挑战,支持更安全地推进高级自动驾驶。
行业影响和持续挑战
Alpamayo符合NVIDIA更广泛的自动驾驶战略,通过将大规模训练、模拟和车载部署相结合。训练和评估发生在数据中心的高性能GPU系统上。同时,从这项工作中派生的较小模型在车载硬件上运行,例如DRIVE Thor平台,实现了车辆中的实时决策。同样,相关系统扩展到机器人领域,通过基于Jetson的平台。因此,Alpamayo使得道路车辆和其他物理系统能够共享一个共同的开发框架。
行业兴趣反映了这一方法。几家制造商和研究团体正在测试Alpamayo作为现有感知系统上的推理层。例如,梅赛德斯-奔驰计划在未来车辆中探索集成,而捷豹路虎正在研究其在复杂驾驶情况下的应用。同时,像Lucid、Uber和Berkeley DeepDrive这样的组织正在将Alpamayo应用于政策测试和安全验证。因此,该平台被视为一种工具,用于提高安全逻辑和支持Level 4目标,而不是替换自动驾驶堆栈。
尽管取得了这些进步,但仍然存在几个关键挑战,需要仔细关注。特别是,链式思维推理可能描述了事后决定,而不是反映了实际的内部过程,这使得事故调查变得复杂。另外,将谨慎的行为从大型模型转移到较小的车载模型中可能会在验证不足的情况下削弱安全边界。因此,严格的测试对于保持一致的行为至关重要,即使在计算约束下也是如此。
分布差异带来了持续的风险。训练在结构化城市环境中的推理可能不会平滑地转移到非正式交通、密集的亚洲交叉路口或未铺设的乡村道路等地区。因此,仔细的本地验证和适应对于保持不同条件下的安全至关重要。此外,公众的信任和监管批准取决于证明推理输出导致安全性的真正改善,例如减少解除接管、险些发生事故和违反规则的情况。
尽管Alpamayo的开放开发方法鼓励合作,但其与NVIDIA生态系统的集成引发了人们对长期依赖NVIDIA的担忧。然而,向基于推理的自主性转变的整体趋势是明确的,通过强调透明度、问责制和可衡量的安全结果,这种方法使得自动驾驶系统更接近了在受控试点计划之外的安全部署。
结论
自动驾驶已经达到了一个感知alone不再足够的阶段。虽然车辆可以以高精度看到道路,但困难的情况仍然需要理解、判断和解释。因此,基于推理的系统,如Alpamayo,标志着解决这些挑战的方法的重要转变。通过结合结构化推理、现实模拟和透明的评估,这种方法针对最重要的安全边缘案例。
此外,它提供了工程师和监管机构可以检查和质疑的工具,这对于信任至关重要。然而,推理并不能消除所有风险。仔细的验证、局部测试和监管监督仍然是必要的。即使如此,通过关注决定的原因而不仅仅是采取的行动,基于推理的自主性使得自动驾驶技术更接近了在现实道路上的安全和负责的部署。












