人工智能
大规模 AI 推理:探索 NVIDIA Dynamo 的高性能架构

As DigiOps与人工智能 随着技术的进步,对高效且可扩展的推理解决方案的需求迅速增长。随着企业专注于快速运行模型以进行实时预测,预计人工智能推理很快将变得比训练更重要。这种转变凸显了对强大基础设施的需求,以便以最小的延迟处理大量数据。
推理在以下行业中至关重要 自主车辆、欺诈检测和实时医疗诊断。然而,它面临着独特的挑战,尤其是在扩展以满足视频流、实时数据分析和客户洞察等任务的需求时。传统的人工智能模型难以高效地处理这些高吞吐量任务,常常导致高昂的成本和延迟。随着企业扩展其人工智能能力,他们需要解决方案来管理大量的推理请求,而不会牺牲性能或增加成本。
这是哪里 NVIDIA Dynamo Dynamo 于 2025 年 XNUMX 月正式发布,它是一个全新的 AI 框架,旨在应对大规模 AI 推理的挑战。它帮助企业加速推理工作负载,同时保持强劲性能并降低成本。Dynamo 基于 NVIDIA 强大的 GPU 架构构建,并与 CUDA、TensorRT 和 Triton 等工具集成,正在改变企业管理 AI 推理的方式,使各种规模的企业都能更轻松、更高效地管理 AI 推理。
大规模人工智能推理的日益严峻挑战
人工智能推理是使用预先训练的 机器学习 模型能够根据真实世界的数据进行预测,这对于许多实时AI应用至关重要。然而,传统系统往往难以应对日益增长的AI推理需求,尤其是在自动驾驶汽车、欺诈检测和医疗诊断等领域。
受快速、现场决策需求的驱动,实时人工智能的需求正在快速增长。2024年XNUMX月 Forrester公司 报告发现 67% 的企业整合 生成式人工智能 将其融入到运营中,凸显了实时人工智能的重要性。推理是许多人工智能驱动任务的核心,例如,使自动驾驶汽车能够快速决策,检测金融交易中的欺诈行为,以及协助医疗诊断(例如分析医学图像)。
尽管需求如此巨大,传统系统仍难以处理如此大规模的任务。其中一个主要问题是 GPU 的利用率不足。例如,许多系统的 GPU 利用率仍然保持在 10% 到 15% 左右,这意味着大量的计算能力未得到充分利用。随着 AI 推理工作负载的增加,内存限制和缓存抖动等额外挑战也随之而来,这些挑战会导致延迟并降低整体性能。
实现低延迟对于实时人工智能应用至关重要,但许多传统系统难以跟上,尤其是在使用云基础设施时。 麦肯锡报道 研究表明,70% 的 AI 项目由于数据质量和集成问题而未能实现其目标。这些挑战凸显了对更高效、更可扩展的解决方案的需求;而这正是 NVIDIA Dynamo 应运而生的。
使用 NVIDIA Dynamo 优化 AI 推理
NVIDIA Dynamo 是一个开源模块化框架,用于优化分布式多 GPU 环境中的大规模 AI 推理任务。它旨在解决生成式 AI 和推理模型中的常见挑战,例如 GPU 利用率不足、内存瓶颈以及请求路由效率低下。Dynamo 将硬件感知优化与软件创新相结合来解决这些问题,为高需求 AI 应用提供更高效的解决方案。
Dynamo 的关键特性之一是其分解式服务架构。这种方法将计算密集型的预填充阶段(处理上下文)与解码阶段(涉及 token 生成)分离。通过将每个阶段分配给不同的 GPU 集群,Dynamo 可以实现独立的优化。预填充阶段使用高内存 GPU 实现更快的上下文提取,而解码阶段则使用延迟优化的 GPU 实现高效的 token 流传输。这种分离提高了吞吐量,使得以下模型能够: 美洲驼70B 快两倍。
它包含一个 GPU 资源规划器,可根据实时利用率动态调度 GPU 分配,优化预填充和解码集群之间的工作负载,以防止过度配置和空闲周期。另一个关键特性是键值 (KV) 缓存感知智能路由器,它确保传入请求被定向到持有相关键值 (KV) 缓存数据的 GPU,从而最大限度地减少冗余计算并提高效率。此功能对于生成比标准大型语言模型更多 token 的多步推理模型尤其有益。
这个 NVIDIA 推理传输库 (NIXL) 另一个关键组件是,它支持 GPU 与 HBM 和 NVMe 等异构内存/存储层之间的低延迟通信。此功能支持亚毫秒级的键值缓存检索,这对于时间敏感型任务至关重要。分布式键值缓存管理器还可以将不常访问的缓存数据卸载到系统内存或 SSD,从而释放 GPU 内存用于活跃计算。这种方法可将整体系统性能提升高达 30 倍,尤其适用于像 DeepSeek-R1 671B 这样的大型模型。
NVIDIA Dynamo 集成了 NVIDIA 的完整堆栈,包括 CUDA、TensorRT 和 Blackwell GPU,同时支持 vLLM 和 TensorRT-LLM 等常用的推理后端。基准测试显示,在 GB30 NVL1 系统上,DeepSeek-R200 等模型的每 GPU 每秒令牌数最高可提高 72 倍。
作为 Triton 推理服务器的继任者,Dynamo 专为需要可扩展、经济高效的推理解决方案的 AI 工厂而设计。它有利于自主系统、实时分析和多模型代理工作流。其开源和模块化设计也使其易于定制,从而能够适应各种 AI 工作负载。
实际应用和行业影响
NVIDIA Dynamo 已在实时 AI 推理至关重要的各个行业展现出其价值。它增强了自主系统、实时分析和 AI 工厂,从而支持高吞吐量 AI 应用。
公司喜欢 一起人工智能 已使用 Dynamo 扩展推理工作负载,在 NVIDIA Blackwell GPU 上运行 DeepSeek-R30 模型时,容量提升高达 1 倍。此外,Dynamo 的智能请求路由和 GPU 调度功能可提高大规模 AI 部署的效率。
竞争优势:Dynamo 与其他方案对比
与 AWS Inferentia 和 Google TPU 等替代方案相比,NVIDIA Dynamo 具有关键优势。它旨在高效处理大规模 AI 工作负载,优化 GPU 调度、内存管理和请求路由,从而提升跨多 GPU 的性能。与与 AWS 云基础设施紧密相关的 AWS Inferentia 不同,Dynamo 同时支持混合云和本地部署,从而提供灵活性,帮助企业避免供应商锁定。
Dynamo 的优势之一是其开源模块化架构,允许企业根据自身需求定制框架。它优化了推理过程的每个步骤,确保 AI 模型平稳高效地运行,同时充分利用可用的计算资源。Dynamo 注重可扩展性和灵活性,非常适合寻求经济高效 AI 推理解决方案的企业。
底线
NVIDIA Dynamo 正在通过提供可扩展且高效的解决方案来应对企业在实时 AI 应用方面面临的挑战,从而改变 AI 推理的世界。其开源和模块化设计使其能够优化 GPU 使用率、更好地管理内存并更有效地路由请求,使其成为大规模 AI 任务的理想之选。通过分离关键进程并允许 GPU 动态调整,Dynamo 可以提升性能并降低成本。
与传统系统或竞争对手不同,Dynamo 支持混合云和本地部署,为企业提供更大的灵活性,并减少对任何提供商的依赖。NVIDIA Dynamo 凭借其卓越的性能和适应性,为 AI 推理树立了全新标准,为企业提供先进、经济高效且可扩展的 AI 解决方案。