人工智能

大规模 AI 推理：探索 NVIDIA Dynamo 的高性能架构

Published April 24, 2025

Updated April 26, 2026

Dr. Assad Abbas

AI Inference at Scale: Exploring NVIDIA Dynamo’s High-Performance Architecture

随着人工智能 (AI) 技术的进步，对高效和可扩展的推理解决方案的需求迅速增长。很快，AI 推理预计将比训练更加重要，因为公司将专注于快速运行模型以进行实时预测。这一转变强调了需要一个强大的基础设施来处理大量数据并最小化延迟。

推理在像自动驾驶汽车、欺诈检测和实时医疗诊断这样的行业中至关重要。然而，它具有独特的挑战，特别是在扩展以满足像视频流媒体、实时数据分析和客户洞察这样的任务的需求时。传统的 AI 模型难以高效地处理这些高吞吐量的任务，通常导致高成本和延迟。随着企业扩大其 AI 能力，他们需要解决方案来管理大量的推理请求，而不牺牲性能或增加成本。

这就是 NVIDIA Dynamo 的用途。Dynamo 于 2025 年 3 月推出，是一种新的人工智能框架，旨在解决大规模 AI 推理的挑战。它帮助企业加速推理工作负载，同时保持强大的性能和降低成本。基于 NVIDIA 强大的 GPU 架构，并集成了像 CUDA、TensorRT 和 Triton这样的工具，Dynamo 正在改变公司管理 AI 推理的方式，使其对所有规模的企业来说更加容易和高效。

大规模 AI 推理的日益增长的挑战

AI 推理是使用预训练的机器学习模型从实际数据中进行预测的过程，对于许多实时 AI 应用程序至关重要。然而，传统系统通常难以处理对 AI 推理日益增长的需求，特别是在自动驾驶汽车、欺诈检测和医疗诊断等领域。

对实时 AI 的需求正在迅速增长，驱动因素是快速、即时决策的需求。2024 年 5 月的一份 Forrester 报告发现，67% 的企业将生成式 AI 集成到其运营中，强调了实时 AI 的重要性。推理是许多 AI 驱动任务的核心，例如使自驾车能够快速做出决定、检测金融交易中的欺诈以及协助医疗诊断，如分析医疗图像。

尽管存在这种需求，传统系统仍难以处理这些任务的规模。其中一个主要问题是 GPU 的利用率不足。例如，许多系统中的 GPU 利用率仅为 10% 至 15%，这意味着大量计算能力被浪费。随着 AI 推理工作负载的增加，其他挑战也出现了，例如内存限制和缓存抖动，这些问题会导致延迟并降低整体性能。

实现低延迟对于实时 AI 应用程序至关重要，但许多传统系统难以跟上，特别是在使用云基础设施时。 McKinsey 报告显示，70% 的 AI 项目由于数据质量和集成问题而未能达到目标。这些挑战凸显了需要更高效和可扩展的解决方案的必要性；这就是 NVIDIA Dynamo 的用途。

使用 NVIDIA Dynamo 优化 AI 推理

NVIDIA Dynamo 是一个开源、模块化的框架，旨在优化大规模 AI 推理任务在分布式多 GPU 环境中的性能。它旨在解决生成式 AI 和推理模型中常见的挑战，例如 GPU 利用率不足、内存瓶颈和请求路由效率低下。Dynamo 结合了硬件感知优化和软件创新来解决这些问题，提供了一个更高效的解决方案用于高需求的 AI 应用程序。

Dynamo 的一个关键功能是其分离的服务架构。这种方法将计算密集的预填充阶段（处理上下文处理）与解码阶段（涉及令牌生成）分离。通过将每个阶段分配给不同的 GPU 集群，Dynamo 允许独立优化。预填充阶段使用高内存 GPU 进行更快的上下文摄取，而解码阶段使用延迟优化的 GPU 进行高效的令牌流式传输。这种分离提高了吞吐量，使得像 Llama 70B 这样的模型速度提高了一倍。

它包括一个 GPU 资源规划器，可以根据实时利用率动态调度 GPU 分配，优化预填充和解码集群之间的工作负载，以防止过度分配和空闲周期。另一个关键功能是 KV 缓存感知智能路由器，它确保传入的请求被定向到持有相关键值（KV）缓存数据的 GPU，从而最小化冗余计算并提高效率。这个功能对于生成更多令牌的多步骤推理模型尤其有益。

NVIDIA 推理传输库 (NIXL) 是另一个关键组件，实现了 GPU 和异构内存/存储层（如 HBM 和 NVMe）之间的低延迟通信。这个功能支持亚毫秒的 KV 缓存检索，对于时间敏感的任务至关重要。分布式 KV 缓存管理器还帮助卸载不经常访问的缓存数据到系统内存或 SSD，从而释放 GPU 内存用于活动计算。这种方法通过最多 30 倍提高了整个系统的性能，特别是对于像 DeepSeek-R1 671B 这样的大型模型。

NVIDIA Dynamo 与 NVIDIA 的全栈集成，包括 CUDA、TensorRT 和 Blackwell GPU，同时支持流行的推理后端，如 vLLM 和 TensorRT-LLM。基准测试显示，对于 DeepSeek-R1 等模型，GB200 NVL72 系统上的每秒每 GPU 令牌数量提高了多达 30 倍。

作为 Triton 推理服务器的继任者，Dynamo 专为需要可扩展、成本效益的推理解决方案的 AI 工厂而设计。它使自动系统、实时分析和多模型代理工作流受益。其开源和模块化设计还允许轻松定制，使其适用于多种 AI 工作负载。

现实世界应用和行业影响

NVIDIA Dynamo 在实时 AI 推理至关重要的行业中展示了其价值。它增强了自动系统、实时分析和 AI 工厂，使得高吞吐量的 AI 应用程序成为可能。

像 Together AI 这样的公司使用 Dynamo 扩展推理工作负载，在 NVIDIA Blackwell GPU 上运行 DeepSeek-R1 模型时实现了多达 30 倍的容量提升。此外，Dynamo 的智能请求路由和 GPU 调度提高了大规模 AI 部署的效率。

竞争优势：Dynamo 与替代品的比较

NVIDIA Dynamo 提供了与 AWS Inferentia 和 Google TPUs 等替代品相比的关键优势。它旨在高效地处理大规模 AI 工作负载，优化 GPU 调度、内存管理和请求路由，以提高多个 GPU 的性能。与 AWS Inferentia 紧密绑定到 AWS 云基础设施不同，Dynamo 提供了灵活性，支持混合云和本地部署，帮助企业避免供应商锁定。

Dynamo 的一个优势是其开源模块化架构，允许公司根据其需求定制框架。它优化了推理过程的每个步骤，确保 AI 模型平稳高效地运行，同时充分利用可用的计算资源。凭借其可扩展性和灵活性，Dynamo 适合寻找成本有效和高性能的 AI 推理解决方案的企业。

结论

NVIDIA Dynamo 通过提供可扩展和高效的解决方案来解决企业在实时 AI 应用程序中面临的挑战，从而改变了 AI 推理的世界。其开源和模块化设计允许优化 GPU 使用、更好地管理内存并更有效地路由请求，使其非常适合大规模 AI 任务。通过分离关键过程并允许 GPU 动态调整，Dynamo 提高了性能并降低了成本。

与传统系统或竞争对手不同，Dynamo 支持混合云和本地设置，给企业带来了更多的灵活性，并降低了对任何提供商的依赖。凭借其令人印象深刻的性能和适应性，NVIDIA Dynamo 为 AI 推理设定了新的标准，提供了企业先进、成本有效和可扩展的解决方案，以满足其 AI 需求。

Dr. Assad Abbas

阿萨德·阿巴斯博士（Dr. Assad Abbas）是巴基斯坦伊斯兰堡COMSATS大学的终身副教授，他在美国北达科他州立大学获得了博士学位。他的研究重点是包括云计算、雾计算、边缘计算、大数据分析和人工智能在内的先进技术。阿巴斯博士在著名的科学期刊和会议上发表了大量的论文，并做出了重要的贡献。他也是 MyFastingBuddy 的创始人。

Unite.AI

大规模 AI 推理：探索 NVIDIA Dynamo 的高性能架构

大规模 AI 推理的日益增长的挑战

使用 NVIDIA Dynamo 优化 AI 推理

现实世界应用和行业影响

竞争优势：Dynamo 与替代品的比较

结论

You may like