思想领袖

提升 AI 推理：高级技术和最佳实践

Published May 28, 2025

Updated April 26, 2026

Aishwarya Goel, Co-Founder and CEO of Inferless

当谈到像自动驾驶汽车或医疗保健监测这样的实时 AI 应用时，即使多花一秒钟来处理输入也可能带来严重的后果。实时 AI 应用需要可靠的 GPU 和处理能力，这在过去对于许多应用来说是非常昂贵和成本高昂的 – 直到现在。

通过采用优化的推理过程，企业不仅可以最大化 AI 效率；他们还可以降低能耗和运营成本（最高可达 90%）；增强隐私和安全；甚至提高客户满意度。

常见推理问题

企业在管理 AI 效率时面临的一些最常见的问题包括 GPU 集群利用率低、默认使用通用模型以及缺乏对相关成本的洞察。

团队经常为峰值负载预配 GPU 集群，但在 70% 至 80% 的时间里，由于工作流不均匀，GPU 集群被低利用。

此外，团队默认使用大型通用模型（GPT-4，Claude），即使对于可以在较小、更便宜的开源模型上运行的任务也是如此。原因是缺乏知识和构建自定义模型的陡峭学习曲线。

最后，工程师通常缺乏对每个请求的实际成本的洞察，导致账单庞大。像 PromptLayer、Helicone 这样的工具可以提供这种洞察。

由于缺乏对模型选择、批处理和利用率的控制，推理成本可能会指数级增加（最高可达 10 倍），浪费资源，限制准确性和降低用户体验。

能耗和运营成本

运行像 GPT-4、Llama 3 70B 或 Mixtral-8x7B 这样的更大型 LLM 需要显著更多的电力每个令牌。平均而言，数据中心使用的 40% 至 50% 的能量用于为计算设备供电，另外 30% 至 40% 用于冷却设备。

因此，对于一家公司来说，考虑到全天候的大规模推理，使用本地提供商而不是云提供商更为有益，以避免支付高昂的成本和消耗更多的能量。

隐私和安全

根据 Cisco 的 2025 数据隐私基准研究， “64% 的受访者担心无意中公开分享敏感信息或与竞争对手分享，但几乎一半的人承认将个人员工或非公开数据输入到 GenAI 工具中。” 这增加了如果数据未被正确记录或缓存而导致的不合规风险。

另一个风险是跨不同客户组织在共享基础设施上运行模型；这可能导致数据泄露和性能问题，并且存在一个用户的行为影响其他用户的风险。因此，企业通常更喜欢在其云中部署服务。

客户满意度

当响应需要超过几秒钟时，用户通常会放弃，这支持工程师为零延迟进行过度优化的努力。另外，应用程序呈现 “诸如幻觉和不准确性等障碍，这可能会限制广泛的影响和采用，”根据 Gartner新闻稿。

管理这些问题的商业利益

优化批处理、选择合适大小的模型（例如，从 Llama 70B 或闭源模型如 GPT 切换到 Gemma 2B）和改善 GPU 利用率可以将推理账单削减 60% 至 80%。使用像 vLLM 这样的工具可以提供帮助，也可以切换到针对尖峰工作流的无服务器按需付费模式。

以 Cleanlab 为例。Cleanlab 推出了可靠语言模型 (TLM) 以添加可靠性评分到每个 LLM 响应中。它旨在提供高质量的输出和增强的可靠性，这对于企业应用程序至关重要，以防止未经检查的幻觉。在 Inferless 之前，Cleanlabs 遭遇了 GPU 成本增加，因为即使在未使用时，GPU 也在运行。他们的问题对于传统云 GPU 提供商来说是典型的：高延迟、成本管理效率低下以及复杂的环境管理。通过使用无服务器推理，他们在保持性能水平的同时将成本削减了 90%。更重要的是，他们在两周内上线，没有额外的工程开销成本。

优化模型架构

基础模型如 GPT 和 Claude 通常是为了通用性而不是效率或特定任务而训练的。通过不为特定用例自定义开源模型，企业浪费了内存和计算时间，用于不需要此规模的任务。

像 H100 这样的新型 GPU 芯片速度快、效率高。这些对于运行大规模操作（如视频生成或 AI 相关任务）至关重要。更多的 CUDA 核心可以提高处理速度，超越较小的 GPU；NVIDIA 的张量核心旨在加速这些任务的规模。

GPU 内存在优化模型架构中也很重要，因为大型 AI 模型需要大量空间。这种额外的内存使 GPU 能够在不损害速度的情况下运行更大的模型。相反，具有较少 VRAM 的较小 GPU 的性能会因将数据移动到较慢的系统 RAM 而受到影响。

优化模型架构的几种好处包括节省时间和金钱。首先，切换到稀疏变换器或 LoRA 优化变体或 FlashAttention 基变体可以将每个查询的响应时间缩短 200 至 400 毫秒，这在聊天机器人和游戏等方面至关重要。另外，量化模型（如 4 位或 8 位）需要较少的 VRAM，并且可以在较便宜的 GPU 上更快地运行。

长期来看，优化模型架构可以节省推理成本，因为优化后的模型可以在较小的芯片上运行。

优化模型架构涉及以下步骤：

量化 — 减少精度 (FP32 → INT4/INT8)，节省内存并加快计算时间
剪枝 — 删除较少使用的权重或层（结构化或非结构化）
蒸馏 — 训练一个较小的“学生”模型来模拟较大模型的输出

压缩模型大小

较小的模型意味着更快的推理和更便宜的基础设施。较大的模型（13B+、70B+）需要昂贵的 GPU（A100、H100）、高 VRAM 和更多电力。压缩它们可以使它们在更便宜的硬件上运行，例如 A10 或 T4，延迟显著降低。

压缩模型对于在设备上（电话、浏览器、IoT）运行推理也至关重要，因为较小的模型可以在不扩大基础设施的情况下处理更多的并发请求。在一个具有超过 1,000 个并发用户的聊天机器人中，从 13B 切换到 7B 压缩模型使得一支团队可以在不出现延迟峰值的情况下每个 GPU 处理两倍以上的用户。

利用专用硬件

通用 CPU 不适合张量运算。像 NVIDIA A100、H100、Google TPUs 或 AWS Inferentia 这样的专用硬件可以为 LLM 提供更快的推理（快 10 到 100 倍）和更好的能效。即使将每个请求的延迟缩短 100 毫秒，也可以在每天处理数百万个请求时产生影响。

考虑以下假设例子：

一个团队正在标准的 A10 GPU 上运行 LLaMA-13B，以用于其内部 RAG 系统。延迟约为 1.9 秒，由于 VRAM 限制，他们无法批量处理太多。因此，他们切换到 H100，并使用 TensorRT-LLM、启用 FP8 和优化注意力内核，批处理大小从 8 增加到 64。结果是将延迟降低到 400 毫秒，并且吞吐量增加了五倍。因此，他们能够在相同的预算下处理五倍的请求，并让工程师摆脱基础设施瓶颈的困扰。

评估部署选项

不同的过程需要不同的基础设施；一个具有 10 个用户的聊天机器人和每天服务一百万个查询的搜索引擎具有不同的需求。在云（例如 AWS Sagemaker）或 DIY GPU 服务器上进行部署而不评估成本表现比率会导致浪费支出和糟糕的用户体验。请注意，如果您早期就承诺使用封闭的云提供商，稍后迁移解决方案将会很痛苦。然而，通过采用按需付费结构进行早期评估，可以在未来提供更多选择。

评估包括以下步骤：

跨平台对模型延迟和成本进行基准测试：在 AWS、Azure、本地 GPU 集群或无服务器工具上运行 A/B 测试以复制。
测量冷启动性能：这对于无服务器或事件驱动的工作负载尤为重要，因为模型加载速度更快。
评估可观察性和扩展限制：评估可用的指标并确定最大查询每秒数在性能下降之前。
检查合规性支持：确定是否可以强制执行地理边界数据规则或审计日志。
估计所有权总成本。这应该包括 GPU 小时、存储、带宽和团队的开销。

结论

推理使企业能够优化其 AI 性能，降低能耗和成本，保持隐私和安全，并让客户保持满意。

Related Topics:ai inference Inference inferless