思想领袖

增强人工智能推理：先进技术和最佳实践

发布时间 2025 年 5 月 28 日

艾西瓦娅·戈埃尔， Inferless 联合创始人兼首席执行官

当谈到自动驾驶汽车等实时人工智能驱动的应用时医疗保健监控即使多花一秒钟来处理输入也可能造成严重后果。实时AI应用需要可靠的GPU和处理能力，而这对于许多应用来说一直非常昂贵且成本过高——直到现在。

通过采用优化推理流程，企业不仅可以最大限度地提高人工智能效率；还可以降低能源消耗和运营成本（高达 90%）；增强隐私和安全性；甚至提高客户满意度。

常见推理问题

在管理 AI 效率方面，公司面临的一些最常见问题包括 GPU 集群利用率不足、默认使用通用模型以及缺乏对相关成本的洞察。

团队通常会为峰值负载配置 GPU 集群，但由于工作流程不均衡，70% 到 80% 的时间里，这些集群未得到充分利用。

此外，即使对于可以在更小、更便宜的开源模型上运行的任务，团队也默认使用大型通用模型（GPT-4、Claude）。原因何在？缺乏知识，以及构建自定义模型的学习曲线陡峭。

最后，工程师通常缺乏对每个请求的实时成本的洞察，导致账单高昂。PromptLayer、Helicone 等工具可以帮助提供这方面的洞察。

由于缺乏对模型选择、批处理和利用的控制，推理成本可能会呈指数级增长（高达 10 倍），浪费资源，限制准确性并降低用户体验。

能源消耗和运营成本

运行更大的 LLM，例如 GPT-4、Llama 3 70B 或 Mixtral-8x7B，需要明显更强大每个令牌。平均而言，数据中心所用能源的 40% 到 50% 用于为计算设备供电，另外 30% 到 40% 用于冷却设备。

因此，对于一家全天候进行大规模推理的公司来说，考虑本地提供商而不是云提供商更为有利，以避免支付高昂的成本和消耗更多能源.

隐私和安全

根据Cisco's 2025年数据隐私基准研究, “64% 的受访者担心会无意中公开或与竞争对手分享敏感信息，但近一半的受访者承认将员工个人或非公开数据输入 GenAI 工具。如果数据记录或缓存不当，则会增加不合规的风险。

另一个风险机会是在共享基础架构上跨不同客户组织运行模型；这可能导致数据泄露和性能问题，并且还有一个用户的行为影响其他用户的额外风险。因此，企业通常更喜欢在云中部署服务。

客户满意度

当响应需要几秒钟才能显示时，用户通常会放弃，这支持了工程师为了实现零延迟而过度优化的努力。此外，应用程序还存在“幻觉和不准确性等障碍可能会限制其广泛的影响和采用。” Gartner 新闻稿.

管理这些问题带来的商业利益

优化批处理、选择合适规模的模型（例如，尽可能从 Llama 70B 或 GPT 等闭源模型切换到 Gemma 2B）以及提高 GPU 利用率，可以将推理成本降低 60% 到 80%。使用 vLLM 等工具可以提供帮助，对于高峰值的工作流程，切换到无服务器的按需付费模式也能有所帮助。

以 Cleanlab 为例。Cleanlab 推出可信语言模型 (TLM) 至加为每份 LLM 响应提供可信度评分。它旨在提供高质量的输出和增强的可靠性，这对于企业应用程序防止出现不受控制的幻觉至关重要。在使用 Inferless 之前，Cleanlabs 的 GPU 成本不断增加，因为 GPU 即使在未被主动使用时也会运行。他们面临的问题与传统的云 GPU 提供商类似：高延迟、成本管理低效以及管理环境复杂。借助无服务器推理，他们在保持性能水平的同时将成本降低了 90%。更重要的是，他们在两周内就上线了，而且没有额外的工程管理成本。

优化模型架构

像 GPT 和 Claude 这样的基础模型通常是为了通用性而非效率或特定任务而训练的。由于没有针对特定用例定制开源模型，企业会将内存和计算时间浪费在不需要如此规模的任务上。

像 H100 这样的新型 GPU 芯片速度快、效率高。这在运行视频生成或 AI 相关任务等大规模运算时尤为重要。更多的 CUDA 核心可以提高处理速度，使其性能超越小型 GPU；NVIDIA 的张量核旨在大规模加速这些任务。

GPU 内存对于优化模型架构也至关重要，因为大型 AI 模型需要大量空间。额外的内存使 GPU 能够在不影响速度的情况下运行更大的模型。相反，VRAM 较少的小型 GPU 的性能会受到影响，因为它们会将数据移动到速度较慢的系统 RAM 中。

优化模型架构的诸多好处包括节省时间和成本。首先，从密集 Transformer 切换到 LoRA 优化或基于 FlashAttention 的变体，可以将每个查询的响应时间缩短 200 到 400 毫秒，这在聊天机器人和游戏等领域至关重要。此外，量化模型（例如 4 位或 8 位）所需的 VRAM 更少，在更便宜的 GPU 上运行速度更快。

从长远来看，优化模型架构可以节省推理成本，因为优化的模型可以在更小的芯片上运行。

优化模型架构涉及以下步骤：

量化 — 降低精度（FP32 → INT4/INT8），节省内存并加快计算时间
修剪 — 删除不太有用的权重或层（结构化或非结构化）
蒸馏训练一个较小的“学生”模型来模仿一个较大模型的输出

压缩模型尺寸

较小的型号意味着更快的推理速度和更便宜的基础设施。大型模型（13B+、70B+）需要昂贵的 GPU（A100、H100）、高显存和更强大的计算能力。压缩这些模型可以让它们在更便宜的硬件（例如 A10 或 T4）上运行，并且延迟更低。

压缩模型对于在设备端（手机、浏览器、物联网）进行推理也至关重要，因为较小的模型无需扩展基础设施即可处理更多并发请求。在一个拥有超过 1,000 个并发用户的聊天机器人中，从 13B 压缩模型升级到 7B 压缩模型，使得一个团队能够在每个 GPU 上服务两倍以上的用户，且不会出现延迟峰值。

利用专用硬件

通用 CPU 并非为张量运算而构建。NVIDIA A100、H100、Google TPU 或 AWS Inferentia 等专用硬件可以为 LLM 提供更快的推理速度（10 到 100 倍），并具有更高的能效。在每天处理数百万个请求的情况下，即使每个请求节省 100 毫秒，也能带来显著的提升。

考虑这个假设的例子：

一个团队正在其内部 RAG 系统的标准 A13 GPU 上运行 LLaMA-10B。延迟约为 1.9 秒，并且由于 VRAM 限制，无法进行大规模批处理。因此，他们切换到搭载 TensorRT-LLM 的 H100 架构，启用 FP8 和优化的注意力内核，并将批处理大小从 64 增加到 400。最终，延迟降低至 XNUMX 毫秒，吞吐量提升了五倍。
因此，他们能够以相同的预算满足五次请求，并让工程师摆脱基础设施瓶颈。

评估部署选项

不同的流程需要不同的基础架构；例如，一个拥有 10 个用户的聊天机器人和一个每天处理一百万次查询的搜索引擎，其需求也有所不同。在未评估性价比的情况下，就全盘投入云服务（例如 AWS Sagemaker）或自行搭建 GPU 服务器，会导致资金浪费和用户体验不佳。需要注意的是，如果您早期选择封闭式云服务提供商，那么后期迁移解决方案将会非常困难。然而，采用按需付费的模式进行早期评估，可以为您提供日后的选择。

评估包括以下步骤：

跨平台基准模型延迟和成本：在 AWS、Azure、本地 GPU 集群或无服务器工具上运行 A/B 测试以进行复制。
测量冷启动性能：这对于无服务器或事件驱动的工作负载尤其重要，因为模型加载速度更快。
评估可观察性和扩展限制：评估可用指标并确定降级之前每秒的最大查询数。
检查合规性支持：确定是否可以强制执行地理绑定数据规则或审计日志。
估算总体拥有成本。这应该包括 GPU 使用时间、存储、带宽和团队开销。

底线

推理使企业能够优化其人工智能性能、降低能源使用和成本、维护隐私和安全并让客户满意。

联合人工智能