关注我们.

思想领袖

增强人工智能推理:先进技术和最佳实践

mm

当谈到自动驾驶汽车等实时人工智能驱动的应用时 医疗保健监控即使多花一秒钟来处理输入也可能造成严重后果。实时AI应用需要可靠的GPU和处理能力,而这对于许多应用来说一直非常昂贵且成本过高——直到现在。

通过采用优化推理流程,企业不仅可以最大限度地提高人工智能效率;还可以降低能源消耗和运营成本(高达 90%);增强隐私和安全性;甚至提高客户满意度。

常见推理问题

在管理 AI 效率方面,公司面临的一些最常见问题包括 GPU 集群利用率不足、默认使用通用模型以及缺乏对相关成本的洞察。

团队通常会为峰值负载配置 GPU 集群,但由于工作流程不均衡,70% 到 80% 的时间里,这些集群未得到充分利用。

此外,即使对于可以在更小、更便宜的开源模型上运行的任务,团队也默认使用大型通用模型(GPT-4、Claude)。原因何在?缺乏知识,以及构建自定义模型的学习曲线陡峭。

最后,工程师通常缺乏对每个请求的实时成本的洞察,导致账单高昂。PromptLayer、Helicone 等工具可以帮助提供这方面的洞察。

由于缺乏对模型选择、批处理和利用的控制,推理成本可能会呈指数级增长(高达 10 倍),浪费资源,限制准确性并降低用户体验。 

能源消耗和运营成本

运行更大的 LLM,例如 GPT-4、Llama 3 70B 或 Mixtral-8x7B,需要 明显更强大 每个令牌。平均而言,数据中心所用能源的 40% 到 50% 用于为计算设备供电,另外 30% 到 40% 用于冷却设备。

因此,对于一家全天候进行大规模推理的公司来说,考虑本地提供商而不是云提供商更为有利,以避免支付高昂的成本和 消耗更多能源.

隐私和安全

根据Cisco's 2025年数据隐私基准研究, 64% 的受访者担心会无意中公开或与竞争对手分享敏感信息,但近一半的受访者承认将员工个人或非公开数据输入 GenAI 工具。 如果数据记录或缓存不当,则会增加不合规的风险。 

另一个风险机会是在共享基础架构上跨不同客户组织运行模型;这可能导致数据泄露和性能问题,并且还有一个用户的行为影响其他用户的额外风险。 因此,企业通常更喜欢在云中部署服务。

客户满意度

当响应需要几秒钟才能显示时,用户通常会放弃,这支持了工程师为了实现零延迟而过度优化的努力。此外,应用程序还存在“幻觉和不准确性等障碍可能会限制其广泛的影响和采用。” Gartner 新闻稿.

管理这些问题带来的商业利益

优化批处理、选择合适规模的模型(例如,尽可能从 Llama 70B 或 GPT 等闭源模型切换到 Gemma 2B)以及提高 GPU 利用率,可以将推理成本降低 60% 到 80%。使用 vLLM 等工具可以提供帮助,对于高峰值的工作流程,切换到无服务器的按需付费模式也能有所帮助。 

以 Cleanlab 为例。Cleanlab 推出 可信语言模型 (TLM)为每份 LLM 响应提供可信度评分。它旨在提供高质量的输出和增强的可靠性,这对于企业应用程序防止出现不受控制的幻觉至关重要。在使用 Inferless 之前,Cleanlabs 的 GPU 成本不断增加,因为 GPU 即使在未被主动使用时也会运行。他们面临的问题与传统的云 GPU 提供商类似:高延迟、成本管理低效以及管理环境复杂。借助无服务器推理,他们在保持性能水平的同时将成本降低了 90%。更重要的是,他们在两周内就上线了,而且没有额外的工程管理成本。

优化模型架构

像 GPT 和 Claude 这样的基础模型通常是为了通用性而非效率或特定任务而训练的。由于没有针对特定用例定制开源模型,企业会将内存和计算时间浪费在不需要如此规模的任务上。

像 H100 这样的新型 GPU 芯片速度快、效率高。这在运行视频生成或 AI 相关任务等大规模运算时尤为重要。更多的 CUDA 核心可以提高处理速度,使其性能超越小型 GPU;NVIDIA 的 张量核 旨在大规模加速这些任务。

GPU 内存对于优化模型架构也至关重要,因为大型 AI 模型需要大量空间。额外的内存使 GPU 能够在不影响速度的情况下运行更大的模型。相反,VRAM 较少的小型 GPU 的性能会受到影响,因为它们会将数据移动到速度较慢的系统 RAM 中。

优化模型架构的诸多好处包括节省时间和成本。首先,从密集 Transformer 切换到 LoRA 优化或基于 FlashAttention 的变体,可以将每个查询的响应时间缩短 200 到 400 毫秒,这在聊天机器人和游戏等领域至关重要。此外,量化模型(例如 4 位或 8 位)所需的 VRAM 更少,在更便宜的 GPU 上运行速度更快。 

从长远来看,优化模型架构可以节省推理成本,因为优化的模型可以在更小的芯片上运行。

优化模型架构涉及以下步骤:

  • 量化 — 降低精度(FP32 → INT4/INT8),节省内存并加快计算时间
  • 修剪 — 删除不太有用的权重或层(结构化或非结构化)
  • 蒸馏 训练一个较小的“学生”模型来模仿一个较大模型的输出 

压缩模型尺寸

较小的型号 意味着更快的推理速度和更便宜的基础设施。大型模型(13B+、70B+)需要昂贵的 GPU(A100、H100)、高显存和更强大的计算能力。压缩这些模型可以让它们在更便宜的硬件(例如 A10 或 T4)上运行,并且延迟更低。 

压缩模型对于在设备端(手机、浏览器、物联网)进行推理也至关重要,因为较小的模型无需扩展基础设施即可处理更多并发请求。在一个拥有超过 1,000 个并发用户的聊天机器人中,从 13B 压缩模型升级到 7B 压缩模型,使得一个团队能够在每个 GPU 上服务两倍以上的用户,且不会出现延迟峰值。

利用专用硬件

通用 CPU 并非为张量运算而构建。NVIDIA A100、H100、Google TPU 或 AWS Inferentia 等专用硬件可以为 LLM 提供更快的推理速度(10 到 100 倍),并具有更高的能效。在每天处理数百万个请求的情况下,即使每个请求节省 100 毫秒,也能带来显著的提升。

考虑这个假设的例子:

一个团队正在其内部 RAG 系统的标准 A13 GPU 上运行 LLaMA-10B。延迟约为 1.9 秒,并且由于 VRAM 限制,无法进行大规模批处理。因此,他们切换到搭载 TensorRT-LLM 的 H100 架构,启用 FP8 和优化的注意力内核,并将批处理大小从 64 增加到 400。最终,延迟降低至 XNUMX 毫秒,吞吐量提升了五倍。
因此,他们能够以相同的预算满足五次请求,并让工程师摆脱基础设施瓶颈。

评估部署选项

不同的流程需要不同的基础架构;例如,一个拥有 10 个用户的聊天机器人和一个每天处理一百万次查询的搜索引擎,其需求也有所不同。在未评估性价比的情况下,就全盘投入云服务(例如 AWS Sagemaker)或自行搭建 GPU 服务器,会导致资金浪费和用户体验不佳。需要注意的是,如果您早期选择封闭式云服务提供商,那么后期迁移解决方案将会非常困难。然而,采用按需付费的模式进行早期评估,可以为您提供日后的选择。

评估包括以下步骤:

  • 跨平台基准模型延迟和成本:在 AWS、Azure、本地 GPU 集群或无服务器工具上运行 A/B 测试以进行复制。
  • 测量冷启动性能:这对于无服务器或事件驱动的工作负载尤其重要,因为模型加载速度更快。 
  • 评估可观察性和扩展限制:评估可用指标并确定降级之前每秒的最大查询数。
  • 检查合规性支持:确定是否可以强制执行地理绑定数据规则或审计日志。
  • 估算总体拥有成本。这应该包括 GPU 使用时间、存储、带宽和团队开销。

底线

推理使企业能够优化其人工智能性能、降低能源使用和成本、维护隐私和安全并让客户满意。