艾什华里亚·戈尔(Aishwarya Goel)是Inferless的联合创始人和首席执行官,Inferless是一家有状态的无服务器平台,帮助开发人员部署自定义和开源模型,具有低冷启动和高效的自动缩放。
当谈到实时 AI 驱动的应用,如自动驾驶汽车或医疗监测时,即使多一秒的处理时间也可能带来严重的后果。实时 AI 应用需要可靠的 GPU 和处理能力,这在过去对于许多应用来说非常昂贵和耗费资源——直到现在。通过采用优化的推理过程,企业不仅可以最大化 AI 效率,还可以降低能耗和运营成本(最高可达 90%);增强隐私和安全性;甚至可以提高客户满意度。常见推理问题企业在管理 AI 效率时面临的一些最常见的问题包括 GPU 集群利用率低、默认使用通用模型以及缺乏对相关成本的洞察。团队经常为峰值负载预配 GPU 集群,但由于工作流不均匀,70% 至 80% 的时间里,GPU 集群都处于未充分利用的状态。此外,团队默认使用大型通用模型(GPT-4、Claude),即使对于可以在较小、较便宜的开源模型上运行的任务也是如此。原因是缺乏构建自定义模型的知识和陡峭的学习曲线。最后,工程师通常缺乏对每个请求的实时成本的洞察,这导致了巨大的账单。像 PromptLayer 和 Helicone 这样的工具可以提供这种洞察。由于缺乏对模型选择、批处理和利用率的控制,推理成本可能会指数级增加(最高可达 10 倍),浪费资源,限制准确性,并降低用户体验。能耗和运营成本运行像...