Connect with us

Unite.AI

Aishwarya Goel, Inferless的联合创始人和首席执行官 Aishwarya Goel Inferless的联合创始人和首席执行官

艾什华里亚·戈尔（Aishwarya Goel）是Inferless的联合创始人和首席执行官，Inferless是一家有状态的无服务器平台，帮助开发人员部署自定义和开源模型，具有低冷启动和高效的自动缩放。

最新文章

思想领袖 2025年5月28日

提升 AI 推理：高级技术和最佳实践

当谈到实时 AI 驱动的应用，如自动驾驶汽车或医疗监测时，即使多一秒的处理时间也可能带来严重的后果。实时 AI 应用需要可靠的 GPU 和处理能力，这在过去对于许多应用来说非常昂贵和耗费资源——直到现在。通过采用优化的推理过程，企业不仅可以最大化 AI 效率，还可以降低能耗和运营成本（最高可达 90%）；增强隐私和安全性；甚至可以提高客户满意度。常见推理问题企业在管理 AI 效率时面临的一些最常见的问题包括 GPU 集群利用率低、默认使用通用模型以及缺乏对相关成本的洞察。团队经常为峰值负载预配 GPU 集群，但由于工作流不均匀，70% 至 80% 的时间里，GPU 集群都处于未充分利用的状态。此外，团队默认使用大型通用模型（GPT-4、Claude），即使对于可以在较小、较便宜的开源模型上运行的任务也是如此。原因是缺乏构建自定义模型的知识和陡峭的学习曲线。最后，工程师通常缺乏对每个请求的实时成本的洞察，这导致了巨大的账单。像 PromptLayer 和 Helicone 这样的工具可以提供这种洞察。由于缺乏对模型选择、批处理和利用率的控制，推理成本可能会指数级增加（最高可达 10 倍），浪费资源，限制准确性，并降低用户体验。能耗和运营成本运行像...