思想领袖
连接基础设施和产品团队:从构建 GenAI 平台中吸取的教训

毫无疑问:生成式 AI,或 GenAI,是当前的热点话题,并且已经持续了几年。无论目标是自动化流程、生成新产品设计、创建内容,还是在各个领域进行其他功能,组织现在需要开始做最重要的工作,并将其 GenAI 战略付诸行动。
GenAI 的成功,跨越从研究到训练和最终推理的工作负载,取决于部署、可观察性、成本管理、遥测和潜在基础设施和服务的延迟目标的紧密协调。这些有助于为 AI 工作负载驱动可实现的效率,确保计算和通信之间的有效平衡,确保 GPU 始终具有所需的数据。
挑战是,通常存在一个结构性的差距:基础设施工程专注于计算和部署堆栈,而软件和产品团队专注于构建将 GenAI 引入现实世界的用户面向应用程序。当这些团队没有完全对齐时,通常会导致交付延迟、性能问题和可用性问题。
那么,这个差距在现实世界中是什么样子,组织可以使用什么策略来使基础设施和产品团队对齐以实现 GenAI 成功?
不对齐的问题
当基础设施和产品团队不对齐时,症状通常很明显,但不总是能及时解决。团队不对齐的一个特征是关于延迟期望或模型能力的不匹配假设。例如,基础设施工程团队可能会规划假设性能水平的功能或部署,而实际的基础设施设计并不匹配。这导致了晚期的返工、范围变化和交付延迟。
不对齐也可能导致由于部署在非铁路优化的基础设施上而导致的性能不佳,这表现为延迟变化和可扩展性问题,这些问题会影响训练或大规模分布式推理作业的性能。下游的安全性和合规性风险也是团队不对齐的特征,因为两个团队之间缺乏早期的合作,这意味着数据隐私和合规性要求可能会被忽略。
最后,团队不对齐会导致用户体验不佳,这会导致基础设施工程团队在约束不明确时使用变通方法,减慢迭代周期并增加技术债务。当然,产品和基础设施团队之间的不对齐可能会在任何软件项目中带来巨大的成本,但对于 GenAI 来说,风险更高——增加的运营效率低下、竞争优势的侵蚀和安全风险等。
成功的桥梁
GenAI 的成功不仅取决于拥有强大的基础设施,还取决于创建一个将基础设施和产品流程连接起来的战术框架。例如,内部自助 API 的概念对于 GPU 提供。对于基础设施团队,这些 API 标准化访问、减少票务开销并确保合规性;对于产品团队,它们提供了快速、可预测的计算访问,而无需等待队列。结果是,两个团队都使用相同的 API“合同”,消除了瓶颈并阐明了期望。
实时使用仪表板发挥着类似的作用。它们为基础设施工程师提供了对系统负载和效率的可见性,同时也向产品团队展示了他们的工作负载如何转化为实际的使用。由于两方都看到相同的数据,因此关于性能或瓶颈的讨论变得更加协作和更少对抗——有一个单一的真相来源。
自动扩缩是另一个统一机制。它使基础设施工程师免于不断地扑灭火灾,同时确保产品开发人员在工作负载峰值期间不会遇到性能上限。原本可能成为稳定性和敏捷性之间的拔河游戏的东西,变成了联合策略:规模由自动管理,与运营韧性和产品性能目标保持一致。
最后,成本见解为此添加了一个财务维度。基础设施团队可以优化分配并证明容量规划,而产品团队可以更好地理解他们的架构或模型选择如何影响支出。这种透明度促进了共同的责任感,将效率转变为一种集体的责任,而不是一种隐藏的关注点。
但是,协调需要的不仅仅是共享的工具——它还需要共享的愿景。这就是联合路线图的用途所在:每个团队不仅要了解总体目标,还要了解实现这些目标所需的步骤。对于基础设施来说,这意味着要超越其在硬件和软件方面的深厚技术根基,去参与开发人员和最终用户如何体验系统。对于产品团队来说,这需要对延迟、成本和模型效率等约束有所尊重,欣赏使创新可持续的运营现实。
最后,没有任何伙伴关系可以在没有对安全性和合规性的共同承诺的情况下长久。无论是 SOC2、HIPAA、ISO 还是其他框架,具体要求会根据客户基础和行业垂直方向而有所不同——但责任是共享的。基础设施和产品团队都必须内化这些义务,认识到合规性不是一个勾选框的练习,而是与用户建立信任的基础。
总的来说,这些实践和心态将基础设施和产品编织成一个连贯的单位,拥有共同的语言、共同的可见性和共同的责任感,以推动进展、韧性和可靠性。
知识渊博的团队
拥有合适的人才与拥有合适的系统一样重要。理想情况下,团队应该包括已经熟悉 GenAI 或来自高性能计算和超大规模数据中心背景的成员。真正重要的是实践经验和从构建和支持 GPU 即服务平台中获得的教训。这意味着了解 GPU 之间如何交谈,如何紧密耦合训练运行的行为,以及它们对延迟、同步和数据交付的敏感性。
随着模型不断增长和部署规模的扩大,团队也需要退一步思考整个客户旅程。它从早期的研究和实验开始,转入大规模的训练,然后是微调,最终是推理。每个阶段看起来有点不同,需求也会在此过程中发生变化。模型开发的迭代性质不断教我们什么样的基础设施、工作流程和能力是保持 GenAI 数据中心适合目的所需的。
基础设施和产品团队经常在自己的泡沫中运作。对于任何认真考虑将 GenAI 扩展到生产的公司来说,这必须改变。成功取决于打破这些孤岛并为平台创建共享的所有权。拥有合适的人才、清晰的愿景和实用的框架,两个团队都可以对齐在同一个剧本上——一个帮助他们更快地移动、保持负责并最终交付成功的 GenAI 部署的剧本。












