思想领袖
架构与产品团队之间的桥梁:从构建GenAI平台中吸取的教训

毫无疑问:生成式AI,或称GenAI,是当前的热点话题,已经持续了几年。无论目标是自动化流程、生成新产品设计、创建内容,还是其他领域的各种功能,现在是组织开始做最重要的工作并将GenAI战略付诸行动的时候了。
GenAI的成功,涵盖从研究到训练和最终推理的工作量,取决于部署、可观察性、成本管理、遥测和底层基础设施和服务的延迟目标的紧密协调。这些有助于为AI工作量驱动可实现的效率,确保计算和通信之间的有效平衡,确保GPU始终具有所需的数据。
挑战在于,通常存在结构性的差距:基础设施工程专注于计算和部署堆栈,而软件和产品团队专注于构建将GenAI带入现实世界的面向用户的应用程序。当这些团队没有完全对齐时,通常会导致交付延迟、性能问题和可用性问题。
那么,这个差距在现实世界中是什么样的,组织可以使用什么策略来使基础设施和产品团队对齐以实现GenAI的成功呢?
不对齐的问题
当基础设施和产品团队不对齐时,症状通常很明显,但不总是能及时解决。团队不对齐的一个标志是关于延迟期望或模型能力的不匹配假设。例如,基础设施工程团队可能会规划假设性能水平的功能或部署,而实际的基础设施设计并不匹配。这导致了晚期的返工、范围更改和交付延迟。
不对齐也可能导致由于部署在非铁路优化的基础设施上而导致的性能不佳,这表现为延迟变化和可扩展性问题,这些问题会影响训练或大规模分布式推理作业的性能。下游安全性和合规性风险也是团队不对齐的标志,因为两个团队之间缺乏早期合作,这意味着数据隐私和合规性要求可能会被忽略。
最后,团队不对齐会导致用户体验不佳,这会导致基础设施工程团队在约束不明确时使用变通方法,减慢迭代周期,增加技术债务。当然,产品和基础设施团队之间的不对齐在任何软件项目中都可能带来成本,但对于GenAI来说,风险要高得多——包括增加的运营效率低下、竞争优势的侵蚀和安全风险等。
成功的桥梁
GenAI的成功不仅取决于拥有强大的基础设施,还取决于创建一个将基础设施和产品流程联系起来的战术框架。例如,内部自助API的GPU提供。对于基础设施团队来说,这些API标准化了访问,减少了票务开销,确保了合规性;对于产品团队来说,它们提供了快速、可预测的计算访问,而无需排队。结果是,两个团队都遵循相同的API“合同”,消除了瓶颈,阐明了期望。
实时使用情况仪表盘发挥着类似的作用。它们为基础设施工程师提供了对系统负载和效率的可见性,同时也向产品团队展示了他们的工作负载如何转化为实际的使用情况。由于两方都看到相同的数据,关于性能或瓶颈的讨论变得更加协作,减少了对抗性——存在一个单一的真相来源。
自动扩缩是另一种统一机制。它使基础设施工程师免于不断地消防,同时确保产品开发人员在工作负载高峰期间不会遇到性能上限。原本可能成为稳定性和敏捷性之间的拔河游戏的东西,变成了联合策略:规模由自动管理,符合运营韧性和产品性能目标。
最后,成本洞察为这种共享视图添加了财务维度。基础设施团队可以优化分配,证明容量规划的合理性,而产品团队可以更好地理解他们的架构或模型选择如何影响支出。这种透明度促进了共同的责任感,将效率转化为集体责任,而不是隐藏的关注点。
但是,协调需要的不仅仅是共享的工具——还需要共享的愿景。这就是联合路线图的用途所在:每个团队不仅要理解总体目标,还要了解实现这些目标所需的步骤。对于基础设施来说,这意味着超越其在硬件和软件方面的深厚技术根基,与开发人员和最终用户如何体验系统进行接触。对于产品团队来说,这需要对诸如延迟、成本和模型效率等约束的尊重,欣赏使创新可持续的运营现实。
最后,没有任何伙伴关系可以在没有对安全性和合规性的共同承诺的情况下长久维持。无论是SOC2、HIPAA、ISO还是其他框架,具体要求会根据客户群体和行业垂直领域而有所不同——但责任是共享的。基础设施和产品团队都必须内化这些义务,认识到合规性不仅仅是一个勾选框的练习,而是与用户建立信任的基础。
总的来说,这些实践和思维方式将基础设施和产品编织成一个连贯的单位,拥有共同的语言、共同的可见性和共同的责任感,以推动进展、韧性和可靠性。
知识丰富的团队
拥有合适的人才和合适的系统一样重要。理想情况下,团队应该包括已经熟悉GenAI或来自高性能计算和超大规模数据中心背景的成员。真正重要的是实践经验和从构建和支持GPU-as-a-Service平台中获得的教训。也就是说,理解GPU如何相互通信,如何紧密耦合训练运行,以及它们对延迟、同步和数据交付的敏感性。
随着模型的不断增长和部署的扩大,团队还需要退一步,思考整个客户旅程。它从早期研究和实验开始,进入大规模训练,接着是微调,最后是推理。每个阶段看起来都有点不同,需求也会在此过程中发生变化。模型开发的迭代性质不断教我们什么样的基础设施、工作流和能力是使GenAI数据中心保持适用性的必要条件。
基础设施和产品团队经常在自己的泡沫中运作。对于任何认真考虑将GenAI扩展到生产环境的公司来说,这种情况必须改变。成功取决于打破这些孤岛,创建平台的共享所有权。拥有合适的人才、清晰的愿景和实用的框架,两方可以在同一个剧本上保持一致——一个帮助他们更快移动、保持负责并最终交付成功的GenAI部署的剧本。












