访谈

TrueFoundry联合创始人兼CEO尼坎吉·巴贾伊 – 采访系列

mm

尼坎吉·巴贾伊是TrueFoundry的联合创始人兼CEO,他领导公司围绕构建可靠、企业级AI平台的愿景和战略。凭借在扩展技术产品和团队方面的经验,他专注于使组织能够安全高效地部署和运行AI系统。他撰写关于企业AI采用、AI平台战略和生产AI中的新兴趋势的文章。

TrueFoundry是一家企业AI基础设施平台,帮助组织在基于Kubernetes的环境中构建、部署、管理和扩展机器学习和生成AI应用,无论是在云端、内部还是混合环境中,都具有强大的治理、安全和成本控制。它将AI网关与模型、LLM和代理工作流的集中访问相结合,并配备了模型微调、部署、监控和自动扩展的工具,旨在简化MLOps并加快数据科学和工程团队的时间价值。TrueFoundry的开发者优先、云平台无关的方法强调企业合规性和灵活性,使团队能够在不受供应商锁定的情况下管理复杂的AI工作负载,同时执行SOC 2、HIPAA和ITAR等标准。

您曾在机器学习研究、Facebook的生产AI和大规模推荐系统方面工作,之后创立了TrueFoundry——哪些经历最直接地促使您建立一家企业AI基础设施公司,哪些痛点当时没有被解决?

在Meta,我们将机器学习视为软件的一个特殊情况,将GenAI视为机器学习的一个特殊情况,这导致了一个垂直堆栈,软件在底部,机器学习在中间,GenAI在顶部。在这种设置中,如果我是一个机器学习开发人员,我构建的模型遵循与其他软件相同的部署模式,这使得扩展系统变得非常简单。

然而,大多数企业正在部署并行堆栈,这意味着它们有单独的软件、机器学习和GenAI堆栈。一旦您有这些并行堆栈,扩展就变得更加复杂,因为需要在机器学习和软件世界之间进行手工操作。

我们的团队一直在机器学习模型和机器学习基础设施的交叉点工作,因此我们有一个独特的视角,可以将类似的垂直堆栈带到企业中,并根据他们的具体需求进行调整。我们还在2021年末形成了一个假设,即机器学习即将达到一个拐点,当它到来时,更多公司将需要一个垂直集成的堆栈来有效地部署和扩展这些系统。这最终导致我们创立了TrueFoundry,我们的假设是正确的。AI采用在2022年底ChatGPT发布后加速了。

随着AI系统从实验转向日常运营,组织应该如何思考可靠性和故障的变化?

与传统机器学习系统相比,Gen AI的风险显著更高。当这些系统进入生产时,组织面临着更高的不确定性和非确定性,因为LLM本质上是随机的。基于它们的代理系统增加了更多的不确定性。

此外,故障不再是二元的。系统不仅仅是故障或非故障,而是出现部分故障或静默降级。系统可能会以更高的延迟、降级的质量或随时间变化的不正确行为做出响应。在许多情况下,这些降级可能比硬故障更难检测,有时甚至更具破坏力。

组织需要考虑可靠性,不仅仅是停机时间,还包括随时间的性能降级。

TrueFailover是在一波高调的云和AI服务中断浪潮中推出的。最近的事件是什么让您意识到AI可靠性已经从“很好”转变为核心架构要求?

我们的一个医疗保健客户处理实时、时间敏感的处方相关请求,受到模型故障引起的中断的影响。他们的工作流程每秒产生数千美元的收入,中断破坏了一些这些关键工作流程。作为早期TrueFailover客户,我们能够帮助快速恢复,影响得到了控制。

这样的事件提出了一个重要问题。随着Gen AI系统的风险不断增加,为什么恢复过程仍然大多是手动的?这强化了这样一个观点,即系统应该被设计为假设故障会发生,并且应该能够自动纠正自己。可靠性也必须通过使用AI网关构建到AI堆栈本身,这可以提供集中路由、可观察性、防护栏和智能模型切换等功能。

许多AI中断仍然被视为技术故障。在AI系统停机时,您认为真正的经济和人力成本将从哪里开始出现?

企业AI已经发展到不再仅仅影响内部工作流程的地步。今天,中断和降级直接影响公众认知和利润,并且立即影响,因为生产使用案例现在是面向客户的。从内部测试转向高风险、面向公众的应用程序是我们看到对高层关注和监督需求增加的原因。

随着AI系统深入嵌入运营工作流程中,中断不再仅仅是技术问题。它们越来越具有直接的商业、客户和声誉后果。

在药店、医疗保健运营或客户支持等任务关键环境中,AI停机如何迅速升级为运营或声誉风险?

在任务关键环境中,升级几乎立即发生,因为这些系统支持实时、时间敏感的工作流程。即使是短暂的中断也可能停止关键过程、延迟服务交付或中断依赖于这些输出的下游系统,造成整个组织的连锁运营影响。

在医疗保健等领域,影响不仅仅是运营中断,还包括客户体验和服务成果。如果患者无法及时履行处方,可能会产生真正的后果。这不仅是患者的问题,也可能损害药店或医疗保健提供者的声誉。在信任至关重要的任务关键环境中,系统必须保持在线。因此,组织越来越认识到AI系统必须被设计为假设故障会发生,并且恢复机制需要自动激活以最小化风险。

您说过很多团队更注重功能而不是连续性。为什么您认为在AI系统设计中,恢复力在历史上一直被低估?

这主要是由于组织内部的激励因素。新功能是可见的和令人兴奋的。它们解锁演示、功能和产品可能性,领导层可以立即看到。

连续性,定义为,当事情正常运作时,它是不可见的。因此,奖励系统往往偏向于发布新功能,而不是确保没有中断。因此,组织经常不成比例地投资于功能开发,而不是韧性工程。

随着企业越来越多地依赖外部模型和API,哪些新的脆弱性被引入到AI堆栈中,领导者可能尚未充分欣赏?

LLM本质上是共享资源,企业并不像传统基础设施那样拥有它们。此外,企业的重要业务关键系统运行在外部系统上,这些系统尚未经过充分的时间测试。LLM本身正在迅速演变,这意味着模型提供商无法对延迟或模型性能略微下降等问题负责,因为他们正在快速迭代研究。

由于LLM是共享资源,延迟可能会因其他消费者采取特定操作而激增。由于LLM的基本性质,引入了许多此类故障点,企业在这个新世界中并不完全控制。没有完全的控制,企业可以做的最好的事情就是创建足够的系统冗余来设计一个可靠的系统。

不针对特定产品,组织应该如何重新思考AI架构,以假设故障而不是将中断视为罕见的边缘情况?

组织应该回到分布式系统设计的第一原则。软件系统是建立在网络组件和机器可能会故障的假设上,整个区域可能会瘫痪。

AI系统也不应该例外。我们应该假设模型提供商将遇到延迟问题、降级或中断,并纳入冗余,以便应用程序在不同的故障场景下保持可靠性。

您是否预计AI恢复力将成为平台和供应商选择的决定性因素,类似于停机时间和冗余性如何塑造云基础设施决策?

随着更多AI系统进入生产,恢复力将成为基本要求。如果供应商无法展示其图表和指标的停机时间和整体恢复力,他们甚至不会被考虑。一旦恢复力成为供应商之间的基线期望,决定因素将转向用户体验、性能优化、可观察性和更高级的产品功能。随着时间的推移,诸如AI网关和自动故障转移能力等组件将成为企业AI基础设施的核心基础元素。

展望未来,“生产就绪”AI的真正含义是什么,在一个AI被期望始终可用而不仅仅是偶尔有用的世界中?

生产就绪的AI系统应该是可观察的、可控的和可恢复的。所有三个盒子都需要被勾选。

对于生产AI来说,需要对模型行为、延迟、错误率、令牌使用、漂移和故障模式有深入的可见性。没有强大的可观察性,很难在用户开始注意到之前检测到降级。

对于系统来说,需要有流量整形、速率限制、防护栏、策略执行和智能路由等功能,包括模型和提供商的路由。AI网关在这里起着基础作用,作为集中控制平面,执行防护栏、提供一致的治理,并在性能或可靠性下降时启用动态模型切换。

最后,系统应该被设计为假设组件可能部分或完全损坏,无论是由于提供商中断、降级的模型质量、速率限制还是来自恶意行为者的意外输入。自动故障转移和自愈机制应该是原生的,而不是在事情出错后触发的手动剧本。

这是我们在TrueFoundry工作的方向。定义生产就绪性的供应商,将通过结合可观察性、集中控制和自动恢复来赢得长期的客户信任,并能够继续解决新出现的问题。

感谢这次精彩的采访,希望了解更多的读者请访问TrueFoundry

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。