访谈
Jason Knight 是 OctoAI 的联合创始人和机器学习副总裁 – 采访系列

Jason Knight 是 OctoAI 的联合创始人和机器学习副总裁,OctoAI 平台为应用程序构建者提供了一个完整的栈来运行、调优和扩展他们的 AI 应用程序,无论是在云端还是本地。
OctoAI 由 Apache TVM 的原始创造者从华盛顿大学分拆出来,Apache TVM 是一个用于机器学习可移植性和性能的开源栈。TVM 允许机器学习模型在任何硬件后端上高效运行,并已成为流行消费设备(如 Amazon Alexa)架构的关键部分。
您能否分享创立 OctoAI 的灵感以及您试图解决的核心问题?
人工智能传统上是一个复杂的领域,只有那些熟悉使其工作所需的数学和高性能计算的人才能访问。但人工智能解锁了最终的计算接口,即通过示例和反馈编程的文本、语音和图像,并将计算的全部力量带给地球上的每个人。在人工智能之前,只有程序员能够通过编写晦涩的编程语言文本来使计算机做他们想要的事情。
OctoAI 的创建是为了加速我们走向这一现实的道路,以便更多的人能够使用和受益于人工智能。人们反过来可以使用人工智能来创造更多的好处,通过加速科学、医学、艺术等领域的发展。
回顾您在英特尔的经历,您之前的角色如何为您在 OctoAI 的联合创始人和领导开发做好准备?
英特尔和之前的 AI 硬件和生物技术初创公司给我带来了一个视角,让我看到即使对于最成熟的技术公司来说,人工智能也是多么困难,但同时也看到它对那些已经弄清楚如何使用它的人来说是多么有价值。并且看到那些从人工智能中受益的人与那些尚未受益的人之间的差距主要是基础设施、计算和最佳实践的问题——而不是魔术。
OctoStack 与市场上其他 AI 部署解决方案相比有什么区别?
OctoStack 是业界首个专门为服务生成式 AI 模型而设计的完整技术栈。它提供了一个成熟的生产平台,提供高度优化的推理、模型定制和资产管理,具有企业级规模。
OctoStack 允许组织通过在其首选环境中运行任何模型并完全控制数据、模型和硬件来实现 AI 自主性。它还提供了无与伦比的性能和成本效率,相比其他解决方案(如 GPT-4)可节省高达 12 倍的成本。
您能否解释使用 OctoStack 在私有环境中部署 AI 模型的优势?
如今,模型无处不在,但组装正确的基础设施来运行这些模型并将其应用于自己的数据,这就是业务价值真正开始发挥作用的地方。使用这些模型处理最敏感的数据,然后将其转化为洞察力、更好的提示工程、RAG 管道和微调,这就是您可以从生成式 AI 中获得最多价值的地方。但是,对于除最成熟的公司之外的所有公司来说,自己做到这一点仍然很困难,这就是 OctoStack 这样的成熟解决方案可以加速并将最佳实践集中在一个地方以供其从业者使用的地方。
使用 OctoStack 在私有环境中部署 AI 模型提供了多个优势,包括增强的安全性和对数据及模型的控制。客户可以在其自己的 VPC 或本地运行生成式 AI 应用程序,确保其数据保持安全并在其选择的环境中。这种方法还为企业提供了灵活性,以运行任何模型(无论是开源、自定义还是专有),同时从成本降低和性能改进中受益。
您在优化 OctoStack 以支持广泛硬件方面面临了哪些挑战,以及如何克服这些挑战?
优化 OctoStack 以支持广泛硬件的过程涉及确保在各种设备(如 NVIDIA 和 AMD GPU 以及 AWS Inferentia)上实现兼容性和性能。OctoAI 通过利用其深厚的 AI 系统专业知识(通过多年的研究和开发而积累)来创建一个持续更新和支持更多硬件类型、GenAI 用例和最佳实践的平台,从而克服了这些挑战。这样,OctoAI 就能够提供市场领先的性能和成本效率。
另外,将最新的生成式 AI 能力(如多模态、函数调用、严格的 JSON 模式、有效的微调托管等)交到内部开发人员手中,将加速他们的 AI 起飞点。
OctoAI 有着丰富的 Apache TVM 历史。这个框架如何影响您平台的功能?
我们创建了 Apache TVM,以便为 GPU 和加速器更容易地编写高效的 AI 库。我们这样做是因为从 GPU 和加速器硬件中获得最好的性能对于 AI 推理至关重要,如今仍然如此。
我们随后利用同样的思维方式和专业知识来交付整个 Gen AI 服务栈的自动化,以便更广泛的开发人员使用。
您能否讨论 OctoStack 提供的任何显著性能改进,例如大规模部署中的 10 倍性能提升?
OctoStack 提供了显著的性能改进,包括与其他模型(如 GPT-4)相比可节省高达 12 倍的成本,而无需牺牲速度或质量。它还提供了 4 倍更好的 GPU 利用率和 50% 的运营成本降低,使组织能够高效且具有成本效益地运行大规模部署。
您能否分享一些值得注意的用例,其中 OctoStack 显著改善了 AI 部署?
一个值得注意的用例是 Apate.ai,一项使用生成式对话式 AI 的全球服务,用于打击电话骗局。Apate.ai 利用 OctoStack 来高效地在多个地理位置运行其语言模型套件,从而受益于 OctoStack 的灵活性、可扩展性和安全性。这种部署使 Apate.ai 能够提供支持多种语言和地区方言的自定义模型,满足其性能和安全敏感的要求。
此外,我们为客户 OpenPipe 提供了数百个微调。如果他们为每一个都启动专用实例,他们的客户的用例将变得不可行,因为他们会随着时间的推移不断增长和演变他们的用例,并持续重新训练他们的参数高效微调以获得在成本有效的价格下实现最大输出质量。
感谢这次精彩的采访,希望了解更多的读者请访问 OctoAI。












