访谈

MonsterAPI 的 CEO 和联合创始人 Saurabh Vij – 采访系列

mm

Saurabh Vij 是 MonsterAPI 的 CEO 和联合创始人。他之前曾在 CERN 工作作为粒子物理学家,并从像 LHC@home 的项目中认识到了去中心化计算的潜力。

MonsterAPI 利用来自加密货币挖矿农场到较小的空闲数据中心的低成本商品 GPU,提供可扩展且价格合理的 GPU 基础设施用于机器学习,使开发人员能够以显著降低的成本访问、微调和部署 AI 模型,而无需编写一行代码。

在 MonsterAPI 之前,他创立了两家创业公司,包括一家开发了针对印度女性的可穿戴安全设备的公司,该公司与印度政府和德里理工学院合作。

您能否分享 MonsterGPT 的起源故事?

我们的使命一直是“帮助软件开发人员以最快和最简单的方式微调和部署 AI 模型。”我们意识到,当他们想要微调和部署 AI 模型时,他们面临着多个复杂的挑战。

从处理代码到在 GPU 上设置 Docker 容器并根据需要扩展它们

以及生态系统发展的速度,只是微调是不够的。它需要以正确的方式完成:避免欠拟合、过拟合、超参数优化,采用最新的方法,如 LORA 和 Q-LORA,以更快和更经济的方式进行微调。一旦微调,模型需要高效地部署。

这使我们意识到,提供仅用于管道的一小部分的工具是不够的。开发人员需要整个优化管道,结合他们熟悉的优秀界面。从微调到评估和最终部署他们的模型。

我问自己一个问题:作为一名前粒子物理学家,我理解 AI 可以对科学工作产生深远的影响,但我不知道从哪里开始。我有创新想法,但缺乏时间来学习机器学习和基础设施的所有技能和细节。

如果我可以简单地与 AI 交谈,提供我的要求,并让它为我构建整个管道,提供所需的 API 端点怎么办?

这导致了创建一个基于聊天的系统来帮助开发人员轻松微调和部署的想法。

MonsterGPT 是我们朝这个方向迈出的第一步。

有数百万像我们一样的软件开发人员、创新者和科学家,他们可以利用这种方法为自己的项目构建更多特定领域的模型。

您能否解释 Monster API 的 GPT 基础部署代理背后的技术?

MonsterGPT 利用先进技术来高效地部署和微调开源大型语言模型(LLM),例如微软的 Phi3 和 Meta 的 Llama 3。

  1. RAG 与上下文配置:自动准备配置以正确的超参数微调 LLM 或使用 MonsterAPI 的可扩展 REST API 部署模型。
  2. LoRA(低秩适应):实现高效微调,仅更新参数的子集,减少计算开销和内存要求。
  3. 量化技术:利用 GPT-Q 和 AWQ 优化模型性能,降低精度,减少内存占用,提高推理速度,而不会明显损失准确性。
  4. vLLM 引擎:提供高吞吐量 LLM 服务,具有连续批处理、优化的 CUDA 内核和并行解码算法,实现大规模高效推理。
  5. 去中心化 GPU 以实现可扩展性和经济性:我们的微调和部署工作负载在来自多个供应商的小型数据中心到新兴 GPU 云(如 coreweave)的低成本 GPU 网络上运行,提供更低的成本、高选项性和 GPU 的可用性,以确保可扩展和高效的处理。

查看我们最新的博客文章,了解如何使用 MonsterGPT 部署 Llama 3:

它如何简化微调和部署流程?

MonsterGPT 提供一个聊天界面,能够理解自然语言指令,用于启动、跟踪和管理完整的微调和部署作业。这种能力抽象掉了许多复杂的步骤,例如:

  • 构建数据管道
  • 确定作业的正确 GPU 基础设施
  • 配置适当的超参数
  • 设置具有兼容框架和库的 ML 环境
  • 实现 LoRA/QLoRA 的微调脚本,采用量化策略进行高效微调。
  • 调试内存不足和代码级错误等问题。
  • 设计和实现多节点自动扩展,具有高吞吐量的服务引擎,例如 vLLM,用于 LLM 部署。

开发人员在与 Monster API 的聊天界面交互时可以期待什么样的用户界面和命令?

用户界面是一个简单的聊天 UI,用户可以提示代理微调 LLM 以执行特定任务,例如总结、聊天完成、代码生成、博客写作等,然后在微调后,可以进一步指示 GPT 部署 LLM 并从 GPT 界面查询已部署的模型。一些示例命令包括:

  • 微调 LLM 以在 X 数据集上生成代码
  • 我想要一个针对博客写作的微调模型
  • 给我一个 Llama 3 模型的 API 端点。
  • 为博客写作用例部署一个小型模型

这非常有用,因为找到适合项目的正确模型通常会变得耗时。随着每天出现新的模型,这可能会导致很多混乱。

Monster API 的解决方案在易用性和效率方面与传统方法相比如何?

Monster API 的解决方案显著提高了易用性和效率,相比传统的 AI 模型部署方法。

易用性:

  1. 自动配置:传统方法通常需要手动设置超参数和配置,这可能是耗时且容易出错的。MonsterAPI 使用 RAG 和上下文自动化此过程,简化设置并降低错误的可能性。
  2. 可扩展的 REST API:MonsterAPI 提供直观的 REST API 用于部署和微调模型,使其即使对于有限的机器学习专业知识的用户也可访问。传统方法通常需要深入的技术知识和复杂的编码用于部署。
  3. 统一平台:它将整个工作流集成到一个平台中,从微调到部署。传统方法可能涉及不同的工具和平台,从而导致低效率和集成挑战。

效率:

MonsterAPI 提供了一个用于 LoRA 微调的流水线,内置量化用于高效的内存利用,并使用 vLLM 引擎提供高吞吐量的 LLM 服务,具有连续批处理和优化的 CUDA 内核,建立在低成本、可扩展且具有高可用性的去中心化 GPU 云之上,具有简化的监控和日志记录。

该管道通过实现生产级别的自定义 LLM 应用程序来增强开发人员的生产力,同时减少构建更好、更定制化的模型所需的复杂技术技能。

您能否提供 Monster API 在模型部署方面显著减少所需时间和资源的使用案例?

一家 IT 咨询公司需要微调和部署 Llama 3 模型以满足其客户的业务需求。没有 MonsterAPI,他们需要一支由 2-3 名 MLOps 工程师组成的团队,具有深入的超参数调整知识,以提高模型在提供的数据集上的质量,然后使用 Kubernetes 作为可扩展的 REST API 端点托管微调模型。此外,他们还想使用 LoRA 和 vLLM 等框架来优化模型的经济性和内存消耗。对于许多开发人员来说,这可能是一个复杂的挑战,可能需要数周甚至数月才能实现生产就绪的解决方案。使用 MonsterAPI,他们可以在一天内尝试多次微调运行,并在几小时内托管具有最佳评估分数的微调模型,而无需多个具有深入 MLOps 技能的工程资源。

Monster API 的方法如何使小型开发人员和初创企业更容易访问生成性 AI 模型?

小型开发人员和初创企业通常难以生产和使用高质量的 AI 模型,因为他们缺乏资金和技术技能。我们的解决方案通过降低成本、简化流程和提供强大的无代码/低代码工具来实现生产就绪的 AI 管道,从而赋予他们权力。

通过利用我们的去中心化 GPU 云,我们提供了经济且可扩展的 GPU 资源,显著降低了高性能模型部署的成本屏障。平台的自动配置和超参数调整简化了流程,消除了对深入技术专业知识的需求。

我们的用户友好 REST API 和集成工作流将微调和部署合并为一个单一的、连贯的流程,使先进的 AI 技术即使对于经验有限的用户也可访问。另外,使用 LoRA 微调和量化技术(如 GPT-Q 和 AWQ)确保在更便宜的硬件上实现最佳性能,从而进一步降低进入门槛。

这种方法使小型开发人员和初创企业能够高效、有效地实现和管理先进的生成性 AI 模型。

您对 Monster API 在技术开发和市场范围方面的长期目标是什么?

长期来看,我们希望帮助 3000 万软件工程师通过我们的 MLOps 代理和我们正在构建的所有工具成为 MLOps 开发人员。

这将需要我们不仅要构建一个成熟的代理,还要围绕优化框架、容器化方法和编排构建许多基本的专有技术。

我们相信,结合优秀的、简单的界面、10 倍的吞吐量和低成本的去中心化 GPU,有可能改变开发人员的生产力,从而加速通用 AI 的采用。

我们所有的研究和努力都朝着这个方向进行。

感谢这次精彩的采访,希望了解更多的读者可以访问 MonsterAPI

安托万是一位具有远见的领导者和Unite.AI的联合创始人,他对塑造和推广人工智能和机器人技术的未来充满热情。作为一位连续创业者,他相信人工智能将对社会产生电力的影响一样的颠覆性影响,并经常被发现对颠覆性技术和通用人工智能的潜力大肆赞扬。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他还是Securities.io的创始人,这是一个专注于投资尖端技术的平台,这些技术正在重新定义未来并重塑整个行业。