Connect with us

访谈

Saurabh Vij,MonsterAPI 的 CEO 和联合创始人 – 采访系列

mm

Saurabh Vij 是 MonsterAPI 的 CEO 和联合创始人。他之前曾在 CERN 任职粒子物理学家,并从 LHC@home 等项目中认识到了去中心化计算的潜力。

MonsterAPI 利用来自加密货币挖矿农场到较小的空闲数据中心的低成本通用 GPU,为机器学习提供可扩展和经济的 GPU 基础设施,使开发人员能够以大大降低的成本访问、微调和部署 AI 模型,而无需编写一行代码。

在 MonsterAPI 之前,他曾创办了两家初创公司,包括一家与印度政府和 IIT Delhi 合作开发的女性安全可穿戴设备。

您能否分享 MonsterGPT 的起源故事?

我们的使命一直是“帮助软件开发人员以最快和最简单的方式微调和部署 AI 模型。”我们意识到,当他们想要微调和部署一个 AI 模型时,他们会面临多个复杂的挑战。

从处理代码到在 GPU 上设置 Docker 容器并按需扩展

以及生态系统发展的速度,不仅仅是微调就足够了。它需要以正确的方式完成:避免欠拟合、过拟合、超参数优化,融入最新的方法,如 LORA 和 Q-LORA,以实现更快和更经济的微调。一旦微调,模型需要高效地部署。

这使我们意识到,仅提供一个工具来完成管道的一小部分是不够的。开发人员需要整个优化管道,结合他们熟悉的优秀界面。从微调到评估和最终部署他们的模型。

我问自己一个问题:作为一名前粒子物理学家,我理解 AI 可以对科学工作产生的深远影响,但我不知道从哪里开始。我有创新想法,但缺乏学习机器学习和基础设施的所有技能和细节。

如果我可以简单地与 AI 交谈,提供我的要求,并让它为我构建整个管道,提供所需的 API 端点呢?

这导致了创建一个基于聊天的系统来帮助开发人员轻松微调和部署的想法。

MonsterGPT 是我们朝这个方向迈出的第一步。

像我们一样,有数百万软件开发人员、创新者和科学家,他们可以利用这种方法为他们的项目构建更多特定领域的模型。

您能否解释 Monster API 的 GPT 基础部署代理背后的底层技术?

MonsterGPT 利用先进技术来高效地部署和微调 开源大型语言模型 (LLM),如微软的 Phi3 和 Meta 的 Llama 3。

  1. RAG 与上下文配置:自动准备具有正确超参数的配置以微调 LLM 或使用 MonsterAPI 的可扩展 REST API 部署模型。
  2. LoRA(低秩适应):通过仅更新参数子集来实现高效微调,减少计算开销和内存要求。
  3. 量化技术:利用 GPT-Q 和 AWQ 优化模型性能,通过降低精度来降低内存占用并加速推理,而不会明显损失准确性。
  4. vLLM 引擎:提供高吞吐量 LLM 服务,具有连续批处理、优化的 CUDA 内核和并行解码算法等功能,实现大规模高效推理。
  5. 去中心化 GPU 用于扩展和经济性:我们的微调和部署工作负载在来自多个供应商的小型数据中心到新兴 GPU 云(如 coreweave)等多个低成本 GPU 的网络上运行,提供更低的成本、高选项性和 GPU 的可用性,以确保可扩展和高效的处理。

查看使用 MonsterGPT 部署 Llama 3 的最新博客:

它如何简化微调和部署过程?

MonsterGPT 提供了一个聊天界面,能够理解自然语言指令以启动、跟踪和管理完整的微调和部署作业。这种能力抽象 away 了许多复杂的步骤,例如:

  • 构建数据管道
  • 找出适合作业的正确 GPU 基础设施
  • 配置适当的超参数
  • 设置具有兼容框架和库的 ML 环境
  • 实现 LoRA/QLoRA 高效微调和量化策略的微调脚本。
  • 调试诸如内存不足和代码级错误的问题。
  • 设计和实现具有 vLLM 等高吞吐量服务引擎的多节点自动扩展。

开发人员在与 Monster API 的聊天界面交互时可以期待什么样的用户界面和命令?

用户界面是一个简单的聊天 UI,用户可以提示代理为特定任务(如总结、聊天完成、代码生成、博客写作等)微调 LLM,并在微调后,GPT 可以进一步指示部署 LLM 并从 GPT 界面本身查询已部署的模型。一些命令示例包括:

  • 在 X 数据集上为代码生成微调 LLM
  • 我想要为博客写作微调的模型
  • 为 Llama 3 模型提供 API 端点。
  • 为博客写作用例部署小型模型

这非常有用,因为找到适合您项目的正确模型通常会变得耗时。

Monster API 的解决方案与传统的 AI 模型部署方法相比,在易用性和效率方面如何?

Monster API 的解决方案显著提高了易用性和效率,相比传统的 AI 模型部署方法。

对于易用性:

  1. 自动配置:传统方法通常需要广泛的手动设置超参数和配置,这可能是错误的并且耗时。MonsterAPI 使用 RAG 上下文自动化此过程,简化设置并降低错误的可能性。
  2. 可扩展的 REST API:MonsterAPI 提供直观的 REST API 用于部署和微调模型,使其即使对于有限的机器学习专业知识的用户也可访问。传统方法通常需要对部署进行深入的技术知识和复杂的编码。
  3. 统一平台:它将整个工作流集成到一个平台中,从微调到部署。传统方法可能涉及不同的工具和平台,从而导致低效率和集成挑战。

对于效率:

MonsterAPI 提供了一个用于 LoRA 微调的流水线,具有内置的量化以实现高效的内存利用,并且具有 vLLM 引擎的 LLM 服务以实现高吞吐量,具有连续批处理和优化的 CUDA 内核,在去中心化 GPU 云上运行,具有简化的监控和日志记录。

这个整个管道通过允许创建生产级别的自定义 LLM 应用程序来提高开发人员的生产力,同时减少对复杂技术技能的需求。

您能否提供 Monster API 大大减少模型部署所需时间和资源的用例示例?

一家 IT 咨询公司需要微调和部署 Llama 3 模型以满足其客户的业务需求。没有 MonsterAPI,他们需要一支由 2-3 名 MLOps 工程师组成的团队,具有深入的超参数调优知识,以提高模型在提供的数据集上的质量,然后使用自动扩展和编排(可能在 Kubernetes 上)将微调模型作为可扩展的 REST API 端点托管。此外,为了优化服务模型的经济性,他们希望使用 LoRA 和 vLLM 等框架来提高成本指标,同时降低内存消耗。这对于许多开发人员来说可能是一个复杂的挑战,可能需要数周甚至数月才能实现生产就绪解决方案。使用 MonsterAPI,他们能够在一天内进行多次微调运行,并在几小时内使用最佳评估分数托管微调模型,而无需多个具有深入 MLOps 技能的工程资源。

Monster API 的方法如何使小型开发人员和初创企业更容易访问生成性 AI 模型?

小型开发人员和初创企业通常由于缺乏资本和技术技能而难以生产和使用高质量的 AI 模型。我们的解决方案通过降低成本、简化流程和提供强大的无代码/低代码工具来实现生产就绪 AI 管道来赋予他们权力。

通过利用我们的去中心化 GPU 云,我们提供了经济实惠和可扩展的 GPU 资源,大大降低了高性能模型部署的成本门槛。平台的自动配置和超参数调优简化了该过程,消除了对深入技术专业知识的需求。

我们的用户友好 REST API 和集成工作流将微调和部署合并为一个单一的、连贯的过程,使高级 AI 技术即使对于经验有限的用户也可访问。此外,使用 LoRA 微调和量化技术(如 GPT-Q 和 AWQ)确保在更便宜的硬件上实现最佳性能,从而进一步降低进入成本。

这种方法使小型开发人员和初创企业能够高效、有效地实施和管理高级生成性 AI 模型。

您对 Monster API 将为 AI 开发社区带来的下一个重大进步或功能有什么设想?

我们正在开发几款创新产品,以进一步推进我们的论点:帮助开发人员更快、更容易、更经济地自定义和部署模型。

接下来是全面的 MLOps AI 助手,它执行 LLMOps 的新优化策略的研究,并将其集成到现有工作流中,以减少开发人员在构建新模型和更好质量模型方面的工作,同时也实现生产就绪 LLM 管道的完全自定义和部署。

假设您需要每分钟生成 100 万张图像用于您的用例。这可能非常昂贵。传统上,您将使用 Stable Diffusion 模型,并花费数小时找到和测试优化框架(如 TensorRT),以提高吞吐量而不损害输出的质量和延迟。

然而,使用 MonsterAPI 的 MLOps 代理,您不会浪费所有这些资源。代理将为您的具体用例找到最佳框架,利用针对您的特定用例量身定制的 TensorRT 等优化。

Monster API 计划如何继续支持和集成新出现的开源模型?

通过三种主要方式:

  1. 提供对最新开源模型的访问
  2. 为微调和部署提供最简单的界面
  3. 使用最先进和强大的框架和库优化整个堆栈以实现速度和成本

我们的使命是帮助所有技能水平的开发人员更快地采用 Gen AI,减少他们从想法到精致和可扩展 API 端点的时间。

我们将继续努力提供对最新和最强大的框架和库的访问,将其集成到一个无缝的工作流中,以实现端到端的 LLMOps。我们致力于通过我们的无代码工具降低复杂性,提高开发人员在构建和部署 AI 模型方面的生产力。

为了实现这一目标,我们不断支持和集成新的开源模型、优化框架和库,监测 AI 社区的进展。我们维护一个可扩展的去中心化 GPU 云,并积极与开发人员合作以获取早期访问和反馈。通过利用自动化管道进行无缝集成,增强灵活的 API,并与 AI 研究组织建立战略伙伴关系,我们确保我们的平台保持最先进的水平。

此外,我们提供全面文档和强大的技术支持,允许开发人员快速采用和利用最新的模型。MonsterAPI 将开发人员置于生成性 AI 技术的前沿,赋予他们创新和成功的能力。

Monster API 的技术开发和市场范围的长期目标是什么?

长期来看,我们希望帮助 3,000 万软件工程师通过我们的 MLOps 代理和我们正在构建的所有工具成为 MLOps 开发人员。

这需要我们不仅要构建一个全面的代理,还要围绕优化框架、容器化方法和编排构建许多基本的专有技术。

我们相信,结合良好的界面、10 倍更高的吞吐量和低成本的去中心化 GPU,有可能转变开发人员的生产力,并因此加速 GenAI 的采用。

我们的所有研究和努力都朝着这个方向。

感谢这次精彩的采访,希望了解更多的读者可以访问 MonsterAPI

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。