访谈
Alex Yeh, GMI Cloud 的创始人和 CEO – 采访系列

Alex Yeh 是 GMI Cloud 的创始人和 CEO,GMI Cloud 是一家风险投资支持的数字基础设施公司,旨在让任何人都能轻松部署 AI,并通过集成的硬件和软件解决方案简化企业构建、部署和扩展 AI 的方式。
是什么启发你创立 GMI Cloud,你的背景如何影响你建设公司的方法?
GMI Cloud 于 2021 年成立,最初两年主要专注于建设和运营数据中心,以提供比特币计算节点。在此期间,我们在阿肯色州和德克萨斯州建立了三个数据中心。
去年六月,我们注意到投资者和客户对 GPU 计算能力的强烈需求。一个月内,我们决定转向 AI 云基础设施。AI 的快速发展和它带来的新商业机会的浪潮,要么无法预见,要么难以描述。通过提供必要的基础设施,GMI Cloud 致力于紧密地与 AI 中令人兴奋和常常难以想象的机会保持一致。
在 GMI Cloud 之前,我是风险投资公司的合伙人,经常与新兴行业接触。我认为人工智能是 21 世纪最新的“淘金热”,GPU 和 AI 服务器是现代“勘探者”的“镐”,推动了云计算公司专门从事 GPU 计算能力租赁的快速增长。
可以告诉我们关于 GMI Cloud 简化 AI 基础设施的使命,以及为什么这个焦点在今天的市场中如此重要吗?
简化 AI 基础设施是必要的,因为当前的 AI 栈复杂性和碎片化可能会限制企业利用 AI 潜力的可访问性和效率。今天的 AI 设置通常涉及多个断开的层次,从数据预处理和模型训练到部署和扩展,这些层次需要大量时间、专门的技能和资源来有效地管理。许多公司花费数周甚至数月来确定最合适的 AI 基础设施层,这个过程可能会延长到数周甚至数月,影响用户体验和生产力。
- 加速部署: 简化的基础设施可以更快地开发和部署 AI 解决方案,帮助公司保持竞争力和适应不断变化的市场需求。
- 降低成本和减少资源: 通过最小化对专用硬件和自定义集成的需求,简化的 AI 栈可以显著降低成本,使 AI 更加容易被访问,特别是对于较小的企业。
- 实现可扩展性: 集成良好的基础设施允许高效的资源管理,这对于扩展应用程序以满足日益增长的需求至关重要,确保 AI 解决方案在更大规模上保持强大和响应迅速。
- 提高可访问性: 简化的基础设施使得更广泛的组织能够采用 AI,而无需广泛的技术专业知识。这一 AI 的民主化促进了创新,并在更多行业中创造价值。
- 支持快速创新: 随着 AI 技术的进步,基础设施的复杂性降低,使得将新工具、模型和方法纳入变得更加容易,允许组织保持敏捷和快速创新。
GMI Cloud 的使命是简化 AI 基础设施,对于帮助企业和初创公司充分发挥 AI 的益处至关重要,使其对所有规模的组织来说都是可访问的、成本有效的和可扩展的。
您最近获得了 8200 万美元的 A 轮融资。这笔新资金将如何使用,您的即刻扩张目标是什么?
GMI Cloud 将利用这笔资金在科罗拉多州开设一个新数据中心,并主要投资于 H200 GPU,以建立一个额外的大规模 GPU 集群。GMI Cloud 也在积极开发自己的云原生资源管理平台 Cluster Engine,该平台与我们的高级硬件无缝集成。该平台提供了虚拟化、容器化和编排方面的无与伦比的能力。
GMI Cloud 提供的 GPU 访问速度是竞争对手的 2 倍。是什么独特的方法或技术使得这一点成为可能?
GMI Cloud 的独特方法的一个关键方面是利用 NVIDIA 的 NCP,这为 GMI Cloud 提供了对 GPU 和其他尖端资源的优先访问权。这种直接从制造商处采购的方式,结合强大的融资选项,确保了成本效益和高度安全的供应链。
随着 NVIDIA H100 GPU 在五个全球位置可用,您的 AI 客户在美国和亚洲的需求如何得到支持?
GMI Cloud 已经在全球范围内建立了战略性存在,服务于多个国家和地区,包括台湾、美国和泰国,拥有遍布全球的 IDC(互联网数据中心)网络。目前,GMI Cloud 操作着成千上万张基于 NVIDIA Hopper 的 GPU 卡,并且正在快速扩张的轨道上,计划在接下来的六个月内将其资源倍增。这一地理分布使得 GMI Cloud 能够为不同地区的客户提供无缝、低延迟的服务,优化数据传输效率,并为全球扩张的企业提供强大的基础设施支持。
此外,GMI Cloud 的全球能力使其能够理解和满足不同地区的多样化市场需求和监管要求,提供根据每个地区独特需求量身定制的解决方案。拥有日益增长的计算资源池,GMI Cloud满足了对 AI 计算能力日益增长的需求,为客户提供了足够的计算能力,以加速模型训练、提高准确性和提高模型性能,适用于广泛的 AI 项目。
作为 AI 本土云服务的领导者,您关注哪些趋势或客户需求来推动 GMI 的技术发展?
从 GPU 到应用程序,GMI Cloud 推动客户的智能转型,以满足 AI 技术发展的需求。
硬件架构:
- 物理集群架构: 实例如 1250 H100,包括 GPU 机架、叶子机架和脊柱机架,具有优化的服务器和网络设备配置,提供高性能计算能力。
- 网络拓扑结构: 设计具有高效的 IB 布局和以太网布局,确保平滑的数据传输和通信。
软件和服务:
- 集群引擎: 利用自主开发的引擎来管理资源,如裸机、Kubernetes/容器和 HPC Slurm,实现用户和管理员的最佳资源分配。
- 专有云平台: CLUSTER ENGINE 是一种专有的云管理系统,优化资源调度,提供灵活高效的集群管理解决方案。
添加推理引擎路线图::
- 连续计算,保证高 SLA。
- 时间共享用于分时使用。
- 现役实例
咨询和定制服务:: 提供咨询、数据报告和定制服务,如容器化、模型训练建议和定制的 MLOps 平台。
强大的安全和监控功能:: 包括基于角色的访问控制(RBAC)、用户组管理、实时监控、历史跟踪和警报通知。
您认为接下来几年中 AI 基础设施面临的最大挑战和机会是什么?
挑战::
- 可扩展性和成本: 随着模型变得更加复杂,维持可扩展性和可负担性变得具有挑战性,特别是对于较小的公司。
- 能源和可持续性: 高能耗需求更环保的解决方案,因为 AI 的采用率正在飙升。
- 安全和隐私: 共享基础设施中的数据保护需要不断演变的安全性和监管合规性。
- 互操作性: AI 栈中的碎片化工具使得无缝部署和集成变得复杂。我们现在可以将开发时间缩短 2 倍,将 AI 项目的头寸减少 3 倍。
机会::
- 边缘 AI 增长: 边缘 AI 处理可以减少延迟和带宽消耗。
- 自动化 MLOps: 流线型操作可以减少部署的复杂性,允许公司专注于应用程序。
- 节能硬件: 创新可以提高可访问性并降低环境影响。
- 混合云: 跨云和本地环境运行的基础设施非常适合企业灵活性。
- AI 驱动的管理: 使用 AI 自主优化基础设施可以减少停机时间并提高效率。
您能否分享您对 GMI Cloud 的长期愿景,以及它将在 AI 和 AGI 的演变中扮演什么角色?
我想建立互联网的 AI。我想建立一个为全球未来提供动力的基础设施。
建立一个类似于 Squarespace 或 Wix,但用于 AI 的平台。任何人都应该能够构建自己的 AI 应用程序。
在未来几年中,AI 将会经历显著的增长,尤其是在生成式 AI 的使用案例中,因为更多的行业将这些技术融入其中,以增强创造力、自动化流程和优化决策。推理将在这一未来中发挥核心作用,实现实时 AI 应用程序,可以高效地处理复杂任务。在这一未来中,企业对企业(B2B)的使用案例将占据主导地位,企业将越来越多地利用 AI 来提高生产力、简化运营并创造新的价值。GMI Cloud 的长期愿景与这一趋势保持一致,旨在为企业提供先进、可靠的基础设施,以支持他们在整个组织中最大化 AI 的生产力和影响力。
随着您在科罗拉多州新数据中心的运营扩张,您在接下来的一年中有什么战略目标或里程碑?
随着我们在科罗拉多州新数据中心的运营扩张,我们专注于在接下来的年度内实现几个战略目标和里程碑。美国是 AI 和 AI 计算的最大市场,因此在该地区建立强大的存在对于我们来说至关重要。科罗拉多州的战略位置,加上其强大的技术生态系统和有利的商业环境,使我们能够更好地服务于日益增长的客户群,并增强我们的服务。
您会给那些想要采用先进 AI 基础设施的公司或初创企业什么建议?
对于专注于 AI 驱动创新的小型企业来说,首要任务应该是构建和完善他们的产品,而不是花费宝贵的时间在基础设施管理上。与提供可靠和可扩展的 GPU 解决方案的可靠技术提供商合作,避免那些使用白标替代品的提供商。可靠性和快速部署至关重要;在初期阶段,速度往往是初创企业与成熟玩家之间的唯一竞争优势。选择基于云的、灵活的选项,以支持增长,并专注于安全性和合规性,而不牺牲敏捷性。通过这样做,初创企业可以实现无缝集成、快速迭代,并将资源投入到真正重要的事情中——在市场中提供一款出色的产品。
感谢这次精彩的采访,希望了解更多的读者请访问 GMI Cloud,












