人工智能
Omri Geller,Run:AI 的 CEO 和联合创始人 – 采访系列

Omri Geller 是 Run:AI 的 CEO 和联合创始人。
Run:AI 通过池化 GPU 计算资源虚拟化和加速 AI,从而确保对资源优先级和分配的可见性和控制。这确保 AI 项目与业务目标保持一致,并显著提高数据科学团队的生产力,使他们能够在没有资源限制的情况下构建和训练并发模型。
是什么最初吸引你进入人工智能领域的?
当我开始在特拉维夫大学学习电气和电子工程学士学位时,我发现了关于人工智能的一些令人着迷的事情,我知道这些将帮助我们在计算机可能性方面迈出下一步。从那时起,我知道我想投身于人工智能领域。不管是进行人工智能研究,还是开办一家公司来帮助引入新的方法将人工智能应用于世界。
你一直对计算机硬件感兴趣吗?
当我六七岁时收到我的第一台带有英特尔 486 处理器的计算机时,我立即对了解它的工作原理感兴趣,尽管我可能还太年轻,无法真正理解它。除了体育之外,计算机成为了我成长过程中的最大爱好之一。从那时起,我建造了计算机,使用了它们,并因为我小时候的热情而学习了这个领域。
你创立 Run:AI 的灵感是什么?
我很早就知道我想投身于人工智能领域。在过去的几年中,人工智能行业经历了巨大的增长,这些增长来自于计算机科学家(如我自己)和能够支持更多应用的硬件。很明显,我最终会创办一家公司,并与我的联合创始人 Ronen Dar 一起继续创新和帮助将人工智能带给更多的企业公司。
Run:AI 允许机器学习专家对昂贵的 GPU 资源分配获得新的控制。可以解释一下这是如何工作的吗?
我们需要了解的是,机器学习工程师、研究人员和数据科学家需要以灵活的方式消耗计算能力。不仅今天的最新计算非常计算密集,而且数据科学中还使用了新的工作流程。这些工作流程基于数据科学是基于实验和运行实验的事实。
为了开发新的解决方案以运行更高效的实验,我们需要研究这些工作流程的趋势随时间的变化。例如:一位数据科学家一天使用八个 GPU,但第二天他们可能使用零个,或者他们可能长时间使用一个 GPU,但然后需要使用 100 个 GPU,因为他们想并行运行 100 个实验。一旦我们了解了针对单个用户优化处理能力的工作流程,我们就可以将其扩展到多个用户。
传统的计算方法是为每个用户分配特定的 GPU 数量,而不考虑它们是否正在使用。使用这种方法,昂贵的 GPU 经常处于空闲状态,而其他人无法访问,从而导致 GPU 的 ROI 低。我们了解公司的财务优先级,并提供允许根据用户需求动态分配资源的解决方案。通过提供灵活的系统,我们可以在需要时为特定用户分配额外的处理能力,方法是利用其他用户未使用的 GPU,从而为公司的计算资源创造最大 ROI 并加速人工智能解决方案的创新和上市时间。
Run:AI 的一个功能是可以减少由静态分配 GPU 创建的盲点。如何实现这一点?
我们有一个工具,可以让我们完全了解资源集群。使用此工具,我们可以观察和了解是否存在盲点,然后利用空闲的 GPU 为需要分配的用户提供服务。提供对集群的可见性和对集群的控制的同一工具还可以确保消除这些盲点。
在最近的一次演讲中,你强调了一些构建和训练工作流程之间的区别。可以解释一下 Run:AI 如何使用 GPU 队列管理机制来为两者分配资源管理吗?
人工智能模型的构建分为两个阶段。第一阶段是构建阶段,数据科学家编写代码来构建实际模型,就像工程师构建汽车一样。第二阶段是训练阶段,完成的模型开始学习并被“训练”以优化特定任务。就像有人在汽车组装完成后学习驾驶一样。
为了构建模型本身,不需要太多的计算能力。但是,随着时间的推移,可能需要更强大的处理能力来进行较小的内部测试。例如,工程师可能最终想在安装引擎之前测试它。由于每个阶段都有不同的需求,Run.AI 允许无论是构建还是训练模型,都可以分配 GPU。但是,如前所述,训练模型通常需要更多的 GPU,而构建模型则需要较少的 GPU。
希望将 Run.AI 集成到其系统中的 AI 开发人员可以节省多少原始计算时间/资源?
我们的 Run.ai 解决方案可以将资源数字化提高两到三倍,这意味着整体生产力提高了两到三倍。
感谢您接受采访,希望了解更多信息的读者可以访问 Run:AI。












