访谈

SF Tensor 的创始人兼 CEO 本·科斯卡 – 采访系列

mm

本·科斯卡,SF Tensor 的创始人兼 CEO,是一位人工智能研究员和系统工程师,以其在高性能计算、内核优化和高效模型训练方面的工作而闻名。他的背景涵盖开发低级别人工智能基础设施、提高训练吞吐量和设计能够使高级模型开发无需大量工程开销的工具。他专注于构建能够推动速度、可移植性和可靠性极限的系统,跨异构硬件。

SF Tensor 是他领导的公司,旨在将这一理念转化为实用的平台。它引入了统一的编程模型、内核优化器和跨云编排层,以消除分布式人工智能工作负载的复杂性。该平台旨在为工程师提供一个干净、与硬件无关的环境,他们可以在其中编写一次、部署到任何地方,并自动实现高性能。SF Tensor 的使命是使人工智能计算变得更加快速、易于管理和摆脱供应商锁定。

您在 19 岁时就创立了 SF Tensor,此前您还曾在多家初创公司担任工程领导。是什么激发了您如此早地在职业生涯中接受重塑人工智能基础设施的挑战?

我们正在解决的问题是我深切关心的问题,因为这是我自己遇到的问题。当我们开发现在的 SF Tensor 核心堆栈时,我们并不是在从事商业项目,而是一项学术事业。我们获得了一项研究补助金,但我们大部分时间都花在了处理基础设施和优化上,而不是进行研究。我们发现人们对我们的基础设施技术更感兴趣,而不是我们的研究项目。

SF Tensor 正在解决人工智能领域最艰难的问题之一——摆脱 NVIDIA 的 CUDA 主导地位。您如何设计一个能够实现真正的硬件可移植性而不损害性能的系统?

归根结底,所有人工智能都可以归结为简单的数学。每个模型本质上是一组需要计算结果的数学运算。通过将其视为一个数学问题而不是计算机科学问题,我们可以确定计算的最小约束集,然后生成数百万到数十亿不同的方法将这些计算转换为机器代码,并找到最快的方法。这比说起来容易,因为我们不能实际运行数十亿个不同的程序来找到最快的程序,所以为了修剪我们的搜索空间,我们必须提出一个准确的数学模型来估计给定硬件上给定程序的速度,这是使我们今天能够做到的事情的核心创新之一。

公司的博客强调了编译器优化和跨云编排的创新。SF Tensor 的方法与现有的框架如 PyTorch 或 JAX 相比如何?

我们还没有写过关于它的技术博客,但我们实际上支持像 PyTorch 和 JAX 这样的框架,允许用它们编写的代码由我们的堆栈优化。JAX 和 PyTorch 做出了几个架构决策,这使它们与我们的堆栈区别开来,但最重要的是,我们将整个模型视为一个单一的计算问题,而不是需要分别和共同优化的个别模块。因此,我们不会应用传统的编译器优化技术,尝试应用每个单独的优化,而是创建一个数百万到数十亿个潜在内核的搜索空间,并声称没有人能够想出一套规则来将任何给定的代码转换为最快的代码,所以我们必须简单地创建每个组合,然后找到最快的代码。

许多初创公司都专注于训练效率,但您强调了“基础设施税”——研究人员在管理计算资源而不是创新方面浪费的时间。SF Tensor 如何解决这一失衡问题?

我们相信这两个问题都必须解决,我们的很多工作都致力于解决训练效率问题,但我们目前可以解决的最迫切问题是基础设施税,因为这是我们已经为自己解决了的问题。

您提到过实现了最高 80% 的训练成本降低。是什么具体的优化或架构突破使得这一点成为可能?

我们的整个软件堆栈都是建立在这样的理念之上的:基于搜索的编译器将始终击败人工编写的规则。到目前为止,这些编译器的最大约束是无法对数百万或甚至数十亿个内核进行基准测试和排名。因此,我们必须创建一个计算的数学模型,该模型能够准确地估计给定硬件上给定计算或计算集的时间。通过这样做,我们可以扩大我们的搜索空间,然后修剪它,这是找到最快内核的一致性所必需的。

您在开发 Emma 编程语言方面的背景如何影响 SF Tensor 的架构和性能抽象哲学?

别告诉我的投资者,但在内心深处,我仍然是一名编译器工程师。我一直对找到方法使事情变得更快(即使只是一点点)感兴趣。在开发 Emma 时,我们四五次地重写了整个编译器;我们从头开始,因为我们遇到了一个我们无法在当前约束下实现的优化,这迫使我们重新设计系统,使其更加通用,同时仍允许我们在必要时下降到最低级别的优化。这些经验教训和所产生的架构加上近两年的微小优化和错误的投注,已经累积成一个系统,使我们现在能够比遵循常规编译器和语言设计原则的系统迭代得更快、优化得更好,因为这些原则本质上是为 CPU 而不是 GPU 和人工智能模型设计的。

您曾在 4000 多个 GPU 上进行过大规模训练运行。您从管理如此规模的计算中获得了哪些最重要的经验教训? 

一个重要的教训是,硬件故障比人们想象的更为普遍,也更为问题。由于我曾经花费大量时间与传统程序和编译器合作,通常情况下,计算机会按照指令执行,如果出现问题,通常都是编码人员的错误。然而,GPU 则不同,硬件故障在大规模分布式训练运行中尤其常见,特别是在非常大的集群中。与此同时,GPU 有时会无明显原因地降低时钟速度,从而减慢整个训练过程,因为单个芯片运行速度较慢。

Y Combinator 曾支持过科技领域一些最具变革性的基础设施公司。这种经历如何影响您对扩展 SF Tensor 产品和愿景的方法? 

进入 Y Combinator 之前,我认为我们想要做的赌注很雄心勃勃。但是在那里待了几周后,我们的雄心壮志的定义已经大大改变了,我们在一个更大的赌注上加倍下注。另外,我可以在几个小时内通过电话或电子邮件联系到几乎任何公司或人,并能在几天内获得回复和建议,这改变了我们思考问题和采取更具协作性的方法的方式。

展望未来,您曾表达过对非 LLM 模型、机器人和合成数据的兴趣。这些领域如何融入您对公司的长期愿景? 

LLM 绝对是一项有趣的技术,并将在未来世界中发挥重要作用,但它们之所以发展得如此先进,主要是因为大量资金被投入到它们的开发中,并且有足够多的人在这个问题上进行合作,使它们变得相当优化。如果我们可以降低进入门槛,允许全国和全球的研究人员,甚至那些资源有限、对优化了解不多的人,以尽可能便宜和高效的方式进行研究,我认为我们将看到一整代新的模型涌现,它们将解决 LLM 不适合解决的问题,无论是因为它们与物理世界交互,还是因为它们是无法用语言正确表达的问题。

您认为五年后的人工智能基础设施栈会是什么样子?您如何看待 SF Tensor 在其中的角色?

五年后,我希望会有更多公司开发并发布自己的专用芯片,研究人员能够在不需要为它们编写特定代码的情况下利用和使用它们,理想情况下甚至不需要知道它们的存在。这是我们正在努力实现的未来,我相信我们将在塑造这一未来中发挥重要作用。

感谢这次精彩的采访,希望了解更多的读者可以访问 SF Tensor

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。