访谈
Elad Raz,NextSilicon 的 CEO – 采访系列

Elad Raz,NextSilicon 的 CEO,是一位经验丰富的企业家和技术领袖,以其在低级系统、安全、网络和文件系统开发方面的深厚专业知识而广受尊敬。在一份涵盖精英军事工程角色、资深软件领导、公司建设和长期投资的职业生涯中,Raz 领导了跨操作系统内部和硬件软件集成的复杂、任务关键型项目。在创立 NextSilicon 之前,他建立并退出了多家技术公司,在一家领先的半导体公司担任高级领导职务,并投资了多家初创公司的多元化投资组合,结合了扎实的工程深度和强大的执行力以及长期的战略远见。
NextSilicon 是一家以色列高性能计算和半导体公司,成立于 2017 年,正在重新定义计算架构以满足人工智能和科学计算等需求的工作负载。该公司开发了一种软件定义的智能计算平台,旨在在不需要开发人员重写应用程序的情况下提供高性能和效率。通过专注于硬件级别的适应性,NextSilicon 旨在解决现代数据中心和超级计算环境中的基本瓶颈,将自己定位为传统加速器的下一代替代品。
您能告诉我们您创立 NextSilicon 之前的经历吗?最初的想法是什么,您早期的计算经验如何塑造了您的愿景?
我从小就对计算机着迷,这种着迷让我从摆弄旧的康莫多 64 和雅达利(我至今仍然收藏)到联合创办初创公司,最后卖掉了我的前一家公司给 Mellanox。但即使在早期的成功中,我仍然一次又一次地看到这个行业面临的同一个挑战。随着计算工作负载变得更加复杂,传统的 CPU 和 GPU 架构正在达到性能、功耗效率和可扩展性限制。不论是优化算法还是运行大规模模拟,很明显当前的架构正在迫使工作负载适应硬件,而不是相反。
NextSilicon 的火花来自于这一反复出现的挑战,并提出了一个问题:如果我们可以颠倒过来,构建计算架构来适应工作负载,而不是强迫工作负载适应硬件呢?我早期接触算法设计和硬件教会了我,真正的突破将来自于实时地结合这两者。这是我们智能计算架构(ICA)的基础,也是 NextSilicon 从一开始就有的指导愿景。
Maverick-2 被描述为一种适应实时工作负载的智能计算加速器。其架构与传统的 GPU 或 FPGA 有何不同之处,它的适应性是如何实现的?
CPU 和 GPU 已经改变了我们的世界,并且服务得很好。但是,它们从来没有被设计成满足现代人工智能和高性能计算(HPC)工作负载的需求,例如科学、天气、能源和国防领域的工作负载。这些工作负载具有复杂的数据依赖、内存访问模式和计算模式,这些模式当前的处理器没有被设计来处理。结果就是瓶颈,减慢了创新。
Maverick-2 的关键区别在于其新颖的方法,它将可重构的数据流引擎与实时软件优化相结合。关键的架构区别在于,硬件是根据工作负载配置的,而不是相反。对于 Maverick-2,数据可用性驱动计算,而不是像传统处理器一样由程序计数器驱动指令执行。这使我们能够创建软件定义的虚拟处理单元,可以在实时中配置和重新配置以匹配特定的工作负载模式。
结果很明显:Maverick-2 提供了超过 4 倍的每瓦性能比 GPU 和超过 20 倍的每瓦性能比 CPU,同时将运营成本减少了超过一半。因此,研究人员和工程师可以更快、更高效地运行大型、不规则的模拟,从而在很短的时间内解锁见解和突破。
您报告称,Maverick-2 相比 GPU 有超过 4 倍的每瓦性能,相比高端 CPU 有超过 20 倍的每瓦性能。是什么关键创新驱动了这些在实际工作负载中的性能增益?
性能增益来自于几个关键创新共同作用。
首先,我们放弃了主导计算 80 年的冯·诺伊曼模型。相比之下,Maverick-2 使用了一种数据流架构,其中计算遵循数据可用性。这对于不规则、内存密集型的工作负载来说是根本更合适的。
第二,我们的自优化架构实时生成软件定义的处理器核心。硬件适应每个应用程序的需求,而无需代码重写——您可以在没有开销的情况下获得优化。
第三,这一点至关重要:我们专注于持续的实际性能,而不是理论峰值。许多架构在纸面上看起来很好,但在实际工作负载中却会失望。Maverick-2 在人工智能、HPC 和向量数据库中保持效率,因为它不断适应工作负载的需求。
Maverick-2 支持 C/C++、Fortran、OpenMP 和 Kokkos,无需进行代码更改。开发人员如何响应这种兼容性,您计划如何支持 CUDA、ROCm 或流行的 AI 框架?
开发人员喜欢 Maverick-2 是一个真正的“直接替换”。他们可以立即运行现有的应用程序,而无需移植障碍,这是这个行业的常见问题。我们目前支持 C/C++、Fortran、OpenMP 和 Kokkos,CUDA、ROCm 和主要 AI 框架(如 TensorFlow、JAX、PyTorch 和 ONNX)正在积极开发中。这消除了供应商锁定和昂贵的代码重写,并允许客户在不破坏工作流的情况下评估和采用新架构。
Maverick-2 的遥测驱动系统优化如何在后台工作?实时配置文件和重新配置芯片需要什么?
将我们的系统优化想象成一个持续的循环:在执行过程中,我们的遥测系统测量数百个性能指标(例如内存带宽、利用率、队列深度)。所有这些数据都被输入到一个运行时优化器中,确定当前硬件配置是否仍然适合工作负载及其预测需求。如果不是,它可以重新分区资源、重新排序数据路径并调整计算管道,同时应用程序不会停止。这发生在几毫秒内,因此应用程序保持一致的峰值效率,因为其计算特征会发生变化。
是否存在特定的工作负载类型或边缘情况,其中适应性运行时性能调优的效果较差或引入了潜在的延迟或功耗权衡?
任何架构都有权衡。Maverick-2 擅长复杂、不规则的工作负载,具有变化的计算和数据访问模式。对于高度可预测、固定功能的工作负载,精心调优的 GPU 可能非常高效,而无需适应性的开销。在这些情况下,我们的适应性仍然提供了坚实的性能,但相对优势可能会较小。
NextSilicon 的设计是关于多功能性和具有挑战性的竞争力。我们的适应性在直接情况下仍然很好,但在具有挑战性的情况下会带来转变。
您为什么决定优先考虑 HPC 市场,而大多数初创公司都在涌向人工智能?这如何塑造了您的产品和商业策略?
HPC 代表了计算复杂性和问题解决的前沿,涉及大型数据集、不规则的内存访问和不可预测的计算模式。如果您可以在那里构建一个茁壮成长的架构——例如,在气候建模或粒子物理中运行艾字节规模的模拟——它也将在人工智能中茁壮成长。
通过首先关注 HPC,我们在气候建模、物理和生命科学中证明了 Maverick-2 的性能,并在转向 AI 市场之前获得了可信度、实际性能数据和成熟的产品。现在,我们能够同时服务这两个市场,而不会为了利用短期趋势或需求而妥协我们的架构。
现在 Maverick-2 已经投入生产并部署在数十个客户中,您可以分享一些它的使用示例吗?是否有来自旗舰部署的特定结果或基准测试?
一个旗舰示例是我们在 Sandia 国家实验室的部署,Maverick-2 正在为他们的 Spectra 超级计算机提供动力,作为 Vanguard-II 计划的一部分。我们看到令人印象深刻的开箱即用性能结果,而无需进行代码修改。我们还与 ODISSEE(在线数据密集型解决方案,用于科学的艾字节时代)合作,ODISSEE 将领先的研究机构聚集在一起,以处理来自 CERN 的高亮度大型强子对撞机和平方公里阵列天文台的艾字节规模数据。Maverick-2 将在解决处理原始实验数据的挑战中发挥作用,这些数据需要在以前所需的时间和能量的一小部分内处理。最终目标是实现更快的物理分析和天文学发现。
您已经筹集了超过 3 亿美元,2021 年和最近宣布了重大轮次。您可以分享这笔资金如何加速您的产品开发和市场覆盖范围吗?
这笔资金使我们能够做三件事。首先,我们可以进一步推进架构,而不仅仅是进行渐进式改进,而是进行根本性的进步,使 Maverick-2 成为生产就绪。其次,我们扩大了我们的制造和供应链以满足日益增长的需求,这对于新型硅来说是一个非平凡的挑战。第三,我们扩展了我们的软件生态系统,使客户能够更快地集成和部署。
这也使我们能够与超级计算中心和云提供商建立战略伙伴关系,从而使我们能够简化我们的概念到部署流程,并比传统硬件初创公司扩张得更快。
在 Cerebras、SambaNova 和 Nvidia 的格局中,您如何看待 NextSilicon 的定位?您作为挑战者的上市策略是什么?
我们将 NextSilicon 视为更多的是一家技术公司,而不是仅仅是一家芯片公司。我们优化每个工作负载,提供适应性,并不将客户锁定在专有的编程或硬件中。我们的客户可以带来他们现有的代码,并立即获得加速,而无需漫长的移植周期或供应商锁定到单一生态系统,例如 CUDA。这在人工智能工作负载演变为超越纯粹训练时尤为重要。推理模型、扩展推理和大上下文窗口需要根本不同的计算模式:更动态的内存访问、可变长度计算和适应性资源分配。这些不是可以通过更多相同的固定架构来解决的问题。
我们的上市策略专注于解决最困难的问题:与研究机构、国家实验室和企业合作,在这些地方,性能、能效和灵活性至关重要。从那里,我们扩展到更广泛的人工智能和数据密集型市场。该行业被固定架构所主导。我们提供了从一开始就构建的适应性。人工智能正在从纯粹的规模转变为智能。更大的模型使更智能的推理成为可能,从短提示到长上下文理解。在这种转变中,适应性架构不仅会很有新意;它们将是必不可少的。
感谢这次精彩的采访,希望了解更多的读者可以访问 NextSilicon。
