访谈

安德鲁·费尔德曼,Cerebras Systems 联合创始人兼 CEO – 采访系列

mm

安德鲁是 Cerebras Systems 的联合创始人兼 CEO。他是一位致力于推动计算领域边界的企业家。在 Cerebras 之前,他联合创立并担任 SeaMicro 的 CEO,SeaMicro 是一家能源效率高、带宽大的微服务器的先驱。2012 年,SeaMicro 被 AMD 以 3.57 亿美元收购。在 SeaMicro 之前,安德鲁曾是 Force10 Networks 的产品管理、营销和商业发展副总裁,Force10 Networks 后来被 Dell Computing 以 8 亿美元收购。在 Force10 Networks 之前,安德鲁曾是 RiverStone Networks 的营销和公司发展副总裁,RiverStone Networks 从成立到 2001 年的 IPO 都由他担任。安德鲁拥有斯坦福大学的学士和 MBA 学位。

Cerebras Systems 正在构建一种新型的计算机系统,从第一原则上设计,旨在加速 AI 并改变 AI 工作的未来。

您能否分享 Cerebras Systems 的创立故事?

我的联合创始人和我曾经在一家之前的创业公司工作,那家公司是我和我的 CTO 加里在 2007 年创立的,叫做 SeaMicro(它在 2012 年被 AMD 以 3.34 亿美元收购)。我的联合创始人是行业中一些领先的计算机架构师和工程师 – 加里·劳特巴赫、肖恩·李、JP 弗里克和迈克尔·詹姆斯。当我们在 2015 年再次聚集在一起时,我们在白板上写了两件事 – 我们想一起工作,我们想构建一些能够改变行业并进入计算机历史博物馆的东西,计算机历史博物馆相当于计算机名人堂。我们感到荣幸,当计算机历史博物馆认可了我们的成就,并将 WSE-2 处理器添加到其收藏中,并指出它如何改变了人工智能的格局。

Cerebras Systems 是一支开创性的计算机架构师、计算机科学家、深度学习研究人员和各类工程师的团队,他们热爱无畏的工程。我们团结在一起的使命是构建一种新的计算机,以加速深度学习,这已经成为我们这个时代最重要的工作负载之一。

我们意识到深度学习具有独特的、巨大的和不断增长的计算需求。并且它与遗留机器(如图形处理单元(GPU))不太匹配,后者从根本上是为其他工作而设计的。因此,今天的 AI 不是由应用程序或想法所限制的,而是由计算资源的可用性所限制。测试一个新的假设 – 训练一个新的模型 – 可能需要几天、几周甚至几个月,并且需要花费数十万美元的计算时间。这是一个创新的大障碍。

因此,Cerebras 的起源是从一张白纸开始,构建一种专门为深度学习优化的新型计算机。为了满足深度学习的巨大计算需求,我们设计和制造了有史以来最大的芯片 – Wafer-Scale Engine(WSE)。在创建世界上第一个晶圆级处理器的过程中,我们克服了设计、制造和封装方面的挑战 – 这些挑战在计算机 70 年的历史上一直被认为是不可能的。WSE 的每个元素都是为了以前所未有的速度和规模实现深度学习研究而设计的,推动了行业中最快的 AI 超级计算机 Cerebras CS-2。

每个组件都针对 AI 工作进行了优化,CS-2 提供了比任何其他系统更高的计算性能、更小的空间和更低的功耗。它同时大大降低了编程复杂性、墙上时钟计算时间和解决问题的时间。根据工作负载,从 AI 到 HPC,CS-2 提供了比传统替代品更高的性能。CS-2 提供了相当于数百个 GPU 的深度学习计算资源,同时提供了单个设备的编程、管理和部署的便捷性。

过去几个月,Cerebras 似乎一直在新闻中,您能告诉我们关于新的 Andromeda AI 超级计算机吗?

我们在去年 11 月份宣布了 Andromeda,它是有史以来建造的最大的、最强大的 AI 超级计算机之一。Andromeda 提供了超过 1 Exaflop 的 AI 计算和 120 Petaflops 的密集计算,拥有 16 个 CS-2 系统的 1350 万个核心,它是唯一一个在大型语言模型工作负载上展示了近乎完美的线性扩展的 AI 超级计算机。它也非常容易使用。

为了提醒大家,地球上最大的超级计算机 – Frontier – 拥有 870 万个核心。从原始核心数量来看,Andromeda 比它大了一倍半。它当然做着不同的工作,但这让你了解到其规模:近 100 太比特的内部带宽,近 20,000 个 AMD Epyc 核心供其使用,并且 – 与需要几年时间才能建成的巨型超级计算机不同 – 我们在三天内就建成了 Andromeda,并且它立即开始提供近乎完美的 AI 线性扩展。

阿根国家实验室是我们的第一个使用 Andromeda 的客户,他们将其应用于一个问题,该问题曾经使他们的 2,000 个 GPU 集群 Polaris 不堪重负。该问题是运行非常大的、GPT-3XL 生成模型,同时将整个 Covid 基因组序列放入序列窗口中,以便可以在整个 Covid 基因组的背景下分析每个基因。Andromeda 在 1、2、4、8 和 16 个节点上运行了一个具有长序列长度(MSL 为 10K)的独特遗传工作负载,具有近乎完美的线性扩展。线性扩展是大型集群中最受追求的特性之一。Andromeda 跨 16 个 CS-2 系统提供了 15.87 倍的吞吐量,并将训练时间减少到匹配。

您能告诉我们关于在 11 月份宣布的与 Jasper 的合作伙伴关系吗?

Jasper 是一家非常有趣的公司。他们是营销领域的生成性 AI 内容领导者,他们的产品被全球超过 100,000 名客户用于编写营销、广告、书籍等方面的内容。显然,这是一个非常令人兴奋和快速增长的领域。去年,我们宣布与他们合作,以加速生成性 AI 在企业和消费者应用中的采用和改进。Jasper 正在使用我们的 Andromeda 超级计算机以分数的时间训练其计算密集型的模型。这将将生成性 AI 模型的使用范围扩展到大众。

凭借 Cerebras Andromeda 超级计算机的力量,Jasper 可以显著推进 AI 工作,包括训练 GPT 网络以适应所有级别的末端用户复杂性和粒度。这提高了生成模型的上下文准确性,并将使 Jasper 能够快速、轻松地跨多个客户类别个性化内容。

我们的合作伙伴关系允许 Jasper 发明生成性 AI 的未来,通过做传统基础设施上不切实际或根本不可能的事情,并加速生成性 AI 的潜力,将其带给我们在全球范围内迅速增长的客户群体。

在最近的一份新闻稿中,国家能源技术实验室和匹兹堡超级计算中心宣布了在 Cerebras 晶圆级引擎上进行的首次计算流体动力学模拟。您能描述一下什么是晶圆级引擎以及它如何工作吗?

我们的 Wafer-Scale Engine (WSE) 是我们深度学习计算系统 CS-2 中的革命性 AI 处理器。与传统的通用处理器不同,WSE 从头开始构建,以加速深度学习:它具有 85 万个 AI 优化的核心用于稀疏张量操作,具有大量的片上内存,并且具有比传统集群可能实现的更快的互连。总的来说,它为您提供了相当于传统机器集群的深度学习计算资源,但所有这些都在一个设备中,易于编程,就像单个节点一样 – 从根本上降低了编程复杂性、墙上时钟计算时间和解决问题的时间。

我们的第二代 WSE-2,它为我们的 CS-2 系统提供动力,可以非常快速地解决问题。快速到足以实现实时、高保真度的工程系统模型。它是成功的“强扩展”的一个罕见例子,即使用并行性来减少具有固定大小问题的求解时间。

这就是国家能源技术实验室和匹兹堡超级计算中心正在使用它的原因。我们刚刚宣布了一些关于计算流体动力学 (CFD) 模拟的令人兴奋的结果,该模拟由大约 2 亿个细胞组成,以近实时的速度运行。 该视频 显示了瑞利-贝纳德对流的高分辨率模拟,当一个流体层从下方加热和从上方冷却时就会发生这种现象。这些热驱动的流体流动无处不在 – 从有风的日子到湖效雪暴,再到地球核心中的岩浆流动和太阳中的等离子体运动。正如旁白所说,重要的不仅是模拟的视觉美感,还有我们能够计算它的速度。使用我们的 Wafer-Scale Engine,NETL 首次能够以近实时的速度操纵一个几乎 2 亿个细胞的网格。

正在模拟什么类型的数据?

正在测试的工作负载是热驱动的流体流动,也称为自然对流,这是计算流体动力学 (CFD) 的一个应用。流体流动在我们周围自然发生 – 从有风的日子到湖效雪暴,再到板块运动和太阳中的等离子体运动。该模拟由大约 2 亿个细胞组成,重点研究一种称为“瑞利-贝纳德”对流的现象,当一个流体从下方加热和从上方冷却时就会发生这种现象。在自然界中,这种现象可能导致严重的天气事件,如下击暴流、微下击暴流和直线风暴。它还负责地球核心中的岩浆运动和太阳中的等离子体运动。

2022 年 11 月,NETL 引入了一种新的场方程建模 API,基于 CS-2 系统,速度比 NETL 的 Joule 超级计算机 快了 470 倍。这意味着它可以提供超过任何数量的 CPU 或 GPU 集群可以实现的速度。使用一个简单的 Python API,实现了晶圆级处理,大部分计算科学的性能和可用性都无法在传统计算机和超级计算机上获得 – 事实上,它在时间到解决方案方面比 NETL 的 Joule 2.0 超级计算机上的 OpenFOAM 快了两个数量级。

由于 WFA API 的简单性,结果是在几周内实现的,并继续了 NETL、PSC 和 Cerebras Systems 之间的密切合作。

通过在我们的 WSE 上转变 CFD 的速度(它一直是一个缓慢的、离线的任务),我们可以为此打开一系列新的、实时的用例,并且可以为许多其他核心 HPC 应用程序做同样的事情。我们的目标是,通过使计算能力更强大,我们的客户可以进行更多的实验并发明更好的科学。NETL 实验室主任布莱恩·安德森曾告诉我们,这将大大加速和改进 NETL 正在开展的一些大型项目的设计,例如减轻气候变化和实现安全的能源未来 – 例如碳封存和蓝色氢气生产。

Cerebras 一直在发布超级计算机方面超越竞争对手,构建最先进的超级计算机的挑战是什么?

讽刺的是,大型 AI 中最难的挑战不是 AI 本身,而是分布式计算。

为了训练今天的最先进的神经网络,研究人员经常使用数百到数千个图形处理单元 (GPU)。这并不容易。在数百个 GPU 的集群上扩展大型语言模型的训练需要将工作负载分布在许多小设备上,处理设备内存大小和内存带宽约束,并仔细管理通信和同步开销。

我们对设计超级计算机采取了完全不同的方法,通过开发 Cerebras 晶圆级集群和 Cerebras Weight Streaming 执行模式。通过这些技术,Cerebras 解决了基于三个关键点的扩展的新方法:

1. 用晶圆级加速器(如 Cerebras CS-2 系统)取代 CPU 和 GPU 处理。这一变化减少了实现可接受的计算速度所需的计算单元的数量。

2. 为了应对模型大小的挑战,我们采用了一种系统架构,该架构将计算与模型存储分离。一个基于 CS-2 系统集群(提供足够的计算带宽)的计算服务与一个内存服务(具有大容量内存)紧密耦合,内存服务根据需要为计算集群提供模型的子集。通常,数据服务根据需要为计算服务提供训练数据批。

3. 一种用于在 CS-2 集群上训练工作的调度和协调的创新模型,该模型采用数据并行、分层训练(每次一层,稀疏权重按需流式传输)和在计算服务中保留激活。

人们已经担心摩尔定律的终结近十年了,行业还能再挤出多少年,并且需要什么样的创新?

我认为我们都在纠结的一个问题是,摩尔定律 – 正如摩尔所写的那样 – 是否已经死亡。它不再需要两年时间来获得更多的晶体管。现在需要四到五年时间。而且这些晶体管的价格不再相同 – 它们的价格大大增加。所以问题变成了,我们是否仍然能够从 7 纳米到 5 纳米到 3 纳米的转变中获得相同的好处。好处越来越小,而且它们的成本越来越高,所以解决方案变得比简单地在芯片上添加更多晶体管更复杂。

杰出的计算机架构师 Jack Dongarra最近发表了一次演讲,他说:“我们在制造 FLOPs 和 I/O 方面变得更好了。”这是真的。我们移动数据的能力落后于我们在芯片上提高性能的能力。Cerebras 的芯片更大,数据移动得更少,这验证了我们的决定,并为未来的芯片性能改进提供了指导。还有很多工作要做,不仅仅是获取更多的 FLOPs,还包括在芯片之间移动它们和数据 – 即使在非常大的芯片之间也是如此。

您是否还有其他关于 Cerebras Systems 的信息想要分享?

人们经常把 Cerebras 归类为“大芯片公司”。我们能够为非常大的神经网络提供令人信服的解决方案,消除了进行痛苦的分布式计算的需要。我认为这非常有趣,也是我们的客户喜欢我们的原因。2023 年的有趣领域将是如何进行大规模计算以获得更高的准确率,使用更少的 FLOPs。

我们关于稀疏性的工作提供了一个非常有趣的方法。我们不做任何不推动我们向目标线前进的工作。将零相乘是一个坏主意。我们将很快发布一篇关于稀疏性的非常有趣的论文,我认为人们将会更加关注如何以更少的 FLOPs 达到这些高效点,并且如何以更少的功耗做到这一点。并且不仅仅是训练,还包括如何最小化推理所使用的成本和功耗。我认为稀疏性在这两个方面都有帮助。

感谢您深入的答案,希望了解更多的读者可以访问 Cerebras Systems

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。