面试
Andrew Feldman,Cerebras Systems 联合创始人兼首席执行官 – 访谈系列

安德鲁是联合创始人兼首席执行官 Cerebras系统。 他是一位致力于突破计算领域界限的企业家。 在加入 Cerebras 之前,他是 SeaMicro 的联合创始人并担任首席执行官,SeaMicro 是节能、高带宽微服务器的先驱。 SeaMicro 于 2012 年被 AMD 以 357 亿美元收购。 在 SeaMicro 之前,Andrew 曾担任 Force10 Networks 的产品管理、营销和业务拓展副总裁,该公司后来以 800 亿美元的价格出售给戴尔计算公司。 在加入 Force10 Networks 之前,Andrew 一直担任 RiverStone Networks 的营销和企业发展副总裁,从公司成立到 2001 年 IPO。Andrew 拥有斯坦福大学的学士学位和 MBA 学位。
Cerebras Systems 正在构建一种新型计算机系统,该系统是根据基本原理设计的,其单一目标是加速人工智能和改变人工智能工作的未来。
您能分享一下 Cerebras Systems 背后的起源故事吗?
我和我的联合创始人都曾在我和 CTO Gary 于 2007 年创办的一家名为 SeaMicro 的初创公司(于 2012 年以 334 亿美元的价格出售给 AMD)一起工作。 我的联合创始人是业内一些领先的计算机架构师和工程师——Gary Lauterbach、Sean Lie、JP Fricker 和 Michael James。 当我们在 2015 年让乐队重新聚在一起时,我们在白板上写了两件事——我们想要一起工作,我们想要建立一些能够改变行业的东西并进入计算机历史博物馆,这相当于计算名人堂。 去年,当计算机历史博物馆认可我们的成就并将 WSE-2 处理器添加到其收藏中时,我们感到非常荣幸,并列举了它如何改变了人工智能领域。
Cerebras Systems 是一支由先驱计算机架构师、计算机科学家、深度学习研究人员以及热爱无畏工程的各类工程师组成的团队。 我们聚集在一起的使命是构建新型计算机来加速深度学习,深度学习已成为我们这个时代最重要的工作负载之一。
我们意识到深度学习具有独特、庞大且不断增长的计算需求。 而且它与图形处理单元 (GPU) 等传统机器无法很好匹配,这些机器基本上是为其他工作而设计的。 因此,今天的人工智能不受应用程序或想法的限制,而是受到计算可用性的限制。 测试一个新假设——训练一个新模型——可能需要几天、几周甚至几个月的时间,并花费数十万美元的计算时间。 这是创新的主要障碍。
因此,Cerebras 的起源是从一张白纸开始构建一种专门针对深度学习进行优化的新型计算机。 为了满足深度学习巨大的计算需求,我们设计并制造了有史以来最大的芯片——晶圆级引擎(WSE)。 在创造世界上第一个晶圆级处理器的过程中,我们克服了设计、制造和封装方面的挑战——所有这些在计算机的整个 70 年历史中都被认为是不可能的。 WSE 的每个元素都旨在以前所未有的速度和规模实现深度学习研究,为业界最快的人工智能超级计算机 Cerebras CS-2 提供动力。
由于每个组件都针对 AI 工作进行了优化,CS-2 比任何其他系统都能以更小的空间和更低的功耗提供更高的计算性能。 它可以做到这一点,同时从根本上降低编程复杂性、挂钟计算时间和解决时间。 根据从 AI 到 HPC 的工作负载,CS-2 的性能比传统替代方案高数百或数千倍。 CS-2 提供相当于数百个 GPU 的深度学习计算资源,同时提供单个设备的编程、管理和部署的便利性。
在过去的几个月里,Cerebras 似乎遍布整个 消息,您能向我们介绍一下新的 Andromeda AI 超级计算机吗?
我们于去年 1 月推出了 Andromeda,它是有史以来最大、最强大的人工智能超级计算机之一。 Andromeda 提供超过 120 Exaflops 的 AI 计算能力和 13.5 Petaflops 的密集计算能力,在 16 个 CS-2 系统中拥有 XNUMX 万个核心,是唯一一款在大型语言模型工作负载上展示出近乎完美的线性扩展的 AI 超级计算机。 使用起来也非常简单。
提醒一下,地球上最大的超级计算机 Frontier 拥有 8.7 万个核心。 在原始核心数量方面,Andromeda 的数量是其一倍半以上。 它的工作显然不同,但这给出了一个范围的概念:近 100 太比特的内部带宽,近 20,000 个 AMD Epyc 核心为其提供数据,并且 - 与需要数年时间才能启动的巨型超级计算机不同 - 我们在三天内就启动了 Andromeda此后不久,它就实现了近乎完美的人工智能线性扩展。
阿贡国家实验室是我们第一个使用 Andromeda 的客户,他们将其应用于一个破坏其 2,000 个 GPU 集群(称为 Polaris)的问题。 问题是运行非常大的 GPT-3XL 生成模型,同时将整个 Covid 基因组放入序列窗口中,以便您可以在 Covid 整个基因组的背景下分析每个基因。 Andromeda 在 10、1、2、4 和 8 个节点上运行了具有长序列长度(MSL 为 16K)的独特遗传工作负载,并具有近乎完美的线性缩放。 线性扩展是大集群最受欢迎的特性之一。 与单个 CS-15.87 相比,Andromeda 在 16 个 CS-2 系统中提供了 2 倍的吞吐量,并且训练时间也相应减少。
您能告诉我们有关 与贾斯珀的合作 这是在 XNUMX 月底公布的,这对两家公司意味着什么?
Jasper 是一家非常有趣的公司。 他们是营销生成人工智能内容领域的领导者,全球超过 100,000 名客户使用他们的产品来撰写营销文案、广告、书籍等。 目前这显然是一个非常令人兴奋且快速增长的领域。 去年,我们宣布与他们建立合作伙伴关系,以加速企业和消费者应用程序中生成式人工智能的采用并提高其准确性。 Jasper 正在使用我们的 Andromeda 超级计算机在很短的时间内训练其深度计算密集型模型。 这将把生成式人工智能模型的影响范围扩大到大众。
借助 Cerebras Andromeda 超级计算机的强大功能,Jasper 可以极大地推进 AI 工作,包括训练 GPT 网络,使 AI 输出适合所有级别的最终用户复杂性和粒度。 这提高了生成模型的上下文准确性,并使 Jasper 能够快速轻松地跨多个类别的客户个性化内容。
我们的合作伙伴关系使 Jasper 能够通过传统基础设施做一些不切实际或根本不可能的事情来发明生成式人工智能的未来,并加速生成式人工智能的潜力,为我们在全球快速增长的客户群带来好处。
在最近的 新闻稿国家能源技术实验室和匹兹堡超级计算中心先锋宣布首次在 Cerebras 晶圆级发动机上进行计算流体动力学仿真。 您能具体描述一下什么是晶圆级引擎及其工作原理吗?
我们的 晶圆级引擎 (WSE) 是我们深度学习计算机系统 CS-2 的革命性 AI 处理器。 与传统的通用处理器不同,WSE 是从头开始构建的,旨在加速深度学习:它拥有 850,000 个用于稀疏张量运算的 AI 优化内核、海量高带宽片上存储器以及比传统处理器快几个数量级的互连集群可能实现。 总而言之,它为您提供的深度学习计算资源相当于单个设备中的一组遗留机器,易于作为单个节点进行编程——从根本上降低编程复杂性、挂钟计算时间和解决时间。
我们的第二代 WSE-2 为我们的 CS-2 系统提供动力,可以极快地解决问题。 足够快,可以实现感兴趣的工程系统的实时、高保真模型。 这是成功“强扩展”的罕见例子,即使用并行性来减少固定大小问题的求解时间。
这就是国家能源技术实验室和匹兹堡超级计算中心正在使用它的目的。 我们刚刚宣布了计算流体动力学 (CFD) 模拟的一些非常令人兴奋的结果,该模拟由约 200 亿个单元组成,以接近实时的速率进行。 此视频 显示了瑞利-贝纳德对流的高分辨率模拟,当流体层从底部加热并从顶部冷却时会发生这种情况。 这些热驱动的流体流动就在我们周围——从大风天到湖泊效应暴风雪,再到地核中的岩浆流和太阳中的等离子体运动。 正如解说员所说,重要的不仅仅是模拟的视觉美感:还有我们计算它的速度。 使用我们的晶圆级引擎,NETL 首次能够近乎实时地操纵近 200 亿个单元的网格。
正在模拟什么类型的数据?
测试的工作负载是热驱动流体流动,也称为自然对流,是计算流体动力学 (CFD) 的应用。 流体流动在我们周围自然发生——从大风天到湖泊效应暴风雪,再到板块运动。 该模拟由约 200 亿个单元组成,重点研究一种称为“瑞利-贝纳德”对流的现象,这种现象发生在流体从底部加热并从顶部冷却时。 在自然界中,这种现象可能导致严重的天气事件,例如下击暴流、微暴流和德雷霍斯。 它还负责地核中的岩浆运动和太阳中的等离子体运动。
早在 2022 年 2 月,NETL 就推出了新的场方程建模 API,由 CS-470 系统提供支持,其速度比 NETL 的 Joule 超级计算机快 2.0 倍。 这意味着它可以提供超出任何数量的 CPU 或 GPU 集群所能达到的速度。 WFA 使用简单的 Python API 来实现大部分计算科学的晶圆级处理,从而实现了传统计算机和超级计算机无法实现的性能和可用性提升 - 事实上,它在 NETL 的 Joule XNUMX 超级计算机上的性能比 OpenFOAM 高出两个数量级以上解决问题的时间量级。
由于 WFA API 的简单性,我们在短短几周内就取得了结果,并继续 NETL、PSC 和 Cerebras Systems 之间的密切合作。
通过改变 WSE 上 CFD(一直是一项缓慢的离线任务)的速度,我们可以为此以及许多其他核心 HPC 应用程序开辟大量新的实时用例。 我们的目标是通过提供更多的计算能力,我们的客户可以进行更多的实验并发明更好的科学。 NETL 实验室主任布莱恩·安德森 (Brian Anderson) 告诉我们,这将大大加快和改进 NETL 正在围绕缓解气候变化和实现安全的能源未来而开展的一些真正大型项目的设计流程,例如碳封存和蓝氢生产等项目。
Cerebras 在发布超级计算机方面始终优于竞争对手,构建最先进的超级计算机背后有哪些挑战?
讽刺的是,大人工智能最困难的挑战之一并不是人工智能本身。 这就是分布式计算。
为了训练当今最先进的神经网络,研究人员经常使用数百到数千个图形处理单元 (GPU)。 这并不容易。 在 GPU 集群上扩展大型语言模型训练需要将工作负载分配到许多小型设备上,处理设备内存大小和内存带宽限制,并仔细管理通信和同步开销。
我们通过开发 Cerebras 晶圆级集群,采用了完全不同的方法来设计我们的超级计算机, Cerebras 重量流媒体 执行模式。 借助这些技术,Cerebras 基于三个关键点提出了一种新的扩展方式:
用 Cerebras CS-2 系统等晶圆级加速器取代 CPU 和 GPU 处理。 此更改减少了实现可接受的计算速度所需的计算单元的数量。
为了应对模型大小的挑战,我们采用了一种将计算与模型存储分离的系统架构。 基于 CS-2 系统集群(提供足够的计算带宽)的计算服务与内存服务(具有大内存容量)紧密耦合,后者根据需要向计算集群提供模型子集。 与往常一样,数据服务根据需要向计算服务提供批量训练数据。
用于跨 CS-2 集群调度和协调训练工作的创新模型,该模型采用数据并行性、使用按需流式传输的稀疏权重进行一次分层训练,以及在计算服务中保留激活。
近十年来,人们一直担心摩尔定律的终结,该行业还能再挤多少年,为此需要什么类型的创新?
我认为我们都在努力解决的问题是摩尔定律(摩尔所写的)是否已经失效。 获得更多晶体管并不需要两年的时间。 现在需要四五年时间。 这些晶体管的价格并不相同——它们的价格要高得多。 那么问题就变成了,我们是否仍然能获得从七纳米到五纳米到三纳米的同样好处? 好处更小,成本更高,因此解决方案变得比简单的芯片更复杂。
领先的计算机架构师 Jack Dongarra 最近在一次演讲中表示:“我们在 FLOP 和 I/O 方面已经做得更好了。” 确实如此。 我们将数据移出芯片的能力远远落后于提高芯片性能的能力。 在 Cerebras,当他这么说时,我们很高兴,因为这证实了我们制造更大芯片并减少芯片外东西的决定。 它还为未来如何使芯片系统性能更好提供了一些指导。 我们还有很多工作要做,不仅仅是挤出更多的浮点运算,还包括移动它们以及将数据从一个芯片移动到另一个芯片的技术——甚至从一个非常大的芯片转移到另一个非常大的芯片。
关于 Cerebras Systems 您还有什么想分享的吗?
无论好坏,人们经常将 Cerebras 归入“真正的大芯片公司”这一类别。 我们已经能够为非常非常大的神经网络提供令人信服的解决方案,从而消除了痛苦的分布式计算的需要。 我相信这非常有趣,也是我们的客户喜爱我们的核心原因。 2023 年有趣的领域将是如何使用更少的 FLOP 来实现更高准确度的大型计算。
我们在稀疏性方面的工作提供了一种非常有趣的方法。 我们不会做那些不能让我们朝着目标线前进的工作,乘以零是一个坏主意。 我们很快就会发布一篇关于稀疏性的非常有趣的论文,我认为我们将付出更多的努力来研究如何达到这些有效点,以及如何以更少的功率做到这一点。 不仅仅是为了减少力量和训练; 我们如何最大限度地减少推理中使用的成本和功耗? 我认为稀疏性在两个方面都有帮助。
感谢您的深入解答,想要了解更多信息的读者可以访问 Cerebras系统.