访谈

道格·富勒,康奈利斯网络公司软件工程副总裁 – 采访系列

mm

作为软件工程副总裁,道格负责康奈利斯网络公司软件栈的所有方面,包括Omni-Path架构驱动程序、消息软件和嵌入式设备控制系统。在加入康奈利斯网络公司之前,道格曾在Red Hat公司的云存储和数据服务部门领导软件工程团队。道格在高性能计算和云计算领域的职业生涯始于埃姆斯国家实验室的可扩展计算实验室。之后,他在大学研究计算领域担任了几项职务,2009年加入了美国能源部的奥克里奇国家实验室,在那里他开发和集成了世界级的奥克里奇领导计算设施的新技术。

康奈利斯网络公司是一家技术领先的公司,专门为高性能计算(HPC)、高性能数据分析(HPDA)和人工智能(AI)提供定制的高性能织物,服务于领先的商业、科学、学术和政府组织。

是什么最初吸引你进入计算机科学领域的?

我似乎天生就喜欢与技术打交道。我喜欢在成长过程中使用计算机;我们学校有一台调制解调器,让我可以尝试互联网,我觉得它很有趣。在大学一年级时,我遇到了一个美国能源部的计算科学家,他邀请我参观他的高性能计算实验室,我一下子就被吸引住了。从那时起,我就成为了一个超级计算机迷。

您从2015年到2019年在Red Hat工作,您在那段时间里参与了哪些项目,您从这段经历中得到了什么关键的收获?

我在Red Hat的主要项目是Ceph分布式存储。我之前完全专注于高性能计算,这个项目让我有机会参与云基础设施中的关键技术。它是相似的。可扩展性、可管理性和可靠性的原则,即使它们针对的是略微不同的问题,也是非常相似的。在技术方面,我的最重要的收获是,云计算和高性能计算有很多可以相互学习的地方。我们正在使用相同的积木建造不同的项目。这帮助我理解了如何让使能技术,包括织物,来支持高性能计算、云计算和人工智能应用。它也是我真正理解开源和如何执行开源、上游优先的软件开发理念的地方,我把这些理念带到了康奈利斯网络公司。从个人角度来说,Red Hat是我真正成长和成熟为领导者的地方。

您目前是康奈利斯网络公司软件工程副总裁,您的职责是什么,您的平均工作日是什么样的?

作为软件工程副总裁,我负责康奈利斯网络公司软件栈的所有方面,包括Omni-Path架构驱动程序、消息软件、织物管理和嵌入式设备控制系统。康奈利斯网络公司是一个令人兴奋的地方,尤其是在这个时候和这个市场。因此,我不确定我是否有“平均”的一天。有些日子,我与团队合作解决最新的技术挑战。其他日子,我与我们的硬件架构师合作,确保我们的下一代产品能够满足客户的需求。我经常在外与我们的客户和合作伙伴会面,确保我们理解和预测他们的需求。

康奈利斯网络公司为高性能计算和人工智能应用提供下一代网络,能否分享一些关于所提供的硬件的详细信息?

我们的硬件由高性能开关织物网络解决方案组成。为此,我们提供所有必要的设备来完全集成高性能计算、云计算和人工智能织物。Omni-Path主机-织物接口(HFI)是一款用于端点设备的低-profile PCIe卡。我们还生产了一款48端口1U“顶部机架”交换机。对于较大的部署,我们提供两款完全集成的“总监级”交换机:一款7U设备,拥有288个端口,另一款20U设备,拥有1152个端口。

您能否讨论管理此基础设施的软件以及它如何被设计来减少延迟?

首先,我们的嵌入式管理平台提供了易于安装和配置的功能,以及访问我们交换机ASIC产生的各种性能和配置指标。

我们的驱动程序软件作为Linux内核的一部分开发。事实上,我们直接向Linux内核社区提交所有软件补丁。这确保我们的所有客户都能在Linux发行版之间享受到最大兼容性,并且可以轻松地与其他软件(如Lustre)集成。虽然不在延迟路径中,但具有树内驱动程序可以显著减少安装复杂性。

Omni-Path织物管理器(FM)配置和路由Omni-Path织物。通过优化流量路由和快速从故障中恢复,FM在从几十到几千个节点的织物上提供了业界领先的性能和可靠性。

Omni-Path Express(OPX)是我们最近在2022年11月发布的高性能消息软件。它专门设计用于减少与我们以前的消息软件相比的延迟。我们运行了发送和接收代码路径的周期准确模拟,以最小化指令计数和缓存利用率。这产生了显著的结果:当您处于微秒范围内时,每个周期都很重要!

我们还与OpenFabrics接口(OFI)集成,OFI是OpenFabrics联盟生产的开放标准。OFI的模块化架构通过允许更高级别的软件(如MPI)利用织物功能而无需额外的函数调用来帮助最小化延迟。

整个网络也被设计为提高可扩展性,您能否分享一些关于它如何扩展得如此良好的详细信息?

可扩展性是Omni-Path设计原则的核心。最低层次上,我们使用Cray链路层技术以无延迟的方式纠正链路错误。这影响了所有规模的织物,但对于大规模织物尤其重要,因为它们自然会遇到更多的链路错误。我们的织物管理器专注于编程最优路由表,并快速地执行此操作。这确保了即使对于最大的织物,路由也可以在最短的时间内完成。

可扩展性也是OPX的一个关键组成部分。最小化缓存利用率可以提高具有大量核心的个别节点的可扩展性。最小化延迟也可以通过提高集体算法的完成时间来提高可扩展性。更高效地使用主机-织物接口资源可以使每个核心与更多远程对等点进行通信。libfabric的战略选择使我们能够使用标准接口来利用可扩展的端点等软件功能。

您能否分享一些关于康奈利斯网络公司工作流程中如何整合人工智能的详细信息?

我们还没有准备好公开讨论我们对人工智能的内部使用和计划。但是,我们确实使用自己的狗粮,所以我们可以利用我们为Omni-Path开发的延迟和可扩展性增强功能来支持人工智能工作负载。这让我们更加兴奋地与客户和合作伙伴分享这些好处。我们已经观察到,像传统的高性能计算一样,扩展基础设施是前进的唯一途径,但挑战是,网络性能很容易被以太网和其他传统网络阻碍。

您预见人工智能的出现将如何改变行业?

首先,生成式人工智能将使人们更加高效——历史上没有任何技术使人类变得过时。从棉花轧机到自动织机、电话、互联网等,每一次技术进步和革命都使某些工作更加高效,但我们并没有使人类失业。

通过应用生成式人工智能,我相信公司将以更快的速度技术进步,因为公司运营者将有更多的空闲时间来关注这些进步。例如,如果生成式人工智能提供更准确的预测、报告、规划等,公司就可以专注于其专业领域的创新。

我特别觉得人工智能会使每个人成为跨学科专家。例如,作为可扩展软件专家,我理解高性能计算、大数据、云计算和人工智能应用之间的联系,这些应用推动了像Omni-Path这样的解决方案。配备了生成式人工智能助手,我可以更深入地了解客户使用的应用程序的含义。我毫无疑问,这将帮助我们为我们服务的市场和客户设计出更有效的硬件和软件。

我还预见,整体软件质量将会提高。人工智能可以有效地作为“另一双眼睛”来静态分析代码并对错误和性能问题进行洞察。这在大规模上尤其有趣,因为性能问题可能特别难以发现和重现。

最后,我希望和相信,生成式人工智能将帮助我们的行业培训和入职更多没有人工智能和高性能计算经验的软件专业人员。我们的领域可能对很多人来说很令人生畏,它需要时间来学习“并行思考”。从根本上来说,机器使制造变得更容易,生成式人工智能将使考虑和推理概念变得更容易。

您是否还有其他关于您的工作或康奈利斯网络公司的一般信息想要分享?

我想鼓励任何对计算机感兴趣的人从事高性能计算和人工智能领域的职业。在这个领域,我们拥有有史以来最强大的计算资源,我们将这些资源应用于人类面临的最重大挑战。这是一个令人兴奋的地方,我每一步都很享受。生成式人工智能将我们的领域推向新的高度,随着对日益增长的能力的需求急剧增加,我等不及地想看看我们将走向何方。

感谢这次精彩的采访,希望了解更多的读者可以访问康奈利斯网络公司网站。

安托万是一位具有远见的领导者和Unite.AI的联合创始人,他对塑造和推广人工智能和机器人技术的未来充满热情。作为一位连续创业者,他相信人工智能将对社会产生电力的影响一样的颠覆性影响,并经常被发现对颠覆性技术和通用人工智能的潜力大肆赞扬。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他还是Securities.io的创始人,这是一个专注于投资尖端技术的平台,这些技术正在重新定义未来并重塑整个行业。