存根 Doug Fuller,Cornelis Networks 软件工程副总裁 - 访谈系列
关注我们.

面试

Doug Fuller,Cornelis Networks 软件工程副总裁 – 访谈系列

mm

发布时间

 on

作为软件工程副总裁,Doug 负责软件工程的各个方面 科尼利斯网络公司' 软件堆栈,包括 Omni-Path 架构驱动程序、消息传递软件和嵌入式设备控制系统。 在加入 Cornelis Networks 之前,Doug 领导红帽云存储和数据服务领域的软件工程团队。 Doug 在 HPC 和云计算领域的职业生涯始于艾姆斯国家实验室的可扩展计算实验室。 在大学研究计算领域担任过多个职位后,Doug 于 2009 年加入美国能源部橡树岭国家实验室,在世界一流的橡树岭领先计算设施中开发和集成新技术。

Cornelis Networks 是一家技术领导者,为领先的商业、科学、学术和政府组织提供用于高性能计算 (HPC)、高性能数据分析 (HPDA) 和人工智能 (AI) 的专用高性能结构。

是什么最初吸引您进入计算机科学?

我似乎只是喜欢与技术相关的工作。 我从小就喜欢和电脑一起工作。 我们学校有一个调制解调器,可以让我尝试上网,我发现它很有趣。 作为一名大学新生,我在为国家科学碗做志愿者时遇到了一位美国能源部计算科学家。 他邀请我参观他的 HPC 实验室,我被迷住了。 从那时起我就成了一名超级计算机极客。

您从 2015 年到 2019 年在红帽工作,您参与过哪些项目以及从这段经历中获得的主要收获?

我在红帽的主要项目是 Ceph 分布式存储。 我之前完全专注于 HPC,这让我有机会研究对云基础设施至关重要的技术。 它押韵。 可扩展性、可管理性和可靠性的许多原则非常相似,尽管它们旨在解决略有不同的问题。 在技​​术方面,我最重要的收获是云和 HPC 有很多值得相互学习的地方。 我们越来越多地使用同一套乐高积木构建不同的项目。 它确实帮助我了解了包括结构在内的支持技术如何对 HPC、云和人工智能应用程序等产生影响。 这也是我真正了解开源的价值以及如何执行我带到 Cornelis Networks 的开源、上游优先的软件开发理念的地方。 就我个人而言,红帽是我作为领导者真正成长和成熟的地方。

您目前是 Cornelis Networks 的软件工程副总裁,您的职责是什么?您的日常工作是怎样的?

作为软件工程副总裁,我负责 Cornelis Networks 软件堆栈的各个方面,包括 Omni-Path 架构驱动程序、消息传递软件、结构管理和嵌入式设备控制系统。 Cornelis Networks 是一个令人兴奋的地方,尤其是在此时此刻和这个市场。 因此,我不确定自己的一天过得“一般”。 有时我会与我的团队一起解决最新的技术挑战。 其他时候,我会与我们的硬件架构师互动,以确保我们的下一代产品能够为我们的客户提供服务。 我经常在现场与我们令人惊叹的客户和合作者社区会面,确保我们理解并预测他们的需求。

Cornelis Networks 为高性能计算和人工智能应用提供下一代网络,您能否分享有关所提供硬件的一些详细信息?

我们的硬件由高性能交换结构型网络结构解决方案组成。 为此,我们提供所有必要的设备来完全集成 HPC、云和 AI 结构。 Omni-Path Host-Fabric 接口 (HFI) 是一种用于端点设备的薄型 PCIe 卡。 我们还生产 48 端口 1U“架顶式”交换机。 对于更大规模的部署,我们制作了两个完全集成的“主管级”交换机; 一种在 288U 中包含 7 个端口,另一种在 1152U 中包含 20 个端口。

您能否讨论一下管理此基础设施的软件以及它的设计方式 减少延迟?

首先,我们的嵌入式管理平台提供轻松的安装和配置,以及对我们的交换机 ASIC 产生的各种性能和配置指标的访问。

我们的驱动程序软件是作为 Linux 内核的一部分开发的。 事实上,我们将所有软件补丁直接提交给 Linux 内核社区。 这确保了我们所有的客户都能享受跨 Linux 发行版的最大兼容性,并与 Lustre 等其他软件轻松集成。 虽然不在延迟路径中,但拥有树内驱动程序可显着降低安装复杂性。

Omni-Path 结构管理器 (FM) 配置和路由 Omni-Path 结构。 通过优化流量路由并从故障中快速恢复,FM 在数十到数千个节点的结构上提供业界领先的性能和可靠性。

Omni-Path Express (OPX) 是我们的高性能消息传递软件,最近于 2022 年 XNUMX 月发布。与我们早期的消息传递软件相比,它专门设计用于减少延迟。 我们对发送和接收代码路径进行了周期精确的模拟,以最大限度地减少指令数量和缓存利用率。 这产生了戏剧性的结果:当您处于微秒状态时,每个周期都很重要!

我们还与 开放结构接口 (OFI),由 OpenFabrics 联盟制定的开放标准。 OFI 的模块化架构允许更高级别的软件(例如 MPI)利用结构功能而无需额外的函数调用,从而有助于最大限度地减少延迟。

整个网络的设计也是为了提高可扩展性,您能否分享一些关于它如何能够如此出色地扩展的细节?

可扩展性是 Omni-Path 设计原则的核心。 在最低级别,我们使用 Cray 链路层技术来纠正链路错误,而不会影响延迟。 这会影响所有尺寸的织物,但对于大型织物尤其重要,因为它们自然会遇到更多的链接错误。 我们的结构管理器专注于对最佳路由表进行编程并以快速的方式进行。 这确保了即使是最大的结构的路由也可以在最短的时间内完成。

可扩展性也是 OPX 的一个重要组成部分。 最大限度地减少缓存利用率可以提高具有大量核心的单个节点的可扩展性。 最小化延迟还可以通过缩短集体算法的完成时间来提高可扩展性。 更有效地使用我们的主机结构接口资源使每个核心能够与更多远程对等点进行通信。 libfabric 的战略选择使我们能够利用软件功能,例如使用标准接口的可扩展端点。

您能否分享一些有关如何将人工智能融入 Cornelis Networks 某些工作流程的详细信息?

我们还没有准备好对外谈论我们对人工智能的内部使用和计划。 也就是说,我们确实吃自己的狗粮,因此我们可以利用我们对 Omni-Path 所做的延迟和可扩展性增强来支持 AI 工作负载。 这让我们更加兴奋地与我们的客户和合作伙伴分享这些好处。 我们确实观察到,与传统 HPC 一样,扩展基础设施是唯一的前进道路,但挑战在于网络性能很容易受到以太网和其他传统网络的抑制。

随着生成式人工智能的出现,您预计行业会发生哪些变化?

首先,生成式人工智能的使用将提高人们的生产力——历史上还没有一项技术让人类变得过时。 从轧棉机到自动织布机,再到电话、互联网等,我们所经历的每一次技术发展和革命都使某些工作变得更加高效,但我们并没有让人类消失。

通过生成式人工智能的应用,我相信公司将以更快的速度实现技术进步,因为公司经营者将有更多的空闲时间来专注于这些进步。 例如,如果生成式人工智能提供更准确的预测、报告、规划等——公司就可以专注于其专业领域的创新

我特别认为人工智能将使我们每个人都成为多学科专家。 例如,作为一名可扩展软件专家,我了解 HPC、大数据、云和 AI 应用程序之间的联系,这些联系推动他们走向 Omni-Path 等解决方案。 配备生成式人工智能助手,我可以更深入地研究 我们的客户使用的应用程序。 我毫不怀疑,这将帮助我们为我们服务的市场和客户设计更有效的硬件和软件。

我还预见到软件质量将得到全面提高。 人工智能可以有效地发挥“另一双眼睛”的作用,静态分析代码并深入了解错误和性能问题。 这在大规模上尤其有趣,因为性能问题可能特别难以发现并且重现成本高昂。

最后,我希望并相信生成式人工智能将帮助我们的行业培训和培训更多没有人工智能和高性能计算经验的软件专业人员。 我们的领域对许多人来说似乎令人畏惧,并且需要时间来学习“并行思考”。 从根本上说,就像机器让制造变得更容易一样,生成式人工智能将使思考和推理概念变得更容易。

关于您的工作或 Cornelis Networks 的总体情况,您还有什么想分享的吗?

我想鼓励任何有兴趣从事计算职业的人,尤其是高性能计算和人工智能领域。 在这一领域,我们配备了有史以来最强大的计算资源,并利用它们来应对人类面临的最大挑战。 这是一个令人兴奋的地方,我很享受这里的每一步。 随着对能力的需求急剧增加,生成式人工智能将我们的领域推向了新的高度。 我迫不及待地想看看我们下一步要去哪里。

感谢您的精彩采访,想要了解更多信息的读者可以访问 科尼利斯网络公司.

Unite.AI 创始合伙人 & 会员 福布斯技术委员会, 安托万是一个 未来学家 他对人工智能和机器人技术的未来充满热情。

他也是 证券,一个专注于投资颠覆性技术的网站。