sơ khai Doug Fuller, Phó Giám đốc Kỹ thuật Phần mềm tại Cornelis Networks - Loạt bài phỏng vấn
Kết nối với chúng tôi

Phỏng vấn

Doug Fuller, Phó Giám đốc Kỹ thuật Phần mềm tại Cornelis Networks – Chuỗi phỏng vấn

mm

Được phát hành

 on

Với tư cách là Phó Chủ tịch Kỹ thuật Phần mềm, Doug chịu trách nhiệm về tất cả các khía cạnh của Mạng Cornelis' ngăn xếp phần mềm, bao gồm trình điều khiển Kiến trúc Omni-Path, phần mềm nhắn tin và hệ thống điều khiển thiết bị nhúng. Trước khi gia nhập Cornelis Networks, Doug đã lãnh đạo các nhóm kỹ thuật phần mềm tại Red Hat trong các dịch vụ dữ liệu và lưu trữ đám mây. Sự nghiệp của Doug trong lĩnh vực HPC và điện toán đám mây bắt đầu tại Phòng thí nghiệm Điện toán Khả năng mở rộng của Phòng thí nghiệm Quốc gia Ames. Sau một số vai trò trong điện toán nghiên cứu của trường đại học, Doug gia nhập Phòng thí nghiệm Quốc gia Oak Ridge của Bộ Năng lượng Hoa Kỳ vào năm 2009, nơi ông đã phát triển và tích hợp các công nghệ mới tại Cơ sở Điện toán Lãnh đạo Oak Ridge đẳng cấp thế giới.

Cornelis Networks là công ty dẫn đầu về công nghệ cung cấp các loại vải hiệu suất cao được xây dựng có mục đích cho Điện toán hiệu năng cao (HPC), Phân tích dữ liệu hiệu suất cao (HPDA) và Trí tuệ nhân tạo (AI) cho các tổ chức thương mại, khoa học, học thuật và chính phủ hàng đầu.

Điều gì ban đầu thu hút bạn đến với khoa học máy tính?

Tôi chỉ có vẻ thích làm việc với công nghệ. Tôi thích làm việc với máy tính khi lớn lên; chúng tôi có một modem ở trường cho phép tôi dùng thử Internet và tôi thấy nó rất thú vị. Khi còn là sinh viên năm nhất đại học, tôi đã gặp một nhà khoa học máy tính của USDOE khi đang tình nguyện tham gia National Science Bowl. Anh ấy mời tôi tham quan phòng thí nghiệm HPC của anh ấy và tôi đã bị thu hút. Tôi đã là một người đam mê siêu máy tính kể từ đó.

Bạn đã làm việc tại Red Hat từ năm 2015 đến năm 2019, một số dự án bạn đã thực hiện và những bài học chính của bạn từ trải nghiệm này là gì?

Dự án chính của tôi tại Red Hat là lưu trữ phân tán Ceph. Trước đây tôi đã tập trung hoàn toàn vào HPC và điều này đã cho tôi cơ hội làm việc trên các công nghệ quan trọng đối với cơ sở hạ tầng đám mây. Nó có vần điệu. Nhiều nguyên tắc về khả năng mở rộng, khả năng quản lý và độ tin cậy cực kỳ giống nhau mặc dù chúng nhằm mục đích giải quyết các vấn đề hơi khác nhau. Về mặt công nghệ, điều quan trọng nhất mà tôi rút ra được là đám mây và HPC có rất nhiều điều để học hỏi lẫn nhau. Chúng tôi đang ngày càng xây dựng nhiều dự án khác nhau với cùng một bộ Lego. Nó thực sự giúp tôi hiểu cách các công nghệ hỗ trợ, bao gồm cả vải, có thể hoạt động như thế nào trên các ứng dụng HPC, đám mây và AI. Đó cũng là nơi tôi thực sự hiểu được giá trị của Nguồn mở và cách thực hiện Triết lý phát triển phần mềm ưu tiên nguồn mở, nguồn mở mà tôi đã mang đến Cornelis Networks. Cá nhân tôi, Red Hat là nơi tôi thực sự lớn lên và trưởng thành với tư cách là một nhà lãnh đạo.

Bạn hiện là Phó Chủ tịch Kỹ thuật Phần mềm tại Cornelis Networks, một số trách nhiệm của bạn là gì và một ngày trung bình của bạn như thế nào?

Với tư cách là Phó Chủ tịch Kỹ thuật Phần mềm, tôi chịu trách nhiệm về tất cả các khía cạnh của ngăn xếp phần mềm của Cornelis Networks, bao gồm trình điều khiển Kiến trúc Omni-Path, phần mềm nhắn tin, quản lý kết cấu và hệ thống điều khiển thiết bị nhúng. Cornelis Networks là một nơi thú vị để đến, đặc biệt là trong thời điểm này và thị trường này. Vì thế, tôi không chắc mình có một ngày “trung bình”. Một số ngày, tôi làm việc với nhóm của mình để giải quyết thách thức công nghệ mới nhất. Những ngày khác, tôi tương tác với các kiến ​​trúc sư phần cứng của chúng tôi để đảm bảo các sản phẩm thế hệ tiếp theo của chúng tôi sẽ cung cấp cho khách hàng của chúng tôi. Tôi thường tham gia cuộc họp thực địa với cộng đồng khách hàng và cộng tác viên tuyệt vời của chúng tôi để đảm bảo rằng chúng tôi hiểu và dự đoán nhu cầu của họ.

Cornelis Networks cung cấp mạng thế hệ tiếp theo cho các ứng dụng Trí tuệ nhân tạo và Điện toán hiệu năng cao. Bạn có thể chia sẻ một số chi tiết về phần cứng được cung cấp không?

Phần cứng của chúng tôi bao gồm giải pháp kết cấu mạng loại vải chuyển mạch hiệu suất cao. Để đạt được mục tiêu đó, chúng tôi cung cấp tất cả các thiết bị cần thiết để tích hợp đầy đủ các cấu trúc HPC, đám mây và AI. Omni-Path Host-Fabric Interface (HFI) là thẻ PCIe cấu hình thấp dành cho thiết bị đầu cuối. Chúng tôi cũng sản xuất một bộ chuyển mạch 48 cổng 1U “top-of-rack”. Đối với các triển khai lớn hơn, chúng tôi tạo hai bộ chuyển mạch “cấp giám đốc” được tích hợp đầy đủ; một gói 288 cổng trong 7U và một thiết bị 1152 cổng, 20U.

Bạn có thể thảo luận về phần mềm quản lý cơ sở hạ tầng này và cách nó được thiết kế để giảm độ trễ?

Đầu tiên, nền tảng quản lý nhúng của chúng tôi cung cấp cài đặt và cấu hình dễ dàng cũng như quyền truy cập vào nhiều chỉ số hiệu suất và cấu hình do ASIC chuyển đổi của chúng tôi tạo ra.

Phần mềm trình điều khiển của chúng tôi được phát triển như một phần của nhân Linux. Trên thực tế, chúng tôi gửi trực tiếp tất cả các bản vá lỗi phần mềm của mình tới cộng đồng nhân Linux. Điều đó đảm bảo rằng tất cả khách hàng của chúng tôi đều có khả năng tương thích tối đa trên các bản phân phối Linux và tích hợp dễ dàng với các phần mềm khác như Lustre. Mặc dù không nằm trong đường dẫn độ trễ, nhưng việc có trình điều khiển trong cây giúp giảm đáng kể độ phức tạp của cài đặt.

Trình quản lý kết cấu Omni-Path (FM) định cấu hình và định tuyến kết cấu Omni-Path. Bằng cách tối ưu hóa các tuyến giao thông và phục hồi nhanh chóng sau các lỗi, FM cung cấp hiệu suất và độ tin cậy hàng đầu trong ngành trên các kết cấu từ hàng chục đến hàng nghìn nút.

Omni-Path Express (OPX) là phần mềm nhắn tin hiệu suất cao của chúng tôi, vừa được phát hành vào tháng 2022 năm XNUMX. Phần mềm này được thiết kế đặc biệt để giảm độ trễ so với phần mềm nhắn tin trước đây của chúng tôi. Chúng tôi đã chạy các mô phỏng chính xác theo chu kỳ của đường dẫn mã gửi và nhận để giảm thiểu số lượng lệnh và mức sử dụng bộ đệm. Điều này tạo ra kết quả ấn tượng: khi bạn ở chế độ micro giây, mọi chu kỳ đều có giá trị!

Chúng tôi cũng tích hợp với Giao diện OpenFabrics (OFI), một tiêu chuẩn mở do Liên minh OpenFabrics sản xuất. Kiến trúc mô-đun của OFI giúp giảm thiểu độ trễ bằng cách cho phép phần mềm cấp cao hơn, chẳng hạn như MPI, tận dụng các tính năng kết cấu mà không cần gọi thêm chức năng.

Toàn bộ mạng cũng được thiết kế để tăng khả năng mở rộng, bạn có thể chia sẻ một số chi tiết về cách mạng có thể mở rộng tốt như vậy không?

Khả năng mở rộng là cốt lõi của các nguyên tắc thiết kế của Omni-Path. Ở mức thấp nhất, chúng tôi sử dụng công nghệ lớp liên kết Cray để sửa lỗi liên kết mà không ảnh hưởng đến độ trễ. Điều này ảnh hưởng đến các loại vải ở mọi quy mô nhưng đặc biệt quan trọng đối với các loại vải có quy mô lớn, loại vải thường gặp nhiều lỗi liên kết hơn. Trình quản lý kết cấu của chúng tôi tập trung vào cả việc lập trình các bảng định tuyến tối ưu và thực hiện điều đó một cách nhanh chóng. Điều này đảm bảo rằng việc định tuyến cho cả những loại vải lớn nhất có thể được hoàn thành trong một khoảng thời gian tối thiểu.

Khả năng mở rộng cũng là một thành phần quan trọng của OPX. Việc giảm thiểu việc sử dụng bộ đệm giúp cải thiện khả năng mở rộng trên các nút riêng lẻ có số lượng lõi lớn. Giảm thiểu độ trễ cũng cải thiện khả năng mở rộng bằng cách cải thiện thời gian hoàn thành cho các thuật toán tập hợp. Việc sử dụng các tài nguyên giao diện cấu trúc máy chủ của chúng tôi hiệu quả hơn cho phép mỗi lõi giao tiếp với các đồng nghiệp ở xa hơn. Lựa chọn chiến lược của libfabric cho phép chúng tôi tận dụng các tính năng của phần mềm như điểm cuối có thể mở rộng bằng giao diện tiêu chuẩn.

Bạn có thể chia sẻ một số chi tiết về cách AI được tích hợp vào một số quy trình làm việc tại Cornelis Networks không?

Chúng tôi chưa sẵn sàng nói chuyện với bên ngoài về việc sử dụng và kế hoạch nội bộ của chúng tôi đối với AI. Điều đó nói rằng, chúng tôi ăn thức ăn cho chó của riêng mình, vì vậy chúng tôi có thể tận dụng các cải tiến về độ trễ và khả năng mở rộng mà chúng tôi đã thực hiện cho Omni-Path để hỗ trợ khối lượng công việc AI. Điều đó khiến chúng tôi càng hào hứng hơn khi chia sẻ những lợi ích đó với khách hàng và đối tác của mình. Chúng tôi chắc chắn đã quan sát thấy rằng, giống như trong HPC truyền thống, mở rộng cơ sở hạ tầng là con đường duy nhất phía trước, nhưng thách thức là hiệu suất mạng dễ bị Ethernet và các mạng truyền thống khác kìm hãm.

Một số thay đổi mà bạn thấy trước trong ngành với sự ra đời của AI thế hệ mới là gì?

Trước hết, việc sử dụng trí tuệ nhân tạo AI sẽ giúp con người làm việc hiệu quả hơn – không có công nghệ nào trong lịch sử khiến con người trở nên lỗi thời. Mỗi cuộc cách mạng và phát triển công nghệ mà chúng ta có từ máy tách hạt bông đến máy dệt tự động đến điện thoại, internet và hơn thế nữa đã làm cho một số công việc trở nên hiệu quả hơn, nhưng chúng ta không làm cho nhân loại biến mất khỏi sự tồn tại.

Thông qua việc áp dụng trí tuệ nhân tạo AI, tôi tin rằng các công ty sẽ phát triển công nghệ với tốc độ nhanh hơn vì những người điều hành công ty sẽ có nhiều thời gian rảnh hơn để tập trung vào những tiến bộ đó. Chẳng hạn, nếu AI tổng quát cung cấp dự báo, báo cáo, lập kế hoạch, v.v. chính xác hơn – thì các công ty có thể tập trung vào đổi mới trong lĩnh vực chuyên môn của họ

Tôi đặc biệt cảm thấy rằng AI sẽ biến mỗi chúng ta trở thành một chuyên gia đa ngành. Ví dụ: với tư cách là một chuyên gia phần mềm có thể mở rộng, tôi hiểu các kết nối giữa HPC, dữ liệu lớn, đám mây và các ứng dụng AI thúc đẩy họ hướng tới các giải pháp như Omni-Path. Được trang bị một trợ lý AI tổng quát, tôi có thể tìm hiểu sâu hơn về có nghĩa là của các ứng dụng được sử dụng bởi khách hàng của chúng tôi. Tôi tin chắc rằng điều này sẽ giúp chúng tôi thiết kế phần cứng và phần mềm hiệu quả hơn nữa cho các thị trường và khách hàng mà chúng tôi phục vụ.

Tôi cũng thấy trước một sự cải thiện tổng thể về chất lượng phần mềm. AI có thể hoạt động hiệu quả như “một cặp mắt khác” để phân tích mã tĩnh và phát triển thông tin chuyên sâu về lỗi cũng như các vấn đề về hiệu suất. Điều này sẽ đặc biệt thú vị ở quy mô lớn, nơi các vấn đề về hiệu suất có thể đặc biệt khó phát hiện và tái tạo tốn kém.

Cuối cùng, tôi hy vọng và tin tưởng rằng AI tổng quát sẽ giúp ngành của chúng ta đào tạo và tiếp nhận nhiều chuyên gia phần mềm hơn mà không cần có kinh nghiệm trước đó về AI và HPC. Lĩnh vực của chúng tôi có vẻ khó khăn đối với nhiều người và có thể mất thời gian để học cách “suy nghĩ song song”. Về cơ bản, giống như máy móc giúp sản xuất mọi thứ dễ dàng hơn, AI tổng quát sẽ giúp việc xem xét và suy luận về các khái niệm trở nên dễ dàng hơn.

Có điều gì khác mà bạn muốn chia sẻ về công việc của mình hoặc Cornelis Networks nói chung không?

Tôi muốn khuyến khích bất kỳ ai quan tâm theo đuổi sự nghiệp trong lĩnh vực điện toán, đặc biệt là về HPC và AI. Trong lĩnh vực này, chúng tôi được trang bị các tài nguyên điện toán mạnh nhất từng được chế tạo và chúng tôi sử dụng chúng để chống lại những thách thức lớn nhất của nhân loại. Đó là một nơi thú vị để đến, và tôi đã tận hưởng nó trên mỗi bước đường. AI sáng tạo đưa lĩnh vực của chúng ta lên một tầm cao mới hơn nữa khi nhu cầu nâng cao năng lực tăng lên đáng kể. Tôi nóng lòng muốn xem chúng ta sẽ đi đâu tiếp theo.

Cảm ơn bạn về cuộc phỏng vấn tuyệt vời, độc giả muốn tìm hiểu thêm hãy truy cập Mạng Cornelis.

Một đối tác sáng lập của unity.AI & một thành viên của Hội đồng Công nghệ Forbes, Antoine là một nhà tương lai học người đam mê tương lai của AI và robot.

Ông cũng là người sáng lập của Chứng khoán.io, một trang web tập trung vào đầu tư vào công nghệ đột phá.