スタブ Cornelis Networks ソフトウェア エンジニアリング担当副社長、Doug Fuller 氏 - インタビュー シリーズ
私達と接続

記事執筆

Cornelis Networks ソフトウェア エンジニアリング担当副社長、Doug Fuller – インタビュー シリーズ

mm

公開済み

 on

Doug はソフトウェア エンジニアリング担当副社長として、 コーネリスネットワークス' ソフトウェア スタックには、オムニパス アーキテクチャ ドライバー、メッセージング ソフトウェア、組み込みデバイス制御システムが含まれます。 Cornelis Networks に入社する前は、Doug は Red Hat でクラウド ストレージとデータ サービスのソフトウェア エンジニアリング チームを率いていました。 HPC とクラウド コンピューティングにおける Doug のキャリアは、エイムズ国立研究所のスケーラブル コンピューティング研究所で始まりました。 大学の研究コンピューティングでいくつかの役割を果たした後、Doug は 2009 年に米国エネルギー省のオークリッジ国立研究所に入社し、世界クラスのオークリッジ リーダーシップ コンピューティング施設で新技術の開発と統合を行いました。

Cornelis Networks は、ハイ パフォーマンス コンピューティング (HPC)、ハイ パフォーマンス データ分析 (HPDA)、および人工知能 (AI) 向けの専用高性能ファブリックを、主要な商業、科学、学術、政府機関に提供するテクノロジー リーダーです。

最初にコンピューター サイエンスに惹かれたのは何ですか?

テクノロジーを扱うことを楽しんでいるように見えました。 私は幼い頃からコンピューターを扱うのが楽しかったです。 学校にはインターネットを試せるモデムがあり、それが面白いと思いました。 大学の新入生だった私は、ナショナル サイエンス ボウルのボランティア活動中に USDOE の計算科学者に会いました。 彼は私を彼の HPC 研究室の見学に招待してくれました。そして私はすっかり虜になってしまいました。 それ以来、私はスーパーコンピューターのオタクです。

あなたは 2015 年から 2019 年まで Red Hat で働いていましたが、取り組んだプロジェクトとこの経験から得た重要な点は何でしたか?

Red Hat での私の主なプロジェクトは Ceph 分散ストレージでした。 私はこれまで HPC に専念していましたが、これによりクラウド インフラストラクチャにとって重要なテクノロジに取り組む機会が得られました。 韻を踏んでいます。 スケーラビリティ、管理容易性、および信頼性の原則の多くは、わずかに異なる問題を解決することを目的としているにもかかわらず、非常に似ています。 テクノロジーに関して、私が最も重要に感じたことは、クラウドと HPC は互いに学ぶべきことがたくさんあるということです。 同じレゴ セットを使ってさまざまなプロジェクトを構築することが増えています。 ファブリックを含む実現テクノロジーが HPC、クラウド、AI アプリケーションにどのように影響するかを理解するのに非常に役立ちました。 ここは、私がオープン ソースの価値と、私が Cornelis Networks に持ち込んだオープン ソース、上流優先のソフトウェア開発哲学を実行する方法を本当に理解するようになった場所でもあります。 個人的には、Red Hat は私がリーダーとして本当に成長し、成熟した場所でした。

あなたは現在、Cornelis Networks のソフトウェア エンジニアリング担当副社長を務めていますが、どのような責任を負っていますか?また、平均的な XNUMX 日はどのような感じですか?

私はソフトウェア エンジニアリング担当副社長として、オムニパス アーキテクチャ ドライバー、メッセージング ソフトウェア、ファブリック管理、組み込みデバイス制御システムなど、Cornelis Networks のソフトウェア スタックのあらゆる側面を担当しています。 Cornelis Networks は、特にこの瞬間とこの市場において、エキサイティングな場所です。 そのため、自分が「平均的な」 XNUMX 日を過ごしているのかどうかわかりません。 チームと協力して最新のテクノロジーの課題を解決する日もあります。 また別の日には、次世代製品がお客様に提供できるかどうかを確認するために、ハードウェア アーキテクトと対話しています。 私は頻繁に現場で顧客や協力者からなる素晴らしいコミュニティと会い、彼らのニーズを理解し、予測していることを確認しています。

Cornelis Networks は、ハイ パフォーマンス コンピューティングおよび AI アプリケーション向けの次世代ネットワーキングを提供しています。提供されているハードウェアについて詳しく教えていただけますか?

当社のハードウェアは、高性能スイッチファブリック型ネットワークファブリックソリューションで構成されています。 そのために、HPC、クラウド、AI ファブリックを完全に統合するために必要なすべてのデバイスを提供します。 オムニパス ホスト ファブリック インターフェイス (HFI) は、エンドポイント デバイス用のロープロファイル PCIe カードです。 また、48 ポート 1U の「トップオブラック」スイッチも製造しています。 大規模な導入の場合、完全に統合された 288 つの「ディレクタークラス」スイッチを作成します。 7 つは 1152U に 20 ポートを搭載し、もう XNUMX つは XNUMX ポートの XNUMXU デバイスです。

このインフラストラクチャを管理するソフトウェアと、それがどのように設計されているかについて説明していただけますか? レイテンシーを減らすには?

まず、当社の組み込み管理プラットフォームは、簡単なインストールと構成を提供するだけでなく、当社のスイッチ ASIC によって生成されるさまざまなパフォーマンスおよび構成メトリクスへのアクセスを提供します。

当社のドライバー ソフトウェアは、Linux カーネルの一部として開発されています。 実際、私たちはすべてのソフトウェア パッチを Linux カーネル コミュニティに直接送信しています。 これにより、すべてのお客様が Linux ディストリビューション間で最大限の互換性を享受し、Lustre などの他のソフトウェアと簡単に統合できるようになります。 レイテンシ パスには含まれていませんが、ツリー内ドライバーを使用すると、インストールの複雑さが大幅に軽減されます。

Omni-Path ファブリック マネージャー (FM) は、Omni-Path ファブリックを構成し、ルーティングします。 FM は、トラフィック ルートを最適化し、障害から迅速に回復することにより、数十から数千のノードに及ぶファブリック上で業界をリードするパフォーマンスと信頼性を提供します。

Omni-Path Express (OPX) は、2022 年 XNUMX 月に最近リリースされた当社の高性能メッセージング ソフトウェアです。これは、当社の以前のメッセージング ソフトウェアと比較して遅延を短縮するように特別に設計されました。 命令数とキャッシュ使用率を最小限に抑えるために、送信および受信コード パスのサイクル精度の高いシミュレーションを実行しました。 これにより、劇的な結果がもたらされました。マイクロ秒の体制では、すべてのサイクルが重要になります。

とも統合しました。 オープンファブリックインターフェイス (OFI)、OpenFabrics Alliance によって作成されたオープン スタンダード。 OFI のモジュラー アーキテクチャは、MPI などの上位レベルのソフトウェアが追加の関数呼び出しを行わずにファブリック機能を活用できるようにすることで、遅延を最小限に抑えるのに役立ちます。

ネットワーク全体もスケーラビリティを高めるように設計されていますが、どのようにしてこれほどうまく拡張できるのかについて詳しく教えていただけますか?

スケーラビリティは、Omni-Path の設計原則の中核です。 最下位レベルでは、Cray リンク層テクノロジーを使用して、遅延に影響を与えることなくリンク エラーを修正します。 これはあらゆるスケールのファブリックに影響しますが、必然的にリンク エラーが多く発生する大規模なファブリックでは特に重要です。 当社のファブリック マネージャーは、最適なルーティング テーブルをプログラミングすることと、それを迅速に実行することの両方に重点を置いています。 これにより、最大のファブリックのルーティングも最小限の時間で完了できるようになります。

スケーラビリティも OPX の重要な要素です。 キャッシュ使用率を最小限に抑えると、コア数が多い個々のノードのスケーラビリティが向上します。 レイテンシを最小限に抑えると、集合アルゴリズムの完了までの時間が短縮され、スケーラビリティも向上します。 ホスト ファブリック インターフェイス リソースをより効率的に使用すると、各コアがより多くのリモート ピアと通信できるようになります。 libfabric を戦略的に選択することで、標準インターフェイスを使用したスケーラブルなエンドポイントなどのソフトウェア機能を活用できるようになります。

Cornelis Networks の一部のワークフローに AI がどのように組み込まれているかについて詳しく教えていただけますか?

私たちは、社内での AI の使用法や計画について、外部に話す準備がまだ整っていません。 そうは言っても、私たちは自分のドッグフードを食べるので、AI ワークロードをサポートするために Omni-Path に加えられたレイテンシとスケーラビリティの強化を活用することができます。 これらのメリットをお客様やパートナーと共有できることに、私たちはさらに興奮しています。 従来の HPC と同様に、インフラストラクチャのスケールアウトが唯一の前進であることは確かにわかっていますが、課題は、ネットワーク パフォーマンスがイーサネットやその他の従来のネットワークによって簡単に抑制されてしまうことです。

生成 AI の出現により、業界ではどのような変化が予想されますか?

まず、生成 AI の使用により人々の生産性が向上します。歴史上、人間を時代遅れにしたテクノロジーはありません。 綿繰り機から自動織機、電話、インターネットなどに至るまで、私たちがこれまでに経験してきたすべてのテクノロジーの進化と革命は、特定の仕事をより効率的にしましたが、人類を消滅させたわけではありません。

生成 AI の適用により、会社の経営者が技術の進歩に集中できる自由な時間が増えるため、企業はより速い速度で技術的に進歩すると思います。 たとえば、生成 AI がより正確な予測、レポート、計画などを提供すれば、企業は専門分野のイノベーションに集中できるようになります。

私は特に、AI によって私たち一人ひとりが多分野の専門家になると感じています。 たとえば、私はスケーラブル ソフトウェアの専門家として、HPC、ビッグ データ、クラウド、AI アプリケーション間のつながりを理解して、それらを Omni-Path のようなソリューションへと導きます。 生成型 AI アシスタントを搭載しているので、より深く掘り下げることができます。 意味 お客様が使用するアプリケーションの一部。 これが、当社がサービスを提供する市場や顧客向けにさらに効果的なハードウェアとソフトウェアを設計するのに役立つことは間違いありません。

また、ソフトウェアの品質も全体的に向上すると予想しています。 AI はコードを静的に分析し、バグやパフォーマンスの問題に対する洞察を得る「もう XNUMX つの目」として効果的に機能します。 これは、パフォーマンスの問題の発見が特に難しく、再現に費用がかかる大規模な場合に特に興味深いものになります。

最後に、私は生成 AI が、AI や HPC の経験のないより多くのソフトウェア専門家を業界が訓練し、採用するのに役立つことを期待し、信じています。 私たちの分野は多くの人にとって困難に思えるかもしれませんし、「並行して考える」ことを学ぶには時間がかかる場合があります。 基本的に、機械によって物の製造が容易になったのと同じように、生成 AI によってコンセプトの検討や推論が容易になります。

あなたの仕事や Cornelis Networks 全般について他に共有したいことはありますか?

興味のある人には、コンピューティング、特に HPC と AI の分野でのキャリアを追求することをお勧めします。 この分野では、私たちはこれまでに構築された中で最も強力なコンピューティング リソースを備えており、それらを人類の最大の課題に対処します。 ここはエキサイティングな場所で、私はあらゆる段階で楽しんできました。 能力向上への需要が大幅に高まる中、生成 AI は私たちの分野をさらに新しい高みに引き上げます。 次にどこへ行くのか楽しみです。

素晴らしいインタビューをありがとうございました。さらに詳しく知りたい読者は、こちらをご覧ください。 コーネリスネットワークス.

Unite.AI の創設パートナーであり、 フォーブステクノロジー評議会、 アントワーヌさんは、 未来派 AI とロボット工学の未来に情熱を持っている人。

彼はの創設者でもあります 証券.io、破壊的テクノロジーへの投資に焦点を当てたウェブサイト。