インタビュー
ケビン・タブス、PhD、ペンギン・コンピューティングの戦略ソリューション・グループのシニア・バイス・プレジデント – インタビュー・シリーズ

ケビン・タブス、PhDは、ペンギン・コンピューティングの戦略ソリューション・グループのシニア・バイス・プレジデントです。ペンギン・コンピューティングは、フォーチュン500企業、スタートアップ、学術機関、連邦機関が直面している複雑な科学的、分析的、エンジニアリングの問題を解決するために、ハードウェア、ソフトウェア、クラウド、サービスを含むエンドツーエンドのソリューションをカスタム設計しています。
コンピューターサイエンスの分野に最初に惹かれたのは何ですか?
私の母と父は私が非常に若い頃、コンピューターを買ってくれました。私は常にコンピューターと機械いじりに対する興味と才能を持っていました。教育を通じて、私は一貫してSTEM分野に惹かれ、より応用的な分野に関わるようになりました。私の背景は物理学とハイパフォーマンス・コンピューティング(HPC)です。コンピューターに対する早期の愛は、私が他の科学、数学、またはエンジニアリングの関心事よりもコンピューターサイエンスを優先することを可能にしました。これが私が今日いる位置につながりました。
ペンギン・コンピューティングは、オープン・コンピュート・プロジェクト(OCP)と密接に協力しています。OCPとは何ですか?
オープン・コンピュート・プロジェクト(OCP)運動が始まった以来、ペンギン・コンピューティングは早期の採用者、サポーター、そしてOCPの利点をハイパフォーマンス・コンピューティング(HPC)と人工知能(AI)にもたらすための主要な貢献者でした。
OCPの焦点は、インフラストラクチャ技術の完全なエコシステムを作成するために、開発者たちの世界的なコミュニティを結集することです。このエコシステムは、より効率的、柔軟、スケーラブルなものとして再設計されています。ペンギン・コンピューティングは、OCPのオープン技術とコミュニティの考えに基づいてOCPに参加しました。私たちが時間の経過とともに行ったことは、伝統的なHPCとAIおよびアナリティクスの新しい傾向から生まれた技術と遺産が効率的にスケールできるようにすることです。ペンギン・コンピューティングはそれらのことをOCPに導入しています。
OCPの利点の1つは、総所有コスト(TCO)を低減することです。資本支出の削減は、すべての贅沢な要素を削除することで実現し、運用コストの削減は、フロントからのサービス、共有電力、その他の設計変更によるものです。これにより、OCPベースのテクノロジーはスケールアウトに最適化されます。
ペンギン・コンピューティングには、ペンギン・コンピューティング・タンドラ・エクストリーム・スケール・プラットフォームやペンギン・コンピューティング・タンドラ・APなどのOCP製品があります。タンドラ・プラットフォームは、HPCとAIのワークロードにも互換性があります。
タンドラAPは、私たちの高密度タンドラ・スーパーコンピューティング・プラットフォームの最新世代で、インテル® Xeon® スケーラブル9200シリーズ・プロセッサの処理能力とペンギン・コンピューティングのRelion XO1122eAPサーバーをOCPフォームファクタで組み合わせ、1ラックあたりのCPUコアの高密度を提供します。
ビッグデータの場合、パフォーマンスレベルを最適化するために、ユーザーはデータへのアクセスを遅くするボトルネックを除去する必要があります。ペンギン・コンピューティングはこの問題にどのように取り組んでいますか?
ペンギン・コンピューティングは、オープン技術を活用し、現在のトレンドに迅速に対応する能力を活用して、ビッグデータまたはデータの成長とデータ駆動型ワークロードの問題に対処しています。この問題に対処するために、私たちは戦略ソリューション・グループを構築しました。
問題に対処する際に、私たちは、ほとんどのワークロードが、従来のテクニカル・コンピュートからも、すべてデータ駆動型であることを発見しました。結果として、ペンギン・コンピューティングは、ユーザーのワークロードを理解しようとすることで、完全なエンドツーエンドのソリューションを設計しています。ワークロード最適化されたエンドツーエンド・ソリューションを作成するために、私たちは、オーケストレーションとワークロード・デリバリーを含むワークロード最適化されたソフトウェア・レイヤーに焦点を当てています。基本的に、私たちは、インフラストラクチャをどのように使用するかを理解する必要があります。
次に、私たちはワークロード最適化されたコンピュート・インフラストラクチャに焦点を当てます。さまざまなデータとIOの課題があり、コンピュート部分に多大な圧力がかかります。たとえば、さまざまなワークロードには、CPU、GPU、メモリ帯域幅、データを流し込んで計算するためのネットワークなどの異なる加速コンピュート・インフラストラクチャの組み合わせが必要です。
最後に、私たちはどのようなソリューションがデータの提供を可能にするかを判断する必要があります。私たちは、ワークロード最適化されたデータ・インフラストラクチャを調べて、ワークロードがデータとどのように相互作用するか、容量要件とIOパターンを調べます。私たちがその情報をすべて入手すると、それにより私たちがワークロード最適化されたシステムを設計できます。
一度私たちがすべての情報を入手すると、私たちはペンギン・コンピューティング内の専門知識を活用して設計と完全なソリューションをアーキテクチャします。パフォーマンスの観点から設計されていることを知っているので、どこにデプロイされるか(オンプレミス、クラウド、エッジ、すべての組み合わせなど)を理解する必要があります。これがペンギン・コンピューティングがデータ駆動型ワークロードの最適化されたソリューションを提供するアプローチです。
ディープラーニングの場合、CPUではなくGPUを使用することの重要性について話してください。
ディープラーニング(DL)におけるGPUの重要性に関する最大のトレンドの1つは、汎用GPU(GPGPU)を使用して、データ並列のハードウェアとして、並列コンピューティング問題を大量に加速できるというものです。これは過去10年間続いています。
私は大学院生およびキャリアの初期段階でGPGPUプログラミングの初期段階に参加しました。私は、コンピュート密度のジャンプ、GPUがデバイス上に多数のコンピュートおよびアナリティクス・コアを提供し、サーバー空間に多数のコアを配置できるようにすることで、グラフィックス用に設計されたものをコンピュート・エンジンに転用できるという点で、実際の目覚ましいトレンドであると信じています。
しかし、その多くは、CPUではなくGPUで実行するようにコードを変換および最適化することに依存していました。私たちがすべての作業を行ったとき、私たちは「キラー・アプリケーション」の概念を待っていました。キラー・アプリケーションとは、実際に普及し、またはGPUによって有効化されるアプリケーションまたはユースケースです。GPGPUコミュニティの場合、ディープラーニングがそのキラー・アプリケーションでした。ディープラーニングは、HPCとAIワークロードの加速を促進する取り組みと開発を促進しました。
時間の経過とともに、AIと機械学習(ML)が再浮上し、ディープラーニングが現れました。私たちは、ディープラーニングを使用したニューラルネットワークのトレーニングが、GPUの基礎設計と非常に良く適合することを実際に認識しました。私は、2つのことが収束したときに、ディープラーニングが以前はCPUプロセッサによって可能ではなかったレベルで実行できるようになったと信じています。
GPUが導入されると、AIとディープラーニングの研究開発コミュニティが再び活性化しました。GPUは、以前は効率的に実行できなかったディープラーニングを実行できる、より密なコンピュートを提供します。GPUは、ハードウェア・アーキテクチャの解決策を提供し、研究者や科学者にディープラーニングをより簡単にアクセスできるようにしました。私は、これがGPUがディープラーニングの研究に優れている理由の1つであると信じています。
ペンギン・コンピューティングが提供しているGPUアクセラレーション・コンピューティング・ソリューションをいくつか紹介してください。
ペンギン・コンピューティングは、現在、戦略ソリューション・グループによって作業されているエンドツーエンドのソリューションに焦点を当てています。特に、ペンギン・コンピューティングのAIおよびアナリティクス・プラクティスに焦点を当てています。このプラクティスでは、GPUアクセラレーション・ソリューションに3つのハイレベル・アプローチに焦点を当てています。
まず、エッジ・アナリティクスのリファレンス・アーキテクチャを提供します。ここでは、非伝統的なデータセンター(エッジまたはニア・エッジ)に適合するソリューションを設計しようとしています。これには、テレコム・エッジ・データセンター、店舗、ガソリンスタンドなどが含まれます。これらはすべて、インフェレンスベースのAIソリューションです。ソリューションのいくつかは、ビデオ・アナリティクスを使用したコンタクト・トレーシングとジェスチャー認識(手洗いやマスクの着用を判断する)に使用されます。これらは、完全なソリューションの応用例です。これらのソリューションには、非伝統的な、またはエッジのデプロイに最適化された、そしてソフトウェア・スタックが含まれています。研究者やエンドユーザーがそれらを効果的に使用できるようにします。
ペンギン・コンピューティングのソリューションの2番目のクラスは、データセンターとコアAIトレーニングおよびインフェレンスのリファレンス・アーキテクチャを構築するものです。ここでは、大規模なデータセンター内またはクラウド(ペンギン・コンピューティング・クラウド)で、顧客がディープラーニングを加速するために数千のGPUを使用して大規模なトレーニングを行っていることを想定しています。私たちは、すべてのソフトウェア・ワークロードとコンテナ化をサポートする、完全なソリューションとリファレンス・アーキテクチャを提供する方法を検討しています。GPUの設計とレイアウトを通じて、データ・インフラストラクチャの要件をサポートします。
ペンギン・コンピューティングのこのプラクティスの3番目のリファレンス・アーキテクチャのクラスは、前の2つを組み合わせたものです。私たちがこの3番目のリファレンス・アーキテクチャ・ファミリーで探しているのは、どのようにして継続的な学習を可能にするデータ・ファブリック、パス、ワークフローを作成できるかです。つまり、エッジのGPUアクセラレーション・ソリューションを使用してインフェレンスを実行し、データをプライベートまたはパブリック・クラウドにプッシュし、そこでトレーニングを続行し、新しいトレーニング・モデルが更新されると、インフェレンスに戻します。そうすることで、継続的な学習とAIモデルのイテレーティブなサイクルを実現します。
ペンギン・コンピューティングは最近、インテルとCoolITとのパートナーシップでLLNLに新しいスーパーコンピューターを導入しました。詳細についてお話しください。
ローレンス・リバモア国立研究所(LLNL)に導入されたマグマ・スーパーコンピューターは、国家核安全保障局(NNSA)のCommodity Technology Systems(CTS-1)契約を通じて調達され、インテルXeon Platinum 9200シリーズプロセッサとCoolIT Systemsの完全な直接液体冷却およびOmni-Pathインターコネクトのサポートを備えた最初の導入の1つです。
NNSAのAdvanced Simulation & Computing(ASC)プログラムを通じて資金提供されたマグマは、NNSAのLife Extension Programと、地下核実験のない状況での国の核兵器の安全性、セキュリティ、信頼性を確保するための努力を支援するために設計されています。
マグマ・スーパーコンピューターは、AIによって強化されたHPCシステムであり、AIを使用してHPCモデリングを加速するための統合プラットフォームです。マグマは、2020年6月のTop500リストにランクインし、トップ100に達しました。
CTS-1契約の下で、ペンギン・コンピューティングは、NNSAのASCプログラムをサポートするために、ローレンス・リバモア、ロスアラモス、サンディア国立研究所の3つの国立研究所に22ペタフロップス以上のコンピューティング能力を提供しました。
ペンギン・コンピューティングは、新型コロナウイルスとの戦いでどのような支援を行っていますか?
2020年6月、ペンギン・コンピューティングは、AMDと正式にパートナーシップを結び、アメリカの3つのトップ大学(ニューヨーク大学(NYU)、マサチューセッツ工科大学(MIT)、ライス大学)にHPC能力を提供し、新型コロナウイルスとの戦いに貢献しています。
ペンギン・コンピューティングは、AMDのCOVID-19 HPCファンドと直接パートナーシップを結び、研究機関に大量のコンピューティング・リソースを提供し、新型コロナウイルスおよびその他の疾患に関する医療研究を加速させました。ペンギン・コンピューティングとAMDは、NYU、MIT、ライス大学にオンプレミスおよびクラウドベースのHPCソリューションのコンステレーションを提供することで協力しています。これにより、数百人の科学者が新型コロナウイルスの理解を高めるために貢献できるようになります。
2世代目のAMD EPYCプロセッサとRadeon Instinct MI50 GPUアクセラレータを搭載したシステムは、各大学で1ペタフロップ以上のコンピュート・パフォーマンスを提供する予定です。さらに、ペンギン・コンピューティングのHPCクラウド・サービス、Penguin Computing On-Demand(POD)を通じて、研究者に4ペタフロップのコンピュート・キャパシティが提供されます。合計で、7ペタフロップ以上のGPUアクセラレーション・コンピュート・パワーが、新型コロナウイルスとの戦いに使用されることになります。
受け取る予定の大学は、ゲノミクス、ワクチン開発、伝染病学、モデリングなど、新型コロナウイルス関連のさまざまなワークロードに新しいコンピュート・キャパシティを使用する予定です。
ペンギン・コンピューティングについてさらに共有したいことはありますか?
20年以上にわたり、ペンギン・コンピューティングは、高性能およびテクニカル・コンピューティングの世界にカスタマイズされた革新的なオープン・ソリューションを提供してきました。ペンギン・コンピューティングのソリューションにより、組織はコンピュート・環境で最新のテクノロジーを活用するための柔軟性と自由度を得ることができます。組織は、基盤となるテクノロジーにではなく、製品やアイデアを市場に最速で提供することにリソースを集中できます。ペンギン・コンピューティングのAI/ML/アナリティクス、HPC、DataOps、クラウドネイティブ・テクノロジーのための幅広いソリューションは、カスタマイズおよび組み合わせることができ、現在のニーズに適合するだけでなく、将来的にもテクノロジーの変化に迅速に対応できます。ペンギン・コンピューティングのプロフェッショナルおよびマネージド・サービスは、ソリューションの統合、実装、管理を支援します。ペンギン・コンピューティングのホスティング・サービスは、コンピュート・環境の「どこ」について、所有権の選択肢と柔軟性を提供し、オンプレミス、パブリック・クラウド、専用クラウド、ホスティング、またはサービスとして実行できるようにします。
素晴らしいインタビュー、詳しく知りたい読者はペンギン・コンピューティングを訪問してください。












