Connect with us

コーリー・サンダース、CoreWeaveのシニア・バイス・プレジデント・プロダクト – インタビュー・シリーズ

インタビュー

コーリー・サンダース、CoreWeaveのシニア・バイス・プレジデント・プロダクト – インタビュー・シリーズ

mm

コーリー・サンダース、CoreWeaveのシニア・バイス・プレジデント・プロダクトは、最も急成長しているAIフォーカスのクラウド・プラットフォームの1つにおける製品戦略と実行を牽引しています。彼は、イノベーションのスケーリング、顧客と協力して目的を特化したソリューションを形作ること、およびAIインフラストラクチャー市場におけるCoreWeaveの地位の強化を担当しています。CoreWeaveに加わる前、サンダースは、20年以上にわたってマイクロソフトで、クラウド・エンジニアリング、業界特有のプラットフォーム、商用ソリューション戦略、および大規模企業パートナーシップを含むシニア・リーダーシップ・ロールで勤務しました。彼は、技術的実行とマーケティング戦略の橋渡しにおける深い経験を持っています。

CoreWeaveは、ハイパフォーマンス・コンピューティングと大規模な人工知能ワークロードのために特別に設計されたAIネイティブ・クラウド・プロバイダーです。同社は、アメリカとヨーロッパ全土にデータセンターの急速に拡大するフットプリントを運営しており、AIトレーニング、推論、および高度なコンピューティングのユースケースに最適化されたGPUアクセラレーテッド・インフラストラクチャーとソフトウェアを提供しています。汎用クラウドではなく、目的を特化したアーキテクチャーに焦点を当てることで、CoreWeaveは、パフォーマンス、スケーラビリティ、および拡大性を求めるAIラボと企業のために、重要なインフラストラクチャー・パートナーになりました。

マイクロソフトでの20年以上のキャリアで、Windowsエンジニアリング、クラウドセールス戦略、Microsoft Cloud for Industryを含むさまざまな役割を経験しました。企業の採用を促す上で、どのような教訓を得たのか、それらの教訓をCoreWeaveでどのように適用していますか?

企業の採用は、特定の顧客の問題を解決することから始まります。イノベーションそのものは、企業にとってあまり重要ではありません。重要なのは、顧客の立場に立って、本当に何が彼らを悩ませているのかを理解することです。たとえば、サポートのコスト、運用の複雑さ、顧客との接続、またはグローバルチームと新製品ラインの管理などです。次に、顧客の問題を解決するサービスを提供する必要があります。顧客は、自分のアプローチでイノベーションを導入することについては、よく積極的です。しかし、最も重要な考慮事項は、顧客の問題を解決することです。製品設計で最も頻繁に起こる間違いは、製品の「クールさ」にすぎることです。消費者市場ではそれが重要性を持つかもしれませんが、企業顧客にとっては、最終的には「クールさ」よりも実用性が重要です。

CoreWeaveは、目的を特化したAIインフラストラクチャーを提供することで知られています。実際的には、製品の観点から見ると、目的を特化したとはどういう意味ですか?汎用クラウド・プラットフォームは、AIワークロードでどのような点で苦労していますか?

目的を特化した最大の利点は、すべての汎用的なユースケースを解決する必要がないため、サービスを提供することに集中できることです。ソフトウェアとハードウェアの両方で例を示します。

ソフトウェアの側面では、私たちのオブジェクト・ストレージ・オファリングとLOTAキャッシュは、特にAIワークロードのキャッシュに焦点を当てています。GPUノードに直接展開し、S3エンドポイントを提供し、GPUリクエストに応じてキャッシュを複数のノードにわたって展開します。これにより、GPUへのスループットが最大7 GB/sまで増加し、汎用クラウドが提供するものを大幅に上回ります。これは、AI特有のワークロード、リード/ライトの分割、クラスターレイアウトについての設計上の仮定を行うことができるため、実現可能です。顧客がこれをデータベースまたは電子商取引サイトのホスティングに使用した場合、同じ影響が得られません。これが目的を特化したソフトウェアの定義です。

ハードウェアの例も同様です。最新のNVIDIA SKUの広範な展開(多くは液体冷却を必要とする)により、CoreWeaveはそれらのニーズをサポートするための特定の専門知識とデータセンター設計を構築しました。汎用クラウドが汎用性のために構築し、後に液体冷却を追加するのではなく、CoreWeaveはAI向けにデータセンターを構築します。これにより、最新のSKUタイプのコストが低減し、可用性が向上します。

以下は、先ほど述べたLOTAキャッシュの画像です。

顧客がAIをスケーリングすることを最初に考える際、多くの場合、GPUへのアクセスのみが必要であると考えています。顧客がモデルのトレーニングや提供を大規模に開始したときに、通常、GPU以外に何が欠けていることがわかりますか?

大量のGPUクラスターでワークロードを実行する複雑さを考えると、周辺サービスが成功の真の原動力となります。これには、ストレージやネットワーキングなどの明らかなものはもちろんのこと、観測可能性、オーケストレーション、セキュリティなどの重要な運用サービスも含まれます。これが、CoreWeaveのミッション・コントロール・オファリングが真正に輝くところです。顧客に、ノードのヘルスとランタイムに関する深い認識を提供し、それを直接オーケストレーション・エンジンに統合します。これにより、顧客は、インフラストラクチャーを1,000個の個別のGPUではなく、1つのまとまりのあるジョブ・エンティティとして扱うことができます。

現在、顧客の成果を改善するために、パフォーマンス、信頼性、コストの予測可能性、開発者エクスペリエンスなど、どのような製品の優先事項に焦点を当てていますか?

コア・プラットフォームでは、パフォーマンス、信頼性、観測可能性に不断に焦点を当てています。顧客がジョブを繰り返し実行できるようにし、各GPUのすべてのTFLOPを活用できるようにする必要があります。そのほかにも、SLURM(誰でも使っているが、誰もが嫌がっている)などのツールで、顧客がすべての機能に精通していない場合のオンボーディングを簡素化することに取り組んでいます。さらに、顧客がイノベーションを始めることを容易にするために、追加のサービスと請求モデルを開発しています。現在、実験することは、容量の制約、3年間のコミットメント、開始するだけで専門家を必要とするなどの高い障壁があるため、驚くほど難しいです。私たちは、AIプラットフォームでのイノベーションの容易さを取り戻したいと思います。

AIワークロードがトレーニング重視から推論重視にシフトするにつれて、インフラストラクチャーの設計と製品ロードマップの決定にどのような影響がありますか?

CoreWeaveの既存の差別化を推論の要件に適用するための重要な機会を生み出します。たとえば、先ほど述べたLOTAキャッシュは、トレーニング中にGPUに給餌することに焦点を当てています。しかし、同じテクノロジーを取り、KVCacheに統合し、強力な推論の差別化要因に変えることができます。同様に、Mission Controlなどのツールは、推論のために非常に重要になります。GPUのヘルスを観測することは、高度に利用可能なエージェントアプリケーションを実行するために不可欠だからです。

今後1〜2年で、AIクラウド市場のリーダーシップを定義するものは何ですか?顧客にとってどのような機能が最も重要になりますか?

リーダーシップは2つのことによって定義されると考えています。1つ目は、トレーニングのためのスケール要件の増加を提供することです。これには、観測可能性、ヘルスモニタリング、自動回復の進歩が必要です。数百から数万にわたるGPUがグローバルに分散している場合、障害への手動での対応は実行不可能です。

2つ目は、推論およびエージェントワークロードのための正しいサービスを提供することです。これには、グローバル展開の機能と、実験を促進するビジネスモデルが必要です。この使用パターンは、クラウドが最初に成長したときに役立ったのですが、AIの時代に多少失われました。それをプラットフォームのサポート、複数のクラウド機能、複数のリージョンの使いやすさを通じて取り戻す必要があります。

以前、ヘルスケア、リテール、金融サービス、製造業、主権クラウドを含む業界特有のクラウド・イニシアチブを牽引しました。これらの業界からの教訓は、AIインフラストラクチャーに直接適用できますか?どれは適用できませんか?

GPUの世代の変化は、新しい複雑さをもたらします。各新しいリリースは、増加した相互接続性、より高いメモリ、より高い電力要件をもたらし、ノードがどのように接続されるか、ソフトウェアがどのように提供されるかについての仮定を再検討する必要があります。リーダーシップの立場を維持するために、この点で執念を持って取り組む必要があります。他方で、最も急速に改善されている分野は、顧客が達成できるスケールの規模です。コンピューティング・フットプリントを拡大するスピードは印象的です。

AIデータセンターとクラスターが拡大するにつれて、どのような運用上の課題が最も解決しづらいものとなっていますか?どれが最も急速に改善されていますか?

GPUの世代の変化は、設計とソフトウェアの新しい複雑さをもたらします。各GPUリリースは、相互接続性の向上、より高いメモリ、より高い電力要件などをもたらし、ノードがどのように接続されるか、ラックがどのように管理されるか、ソフトウェアがどのように提供されるかについての仮定を再検討する必要があります。リーダーシップの立場を維持するために、この作業に取り組む必要があります。最も急速に改善されているのは、顧客が達成できるコンピューティングのスケールです。

AIインフラストラクチャーにおいて、信頼性はアップタイムを超えています。CoreWeaveは信頼性をどのように定義していますか?顧客の観点から見ると、どのような指標が成功を最もよく反映しますか?

スケールでは、顧客にとって最大の考慮事項は、単にジョブを完了することです。大規模な運用では、個々の障害や低下は予想されます。重要なのは、障害や低下に自動的に検出して対応する方法です。ジョブが完了することを保証するために、Mission Controlをより高レベルのサービスであるSUNK(Slurm on Kubernetes)に統合しています。顧客は、数時間または数週間の作業を失うことなく、障害に自動的に対応できます。私たちにとって、成功はノードのアップタイムだけではありません。ジョブの成功が重要です。

今後を見ると、AIインフラストラクチャーにおける主要なシフトはまだ過小評価されていると思います。ハードウェアの進化、スタックの特殊化、主権の要件、または新しい展開モデルに関連していますか?

強化学習(RL)がAIスタックの再生可能な部分としてまだ過小評価されていると考えています。強化学習は新しい分野ではありませんが、最初のLLM開発の波の中で大部分が陰に隠れていました。強化学習は、AIサービスをユーザーの変化するランドスケープに応じてより反応性の高いものにする上で重要な役割を果たすため、再び注目を集めています。したがって、私たちは現在提供しているサーバーレスRLオファリングに非常に興奮しています。

素晴らしいインタビュー、詳細を知りたい読者はCoreWeaveを訪問してください。

アントワーヌは、Unite.AIの創設パートナーであり、ビジョナリーなリーダーです。彼は、AIとロボティクスの未来を形作り、推進するという、揺るぎない情熱に突き動かされています。シリアルエントレプレナーである彼は、AIは電気と同じように社会に大きな変革をもたらすと信じており、破壊的な技術やAGIの潜在能力について熱く語ることがよくあります。

As a futurist、彼は、これらのイノベーションが私たちの世界をどのように形作るかを探求することに尽力しています。さらに、彼は、Securities.ioの創設者であり、未来を再定義し、全セクターを再構築する最先端技術への投資に焦点を当てたプラットフォームです。