インタビュー
Darrick Horton, COO of TensorWave – Interview Series

Darrick Horton, COO of TensorWave, はテクノロジー企業のエグゼクティブおよび起業家であり、AIインフラストラクチャ、クラウドコンピューティング、および高度なハードウェアシステムに関する深い経験を持っています。データセンターのアーキテクチャ、半導体テクノロジー、および高性能コンピューティングを背景に、次世代のAIコンピュートプラットフォームの拡大に中央的な役割を果たしてきました。TensorWaveでのリーダーシップに先立って、Hortonはロックヘッド・マーティンのSkunk Worksでの核融合研究を含む先端エンジニアリング・イニシアチブに従事し、NASAが資金提供するプラズマ物理学および天体物理学プロジェクトに貢献しました。彼のキャリアは、複雑で大規模な技術的な課題を解決し、それらを新興テクノロジーの実用的なインフラストラクチャ・ソリューションに翻訳することに一貫した焦点を反映しています。
TensorWaveは、AMD GPUによって推進される高性能クラウドコンピューティングを提供するAIインフラストラクチャ企業であり、より閉じたAIエコシステムの代替として位置付けられています。2023年に設立され、ラスベガスに本拠を置くこの会社は、AIモデルをトレーニングおよびデプロイするために最適化された大規模なGPUクラスターを構築しており、パフォーマンス、柔軟性、およびコスト効率に重点を置いています。オープンなハードウェアおよびソフトウェアエコシステムを利用することで、TensorWaveは、企業、研究者、開発者に対して、従来のベンダーロックインの制約なしにスケーラブルなAIワークロードを可能にする、強力なAIコンピュートリソースへのアクセスを拡大することを目指しています。
NvidiaがほとんどのGPU市場を支配している中で、AMDに全力を注ぐことにした理由と、その選択がTensorWaveとその顧客にどのような利点をもたらすのか。
ChatGPTの発売により、AIの需要が急激に高まり、GPUがすぐに売り切れ、NVIDIAはほぼ唯一の選択肢でしたが、コストが高かったため、需要の急増により、NVIDIAの代替ソリューションへの関心が高まりました。現在、初期のブームが過ぎ去った今、コスト効率が良い、使いやすい、そしてアクセスしやすいソリューションでNVIDIAの支配を挑戦する実際的な機会があります。
スタートアップとして、我们は強い焦点と目的を持ってビジネス上の決定を下してきました。したがって、NVIDIAを試したことがなく、AMDの能力を構築し続けてきました。私たちの会社の次の段階は、AIで何か意味のあることを行うために、誰でも簡単に参加できるように、焦点を当てた能力に重点を置くことです。AMDは、実際的な製造スケール、オープンなソフトウェアの姿勢、およびモダンなAIのためのメモリ第一のロードマップを持つ、信頼できる代替手段です。
TensorWaveのAIインフラストラクチャへのアプローチは、従来のGPUクラウドプロバイダーとどう違うのか。
私たちの違いは簡単です。私たちは、スケールでの唯一のAMD専用クラウドであり、AIコンピュートにおける選択肢を回復し、NVIDIAの支配を打ち破り、AIへのアクセスを民主化することを目指しています。ただし、それは私たちのエートスと、真の代替手段を市場に提供するというコミットメントについても言えることです。まず第一に、優れたAMDベースのインフラストラクチャをスケールで提供したいと思います。その後、トップレベルのサービスを提供することを目指しています。モデルのサービス、AIのサービスなど、すべてを簡単にすることを目指しています。
AMD専用クラウドとして、我々は最初からAMD専用のソフトウェア経験を持っています。この焦点により、シリコン、ネットワーキング、およびソフトウェアをエンドツーエンドで最適化し、チームが必要に応じてスケールできるようにします。
TensorWaveの成長と差別化におけるAMDとの戦略的パートナーシップの役割は何ですか。
基盤的なものです。AMDはTensorWaveに投資し、MI300X Instinctの発売に私たちを招待し、ハードウェア、ソフトウェアの有効化、およびエコシステムの成長について密接に協力しています。AMD専用クラウドであることは、各Instinct世代で迅速に動作し、市場内の代替手段を提供する実験室として機能できることを意味します。私たちのAMD専用の違いは、AIインフラストラクチャ市場で達成できるものよりも速いペースで動作できるようにしました。彼らのパートナーシップにより、ギャップを迅速に埋め、最新のGPUで最初に出荷し、スケールでの実際のパフォーマンスを公開できます。
GPUへのアクセスは依然としてAIチームにとっての大きなボトルネックです。TensorWaveはこの課題に対処するために何をしていますか。
我々は、供給の独立性を通じてこれらのボトルネックに取り組んでいます。AMDを構築することで、他のチップメーカーの供給制約の最悪の影響を回避し、利用可能性を顧客に渡します。AMDを通じた供給の独立性により、顧客は他のすべての人が待っているのと同じキューに待たされることはありません。
AIインフラストラクチャエコシステムのギャップは、多くのプレーヤーが同様のソリューションを構築しているため、多くの重複が発生しているためです。那は、市場全体で何が起こっているかについての認識の欠如から生じます。ギャップを埋めるための第一歩は、誰が何をしているか、協力の機会がある場所、競争がイノベーションを推進できる場所、および最終的にエコシステムが全体としてどのように改善できるかを理解することです。AIインフラストラクチャ市場におけるユニークなギャップの1つは電力です。GPUが利用可能であっても、AIアプリケーションの増加をサポートするのに十分なエネルギーが往々にしてありません。これらのリソース課題を解決することは、将来の持続可能な成長とイノベーションを可能にするための私たちの鍵です。
ダイレクト液体冷却やUEC対応ネットワーキング(Universal Ethernet Consortium)などの機能は、パフォーマンスとコスト効率をどのように向上させるのか。
ダイレクト液体冷却とUEC対応ネットワーキングは、スケールでの現代のAIクラウドが経済的に実行可能になるためには基盤的なものであり、TensorWaveを設計する上で中央的な役割を果たしています。
ダイレクト液体冷却について:最新のアクセラレータ世代、AMDのMI355XおよびMI455Xは、空気だけでは効率的に処理できない熱エンベロープで動作します。私たちは、1400W+のTDPを1つあたりのGPUで話しています。ダイレクト液体冷却は、コールドプレートまたは浸没設計を介して熱源で熱を除去し、顧客に3つのことを実現します。第一に、顧客は実質的に高いラック密度を実現できます。30〜40kWではなく、120〜300kW+のラックあたり、フットプリントを圧縮し、メガワットあたりの不動産および電力配布コストを削減します。第二に、PUEを1.4〜1.5のレガシーエア冷却施設から1.1に近づけます。私たちのスケールでは、それは年間の公益事業コストで数千万ドルに相当します。第三に、そして往々にして見落とされるものですが、ダイレクト液体冷却は、長時間のトレーニング実行中に安定したクロックレートを維持するために、シリコンを低温で安定した温度に保持します。那は、6年間の資産を保証する上で非常に重要です。
UECについて:Ultra Ethernet Consortiumの仕様は、AMDが共同設立し、2025年に1.0に達したもので、実際に重要なメトリックでInfiniBandに匹敵する、またはそれを上回る、オープンなマーチャントシリコンファブリックを提供します。コレクティブのテールレイテンシ、コンテンション下での有効帯域幅、10万を超えるGPUのしきい値を過ぎた後のスケーリング動作についてです。コストの話は構造的なものです。イーサネットには、価格で競合する半ダースの信頼できるマーチャントシリコンベンダーがいます。一方、代替の単一ソースソリューションには、よく知られたプレミアムが付きます。100MWのサイトの場合、UEC対応ネットワーキングをプロプライエタリファブリックよりも選択することは、通常、9桁のCAPEX決定であり、運用上の利点は複合して積み上がります。私たちのネットワークエンジニアはすでにイーサネットを知っているからです。
これらの選択肢を組み合わせることで、我々はレガシークラウドよりも優れたトレーニングエコノミーを顧客に提供できます。顧客は、1ドルあたりの有効FLOPSが高く、 大規模ジョブのステップタイムがより予測可能であり、モデルがスケールするにつれて明確な実行可能なパスを確認できます。私たちにとって、それらはより防御可能なコスト構造と、真正に競争力のある料金カードを提供する柔軟性を意味します。
TensorWaveを使用して大規模なAIモデルをトレーニングする顧客の例を共有できますか。
TensorWaveの顧客は、GPUの不足、ベンダーロックイン、またはコストの暴走なしに、高性能AIコンピュートを必要とします。TensorWaveは、オープンで、メモリ最適化され、プロダクション対応の、独自のAMDクラウドを提供し、チームはアクセスしやすく、柔軟で、コスト効率の良いスケーラブルAIインフラストラクチャを提供します。
例えば、Modularは、TensorWaveのAMD GPUインフラストラクチャ上でMAX推論スタックを実行することを選択しました。なぜなら、TensorWaveは、大規模なAI推論のための優れたコストパフォーマンスエコノミーを提供するからです。ModularのMAXをTensorWaveのAMDコンピュートで実行することで、顧客は、他のGPUスタックよりも、1千万トークンあたりのコストが約70%低減され、スループットが57%高速化され、全体的なコストが削減されます。
NVIDIAが引き続き支配的な地位にある中で、TensorWaveのようなチャレンジャーにとって最大の機会はどこにあるのか。
AIコンピュートスペースが数少ない主要プレーヤーによって支配されている場合、最大の課題は、市場に迅速に参入し、最新のテクノロジーを提供し、優れたサポートを提供することです。ハイパースケーラーは幅広い選択肢を提供しますが、顧客が必要とする焦点や個別のガイダンスを提供するのに苦労しています。NVIDIAの支配的地位に挑戦するために、TensorWaveは強みに焦点を当て、最良のテクノロジーを提供するために協力し、顧客が代替の選択肢を持っていることを確認します。
NVIDIAのAIインフラストラクチャの支配に対するチャレンジャーの2つの最大の機会は、オープンエコシステムとメモリです。オープンエコシステムは、ハードウェア、インターコネクト、およびソフトウェアのすべてのレイヤーでロックインを排除します。さらに、メモリとネットワーク最適化トレーニング/推論は、コスト曲線を反転させます。
5年先を見通して、AIインフラストラクチャの将来とTensorWaveの役割をどのように見ていますか。
AIインフラストラクチャの目標は、長い間、それを良くし、安定させ、使いやすくすることでした。次の段階は、それの上に何を提供できるかについてです。管理サービス、AI-as-a-Serviceなど、顧客がより簡単に展開およびスケールできるようにするものです。
私たちは大きな変革の始まりにあります。AIテクノロジーは進化し続けており、AMDのような代替手段はより実行可能になってきています。そうすることで、顧客はそれらを大規模に展開することにより自信を持つようになり、エコシステム全体が開かれ成長し始めるでしょう。
素晴らしいインタビュー、詳細についてはTensorWaveを訪問してください。












