インタビュー
Ben Koska, SF Tensorの創設者兼CEO – インタビュー・シリーズ

Ben Koska、SF Tensorの創設者兼CEOは、ハイパフォーマンス・コンピューティング、カーネル最適化、効率的なモデル・トレーニングに関する研究で知られるAI研究者およびシステム・エンジニアです。彼の背景は、低レベルAIインフラストラクチャの開発、トレーニング・スループットの改善、先進的なモデル開発を重量的なエンジニアリング・オーバーヘッドなしに可能にするツールの設計にわたります。彼は、速度、移植性、異種ハードウェア全体での信頼性の限界を突き進めるシステムを構築することに焦点を当てています。
SF Tensorは、彼がその哲学を実践的なプラットフォームに変えるために率いる会社です。統一されたプログラミング・モデル、カーネル・オプティマイザー、クロス・クラウド・オーケストレーション・レイヤーを導入し、分散AIワークロードの複雑さを除去します。プラットフォームは、エンジニアにクリーンでハードウェアに依存しない環境を提供し、そこで彼らは一度書き込み、どこにでもデプロイし、自動的に高パフォーマンスを達成できるように設計されています。SF Tensorの使命は、AIコンピューティングを劇的に高速化し、管理を容易にし、ベンダー・ロックインから解放することです。
あなたは19歳でSF Tensorを設立し、すでに複数のスタートアップでエンジニアリングを率いていました。AIインフラストラクチャを再発明するという課題に取り組むきっかけとなったものは何ですか?
私たちが解決しようとしている問題は、私自身が直面した問題です。当時、SF Tensorのコア・スタックを開発していたとき、商業プロジェクトではなく、学術的な取り組みでした。私たちは、非常に興味深い研究を行うための補助金を得ましたが、ほとんどの時間をインフラストラクチャと最適化のトラブルシューティングに費やしました。私たちは、人々が私たちのインフラストラクチャ・テクノロジーに、研究プロジェクトよりも大きな関心を持っていることを発見しました。
SF Tensorは、NVIDIAのCUDAの優位性から脱却するという、AIで最も難しい問題の1つに取り組んでいます。ハードウェアの移植性を損なわずにパフォーマンスを達成するシステムを設計するために、あなたはどのようにアプローチしましたか?
結局、すべてのAIは単純な数学に帰着します。各モデルは、結果を計算するために必要な数学的演算のセットです。数学的な問題としてではなく、コンピュータ・サイエンスの問題として扱うことで、計算の最小の制約セットを特定し、計算を機械語に変換するために数百万から数十億の異なる方法を生成し、最も速いものを見つけることができます。ただし、実際に数百万の異なるプログラムを実行して最も速いものを見つけることはできないため、検索空間を絞り込むために、特定のハードウェアのプログラムの速度を推定するための正確な数学モデルを開発する必要がありました。これは、私たちが今日行っていることを可能にする核心的なイノベーションの1つです。
会社のブログは、コンパイラ最適化とクロス・クラウド・オーケストレーションに関するイノベーションを強調しています。SF Tensorのアプローチは、PyTorchやJAXなどの既存のフレームワークとどのように異なりますか?
まだ技術的なブログ記事を書いていませんが、実際にはPyTorchやJAXなどのフレームワークをサポートしており、コードを私たちのスタックで最適化できるようにしています。JAXとPyTorchが行ったいくつかのアーキテクチャ上の決定は、私たちのスタックと異なりますが、最も重要なのは、個々のモジュールではなく、モデル全体を単一の計算として扱うという点です。従来のコンパイラ最適化技術を適用し、個々の最適化を適用するのではなく、数百万から数十億のカーネルを生成し、どのコードも最速のコードに変換するためのルールのセットを作成することは不可能であると主張し、代わりにすべての組み合わせを作成し、最も速いものを見つける必要があります。
多くのスタートアップはトレーニング効率に焦点を当てていますが、あなたは「インフラストラクチャ税」という概念、つまり研究者がコンピューティングを管理する時間を無駄にしていることを強調しています。SF Tensorはこの不均衡をどのように解決しますか?
私たちは、両方の問題に対処する必要があると考えています。私たちの多くの仕事はトレーニング効率の向上に費やされていますが、将来のイノベーションに依存することなくすでに解決した問題はインフラストラクチャ税です。
あなたはトレーニング・コストを最大80%削減できることを示しています。どのような最適化やアーキテクチャ上のブレークスルーがこれを可能にしますか?
私たちのソフトウェア・スタックは、検索ベースのコンパイラが人間が作成したルールを常に上回るという考えに基づいて構築されています。現在、コンパイラの最大の制約は、数百万から数十億のカーネルをベンチマークし、ランク付けすることが不可能であるということです。したがって、計算の時間を特定のハードウェアで推定できるコンピューティングの数学モデルを作成する必要がありました。そうすることで、検索空間を拡大し、絞り込むことができます。これは、最速のカーネルを見つけるために必要です。
Emmaプログラミング言語の構築に関するあなたのバックグラウンドは、SF Tensorのアーキテクチャとパフォーマンスおよび抽象化へのアプローチにどのような影響を与えましたか?
投資家に言わないでくださいが、私の心の底ではまだコンパイラ・エンジニアです。私は常にものをわずかにでも速くする方法を見つけることに興味を持っています。Emmaを開発する際に、コンパイラを4回または5回捨てました。各時点で、現在の制約で実装できない最適化に遭遇したため、システムを再設計する必要がありました。一般的なコンパイラおよび言語設計の原則に反することもありましたが、最低レベルの最適化が可能になるようにしました。Emmaでの学びと結果として得られたアーキテクチャは、ほぼ2年間にわたる微小な最適化と誤った賭けの蓄積であり、現在、私たちがより迅速にイテレートし、最適化できるシステムに発展しました。
あなたは4,000以上のGPUを使用した大規模なトレーニング・ランを管理しました。コンピューティングをその規模で管理することで得られた最大の教訓は何ですか?
ハードウェアの故障がかなり多く、問題も多いということです。従来のプログラムやコンパイラと仕事をしてきた人にとって、コンピューターはほぼ正確に動作し、問題が発生した場合は、コードを書いた人のミスであることがほとんどです。GPUの場合は、ハードウェアの故障がかなり多く、特に大規模なクラスターでの分散トレーニング・ランでは問題が大きくなります。GPUは、明らかな理由もなく時計周波数を低下させ、トレーニング・プロセス全体を遅くすることがあります。
Y Combinatorは、テクノロジー界で最も変革的なインフラストラクチャ・会社のいくつかを支援してきました。Y Combinatorでの経験は、SF Tensorの製品とビジョンの拡大にどのような影響を与えましたか?
Y Combinatorに入る前に、私たちが当時行おうとしていた賭けは、野心的であると思っていました。ただし、数週間後、私たちの野心の定義は劇的に変わり、さらに大きな賭けに賭けることにしました。さらに、コミュニティや学びの感覚が、私たちが問題に対処する方法や、より協力的なアプローチを取り入れる方法を変えました。
あなたは、非LLMモデル、ロボティクス、合成データに関する興味を表明しています。これらの分野は、会社の長期的なビジョンにどのようにフィットしますか?
LLMは確かに興味深いテクノロジーであり、将来の世界の姿を形作る上で重要な役割を果たすでしょう。しかし、LLMが他のAI分野よりも進歩している理由は、LLMの開発に多くの資金が投資されており、多くの人が協力して問題を最適化しているからです。私たちがエントリーバリアを下げ、研究者が限られたリソースや最適化の知識を持たない場合でも、可能な限り安価で効率的に研究を行えるようにすることができれば、LLMに適さない問題を解決できる新しいモデルの世代が現れると考えています。
あなたは、5年後のAIインフラストラクチャ・スタックがどのように見えるか、SF Tensorの役割はどのように見えますか?
5年後、私は、多くの会社が独自の専用チップを開発し、リリースしていることを願っています。研究者は、コードを特定のチップ用に書かなくても、チップの存在を知らなくても、チップを活用できるようになっていることを願っています。私たちが目指している未来であり、私たちが大きな役割を果たすことになるでしょう。
素晴らしいインタビュー、詳細を知りたい読者はSF Tensorを訪問してください。












