インタビュー
アンドリュー・フェルドマン、Cerebras Systemsの共同創設者兼CEO – インタビュー・シリーズ

アンドリューは、Cerebras Systemsの共同創設者兼CEOです。彼は、コンピューティングの分野で境界を押し広げることに尽力している起業家です。Cerebras Systems以前、アンドリューは、エネルギー効率の高い、高帯域幅マイクロサーバーの先駆けであるSeaMicroの共同創設者兼CEOでした。SeaMicroは、2012年にAMDによって3.57億ドルで買収されました。SeaMicro以前、アンドリューは、Force10 Networksの製品管理、営業、マーケティングの副社長でした。Force10 Networksは後に、デルのコンピューティング部門に8億ドルで売却されました。Force10 Networks以前、アンドリューは、RiverStone Networksのマーケティングおよび企業開発の副社長でした。RiverStone Networksは、2001年にIPOを行いました。アンドリューは、スタンフォード大学でBAとMBAを取得しています。
Cerebras Systemsは、新しいクラスのコンピューターシステムを構築しており、その目的はAIを加速し、AIワークの将来を変えることです。
Cerebras Systemsの創設の背景を共有してください。
私の共同創設者と私は、前のスタートアップで一緒に働いていました。私のCTOであるゲイリーと私は、2007年にSeaMicro(2012年にAMDに3.34億ドルで売却された)を共同創設しました。私の共同創設者は、業界を牽引するコンピューターアーキテクトやエンジニアです – ゲイリー・ローターバック、ショーン・リー、JP・フリッカー、マイケル・ジェームズです。2015年に再びチームを結成したとき、私たちはホワイトボードに2つのことを書きました。1つは一緒に働きたいということ、もう1つは業界を変えるものを作りたいということです。コンピューターミュージアムが私たちの業績を認め、WSE-2プロセッサをコレクションに追加してくれたとき、私たちは名誉を感じました。彼らは、人工知能の風景を変えたことを引用しました。
Cerebras Systemsは、先駆的なコンピューターアーキテクト、コンピューターサイエンティスト、ディープラーニング研究者、様々なエンジニアで構成されています。私たちが一緒に来たときの使命は、ディープラーニングを加速するために新しいクラスのコンピュータを構築することでした。
ディープラーニングには、巨大で、増加し続ける計算要求があります。また、グラフィックス処理ユニット(GPU)などのレガシーマシンに適していません。GPUは、基本的に他の作業用に設計されています。結果として、AIは、アプリケーションやアイデアによって制限されるのではなく、コンピューティングの可用性によって制限されています。新しい仮説をテストするだけで、モデルをトレーニングするだけで、数日、数週間、または数ヶ月かかり、コンピューティング時間で数十万ドルかかる場合があります。これは、イノベーションへの大きな障害です。
したがって、Cerebrasの創設は、ディープラーニング専用に最適化された新しいタイプのコンピュータを構築することから始まりました。ディープラーニングの巨大な計算要求を満たすために、史上最大のチップであるWafer-Scale Engine(WSE)を設計および製造しました。世界初のウエハーレベルプロセッサを作成することで、設計、製造、パッケージ化における課題をすべて克服しました。WSEのすべての要素は、業界最速のAIスーパーコンピュータであるCerebras CS-2を動かすことで、前例のない速度とスケールでディープラーニング研究を可能にします。
CS-2は、すべてのコンポーネントがAIワークに最適化されているため、他のシステムよりも小さいスペースと低い電力で、より高いコンピューティング性能を提供します。さらに、プログラミングの複雑さ、ウォールクロックコンピューティング時間、解決時間を大幅に削減します。ワークロードに応じて、CS-2は、AIからHPCまで、レガシーアルタナティブよりも数百倍または数千倍のパフォーマンスを提供します。CS-2は、数百のGPUに相当するディープラーニングコンピューティングリソースを提供しながら、単一デバイスのプログラミング、管理、展開の容易さを提供します。
最近の数ヶ月で、Cerebrasはニュースに頻繁に登場しています。新しいAndromeda AIスーパーコンピュータについて教えてください。
私たちは、Andromedaを去年の11月に発表しました。Andromedaは、史上最大かつ最も強力なAIスーパーコンピュータの1つです。1エクサフロップのAIコンピュートと120ペタフロップの密なコンピュートを提供し、Andromedaには16台のCS-2システムにわたる1,350万コアがあり、大規模な言語モデルワークロードでほぼ完全な線形スケーリングを実証した唯一のAIスーパーコンピュータです。また、使いやすいです。
地球上で最大のスーパーコンピュータであるフロンティアには870万コアがあります。コア数では、Andromedaはそれより1.5倍以上大きいです。異なる作業を行いますが、これはその範囲を示しています。内部バンド幅は約100テラビットで、約20,000のAMD Epycコアがそれを供給し、巨大なスーパーコンピュータが立ち上がるのに数年かかるのとは異なり、Andromedaは3日で立ち上がり、すぐにAIでほぼ完全な線形スケーリングを実現しました。
アーゴンネ国立研究所は、Andromedaを使用した最初の顧客でした。彼らは、2,000のGPUクラスタであるPolarisで壊れていた問題にAndromedaを適用しました。問題は、コビッドの全ゲノムシーケンスウィンドウ内でコビッドの全ゲノムシーケンスを実行する、GPT-3XL生成モデルでした。Andromedaは、1、2、4、8、16ノードで、長いシーケンス長(MSL 10K)を持つ一意の遺伝子ワークロードを実行し、ほぼ完全な線形スケーリングを実現しました。線形スケーリングは、大きなクラスターで最も求められる特性の1つです。Andromedaは、16台のCS-2システムで、15.87倍のスループットを実現し、単一のCS-2システムと比較してトレーニング時間が短縮されました。
11月下旬に発表されたJasperとのパートナーシップについて教えてください。両社にとって何を意味しますか?
Jasperは、非常に興味深い会社です。彼らは、マーケティングのためのジェネレーティブAIコンテンツのリーダーであり、彼らの製品は、世界中の10万を超える顧客によって、コピーの作成、広告、書籍などに使用されています。これは、現在非常に興味深く成長している分野です。去年、私たちは、ジェネレーティブAIの採用を加速し、エンタープライズおよびコンシューマーアプリケーションでのジェネレーティブAIの精度を高めるためにパートナーシップを発表しました。Jasperは、Andromedaスーパーコンピュータを使用して、非常に計算集約的なモデルを短時間でトレーニングすることができます。これにより、ジェネレーティブAIモデルを大規模に拡大することができます。
Andromedaスーパーコンピュータの力により、Jasperは、AIの出力をすべてのエンドユーザーの複雑さと粒度に合わせて、GPTネットワークをトレーニングすることができます。これにより、生成モデルの中文脈精度が向上し、Jasperは、迅速かつ簡単に、さまざまな顧客クラスにわたってコンテンツをパーソナライズすることができます。
私たちのパートナーシップにより、Jasperは、従来のインフラストラクチャでは実現不可能または実用的ではないことを行うことで、ジェネレーティブAIの未来を発明することができます。さらに、ジェネレーティブAIの潜在性を加速し、その利点を世界中の急速に成長している顧客ベースに提供することができます。
最近のプレスリリースでは、国立エネルギー技術研究所とピッツバーグスーパーコンピューティングセンターが、Cerebrasのウエハーレベルエンジンで初の計算流体力学シミュレーションを発表しました。ウエハーレベルエンジンとは何ですか? どうやって動作しますか?
私たちのWafer-Scale Engine (WSE)は、ディープラーニングコンピューターシステムであるCS-2の革命的なAIプロセッサです。レガシーの汎用プロセッサとは異なり、WSEはディープラーニングを加速するために、最初から構築されています。WSEには、スパーステンソル演算用に85万のAI最適化コアがあり、チップ内メモリの帯域幅が大きく、伝統的なクラスターが達成できるよりもはるかに高速なインターコネクトがあります。すべての要素を合わせると、レガシーマシンのクラスターに相当するディープラーニングコンピューティングリソースを、単一のデバイス内に提供し、単一ノードとして簡単にプログラミングできるため、プログラミングの複雑さ、ウォールクロックコンピューティング時間、解決時間を大幅に削減します。
私たちの2世代目のWSE-2は、CS-2システムを動かします。非常に速く問題を解決できます。リアルタイム、高忠実度のモデルを可能にするほど速いです。National Energy Technology LaboratoryとPittsburgh Supercomputing Centerは、CFDシミュレーションにWSEを使用しています。約2,000万セルのCFDシミュレーションを、ほぼリアルタイムで実行しました。 このビデオは、レイリー・ベナール対流を示しています。これは、流体層が下から加熱され、上から冷却されるときに発生します。熱によって駆動される流体の流れは、私たち周囲にあります。風の日、湖の雪嵐、地球の核のマグマ流、太陽のプラズマの運動などです。ナレーターは、そのシミュレーションの視覚的な美しさだけが重要ではないと述べています。計算するスピードが重要です。National Energy Technology Laboratoryは、初めて、Wafer-Scale Engineを使用して、ほぼリアルタイムで約2,000万セルのグリッドを操作することができます。
どのようなデータがシミュレートされていますか?
テストされたワークロードは、自然対流とも呼ばれる熱によって駆動される流体の流れで、計算流体力学(CFD)の応用です。流体の流れは、自然界中にあります。風の日、湖の雪嵐、プレートの運動などです。このシミュレーションは、約2,000万セルで構成されており、レイリー・ベナール対流と呼ばれる現象に焦点を当てています。これは、流体が下から加熱され、上から冷却されるときに発生します。この現象は、自然界では、ダウンバースト、ミクロバースト、デレーチョなどの激しい天候イベントの原因となります。また、地球の核のマグマの運動や太陽のプラズマの運動にも関係しています。
2022年11月、National Energy Technology Laboratoryは、CS-2システムを搭載した、新しいフィールド方程式モデリングAPIを導入しました。これは、National Energy Technology LaboratoryのJouleスーパーコンピュータよりも最大470倍高速でした。これにより、CPUまたはGPUのクラスターが達成できる以上の速度を提供することができます。Wafer-Scale EngineのためのシンプルなPython APIを使用すると、伝統的なコンピュータやスーパーコンピュータでは達成できない、パフォーマンスと使いやすさの向上を実現することができます。実際、National Energy Technology LaboratoryのJoule 2.0スーパーコンピュータでのOpenFOAMを、2桁以上の時間で超越しました。
Wafer-Scale Engine APIのシンプルさにより、結果はわずか数週間で達成され、National Energy Technology Laboratory、Pittsburgh Supercomputing Center、Cerebras Systemsの密接なコラボレーションを続けました。
私たちのWSEを使用してCFDの速度を変えることで、リアルタイムの新しいユースケースを開拓することができます。また、HPCアプリケーションにも役立ちます。私たちの目標は、より多くのコンピューティングパワーを提供することで、顧客がより多くの実験を実行し、より良い科学を発明できるようにすることです。National Energy Technology Laboratoryの研究所長であるブライアン・アンダーソンは、私たちに、気候変動の緩和や安全なエネルギーの将来を実現するために取り組んでいる大規模なプロジェクトで、carbon sequestrationやblue hydrogen productionなどのプロジェクトが大幅に加速化され、改善されることを伝えています。
Cerebrasは、スーパーコンピュータのリリースにおいて競合他社を上回っています。スーパーコンピュータを構築する背後にある課題について教えてください。
皮肉なことに、大きなAIの最も難しい課題は、AIそのものではありません。分散コンピューティングです。
今日の最先端のニューラルネットワークをトレーニングするには、研究者はしばしば数百から数千のグラフィックス処理ユニット(GPU)を使用します。また、簡単ではありません。GPUクラスター全体で大規模な言語モデルをトレーニングするには、作業を多くの小さなデバイスに分散し、デバイスメモリのサイズとメモリ帯域幅の制約を処理し、通信と同期のオーバーヘッドを慎重に管理する必要があります。
私たちは、Cerebras Wafer-Scale ClusterとCerebras Weight Streamingの実行モードの開発を通じて、スーパーコンピュータを設計するためのまったく異なるアプローチを取りました。これらのテクノロジーを使用して、Cerebrasは、3つの重要な点に基づいてスケーリングの新しい方法に取り組んでいます。
1. CS-2システムを含むウエハーレベルのアクセラレータによって、CPUとGPUの処理を置き換えることです。これにより、受け入れられるコンピューティングスピードを達成するために必要なコンピューティングユニットの数が減少します。
2. モデルのサイズに挑戦するために、コンピューティングとモデルストレージを分離するシステムアーキテクチャを採用します。コンピューティングサービスは、CS-2システムのクラスター(十分なコンピューティング帯域幅を提供)と、メモリサービス(大容量メモリを提供)に密接に結合されています。メモリサービスは、コンピューティングサービスにモデルの一部をオンデマンドで提供します。通常、データサービスは、コンピューティングサービスにトレーニングデータのバッチを必要に応じて提供します。
3. CS-2クラスター全体でトレーニング作業をスケジュールおよび調整するための革新的なモデルです。データ並列性、レイヤーごとのトレーニング、オンデマンドでスパースな重みをストリーミングし、コンピューティングサービス内でアクティベーションを保持します。
モアの法則の終焉について、10年近く懸念が持たれてきました。業界はあと何年間、どのような種類のイノベーションが必要ですか?
私たちがすべてが苦しんでいる質問は、モアの法則 – モアによって書かれたもの – が死んでいるかどうかです。2年でより多くのトランジスターを取得するのではなく、4年か5年かかります。また、同じ価格でトランジスターを取得するのではなく、はるかに高い価格で取得します。したがって、質問は、7ナノメートルから5ナノメートル、3ナノメートルへの移行で、同じメリットを得ているかどうかです。メリットは小さくなり、価格は高くなり、解決策はシンプルなものではなくなります。
Jack Dongarraは、最近の講演で、「FLOPSとI/Oの作成が大幅に改善された」と述べました。これは真的です。チップ内のパフォーマンスを向上させる能力は、チップ外へのデータの移動能力をはるかに上回っています。Cerebrasでは、彼がそう言ったときに幸せでした。なぜなら、それが私たちが大きなチップを作成し、チップ外へのデータの移動を減らすという決定を正当化するからです。また、将来のシステムを改善するための方法についての指針も提供します。FLOPSを絞り出すことだけでなく、FLOPSを移動する方法や、チップ間、または非常に大きなチップ間でのデータの移動方法に関する作業が必要です。
Cerebras Systemsについてさらに共有したいことはありますか?
良い面や悪い面に関係なく、人々はCerebrasを「非常に大きなチップの会社」というカテゴリに分類することがよくあります。非常に大きなニューラルネットワークに対する魅力的なソリューションを提供することができました。痛みを伴う分散コンピューティングの必要性を排除しました。これは、私たちの顧客が私たちを愛する理由の核心です。2023年の興味深いドメインは、より高い精度で、大きなコンピューティングをどのように実行するかです。
私たちのスパース性に関する作業は、非常に興味深いアプローチを提供します。私たちは、ゴールラインに近づかない作業は行いません。ゼロを掛けることは悪い考えです。スパース性に関する非常に興味深い論文をすぐに公開する予定です。効率的なポイントに到達する方法、FLOPSの使用を減らす方法、トレーニングと推論の両方でパワーとコストを最小限に抑える方法について、より多くの努力が払われると思います。スパース性は、両方の側面で役立ちます。












