スタブ アンドリュー・フェルドマン、Cerebras Systems 共同創設者兼 CEO - インタビュー シリーズ - Unite.AI
私達と接続

記事執筆

アンドリュー・フェルドマン、Cerebras Systems 共同創設者兼 CEO – インタビュー シリーズ

mm

公開済み

 on

アンドリューは、の共同創設者兼 CEO です。 セレブラスシステムズ。 彼はコンピューティング分野の限界を押し上げることに専念する起業家です。 Cerebras に入社する前は、エネルギー効率の高い高帯域幅マイクロサーバーのパイオニアである SeaMicro の共同設立者であり、CEO を務めていました。 SeaMicro は 2012 年に 357 億 10 万ドルで AMD に買収されました。 SeaMicro に入社する前は、Force800 Networks で製品管理、マーケティング、BD 担当副社長を務めていました。Force10 Networks は後に Dell Computing に 2001 億ドルで売却されました。 ForceXNUMX Networks に入社する前は、RiverStone Networks の設立時から XNUMX 年の IPO まで、マーケティングおよび企業開発担当副社長を務めました。Andrew は、スタンフォード大学で学士号と MBA を取得しています。

Cerebras Systems は、AI を加速し、AI 仕事の未来を変えるという唯一の目標に向けて第一原理に基づいて設計された、新しいクラスのコンピューター システムを構築しています。

Cerebras Systems の誕生の経緯を教えていただけますか?

私の共同創設者と私は全員、CTO のゲイリーと私が 2007 年に設立した SeaMicro という以前のスタートアップで一緒に働いていました (2012 年に 334 億 2015 万ドルで AMD に売却されました)。 私の共同創設者は、ゲイリー・ローターバック、ショーン・リー、JP・フリッカー、マイケル・ジェームスなど、業界を代表するコンピューターアーキテクトやエンジニアです。 2 年にバンドを再結成したとき、私たちは XNUMX つのことをホワイトボードに書きました。それは、一緒に働きたいということと、業界を変革する何かを構築して、コンピューター歴史博物館に展示されることです。コンピューティングの殿堂。 昨年、コンピューター歴史博物館が私たちの功績を認め、WSE-XNUMX プロセッサーが人工知能の世界をどのように変革したかを理由にコレクションに追加したとき、私たちは光栄に思いました。

Cerebras Systems は、先駆的なコンピューター アーキテクト、コンピューター科学者、深層学習の研究者、そして大胆不敵なエンジニアリングを愛するあらゆるタイプのエンジニアで構成されるチームです。 私たちが集まったときの使命は、現代の最も重要なワークロードの XNUMX つとして浮上しているディープラーニングを加速する新しいクラスのコンピューターを構築することでした。

私たちは、ディープ ラーニングには、独特で大規模かつ増大する計算要件があることに気づきました。 また、基本的に他の作業用に設計されたグラフィックス プロセッシング ユニット (GPU) などのレガシー マシンには適していません。 その結果、今日の AI は、アプリケーションやアイデアではなく、コンピューティングの可用性によって制約を受けるようになりました。 XNUMX つの新しい仮説のテスト (新しいモデルのトレーニング) には、数日、数週間、場合によっては数か月かかり、計算時間に数十万ドルのコストがかかる場合があります。 それはイノベーションにとって大きな障害となります。

したがって、Cerebras の起源は、白紙の状態からディープラーニング専用に最適化された新しいタイプのコンピューターを構築することでした。 ディープラーニングの膨大な計算需要を満たすために、私たちはこれまでに構築された最大のチップであるウェーハスケール エンジン (WSE) を設計および製造しました。 世界初のウエハースケールプロセッサーを開発するにあたり、私たちは設計、製造、パッケージングにわたる課題を克服しました。これらはすべて、コンピューターの 70 年の歴史全体では不可能と考えられていました。 WSE のすべての要素は、業界最速の AI スーパーコンピューターである Cerebras CS-2 を強化し、前例のない速度と規模でディープ ラーニングの研究を可能にするように設計されています。

AI 作業用にすべてのコンポーネントが最適化されている CS-2 は、他のどのシステムよりも少ないスペースと少ない電力で、より高いコンピューティング パフォーマンスを実現します。 これにより、プログラミングの複雑さ、実時間の計算時間、および解決までの時間が大幅に削減されます。 AI から HPC まで、ワークロードに応じて、CS-2 は従来の代替製品よりも数百倍、数千倍のパフォーマンスを実現します。 CS-2 は、数百の GPU に相当するディープ ラーニング コンピューティング リソースを提供すると同時に、単一デバイスのプログラミング、管理、展開を容易にします。

過去数か月間、セレブラスは世界中で問題を抱えているようです ニュース、新しい Andromeda AI スーパーコンピューターについて教えてください。

昨年 1 月に Andromeda を発表しました。これは、これまでに構築された中で最大かつ最も強力な AI スーパーコンピューターの 120 つです。 13.5 エクサフロップスを超える AI コンピューティングと 16 ペタフロップスの高密度コンピューティングを提供する Andromeda は、2 の CS-XNUMX システムに XNUMX 万個のコアを備えており、大規模な言語モデルのワークロードでほぼ完璧な線形スケーリングを実証した唯一の AI スーパーコンピューターです。 使い方も非常に簡単です。

ちなみに、地球上最大のスーパーコンピューターであるフロンティアには 8.7 万個のコアがあります。 生のコア数では、アンドロメダの方が 100 倍以上大きいです。 明らかに動作は異なりますが、これでその範囲がわかります。約 20,000 テラビットの内部帯域幅、約 XNUMX 個の AMD Epyc コアがそれに供給し、立ち上がるまでに何年もかかる巨大なスーパーコンピューターとは異なり、私たちは Andromeda を XNUMX 日で立ち上げました。その直後、AI はほぼ完璧な線形スケーリングを実現しました。

アルゴンヌ国立研究所は、Andromeda を使用した最初の顧客であり、Polaris と呼ばれる 2,000 GPU クラスターを破壊する問題に Andromeda を適用しました。 問題は、Covid ゲノム全体を配列ウィンドウに配置しながら、Covid ゲノム全体のコンテキストで各遺伝子を分析できるようにしながら、非常に大規模な GPT-3XL 生成モデルを実行することでした。 Andromeda は、10、1、2、4、8 ノードにわたる長い配列長 (MSL 16K) の独自の遺伝的ワークロードを、ほぼ完璧な線形スケーリングで実行しました。 線形スケーリングは、大規模クラスターで最も求められる特性の 15.87 つです。 Andromeda は、単一の CS-16 と比較して、2 の CS-2 システム全体で XNUMX 倍のスループットを実現し、それに匹敵するトレーニング時間の短縮を実現しました。

について教えていただけますか ジャスパーとのパートナーシップ それはXNUMX月下旬に発表されましたが、それは両社にとって何を意味しますか?

ジャスパーは本当に興味深い会社です。 同社はマーケティング用の生成 AI コンテンツのリーダーであり、その製品は世界中の 100,000 人以上の顧客によってマーケティング、広告、書籍などのコピーを作成するために使用されています。 現在、非常にエキサイティングで急速に成長しているスペースであることは明らかです。 昨年、私たちはエンタープライズおよびコンシューマー アプリケーション全体での生成 AI の導入を加速し、精度を向上させるために、彼らとのパートナーシップを発表しました。 Jasper は、Andromeda スーパーコンピューターを使用して、非常に計算量の多いモデルをほんの少しの時間でトレーニングしています。 これにより、生成 AI モデルの適用範囲が大衆に拡大されます。

Cerebras Andromeda スーパーコンピューターの能力を利用して、Jasper は AI 出力をあらゆるレベルのエンドユーザーの複雑さと粒度に適合させるための GPT ネットワークのトレーニングなど、AI 作業を劇的に進歩させることができます。 これにより、生成モデルのコンテキストの精度が向上し、Jasper が複数のクラスの顧客にわたってコンテンツを迅速かつ簡単にパーソナライズできるようになります。

私たちのパートナーシップにより、Jasper は、従来のインフラストラクチャでは非現実的または単純に不可能なことを実行することで生成 AI の未来を発明し、生成 AI の可能性を加速して、世界中で急速に成長している顧客ベースにそのメリットをもたらすことができます。

最近で プレスリリース、国立エネルギー技術研究所とピッツバーグ スーパーコンピューティング センター パイオニアは、Cerebras ウエハースケール エンジンにおける史上初の数値流体力学シミュレーションを発表しました。 ウエハースケールエンジンとは具体的に何なのか、またそれがどのように動作するのか説明していただけますか?

本サイトの ウェーハスケール エンジン (WSE) は、当社の深層学習コンピュータ システム CS-2 用の革新的な AI プロセッサです。 従来の汎用プロセッサとは異なり、WSE は深層学習を高速化するためにゼロから構築されました。WSE には、スパース テンソル演算用に AI に最適化された 850,000 個のコア、大規模な高帯域幅のオンチップ メモリ、および従来のプロセッサよりも桁違いに高速な相互接続が備わっています。クラスターは達成できる可能性があります。 全体として、レガシー マシンのクラスターと同等のディープ ラーニング コンピューティング リソースがすべて XNUMX つのデバイスで提供され、単一ノードとして簡単にプログラムできるため、プログラミングの複雑さ、実時間のコンピューティング時間、および解決までの時間が大幅に削減されます。

当社の CS-2 システムを強化する第 2 世代 WSE-XNUMX は、問題を非常に迅速に解決できます。 対象となる工学システムのリアルタイムの高忠実度モデルを可能にするのに十分な速度。 これは、並列処理を使用して固定サイズの問題の解決時間を短縮する「強力なスケーリング」が成功した稀な例です。

そしてそれが、国立エネルギー技術研究所とピッツバーグ スーパーコンピューティング センターがそれを使用しているものです。 私たちは、約 200 億個のセルで構成される数値流体力学 (CFD) シミュレーションをほぼリアルタイムで実行した、非常に興味深い結果を発表しました。  このビデオ は、流体層が下から加熱され、上から冷却されるときに発生するレイリー ベナール対流の高解像度シミュレーションを示しています。 こうした熱によって駆動される流体の流れは、風の強い日から湖の影響による吹雪、地球の核のマグマ流や太陽のプラズマの動きに至るまで、私たちの周りのいたるところにあります。 ナレーターが言うように、重要なのはシミュレーションの視覚的な美しさだけではありません。シミュレーションを計算できる速度が重要です。 NETL は初めて、ウェーハスケール エンジンを使用して、ほぼリアルタイムでほぼ 200 億セルのグリッドを操作できるようになりました。

どのような種類のデータがシミュレートされていますか?

テストされたワークロードは、数値流体力学 (CFD) の応用である、自然対流とも呼ばれる熱駆動流体の流れでした。 流体の流れは、風の強い日から湖の影響による吹雪、プレートの動きに至るまで、私たちの周囲で自然に発生します。 約 200 億個のセルで構成されるこのシミュレーションは、流体が底部から加熱され、上部から冷却されるときに発生する「レイリー・ベナール」対流として知られる現象に焦点を当てています。 自然界では、この現象はダウンバースト、マイクロバースト、デレチョなどの厳しい気象現象を引き起こす可能性があります。 また、地球の核のマグマの動きや太陽のプラズマの動きにも関与しています。

2022 年 2 月に遡ると、NETL は CS-470 システムを利用した新しい場方程式モデリング API を導入しました。これは、NETL のジュール スーパーコンピューターで可能であったものよりも 2.0 倍も高速でした。 これは、任意の数の CPU または GPU のクラスターが達成できる速度を超える可能性があることを意味します。 WFA は、計算科学の大部分でウェーハスケールの処理を可能にするシンプルな Python API を使用して、従来のコンピューターやスーパーコンピューターでは得られなかったパフォーマンスと使いやすさの向上を実現します。実際、NETL の Joule XNUMX スーパーコンピューター上の OpenFOAM のパフォーマンスを XNUMX 桁以上上回りました。解決までの時間の規模は大きい。

WFA API はシンプルであるため、結果はわずか数週間で達成され、NETL、PSC、Cerebras Systems 間の緊密な連携が継続されています。

WSE 上で CFD (常に遅いオフライン タスクであった) の速度を変えることにより、これや他の多くのコア HPC アプリケーションに対して、大量の新しいリアルタイム ユース ケースを開くことができます。 私たちの目標は、より多くの計算能力を有効にすることで、お客様がより多くの実験を実行し、より良い科学を発明できるようにすることです。 NETL ラボディレクターのブライアン・アンダーソン氏は、これにより、NETL が気候変動の緩和と安全なエネルギーの未来の実現を目指して取り組んでいるいくつかの非常に大きなプロジェクト (炭素隔離やブルー水素製造などのプロジェクト) の設計プロセスが大幅に加速され、改善されるだろうと語った。

Cerebras はスーパーコンピューターのリリースに関して常に競合他社を上回っていますが、最先端のスーパーコンピューター構築の背後にある課題にはどのようなものがありますか?

皮肉なことに、大型 AI の最も困難な課題の XNUMX つは AI ではありません。 それは分散コンピューティングです。

今日の最先端のニューラル ネットワークをトレーニングするために、研究者は多くの場合、数百から数千のグラフィックス プロセッシング ユニット (GPU) を使用します。 そしてそれは簡単ではありません。 GPU のクラスター全体で大規模な言語モデルのトレーニングをスケーリングするには、多くの小型デバイスにワークロードを分散し、デバイスのメモリ サイズとメモリ帯域幅の制約に対処し、通信と同期のオーバーヘッドを注意深く管理する必要があります。

私たちは、スーパーコンピューターの設計にまったく異なるアプローチを採用しました。 大脳のウェーハスケールクラスター、 そしてその Cerebras ウェイト ストリーミング 実行モード。 これらのテクノロジーにより、Cerebras は XNUMX つの重要なポイントに基づいて拡張する新しい方法に取り組んでいます。

CPU および GPU 処理を Cerebras CS-2 システムなどのウェハスケール アクセラレータに置き換えます。 この変更により、許容可能な計算速度を達成するために必要な計算ユニットの数が減少します。

モデル サイズの課題に対処するために、モデル ストレージからコンピューティングを分離するシステム アーキテクチャを採用しています。 CS-2 システムのクラスターに基づくコンピューティング サービス (適切なコンピューティング帯域幅を提供) は、オンデマンドでモデルのサブセットをコンピューティング クラスターに提供するメモリ サービス (大容量のメモリを備えた) と密接に結合されています。 通常どおり、データ サービスは必要に応じてトレーニング データのバッチをコンピューティング サービスに提供します。

CS-2 クラスター全体でのトレーニング作業のスケジューリングと調整のための革新的なモデル。データ並列処理、オンデマンドでストリーミングされるスパースの重みを使用した一度にレイヤーごとのトレーニング、およびコンピューティング サービスでのアクティベーションの保持を採用します。

ムーアの法則の終焉についてはXNUMX年近くにわたって懸念されてきたが、業界はあと何年耐えられるのか、そのためにはどのようなイノベーションが必要なのか?

私たち全員が取り組んでいる問題は、ムーアが書いたムーアの法則が死んだのかどうかということだと思います。 トランジスタをさらに増やすのに XNUMX 年もかかりません。 今ではXNUMX、XNUMX年かかります。 そして、これらのトランジスタは同じ価格ではなく、非常に高い価格で販売されています。 そこで問題は、XNUMX ナノメートルから XNUMX ナノメートル、そして XNUMX ナノメートルに移行しても同じメリットが得られるのかということです。 メリットは小さく、コストがかかるため、ソリューションは単なるチップよりも複雑になります。

著名なコンピュータ アーキテクトであるジャック ドンガラ氏は最近講演し、「私たちは FLOP の作成と I/O の作成においてはるかに上手くなりました。」と述べました。 本当にそうです。 データをオフチップに移動する能力は、チップ上のパフォーマンスを向上させる能力よりも大幅に遅れています。 Cerebras では、彼がそのように言ってくれたことをうれしく思いました。それは、より大きなチップを作り、チップ外に移動するものを減らすという私たちの決定を裏付けるものだからです。 また、チップを搭載したシステムのパフォーマンスを向上させる将来の方法についてのガイダンスも提供します。 より多くの FLOP を絞り出すだけでなく、FLOP を移動し、チップからチップへ、さらには非常に大きなチップから非常に大きなチップへデータを移動する技術にも、やるべき仕事があります。

Cerebras Systems について他に共有したいことはありますか?

良くも悪くも、人々はセレブラをこの「本当に大きなチップを持った人たち」のカテゴリーに入れることがよくあります。 私たちは、非常に大規模なニューラル ネットワークに魅力的なソリューションを提供することができ、それによって面倒な分散コンピューティングを行う必要がなくなりました。 それは非常に興味深いことであり、当社がお客様に愛される理由の核心であると私は信じています。 2023 年の興味深い領域は、より少ない FLOP を使用して、より高いレベルの精度で大規模なコンピューティングを実行する方法です。

スパース性に関する私たちの研究は、非常に興味深いアプローチを提供します。 私たちはゴールラインに向かって進まないような仕事はしませんし、ゼロを掛けるのは悪い考えです。 私たちはまもなくスパーシティに関する非常に興味深い論文を発表する予定で、どのようにしてこれらの効率的な点に到達するか、そしてどのようにしてより少ない電力でそれを達成するかを検討するために、さらなる努力が行われることになると思います。 パワーとトレーニングの軽減だけではありません。 推論に使用されるコストと電力を最小限に抑えるにはどうすればよいでしょうか? スパース性は両方の面で役立つと思います。

詳細な回答をありがとうございます。さらに詳しく知りたい読者は、次のサイトにアクセスしてください。 セレブラスシステムズ.

Unite.AI の創設パートナーであり、 フォーブステクノロジー評議会、 アントワーヌさんは、 未来派 AI とロボット工学の未来に情熱を持っている人。

彼はの創設者でもあります 証券.io、破壊的テクノロジーへの投資に焦点を当てたウェブサイト。