ソートリーダー
計算パワーの聖杯:AIにおける計算能力の重要性

驚くべき進歩にもかかわらず、人工知能の能力は、現実世界の期待と比較してまだ制限されています。私たちは複雑なモデルを構築し、ニューラルネットワークを実行し、アルゴリズムをテストしますが、時には予想外の場所で進歩が停滞します。
問題は、アルゴリズムやデータではなく、計算能力、つまりモデルが必要なスケールで学習し、動作することを可能にするリソースにあることが多いです。では、この障壁の背後にあるものは何ですか?計算能力の重要性を理解するために、モバイル通信の歴史から始めましょう。
計算能力の不足とその結果
このテーマを理解するために、モバイル通信の歴史から始めましょう。3Gと4Gネットワークが登場したとき、インターネットはすでにほぼ世界中に広まっていました。5Gが導入されたとき、多くの人は妥当な質問をしました:「インターネットはより速くなりますが、どのように?」
実際には、インターネットの速度の向上はユーザーの利便性にのみ関係しません。技術的な景観全体が変わります。以前は不可能だったユースケースが現れます。5Gは4Gよりもはるかに速く、この飛躍は1Gから2Gへの移行のように漸進的なものではなく、指数関数的なものでした。結果として、新しいアプリケーション、デバイス、技術の全てのクラスが現れました。
信号機のカメラ、リアルタイムの交通分析システム、自動交通制御メカニズム – すべてこれらは、新しい通信技術の登場により可能になりました。警察はデータの交換方法を新たに得ました。宇宙では、望遠鏡や衛星が地球に大量の情報を送信できるようになりました。基礎技術の質的飛躍は、全エコシステムの発展を促進します。
同じ原理が計算能力にも適用されます。人間の総計算能力を仮想的な単位で表してみましょう。今日、私たちが持っているものは、たとえば10の単位です。私たちが持っているものは、10の単位です。これらで、画像や動画を生成し、テキストを書き、営業資料を作成することができます… これはすでにかなり大きなものですが、アプリケーションの範囲は主に制限されています。
今、10の単位ではなく、1000の単位を持っているとします。突然、以前はあまりに高価で実行できなかった技術が実行可能になり、計算コストの高さのために放棄されたスタートアップが経済的に意味のあるものになります。
ロボタクシーを例に挙げてみましょう。今日、ロボタクシーは主に車に搭載された比較的弱いローカルコンピューターに依存しています。しかし、ビデオフィードを大量の計算リソースを持つクラウドに転送し、データをリアルタイムで処理して返せば、ロボタクシーの業界が完全に機能するようになります。車が100 km/hで走行しているとき、車はfractions of a secondで決定を下さなければなりません – 直進、曲がり、ブレーキ、またはブレーキしない。
これが、完全に機能するロボタクシーの業界が可能になるわけです。今見られるような孤立した解決策ではなく、完全な解決策です。車に搭載されたローカルコンピューターは、接続されたシステムとは根本的に異なり、制限を受けることになります。スケールアップするほど、世界は変化します。
AIにおけるチップへのアクセスと「ゴールデンチケット」
計算能力の文脈では、次の質問が生じます。AI市場への参入のための「ゴールデンチケット」は、モダンチップへのアクセスになりますか?大手企業がチップメーカーと契約を結んだり、チップを自社で生産したりしているため、企業間のギャップが生じていますか?
そのようなギャップは、ビジネスモデルが大口顧客へのチップの販売のみに焦点を当てている場合にのみ生じます。実際には、NVIDIAのようなメーカーは、クラウドソリューションをすべてのユーザーに提供することを目指しています。彼らの最適化されたチップは、クラウドでOpenAIや独立した開発者に利用可能です。
Google、Anthropic、Microsoft、OpenAI、Amazon、NVIDIAなどの企業間の戦略的提携は、市場を閉鎖しようとするものではなく、共有リソースの活用を目的としたパートナーシップです。このモデルにより、計算能力の効率的な割り当てが可能になり、技術の開発が促進されます。
計算リソースの使用を追跡すると、エンドユーザーから始まります。たとえば、WhatsAppを使用してビデオ通話やメッセージを送信する場合、会社はサービスが動作することを保証しなければなりません。データを保存して処理し、ビデオのクリーンアップのためのモデルを実行し、エフェクトを追加し、画像の品質を向上させます。
独自のサーバーを維持することは高価で、古くなり、常にメンテナンスが必要です。そのため、クラウドソリューション、つまり「クラウド」が登場しました。市場は、Google Cloud、AWS、Microsoft Azureの3大プレーヤーによって支配されています。他の会社はこのレベルで競争することができません。インフラの規模があまりに大きいためです。
クラウドサービスは、冷却、電力供給、24時間のメンテナンスを備えた巨大なデータセンターです。NVIDIA、AMD、その他のメーカーのサーバーと専用チップが設置されており、大規模な計算プロセスを可能にします。
ここで、私が以前のコラムでデータセンターについて議論したことを繰り返します。システムのボトルネックは何ですか?電気の不足ですか?データセンターを特に厳しい気候の地域で冷却するのが難しいですか?実際の秘密はチップ自体にあります…
聖杯
なぜNVIDIAは現在約5兆ドルの時価総額で世界で最も成功している公開企業の1つと見なされているのでしょうか?理由は簡単です。NVIDIAは、AIモデルをトレーニングして実行するためのチップを生産しているからです。
これらのチップは、巨大なモデルをトレーニングしたり、増え続けるデータ量を処理したりするときに大量の電力を消費します。しかし、そのエネルギーはどれほど効率的に使用されていますか?ここで、専用チップが重要な役割を果たします。専用チップは、特定のタスクを一般的なGPUよりもはるかに効率的に処理できます。
AIモデルは異なります。OpenAIには一連のモデルがあり、Anthropicには別のモデルがあります。概念は似ているかもしれませんが、数学的な構造と計算プロセスは異なります。一般的なGPUは、OpenAIモデル(例:ChatGPT)とAnthropicモデル(例:Claude)をトレーニングするときに、「ワンサイズフィットオールツール」のように動作し、1つのモデルには10万時間の計算が必要で、別のモデルには15万時間の計算が必要です。効率は大きく異なり、ほとんどの場合、最適化されていません。
企業は、この問題を専用チップを生産することで解決しています。たとえば、1つのチップはChatGPTアーキテクチャに最適化されており、20分でトレーニングを完了できます。別のチップはAnthropicのアーキテクチャに最適化されており、20分でトレーニングを完了できます。エネルギー消費とトレーニング時間は、一般的なチップと比較して大幅に削減されます。
これらのチップは、大企業に販売されると、スタンドアロン製品として提供されます。ユーザーは、YOLOモデル用に最適化されたチップまたはXenアーキテクチャ用のよりシンプルで安価なチップを選択できます。企業は、汎用的なGPUを購入するのではなく、タスクに合わせて最適化された計算リソースにアクセスできるようになります。ユーザーが10個の異なる機能を持っている場合、10個の異なる専用チップを使用できます。
トレンドは明らかです。専用チップは、徐々に汎用的なチップに取って代わっています。多くのスタートアップは、特定の計算タスク用に設計されたASIC(Application-Specific Integrated Circuit)と呼ばれるチップを使用しています。最初のASICはビットコインマイニング用に登場しました。最初はNVIDIAのGPUでビットコインをマイニングしていたのですが、ビットコイン専用のチップが開発され、他のタスクを実行することはできなくなりました。
私は実践でこれを見ています。同じハードウェア構成は、タスクによって完全に異なる結果をもたらす可能性があります。私のスタートアップ、Introspectorでは、実際のプロジェクトでこれらのプロセスを研究しています。Keymakrの戦略アドバイザーとしても、クライアントが専用チップから効率を得ているのを見ています。以前はトレーニングや推論で停滞していたプロジェクトが、このアプローチで安定した結果を達成しています。
しかし、狭い専門化にはリスクがあります。Anthropicのアーキテクチャ用に最適化されたチップは、OpenAIモデルをトレーニングするには機能しません。逆もまた同様です。各新しいアーキテクチャには、新しいハードウェアの世代が必要になります。これにより、大規模な「廃止」のリスクが生じます。Anthropicが明日新しいアーキテクチャをリリースした場合、以前の世代のチップは非効率的または無用になります。新しいチップを生産するには数十億ドルかかり、数年かかる可能性があります。
これにより、ジレンマが生じます。狭いシナリオで完璧に機能する専用チップを作るべきでしょうか?それとも、すべてのタスクを平均的にうまく処理する汎用的なチップを生産し続けるべきでしょうか?
この文脈では、効率は、実行時間、電力消費、熱発生の3つの主なパラメータで測定されます。これらのメトリックは直接関係しています。システムが長時間実行されると、より多くのエネルギーを消費し、より多くの熱を生成します。1つのパラメータを削減すると、他の2つのメトリックも自動的に改善されます。
ここに、AIパフォーマンスの「聖杯」があります。少なくとも1つの基本的な効率メトリックが最適化されれば、他のメトリックはほぼ自動的に改善されます。
持続可能なプロセス
専用チップの使用が増えるにつれ、過剰生産のリスクが重大な問題になりました。現在、既存のリソースの再利用が持続可能な開発の重要な要素となっています。
機器のリサイクルは、高度な技術産業における持続可能な開発の重要な要素となりました。チップには、金、銅、アルミニウム、パラジウム、希土類物質などの貴重な金属や基礎金属が含まれています。また、マイクロチップやトランジスターに使用される材料もあります。機器が古くなると、これらの貴重なリソースを新しいコンポーネントの生産に再利用することができます。同時に、産業の環境への影響も軽減されます。
一部の専門工場や企業は、旧コンポーネントから貴重な金属を抽出することに重点を置いています。たとえば、一部の施設では、水溶性冶金プロセスや高度な化学方法を使用して、金や銅を高純度で抽出しています。これにより、これらの材料を新しいチップの生産に再利用することができます。
企業は、古い機器を新しいソリューションにアップグレードしたり統合したりすることで、クローズドループモデルを実施しています。これにより、一次資源の抽出の必要性が減ります。このようなアプローチは、廃棄物を最小限に抑えるだけでなく、伝統的な採掘や金属加工が必要な生産の炭素足跡も低減します。
チップや機器のライフサイクルを管理する持続可能な方法は、産業の標準になる可能性があります。ここで、技術の進歩が環境責任と一致しています。












