ソートリーダー

AIインフラストラクチャーは壊れている。トークンが新しい価値の尺度になっている。

Published May 11, 2026

Gaurav Shah VP of Business Development & Strategy, NeuReality

AI業界には測定問題がある。

数年間、成功はコンピューティングへのアクセスによって定義されてきた。誰が最も多くのGPUを持っているか、最大のクラスターを持っているか、最速のトレーニングランを持っているかである。数十億ドルがインフラストラクチャーに投資されているが、このレースを勝つために。

しかし、AIが実験から本格的な生産に移行するにつれて、このモデルは破綻し始めている。

企業はGPUを購入していない。推論能力を購入していない。サマリー、レコメンデーション、決定、コンテンツなどの成果を購入している。つまり、トークンを購入している。

しかし、ほとんどのAIインフラストラクチャーは、コンピューティングが最終目標であるという前提で設計されている。それではありません。

AIの真の価値の単位はトークンである。トークンを早く認識する企業が、市場の次の時代を定義することになる。

AIトークンファクトリーの登場

トークンが製品である場合、AIインフラストラクチャーは生産システムのように動作する必要がある。科学プロジェクトのように動作するのではなく。那はAIトークンファクトリーの概念が登場する。

AIトークンファクトリーは、ソフトウェアスタックの別の層ではない。スタック自体の再設計である。モデルパフォーマンスやハードウェアの活用率だけに最適化するのではなく、効率的なトークン生産を目指す。

現在のモデルは、基本的にGPUのレンタルである。組織は高価なハードウェアをプロビジョニングし、断片的なツールをまとめ、最終的に活用率が投資を正当化することを期待する。

トークンファクトリーは、インフラストラクチャーではなく、出力を提供し、効率を第一の設計原則として扱う。インフラストラクチャーを容量としてではなく、生産として扱う。

古いモデルの限界

現在のAIインフラストラクチャーモデルは、単に非効率的なだけでなく、持続不可能である。

GPUの不足が最初の亀裂を露呈した。需要は供給を上回り、組織は断片的なマルチベンダーの展開に追い込まれる。仮の対策として始まったものが、すぐに常態化した。統一的な運用レイヤーなしに、異質な環境がまとめられている。

問題は、ほとんどの既存のスタックがこの現実に対応するように設計されていないことである。アーキテクチャー全体で最適化されず、リアルタイムで適応せず、パフォーマンスやコストに関する明確な可視性も提供されない。

複雑さは、スケールよりも速く増大する。

新しいモデル、フレームワーク、アクセラレータ、クラウドプラットフォームは、運用上のオーバーヘッドを追加する。チームは、オーケストレーション、互換性、ルーティング、スケジューリング、観測可能性の問題を解決するのに多大な時間を費やす。成果を改善するのではなく。

スケールアップの利点は、調整問題になる。

同時に、経済的側面も無視できなくなっている。初期のAI展開では、成長と実験のために非効率性を隠すことができた。しかしその期間は終わりつつある。

経営陣は、より難しい質問をしている。なぜ推論コストは予測できないのか。なぜGPUの活用率はまだ低いのか。なぜ組織は、しばしばアイドル状態になるハードウェアにプレミアム価格を支払っているのか。なぜインフラストラクチャーの支出とビジネス成果を結びつけるのが難しいのか。

答えは簡単である。システムはアクセスを目的として設計されたのではなく、効率を目的として設計されたのではない。

コンピューティング中心からトークン中心へのアーキテクチャー

トークンファクトリーへの移行は、哲学的にもアーキテクチャー的にも重要である。

まず、市場はGPU-as-a-Serviceから成果-as-a-Serviceへと移行している。顧客はインフラストラクチャーを管理したいのではなく、保証された成果を求めている。論理的な最終状態は、リソースではなく出力に基づく消費である。

2つ目は、断片的なスタックが統一されたコントロールプレーンに取って代わられている。異質な環境では、可視性とコントロールがすべてである。トークンファクトリーは、使用状況、コスト、パフォーマンスに関するリアルタイムの洞察と、それに対する対応能力を提供する。組織は、誰がトークンを生成しているか、どのくらいのコストで、どのハードウェアで、どのワークロードで、どのくらいの効率性で生成しているかを理解する必要がある。答えがなければ、最適化は推測にすぎない。

最後に、業界の焦点は実行から継続的な最適化へとシフトしている。課題は、単にモデルを実行することではなく、モデルを賢く実行することである。組織は、どのワークロードをどのハードウェアで実行するか、どのようにしてスループットを最大化しながらコストを制御するか、どのようにしてトークンの使用を制御するかを決定する必要がある。

トークンファクトリーは、これらの質問を第一の問題として扱う。

現代のAI配信モデルが短所を持つ理由

従来のAIスタック（ハードウェアベンダー、クラウドプラットフォーム、推論サービス）は、主に急速な成長のために構築された。システム的効率性のために構築されたわけではない。

各層は価値を追加するが、同時にコスト、抽象化、運用の断片化も追加する。結果として、積み重なったマージン、透明性の欠如、ベンダーロックインの増加が生じる。組織は、システム全体ではなく、シロの中で最適化することになる。

トークンファクトリーは、根本的にこのモデルに挑戦する。

ハードウェアと価値の提供を切り離すことで、エンドツーエンドの最適化を可能にする。ワークロードは環境間で流動的に移動できる。アーキテクチャーは、大規模な書き換えを必要とせずに進化できる。効率性は、測定可能、管理可能、継続的に改善可能になる。

これは、企業や新興のネオクラウドが、ハイパースケーラーと比べて、効率性で競争できる方法である。不足しているのは、スケールではなく、効率性である。

誰が勝つか

この移行の最も破壊的な側面は、誰が力を持ち、誰が失うかである。

データセンターを所有する必要はない。GPUを所有する必要もない。重要なのは、オーケストレーション、最適化、提供のコントロールである。これにより、より幅広いプレイヤーが参加できる。

大規模で永続的なAIワークロードを持つ企業。
特定の垂直市場またはユースケースを最適化するネオクラウドプロバイダー。
スタックを上に移動するインフラストラクチャーベンダー。

このモデルでは、コンピューティングの所有が競争上の優位性をもたらさない。トークンをより良く、より速く、より安く生成できることが、競争上の優位性をもたらす。

新しい戦場：トークンあたりのコスト

次のAI競争の段階は、モデル品質だけでは勝負できない。効率性で勝負する。特に、トークンあたりのコストで勝負する。

誰が同等または優れた出力を、より低いコストで提供できるか。誰がインフラストラクチャーの支出を制御しながらスケールアップできるか。誰がAIを予測可能で、利益率の高いビジネスにすることができるか。

これらは、インフラストラクチャーの質問ではなく、生産の質問である。生産の思考が必要である。

未来はGPUに基づいていない

GPUは消え去ることはないが、もう長々しい話題ではない。トークンが話題である。

コンピューティングに焦点を当てている組織は、コストの増加と利益の減少に直面する。トークン中心のシステムに移行する組織は、インフラストラクチャーと成果、コストと価値を一致させる、根本的に異なるモデルを解放する。

AIトークンファクトリーは、遠い概念ではない。市場の必然的な進化である。唯一の質問は、誰が最初に構築するか、誰が後れを取るかである。

Gaurav Shah VP of Business Development & Strategy, NeuReality

ガウラブ・シャーは、NeuRealityのビジネス開発および戦略担当副社長であり、ここで彼は、金融、ヘルスケア、政府を含む分野でのAI推論の革命とその採用の加速を顧客に導く取り組みを主導しています。ガウラブには、NVIDIA、Marvell、Tenstorrent、GlobalFoundriesでの製品マーケティングおよび管理業務での30年のテクノロジー業界の経験があります。彼はサンフランシスコ湾エリアに住んでいます。