ソートリーダー
ゲーム生成データがAIトレーニングで最も過小評価されているリソースである可能性

AI企業は、過去5年間でインターネット上のすべてのテキスト、すべての画像、すべての公開可能なデータを消費してきた。ただし、その供給は有限であり、進歩のペースを維持するために必要なデータが残り少なくなってきている。
しかし、AI業界がほとんど見過ごしている明らかな候補者が存在する。
私は生業としてゲームシステムを構築しており、ゲームを介して毎日流れるデータは、ほとんどのAI研究者がこれまでに扱ったことのないものである。しかしそのデータに注目しているのは、ゲーム以外の業界ではほとんど誰もいない。
ゲームプラットフォームは、毎日テラバイトの行動データを生成し、リアルタイムの決定、経済活動、社会的相互作用の構造化されたストリームを生成する。これらのデータは、物理的なルールに基づいた一貫した環境で生成される。
これらのデータのほとんどは、AIトレーニングに使用されたことがない。DeepMindやNVIDIAのような企業がこれらのデータを使用した場合、AI分野で最も重要なブレークスルーを達成している。
AIのデータ問題
Epoch AIの研究によると、公開可能な、人間が生成したテキストデータの在庫は、2026年から2032年の間に完全に使用され尽くされる可能性がある。ChatGPT、Gemini、Claudeを支えるモデルは、すでにインターネット上のすべてのデータを消費している。
AIが生成したデータやテキストをAIに戻してトレーニングすることは、業界の回避策となっている。しかし、モデルは時間の経過とともに劣化することが研究者によって報告されている現象であるモデル崩壊を通じて発生する。
私は、フィールドが必要とするのは、リアルタイムで因果関係が発生し、すべてのアクションに測定可能な結果が伴う、豊富でインタラクティブで多モーダルの情報であると考えている。ゲームはこれを生み出し、それはほとんどの他のものが匹敵できないスケールで行われる。
ゲームプラットフォームは、毎日テラバイトの行動データをシステムを介して流し、ほとんどのAI研究者がこれまでに触れたことがない。プレイヤーの動き、戦略的な選択、反応時間、経済取引、社会的相互作用はすべて、構造化されたタイムスタンプ付きのストリームを介して流れる。
ゲーム生成データに関する最近の学術的な論文は、9つのカテゴリの分類を提示し、AI業界によってほとんど利用されていないことを主張している。
私は自分の経験からそれを確認できる。ゲームシステムを介して毎日流れるデータの量は、AI研究の他の分野では黄金であると考えられる。しかしゲームでは、単にアーカイブ化または破棄されるだけである。
ゲームデータの違い
ゲームエンジン内で長期間構築していると、AIがまだ要求していない構造化データの量に気付くようになる。各セッションは、同期された物理学、プレイヤーの行動、システムレベルの因果関係を生成し、他の場所では難しいスケールで発見することができる。
ゲームエンジンは物理学を適用する。オブジェクトは一貫したルールに従って落下し、衝突し、壊れるため、データにはシステムレベルで因果関係が含まれており、モデルがテキストの相関関係から推測する必要がない。
プレイヤーが投射物を発射すると、エンジンは軌道、風抵抗、衝撃を計算する。AIは、物理法則を統計的な近似として扱うのではなく、毎回の相互作用を通じて直接物理法則を示す環境から学習する。
また、多モーダルな整列問題も存在する。ゲームでは、視覚的なデータ、オーディオのヒント、プレイヤーの入力、環境の状態がすべて同時に発生し、ログに記録される。これらのモーダリティを自然に同期させることは、通常、研究者が手動でラベル付けして整列させる必要があるため、現実世界のデータセットでは非常に高価である。
ゲームは、手順によるコンテンツ生成を通じて、大規模なエッジケースも生成する。No Man’s Skyには18京個のユニークな惑星があり、AIにとってそのバリエーションは非常に重要である。これは、エッジケースがモデルが信頼性を持って機能するか、または危険に失敗するかを決定するためである。
そして、もしかしたら最も貴重な特性である、発現的な複雑さがある。OpenAIがエージェントをシンプルな隠れんぼゲームに配置したとき、そのエージェントは、数百万ラウンドを経て、6つの異なる段階の洗練された戦略を完全に独自に開発した。
彼らは、移動可能なオブジェクトからシェルターを構築し、ランプを使用して要塞化された壁を突破し、さらには物理的なバグを利用してボックスを壁の上をスーフィンすることまで行った。プログラミングはされていなかった。すべてがゲーム環境内での競争から発生した。コードの1行も、エージェントにそれらを行うように指示するものはなかった。
そのような自己生成された複雑さは、AI研究がスケールで必要とするものであり、ゲームはそれを人間の監視なしで信頼性を持って生成する唯一の環境である。
ゲームボードからノーベル賞まで
ゲームでトレーニングされたAIが現実世界に転用できることを示す最も明確な証拠は、ノーベル賞を受賞したシステムであり、それは私がゲームとAIの周りにキャリアを構築した理由を尋ねられたときに、私がいつも参照する例である。
DeepMindは2016年にAlphaGoから始め、人間の知識なしで将棋、囲碁、将棋を学ぶAlphaZeroを構築した。AlphaZeroのアーキテクチャは、50年間のタンパク質折り畳み問題を解決し、2024年のノーベル化学賞を受賞したAlphaFoldの基礎となった。
DeepMindのCEOであるDemis Hassabisは、このパイプラインについて公開的に語っている。彼は、科学アメリカ人に、ゲームは最終目的地ではなく、AI技術を開発してテストする最も効率的な方法であり、後にそれを現実の科学的な問題に適用したと語った。
私はそれを読んで、誰かが私がゲーム開発の内部から何年にもわたって見ていたことを正確に表現したように感じた。
その軌道は、以降AI分野全体で繰り返された。OpenAIがGymnasiumを介して標準化した強化学習環境は、現在、ロボティクス、自動運転車、産業用オートメーションの研究を支えている。
エージェント、環境、行動、報酬のゲームのような構造は、研究の便宜上から始まり、物理的な世界で行動する必要があるAIシステムのデフォルトフレームワークとなっている。
新しいシミュレーション層としてのゲーム
2025年12月、NVIDIAはNitroGenをリリースした。これは、1,000以上のタイトルにわたる40,000時間のゲームプレイでトレーニングされた基礎モデルである。モデルは、公開可能なゲームプレイ動画を視聴し、コントローラーのオーバーレイからプレイヤーのアクションを抽出し、生のピクセルから直接ゲームを学習する。
見たことがないゲームで、NitroGenは、ゼロからトレーニングされたモデルと比較して、最大52%のタスク成功率の向上を示した。ただし、真の重要性は、下にあるアーキテクチャにある。
NitroGenは、NVIDIAのGR00Tロボティクスフレームワークで動作し、同社がIsaac Simプラットフォームで物理AIとシミュレーションからリアルへの転用に使用しているのと同じ基盤である。ゲームのエージェントとファクトリーロボットは、同じ基礎システムを共有している。
NVIDIAのJim Fanは、このプロジェクトを「アクションのGPT」を構築する試みと表現した。つまり、どの環境でも動作する汎用モデルを学習させることである。
私は、ゲームシステムを構築し、NitroGenが消費するのと同じデータを生成する人として、このことが私が働く業界に与える影響を過大評価することは難しい。
これはNVIDIAに限定されていない。Waymoは20億マイル以上のシミュレートを記録し、自律走行車をトレーニングしている。これは、ゲームエンジンスタイルの環境で行われ、現実の道路でテストするには危険または希薄すぎるシナリオをリハーサルする。
ゲームエンジンを使用した外科用プラットフォームは、トレーニーのパフォーマンスが劇的に向上したことを示している。都市計画者は、都市規模の交通の最適化のために同様のツールを使用している。
ゲームエンジンを使用した外科用プラットフォームは、トレーニーのパフォーマンスが劇的に向上したことを示している。都市計画者は、都市規模の交通の最適化のために同様のツールを使用している。ゲームエンジンは、AIが環境と相互作用して学習する必要があるどこにでも、汎用的なシミュレーション層となっている。
誰も話さないインフラストラクチャ
AIインフラストラクチャについて話すとき、データセンター、GPUクラスター、コンピューティングについて話すことが多い。ゲームで働いてきたすべての年を通じて、AIの分野でゲーム環境について話す人がいるのを聞いた回数は、手で数えることができる。
この断絶は、非常に短期間で解消されるだろう。従来のデータセットが枯渇すると、最もインタラクティブなデータを生成する業界は、AI研究の中心に移り、ゲーム、シミュレーション、バーチャルワールドは、そのギャップを埋めるために他よりも優れています。
資金はすでにこの傾向に従っている。2025年のゲームにおけるAIの市場規模は54.4億ドルで、2035年までに810億ドルに達すると予測されている。
私は話をしているほとんどのゲームスタジオは、自分たちをエンターテインメント企業と考えている。しかし、システムが次の世代のAIモデルがトレーニングに必要な正確なデータを生成する場合、あなたは計画していたかどうかは関係なく、インフラストラクチャ業界にいることになる。












