AIの次のスケーリング則:より多くのデータではなく、より優れた世界モデルへ
長年にわたり、人工知能業界は単純で過酷なルールに従ってきました:大きければ大きいほど良い。膨大なデータセットでモデルを訓練し、パラメータ数を増やし、莫大な計算能力を投入して問題に取り組んできました。この公式はほとんどの場合、機能しました。GPT-3からGPT-4へ、粗雑なチャットボットから推論エンジンへと進化する中で、「スケーリング則」は、機械により多くのテキストを与え続ければ、いずれ知的になることを示唆していました。しかし、我々は今、壁にぶつかっています。インターネットは有限です。高品質な公開データは枯渇しつつあり、単にモデルを大きくすることによるリターンは逓減しています。主要なAI研究者たちは、人工知能における次の大きな飛躍は、より多くのテキストを読むことだけからはもたらされないと主張しています。それは、テキストの背後にある現実を理解することからもたらされるでしょう。この考え方は、AIの焦点における根本的な転換を示しており、世界モデルの時代を到来させます。次トークン予測の限界なぜ新しいアプローチが必要なのかを理解するには、まず現在のAIシステムが実際に何をしているのかを見る必要があります。ChatGPTやClaudeのようなモデルは、その印象的な能力にもかかわらず、根本的には統計的エンジンです。それらは、前に来たものの確率に基づいて、シーケンス内の次の単語を予測します。落としたグラスが割れることを理解しているわけではなく、単に何百万もの物語の中で、「割れる」という単語が「落としたグラス」というフレーズの後にしばしば続くことを知っているだけです。自己回帰モデリングとして知られるこのアプローチには、重大な欠陥があります。それは完全に相関に依存しており、因果関係には依存していません。自動車事故の千の記述でLLMを訓練すると、それは事故の言語を学習します。しかし、運動量、摩擦、または脆弱性の物理学を決して学習しません。それは参加者ではなく、傍観者なのです。この限界が「データの壁」になりつつあります。我々はほぼ全世界の公開インターネットを収集し尽くしました。現在の方法でさらにスケールするには、存在するよりも指数関数的に多くのデータが必要になります。合成データ(AIによって生成されたテキストなど)は一時的な解決策を提供しますが、しばしばシステムが自身のバイアスやエラーを増幅する「モデル崩壊」につながります。テキストだけを使って人工汎用知能(AGI)へとスケールすることはできません。なぜなら、テキストは世界の低帯域幅圧縮だからです。それは現実を記述しますが、現実そのものではありません。世界モデルが重要な理由Yann LeCunのようなAIリーダーたちは、現在のAIシステムには、幼い子供でさえ自然に持つ人間の認知の基本的な側面が欠けていると長年主張してきました。これは、世界がどのように機能するかの内部モデルを維持する能力であり、彼らは一般的に世界モデルと呼んでいます。世界モデルは、次の単語を予測するだけではありません。物理的環境がどのように動作するかの内部的な精神地図を構築します。ボールがソファの後ろに転がるのを見ると、それがまだそこにあることを知っています。止められない限り、反対側に現れることを知っています。これを理解するために教科書を読む必要はありません。物理学と対象の永続性に関する内部の「世界モデル」に基づいて、頭の中でシミュレーションを実行するのです。AIが進歩するためには、統計的な模倣からこの種の内部シミュレーションへと移行しなければなりません。出来事の表面的な記述だけでなく、その根本的な原因を理解する必要があります。Joint Embedding Predictive Architecture (JEPA)は、このパラダイムシフトの代表的な例です。すべての単一のピクセルや単語を予測しようとする(計算コストが高くノイズの多いプロセスである)LLMとは異なり、JEPAは抽象的な表現を予測します。それは、木の個々の葉の動きのような予測不可能な詳細を無視し、木、風、季節といった高レベルの概念に焦点を当てます。これらの高レベルな状態が時間とともにどのように変化するかを予測することを学習することで、AIは表面的な詳細ではなく、世界の構造を学習します。予測からシミュレーションへ我々はすでに、ビデオ生成モデルにおいてこの移行の最初の一端を目にしています。OpenAIがSoraを公開したとき、彼らはそれを単なるビデオツールとしてではなく、「世界シミュレーター」として説明しました。この区別は極めて重要です。標準的なビデオジェネレーターは、どの色のピクセルが通常互いに隣り合うかを予測することで、人が歩くビデオを作成するかもしれません。しかし、世界シミュレーターは、時間の経過とともに3Dの一貫性、照明、対象の永続性を維持しようと試みます。人が壁の後ろを歩くなら、存在から消えてはならないことを「理解」しているのです。現在のビデオモデルはまだ完璧には程遠いですが、それらは新しい訓練の場を表しています。物理的世界は、テキストの世界よりもはるかに多くの情報を含んでいます。ビデオのたった1秒には、物理学、光、相互作用に関する数百万の視覚的データポイントが含まれています。この視覚的現実でモデルを訓練することにより、我々は現在LLMが欠いている「常識」をAIに教えることができます。これは新しいスケーリング則を生み出します。成功は、モデルが何兆ものトークンを読んだかによって測定されるのではなく、そのシミュレーションの忠実度と、環境の将来の状態を予測する能力によって測定されるようになります。行動を起こさずにその行動の結果を正確にシミュレートできるAIは、計画し、推論し、安全に行動できるAIです。効率性とAGIへの道この転換は、現在のAIの持続不可能なエネルギーコストにも対処します。LLMは、首尾一貫した出力を生成するためにすべての詳細を予測しなければならないため非効率です。世界モデルは選択的であるため、より効率的です。人間のドライバーが道路に集中して空の雲のパターンを無視するのと同じように、世界モデルはタスクの関連する因果関係に焦点を当てます。LeCunは、このアプローチによりモデルがはるかに速く学習できると主張しています。 V-JEPA(Video-Joint Embedding Predictive Architecture)のようなシステムは、従来の方法よりもはるかに少ない訓練イテレーションで解に収束できることを示しています。データそのものを記憶するのではなく、データの「形状」を学習することによって、世界モデルは、新しい未経験の状況によりよく一般化する、より堅牢な形の知能を構築します。これがAGIのための欠けていたリンクです。真の知能にはナビゲーションが必要です。エージェントが目標を見て、世界の内部モデルを使ってその目標を達成するためのさまざまな経路をシミュレートし、その後、成功確率が最も高い経路を選択することを必要とします。テキスト生成器はこれを行うことができません。計画を書くことはできても、それを実行する際の制約を理解することはできないのです。結論AI業界は転換点にあります。「ただデータを追加する」という戦略は、その論理的終焉に近づいています。我々はチャットボットの時代からシミュレーターの時代へと移行しつつあります。次世代のAIスケーリングは、インターネット全体を読むことについてではありません。それは世界を観察し、そのルールを理解し、現実を反映する内部アーキテクチャを構築することについてです。これは単なる技術的アップグレードではなく、「学習」と我々が考えるものの根本的な変化です。企業や研究者にとって、焦点は移行しなければなりません。パラメータ数に執着するのをやめ、我々のシステムが原因と結果をどれだけよく理解しているかを評価し始める必要があります。未来のAIは、何が起こったかを単に伝えるだけではありません。何が起こりうるか、そしてその理由を示すでしょう。それが世界モデルの約束であり、前進する唯一の道なのです。