人工知能
AIの次のスケーリング法則:より多くのデータではなく、より良い世界モデル

人工知能業界は長年、単純かつ残酷なルールに従ってきました。「大きいほど良い」というものです。私たちは膨大なデータセットでモデルを訓練し、パラメータの数を増やし、膨大な計算能力を問題に投入しました。この方程式はほとんどの場合うまくいきました。GPT-3からGPT-4へ、そして粗雑なチャットボットから推論エンジンへと、「スケーリング則」は、機械にテキストを入力し続けると、機械は最終的に知的になるだろうと示唆しました。
しかし、私たちは今 壁にぶつかるインターネットは有限です。質の高い公開データは枯渇しつつあり、モデルを単純に大規模化することによるリターンは 減少する主要なAI研究者 主張する 人工知能の次の大きな飛躍は、より多くのテキストを読むことだけでは実現しない。テキストの背後にある現実を理解することから生まれる。この考えは、AIの焦点の根本的な転換を示唆し、世界モデルの時代の到来を告げている。
次トークン予測の限界
なぜ新しいアプローチが必要なのかを理解するには、まず現在のAIシステムが実際に何をしているのかを見なければなりません。ChatGPTやClaudeのようなモデルは、その優れた能力にもかかわらず、根本的に 統計エンジン彼らは、前の単語の確率に基づいて、次の単語を予測します。落としたグラスが割れることを理解しているわけではありません。ただ、無数の物語の中で「shatter(割れる)」という言葉が「dropped glass(落とされたグラス)」というフレーズの後に続くことが多いということを知っているだけです。
このアプローチは、 自己回帰モデリングには重大な欠陥がある。それは因果関係ではなく、相関関係に完全に依存している。法学修士(LLM)に自動車事故の描写を1000回も学習させれば、事故の言語を学習する。しかし、運動量、摩擦、脆弱性といった物理学は決して学習しない。それは参加者ではなく、傍観者なのだ。
この制限は「データウォール」私たちはインターネット全体をほぼスクレイピングしました。現在の方法でさらに規模を拡大するには、既存のデータよりも指数関数的に多くのデータが必要になります。合成データ(AIによって生成されたテキストなど)は一時的な解決策となりますが、多くの場合、「モデルの崩壊システムが自らのバイアスとエラーを増幅させる「テキスト」という概念があります。テキストだけでは汎用人工知能(AGI)への道を拡張することはできません。なぜなら、テキストは世界を低帯域幅で圧縮したものだからです。テキストは現実を記述しますが、現実そのものではありません。
世界モデルが重要な理由
AI リーダー ヤン・ルカン氏のような研究者たちは長年、現在のAIシステムには、幼い子供でさえ自然に備えている人間の認知の基本的な側面が欠けていると主張してきた。それは、世界の仕組みに関する内部モデルを維持する能力であり、彼らはこれを一般的に「 ワールドモデル世界モデルは単に次の単語を予測するだけでなく、物理的環境がどのように機能するかについての内的メンタルマップを構築します。ソファの後ろをボールが転がるのを見ると、それがまだそこにあることがわかります。止めない限り、反対側に現れることも知っています。これを理解するために教科書を読む必要はありません。私たちは、物理学と物体の永続性に関する内的「世界モデル」に基づいて、メンタルシミュレーションを実行しているのです。
AIが進化するには、統計的な模倣から、このような内部シミュレーションへと移行する必要があります。テキストによる記述だけでなく、事象の根底にある原因を理解する必要があります。
当学校区の ジョイント埋め込み予測アーキテクチャ(JEPA) は、このパラダイムシフトの好例です。LLMはすべてのピクセルや単語を予測しようとしますが(計算コストが高く、ノイズが多いプロセスです)、JEPAは抽象的な表現を予測します。木の葉の個々の動きといった予測不可能な詳細は無視し、木、風、季節といった高レベルの概念に焦点を当てます。これらの高レベルの状態が時間の経過とともにどのように変化するかを予測することを学習することで、AIは表面的な詳細ではなく、世界の構造を学習します。
予測からシミュレーションへ
動画生成モデルにおいて、この移行の兆しはすでに見え始めています。OpenAIがSoraをリリースした際、彼らはそれを単なる動画ツールではなく、「ワールドシミュレーターに設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」
この区別は非常に重要です。標準的な動画生成器は、どの色のピクセルが通常隣り合うかを予測することで、人が歩いている動画を作成します。一方、ワールドシミュレーターは、3Dの一貫性、照明、そして物体の永続性を時間経過にわたって維持しようとします。人が壁の後ろを歩いている場合でも、存在が消えてはならないことを「理解」しているのです。
現在のビデオモデルはまだ完璧には程遠いものの、新たな学習の場となります。物理世界はテキスト世界よりもはるかに多くの情報を含んでいます。1秒間のビデオには、物理、光、インタラクションに関する数百万もの視覚データポイントが含まれています。この視覚的現実に基づいてモデルを学習させることで、AIにLLM(学習モデル)に現在欠けている「常識」を学習させることができます。
これにより、新たなスケーリング則が生まれます。成功はもはや、モデルが何兆個のトークンを読み込んだかで測られるものではなく、シミュレーションの忠実度と環境の将来の状態を予測する能力によって測られるようになります。ある行動を実際に実行することなく、その行動の結果を正確にシミュレートできるAIは、計画、推論、そして安全に行動できるAIです。
効率性とAGIへの道
この変化は持続不可能な問題にも対処する エネルギーコスト 現在のAIの限界です。LLMは、一貫性のある出力を生成するためにあらゆる詳細を予測しなければならないため、非効率的です。一方、ワールドモデルは選択的であるため、より効率的です。人間の運転手が道路に集中し、空の雲のパターンを無視するのと同じように、ワールドモデルはタスクに関連する因果要因に焦点を当てます。
ルカンは、このアプローチによりモデルの学習速度がはるかに速くなると主張している。 V-ジェパ (ビデオジョイント埋め込み予測アーキテクチャ)は、従来の手法よりもはるかに少ない学習反復回数で解に収束できることを示しました。ワールドモデルは、データ自体を記憶するのではなく、データの「形状」を学習することで、より堅牢な知能を構築し、新しい未知の状況にもより適切に一般化します。
これがAGIのミッシングリンクです。真の知能にはナビゲーションが必要です。エージェントは目標を定め、世界の内部モデルを用いてその目標を達成するための様々な経路をシミュレートし、成功確率が最も高い経路を選択する必要があります。テキストジェネレーターにはこれができません。計画を作成することはできますが、それを実行するための制約を理解することはできません。
ボトムライン
AI業界は転換期を迎えています。「ただデータを追加するだけ」という戦略は論理的に終焉を迎えつつあります。チャットボットの時代からシミュレーターの時代へと移行しつつあります。
次世代のAIスケーリングは、インターネット全体を読み取ることではありません。世界を観察し、そのルールを理解し、現実を反映する内部アーキテクチャを構築することです。これは単なる技術的なアップグレードではなく、「学習」という概念の根本的な変化です。
企業や研究者は、焦点を転換する必要があります。パラメータの数に執着するのをやめ、システムが因果関係をどれだけ理解しているかを評価し始める必要があります。未来のAIは、何が起こったかを伝えるだけでなく、何が起こり得るのか、そしてなぜ起こり得るのかを示してくれるでしょう。これが世界モデルの約束であり、前進する唯一の道です。












