AIの次のスケーリング法則:より多くのデータではなく、より良いワールドモデル
著者 Dr. Tehseen Zia 数年間、人工知能業界は、シンプルで厳しいルールに従ってきた。より大きなモデルを訓練し、パラメーターの数を増やし、膨大な計算能力を投入してきた。この式は、ほとんどの場合に機能していた。GPT-3からGPT-4まで、粗いチャットボットから推論エンジンまで、「スケーリング法則」は、単にマシンに更多のテキストを与えることで、最終的に知能が発現することを示唆していた。しかし、現在、限界に達している。インターネットは有限である。高品質の公開データは枯渇し、単にモデルを大きくすることの利益は減少している。先導的なAI研究者は、主張しているが、人工知能の次の大きな飛躍は、単にテキストを読むことだけから来ない。テキストの背後にある現実を理解することから来る。この信念は、AIの焦点の根本的な変化を示唆し、ワールドモデルの時代を導入する。次のトークンの予測の限界新しいアプローチが必要な理由を理解するために、現在のAIシステムが実際に何を行っているかを見てみる必要がある。彼らの印象的な能力にもかかわらず、ChatGPTやClaudeのようなモデルは、基本的に統計エンジンである。彼らは、前の単語の確率に基づいて、シーケンス内の次の単語を予測する。彼らは、落とされたガラスが砕けることを理解することはできない。彼らは単に、数百万の物語の中で、「砕ける」という単語が「落とされたガラス」というフレーズの後に続くことが多いことを知っているだけである。このアプローチは、自己回帰モデリングとして知られているが、重大な欠陥がある。完全に相関に頼っているが、因果関係には頼っていない。LLMを1,000の車の事故の説明で訓練すると、言語の事故を学習する。しかし、運動量、摩擦、または脆さの物理学を学習することはない。これは、参加者ではなく、観客である。この限界は、データの壁となっている。ほぼ全ての公開インターネットをすでにスクレイピングしている。現在の方法でさらにスケーリングするには、存在するデータよりも指数関数的に多くのデータが必要になる。合成データ(つまり、AIによって生成されたテキスト)では一時的な解決策を提供するが、モデル崩壊につながることが多い。システムは自身の偏見やエラーを増幅する。テキストだけを使用してAGIに到達することはできない。テキストは現実の低帯域幅圧縮であり、現実を記述するが、現実そのものではない。ワールドモデルの重要性AIのリーダーであるヤン・ルカンは、現在のAIシステムが、幼児が自然に持っている人間の認知の基本的な側面を欠いていると主張している。これは、内部で世界がどのように機能するかを理解する能力であり、一般的にワールドモデルと呼ばれる。ワールドモデルは、次の単語を予測するのではなく、物理環境がどのように機能するかを示す内部精神地図を構築する。ボールがソファの後ろに転がるとき、私はそれがまだそこにあることを知っている。私はそれが止められない限り、反対側に現れることを知っている。教科書を読む必要はない。私たちは、物理学と物体の恒常性に関する内部「ワールドモデル」に基づいて精神シミュレーションを実行する。AIが進化するには、統計的な模倣から内部シミュレーションへの移行が必要である。イベントの根本的な原因を理解する必要がある。ただテキストの記述だけでは十分ではない。ジョイント・エンベディング・プレディクティブ・アーキテクチャ(JEPA)は、このパラダイムシフトの良い例である。LLMとは異なり、JEPAは抽象的な表現を予測する。個々の葉の動きのような予測不可能な詳細を無視し、木、風、季節のような高レベルの概念に焦点を当てる。高レベルの状態が時間の経過とともにどのように変化するかを予測することで、AIは世界の構造を学習する。表面的な詳細ではなく、世界の構造を学習する。予測からシミュレーションへこの移行の最初の兆候は、ビデオ生成モデルで既に観察できる。OpenAIがSoraをリリースしたとき、それを単にビデオツールではなく、ワールドシミュレーターと表現した。この区別は重要である。標準的なビデオ生成モデルは、隣接するピクセルが通常どのように配置されるかを予測することでビデオを生成するかもしれない。ワールドシミュレーターは、3Dの一貫性、照明、物体の恒常性を時間の経過とともに維持することを試みる。壁の後ろに人が歩いて行くと、存在から消えるべきではないことを「理解」する。現在のビデオモデルはまだ完璧ではないが、新しい訓練の場を表している。物理的な世界には、テキストの世界よりもはるかに多くの情報が含まれている。1秒のビデオには、物理学、光、相互作用に関する数百万の視覚的なデータポイントが含まれている。視覚的な現実でモデルを訓練することで、AIにLLMが現在欠如している「常識」を教えることができる。これにより、新しいスケーリング法則が生まれる。成功は、モデルが読んだトークンの数ではなく、シミュレーションの忠実度と、環境の将来の状態を予測する能力によって測られることになる。行動の結果を取ることなく予測できるAIは、計画、推論、安全に動作できるAIである。効率性とAGIへの道この移行は、現在のAIの非効率的なエネルギー消費にも対処する。LLMは、統一された出力が生成されるように、すべての詳細を予測する必要がある。ワールドモデルは、選択的であるため、より効率的である。人間の運転手が道路に焦点を当て、空の雲のパターンを無視するのと同様に、ワールドモデルは、タスクの関連する因果要因に焦点を当てる。ルカンは、このアプローチにより、モデルがはるかに速く学習できることを示唆している。V-JEPA(ビデオ・ジョイント・エンベディング・プレディクティブ・アーキテクチャ)などのシステムは、従来の方法よりもはるかに少ない訓練イテレーションで解決策に収束することが示されている。データそのものを覚えるのではなく、データの「形」を学習することで、ワールドモデルは、より強固な知能を構築し、新しい、未知の状況に一般化する。これがAGIの欠けているリンクである。真の知能は、ナビゲーションを必要とする。エージェントが目標を見て、内部の世界モデルを使用して目標を達成するためのさまざまなパスをシミュレートし、成功する可能性が最も高いパスを選択する必要がある。テキスト生成モデルはこれを行うことができない。計画を書くことはできるが、計画を実行することの制約を理解することはできない。結論AI業界は、転換点に立っている。「もっとデータを追加するだけ」の戦略は、論理的な終わりを迎えている。チャットボットの時代からシミュレーターの時代へ移行している。次のAIスケーリングの世代は、インターネット全体を読むことではなく、世界を観察し、そのルールを理解し、現実を反映した内部アーキテクチャを構築することになる。これは、技術的なアップグレードだけではなく、基本的に何を「学習」とみなすかが変わることである。企業や研究者にとって、焦点を変える必要がある。パラメーターの数にこだわるのをやめ、システムが因果関係をどれだけ理解しているかを評価し始める必要がある。将来的に、AIは何が起こったかを伝えるだけでなく、何が起こり得るかを示し、理由を説明する。ワールドモデルの約束は、唯一の進化の道である。