人工知能
テスト時スケーリング:新しいPhDレベルの推論モデルを支える秘密のソース

人工知能の分野は、単にデータを追加したりモデルを大きくしたりするだけでそれをより賢くすることができない地点に達しました。過去数年間、私たちは、より大きなニューラルネットワークを構築し、インターネットのデータをより多く与えることで、それらが最終的により賢くなるだろうと考えていました。このアプローチは、スケーリング法と呼ばれています。これは、驚くほどよく機能しました。詩を書いたり、言語を翻訳したり、法務試験に合格したりできるモデルを与えました。ただし、これらのモデルは、深い論理、複雑な数学、または多段階の科学的な問題に苦労することがよくありました。パターンマッチングには優れていますが、多段階の推論を必要とする問題では、しばしば失敗しました。
最近、新しいトレンドが登場し、AIの能力について私たちが考え方を変えるようになっています。このトレンドは、テスト時スケーリングと呼ばれています。モデルが訓練段階で何を学ぶかだけに焦点を当てるのではなく、モデルが実際に質問に答えているときに「何を考えるか」に焦点を当てています。このシフトは、OpenAIのo1シリーズなどの最新の推論モデルの背後にある秘密のソースです。これらは、物理学、化学、生物学などの難しい科目で、現在PhD学生のレベルでパフォーマンスを発揮しています。
訓練スケーリングから推論スケーリングへのシフト
これが大きな変化である理由を理解するには、AIが今までどのように構築されてきたかを見てみましょう。従来、モデルの「知能」は、その訓練に基づいて決定されました。これには、数ヶ月間、数千のGPUで大量のデータを実行するために数百万ドルを費やすことが含まれました。訓練が完了したら、モデルは基本的に凍結されました。質問をすると、すでに学習したパターンに基づいて、ほぼ瞬時に答えを出します。これが私たちが推論またはテスト時と呼ぶものです。
この従来のアプローチの問題は、モデルには答えを正しくするためのチャンスが1回しかないということです。モデルはプロンプトを処理し、ロジックを「考える」または「二重に確認する」方法がないまま、1つずつトークンを生成します。テスト時スケーリングは、このダイナミクスを変更します。モデルが推論段階でより多くの計算リソースを使用できるようにします。人間が単純な質問に答えるのに数秒かかるかもしれない一方で、複雑な数学の問題を解くのに数分かもしれません。AIモデルは、タスクの難易度に基づいて努力をスケーリングするように設計されています。
テスト時スケーリングの概念の定義
テスト時スケーリングとは、AIモデルがリクエストを処理する際に追加の計算リソースを使用できる技術を指します。簡単に言えば、「思考時間」を与えることです。これは、モデルを大きくすることではなく、モデルをより慎重にすることです。テスト時スケーリングを使用するモデルは、最初に思いついた答えをただ生成するのではなく、代替パスを探索したり、自らのロジックのエラーをチェックしたり、ユーザーがそれを見る前に回答を改良したりすることができます。
この概念は、人間の脳がどのように機能するかによく似ています。心理学者は、「システム1」と「システム2」の思考について話します。システム1は、速く、直感的で、感情的です。これは、顔認識や、馴染みのある道路を運転するときに使用します。システム2は、遅く、慎重で、論理的です。これは、難しい数学の式を解くときや、複雑なプロジェクトを計画するときに使用します。最近まで、大規模言語モデル(LLM)は、主にシステム1の思考者でした。テスト時スケーリングは、システム2の思考にアクセスできるようにするブリッジです。
推論プロセスのメカニズム
テスト時スケーリングを実現する方法は複数あります。最も一般的な方法の1つは、思考の連鎖(CoT)プロンプティングと呼ばれていますが、これらの新しいモデルでは、ユーザーが要求する必要がないようにシステムに直接組み込まれています。モデルは、問題をより小さな論理的なステップに分解するように訓練されます。そうすることで、モデルは、次のステップに進む前に、解決策の各部分を検証できます。
別の重要なテクニックは、モンテカルロ木探索などの検索アルゴリズムを使用することです。モデルは、最も可能性の高い次の単語だけを予測するのではなく、回答の可能性のあるパスを複数生成します。モデルはこれらのパスを評価し、どれが正しい解決策につながる可能性が最も高いかを判断します。もしもデッドエンドに当たったり、前のステップが間違っていたことがわかったりすると、別のアプローチを試すために戻ることができます。この「先読み」機能は、チェスエンジンが最善の手を選択する前に数千の可能な手を評価するのと非常に似ています。推論段階で多くの可能性を検索することで、モデルは、標準のLLMで直接解決できるよりもはるかに複雑な問題を解決できます。
PhDレベルの推論には、単なる記憶だけでは不十分
これが重要な理由は、科学や数学における高度な推論が、単なる記憶だけで解決できないことです。PhDレベルの物理学の試験では、単に教科書で読んだ事実を繰り返すことはできません。新しい状況に複雑な原理を適用する必要があります。標準モデルは、これらのシナリオで「妄想」することがよくあります。なぜなら、ロジックではなく確率に基づいて次の単語を予測しようとしているからです。
テスト時スケーリングにより、モデルは研究者のように動作できます。内部で仮説をテストできます。たとえば、モデルに複雑なコードを書くよう求められると、モデルは「隠れた思考の連鎖で」ロジックを「実行」し、潜在的なバグを特定し、最終的なコードを提示する前にそれを修正できます。この自己修正の能力が、新しいモデルが、American Invitational Mathematics Examination (AIME)やGPQA(専門家によって作成された難しい科学テスト)などのベンチマークで高いスコアを獲得できる理由です。彼らは単に推測しているのではなく、検証しています。
効率性のトレードオフと計算コスト
テスト時スケーリングは強力ですが、重大なコストが伴います。従来のやり方では、AIで最も高価な部分は訓練でした。モデルがデプロイされると、実行することは比較的安価で迅速でした。テスト時スケーリングでは、コストがユーザーのリクエストにシフトします。モデルは、複数のパスを生成し、自分の仕事をチェックしているため、応答するのに時間がかかり、より多くのハードウェア リソースが必要になります。
これにより、AIの新しい種類の経済が生まれます。コストは、クエリごとに大幅に変動するようになります。天気についての単純な質問は、1セントの小銭で、1秒で回答できます。一方、深い科学的探究は、計算時間で数ドルかかり、処理に1時間かかる可能性があります。このトレードオフは、高度な推論を達成するために必要ですが、開発者がこれらのモデルを医療やエンジニアリングなどの業界で大規模に使用できるように効率化する方法を見つける必要があることも意味します。
AIの将来への影響
テスト時スケーリングの台頭は、AI開発の新しい時代に入っている可能性を示唆しています。数年間、人間のデータが不足して、モデルを訓練できなくなり、モデルが人間がすでに書いたものからしか学習できない場合、モデルは天井に達する可能性があると心配されていました。ただし、テスト時スケーリングは、モデルが「より賢く」考えることで、パフォーマンスを向上させることができることを示しています。
これにより、AIが独自の発見をする可能性が開けます。モデルが前に見たことがない問題を推論することができれば、新しいソリューションを材料科学、薬剤発見、または再生可能エネルギーで見つける可能性があります。AIは、テキストの要約を行うだけの役立つアシスタントから、世界で最も難しい問題を解決するために協力できるデジタルコラボレーターへと変わります。生成型AIから推論型AIへの移行を目撃しています。
結論
テスト時スケーリングは、先進的な人工知能を求める上で、欠けていたピースであることを証明しています。モデルが推論段階でより多くの計算リソースを使用できるようにすることで、以前は数年先と思われていたレベルのパフォーマンスが解放されています。これらのモデルは、人間の知能に近い論理の一種を示し始めています。過去の単純なパターン認識とは対照的です。
これから先に進む上で、課題は、これらのテクニックを洗練することです。推論をより速く、よりアクセスしやすくしながら、「速い」思考と「遅い」思考のバランスを取る方法を見つける必要があります。秘密のソースは、モデルが見たデータの量や、モデル自体の大きさではありません。秘密は、モデルが思考する時間をどのように使用するかです。AIの進歩を追っている誰にとっても明らかですが、焦点はシフトしています。レースは、誰が最大のモデルを持っているかではなく、誰が最も推論力のあるモデルを持っているかについてです。このシフトは、おそらく次の10年の分野の革新を定義するでしょう。












