私達と接続

Google は SLM を教師として利用することで AI トレーニングを 28% 高速化

Artificial Intelligence

Google は SLM を教師として利用することで AI トレーニングを 28% 高速化

公開済み

 on

AI学習 大規模言語モデル (LLM) AI は、ほとんどの組織にとって手の届かないものになっています。コストが数百万ドルに上り、スーパーコンピューターをも圧倒するほどの計算能力が必要なため、AI 開発はテクノロジー大手の扉の向こうに閉じ込められたままです。しかし、Google は、なぜもっと早く誰も思いつかなかったのかと不思議に思うほどシンプルなアプローチで、この状況を一変させました。それは、より小さな AI モデルを教師として使うというものです。

SALTの仕組み: AIモデルのトレーニングへの新しいアプローチ

ちょっとした助けが大きな効果をもたらす:小規模な LM を活用した効率的な LLM トレーニングGoogle Research と DeepMind は SALT (Small model Aided Large model Training) を導入しました。これは、LLM をトレーニングする従来のアプローチに挑戦する新しい方法です。

この研究がなぜ重要なのか? 現在、大規模な AI モデルのトレーニングは、ある主題について知っておく必要のあるすべてを一度に教えようとするようなものです。これは非効率的で、コストがかかり、多くの場合、膨大なコンピューティング リソースを持つ組織に限定されます。SALT は別の方法を採用し、革新的で実用的な 2 段階のトレーニング プロセスを導入します。

SALT が実際にどのように機能するかを詳しく説明します。

ステージ1: 知識の抽出

  • A 小規模言語モデル (SLM) 教師として行動し、より大きなモデルと理解を共有する
  • 小規模モデルは、研究者が「ソフトラベル」と呼ぶものを通じて「学習した知識」を伝達することに重点を置いています。
  • 生徒が高度なトピックに進む前に、基礎的な概念を扱うティーチングアシスタントのようなものだと考えてください。
  • この段階は、学習の「簡単な」領域、つまり小さなモデルが強い予測信頼性を持つ領域で特に効果的である。

ステージ2: 自己教師あり学習

  • 大規模モデルは独立した学習に移行する
  • 複雑なパターンと難しいタスクを習得することに重点を置いています
  • ここで、モデルは、より小さな「教師」が提供できる以上の能力を開発します。
  • 段階間の移行には、蒸留損失重量の線形減衰と線形比減衰を含む慎重に設計された戦略が使用されます。

技術的な用語を使わずに言えば、小さな AI モデルは、トレーニングの初期段階で大きなモデルを指導する親切な家庭教師のようなものだと想像してください。この家庭教師は、回答とともに追加情報を提供し、各回答に対する自信度を示します。「ソフト ラベル」と呼ばれるこの追加情報は、大きなモデルがより迅速かつ効果的に学習するのに役立ちます。

さて、AI モデルの能力が大きくなるにつれて、教師への依存から自立学習に移行する必要があります。ここで、「線形減衰」と「線形比率減衰」が作用します。
これらのテクニックは、時間の経過とともに家庭教師の影響力を徐々に減らすものと考えてください。
  • 線形減衰: それは、講師の声の音量を徐々に下げていくようなものです。講師の指導は各ステップで目立たなくなり、より大きなモデルが生データ自体からの学習に集中できるようになります。
  • 線形比率減衰: これは、講師のアドバイスと実際のタスクのバランスを調整するようなものです。トレーニングが進むにつれて、重点は元のタスクに移り、講師のアドバイスはそれほど重要ではなくなります。
両方の技術の目的は、大規模な AI モデルのスムーズな移行を保証し、学習動作の突然の変化を防ぐことです。 

結果は説得力がある。Googleの研究者が1.5億パラメータのSLMを使ってSALTをテストし、2.8億パラメータのLLMを訓練したところ、 パイルデータセット、彼らは見た:

  • 従来の方法と比較してトレーニング時間を28%短縮
  • 微調整後のパフォーマンスが大幅に向上しました。
    • 数学の問題の正確性は 34.87% に上昇しました (ベースラインは 31.84%)
    • 読解力は67%の正確性を達成しました(63.7%から増加)。

しかし、SALT を真に革新的にしているのは、その理論的枠組みです。研究者たちは、いわゆる「好ましいバイアスと分散のトレードオフ」を達成することで、「弱い」教師モデルでも生徒の成績を向上できることを発見しました。簡単に言えば、より小さなモデルは、より大きなモデルが基本的なパターンをより効率的に学習するのを助け、高度な学習のためのより強固な基盤を作ります。

SALTがAI開発の競争環境を一変させる理由

クラウド コンピューティングによって、テクノロジー企業を立ち上げられる人が変わったことを覚えていますか? SALT は AI 開発にも同じ変化をもたらすかもしれません。

私は長年 AI トレーニングのイノベーションを追ってきましたが、そのブレークスルーのほとんどは主にテクノロジー大手に利益をもたらしてきました。しかし、SALT は違います。

これが将来にどのような意味を持つかは次の通りです。

リソースが限られている組織の場合:

  • 有能なAIモデルを開発するために大規模なコンピューティングインフラストラクチャはもはや必要なくなるかもしれない
  • 小規模な研究室や企業はカスタムモデルの開発を実験できる
  • トレーニング時間の28%削減は、コンピューティングコストの削減に直接つながります。
  • さらに重要なのは、控えめなコンピューティングリソースから始めても、プロフェッショナルな結果を達成できることです。

AI開発の状況:

  • より多くのプレーヤーがこの分野に参入し、より多様で専門的なAIソリューションが生まれる可能性がある。
  • 大学や研究機関は既存のリソースを使ってより多くの実験を行うことができる
  • AI研究への参入障壁が大幅に低下
  • これまでAI開発に資金が投入できなかった分野で新たな応用が見られるようになるかもしれない

これが未来に何を意味するのか

小さなモデルを教師として使用することで、AI トレーニングの効率が向上するだけでなく、AI 開発に誰が参加できるかという点も根本的に変わります。その影響は、単なる技術の向上にとどまりません。

覚えておくべき重要なポイント:

  • トレーニング時間を28%短縮することで、AIプロジェクトを開始できるか、それとも手の届かないものと考えるかの違いが生まれます。
  • パフォーマンスの向上(数学で34.87%、読解タスクで67%)は、アクセシビリティが必ずしも品質の妥協を意味するわけではないことを示しています。
  • SALTのアプローチは、単に計算能力を追加するのではなく、基礎を再考することで最善の解決策が生まれることを証明している。

注意すべき点:

  1. カスタムAIモデルの開発を開始する小規模組織に注目
  2. これまでAI開発に資金が投入できなかった分野での新しい応用に注目
  3. 小型モデルを特殊なタスクに使用する方法の革新を探る

覚えておいてください: SALT の真の価値は、AI の革新を担う人材をいかに再編するかにあります。研究室を運営している方、技術チームを管理している方、あるいは AI 開発に関心がある方など、誰にとっても、これは次の大きなアイデアを実現できる画期的な出来事です。

手の届かないと思っていた AI プロジェクトについて考え始めてみましょう。想像以上に実現可能かもしれません。

Alex McFarland は、AI ジャーナリスト兼ライターであり、人工知能の最新の発展を調査しています。彼は世界中の数多くの AI スタートアップ企業や出版物と協力してきました。