私達と接続

スケーリングコードの破り: AI モデルがルールを再定義する方法

Artificial Intelligence

スケーリングコードの破り: AI モデルがルールを再定義する方法

mm

近年、人工知能は目覚ましい進歩を遂げています。かつては基本的なタスクに苦戦していたモデルが、今では数学の問題を解いたり、コードを生成したり、複雑な質問に答えたりすることに優れています。この進歩の中心にあるのは、 スケーリング則—AI モデルが成長したり、より多くのデータでトレーニングされたり、より大きな計算リソースによって強化されたりするにつれて、AI モデルがどのように改善されるかを説明するルールです。長年にわたり、これらの法則はより優れた AI を開発するための青写真として機能してきました。

最近、新たなトレンドが生まれています。研究者たちは、単にモデルを大きくするのではなく、画期的な成果を達成する方法を見つけています。この変化は単なる技術的な進化ではありません。AI の構築方法を変え、より効率的で、アクセスしやすく、持続可能なものにしています。

スケーリング法則の基礎

スケーリングの法則は、AI の改善のための公式のようなものです。モデルのサイズを大きくしたり、より多くのデータを入力したり、より多くの計算能力にアクセスできるようにしたりすると、パフォーマンスが向上するとされています。例:

モデルサイズ: より多くのパラメータを持つ大規模なモデルは、より複雑なパターンを学習して表現できます。パラメータは、予測を可能にするモデルの調整可能な部分です。

Rescale データ: 広大で多様なデータセットでトレーニングすると、モデルの一般化が向上し、明示的にトレーニングされていないタスクを処理できるようになります。

Rescale 計算する: 計算能力が向上すると、より高速で効率的なトレーニングが可能になり、より高いパフォーマンスが実現します。

このレシピは10年以上にわたってAIの進化を牽引してきました。初期のニューラルネットワークは アレックスネット   レスネット モデルサイズを大きくすることで画像認識が向上することが実証されました。その後、次のようなモデルがトランスフォーマーとして登場しました。 GPT-3 Googleの ベルト スケーリングによって、少量学習などのまったく新しい機能が実現できる可能性があることが示されています。

スケーリングの限界

スケーリングは成功しているものの、限界があります。モデルが大きくなるにつれて、パラメータを追加することで得られる改善は減少します。この現象は「収穫逓減の法則「モデルのサイズを3倍にしてもパフォーマンスはXNUMX倍にならない」という意味です。代わりに、各増加で得られる利益は小さくなります。つまり、このようなモデルのパフォーマンスをさらに押し上げるには、比較的控えめな利益のためにさらに多くのリソースが必要になります。これは現実世界に影響を及ぼします。大規模なモデルの構築には、多大な経済的および環境的コストがかかります。大規模なモデルのトレーニングには費用がかかります。GPT-XNUMXのコストは報告されています。 何百万ドル トレーニングにコストがかかるため、最先端のAIは小規模な組織では利用できません。大規模なモデルのトレーニングには膨大なエネルギーが消費されます。 研究 1 台の大型モデルをトレーニングすると、その寿命を通じて 5 台の自動車と同量の二酸化炭素が排出される可能性があると推定されています。

研究者たちはこれらの課題を認識し、代替案を模索し始めました。力ずくに頼るのではなく、彼らはこう問いかけました。「AI を単に大きくするのではなく、より賢くするにはどうすればよいのか?」

スケーリングコードの破り

最近の進歩により、従来のスケーリング法則を上回るパフォーマンスが実現可能であることが示されています。よりスマートなアーキテクチャ、洗練されたデータ戦略、効率的なトレーニング手法により、膨大なリソースを必要とせずに AI が新たな高みに到達できるようになります。

よりスマートなモデル設計: 研究者たちは、モデルを大きくするのではなく、より効率的にすることに重点を置いています。例:

    • スパースモデル: スパースモデルは、すべてのパラメータを一度にアクティブにするのではなく、特定のタスクに必要な部分のみを使用します。このアプローチにより、パフォーマンスを維持しながら計算能力を節約できます。注目すべき例は次のとおりです。 ミストラル 7Bは、パラメータが 7 億個しかないにもかかわらず、スパース アーキテクチャを使用することで、はるかに大規模なモデルよりも優れたパフォーマンスを発揮します。
    • トランスフォーマーの改良: トランスフォーマーは現代のAIのバックボーンであり続けていますが、その設計は進化しています。 線形注意メカニズム トランスフォーマーをより高速化し、リソース消費を抑えます。

より優れたデータ戦略: データが多ければ良いというわけではありません。厳選された高品質のデータセットは、多くの場合、単なるデータ量よりも優れています。たとえば、

    • 焦点を絞ったデータセット: 研究者は、フィルタリングされていない大量のデータでトレーニングする代わりに、クリーンかつ関連性の高いデータセットを使用しています。たとえば、OpenAI は信頼性を向上させるために、慎重に選択されたデータへとシフトしています。
    • ドメイン固有のトレーニング: 医学や法律などの専門分野では、ターゲットを絞ったデータセットにより、より少ない例でもモデルのパフォーマンスが向上します。

効率的なトレーニング方法: 新しいトレーニング手法により、パフォーマンスを犠牲にすることなくリソースの要求が軽減されます。これらのトレーニング方法の例には、次のようなものがあります。

    • カリキュラム学習: より簡単なタスクから始めて、徐々に難しいタスクを導入することで、モデルはより効果的に学習します。これは、人間が学習する方法を反映しています。
    • のようなテクニック ロラ (低ランク適応): これらの方法は、モデルを完全に再トレーニングすることなく、効率的に微調整します。
    • 勾配チェックポイント: このアプローチにより、トレーニング中のメモリ使用量が削減され、限られたハードウェア上でより大きなモデルを実行できるようになります。

出現する能力: モデルが成長するにつれ、明示的に訓練されていない問題を解決するなど、驚くべき能力を発揮することがあります。これらの新たな能力は、従来のスケーリング法則に挑戦するものであり、大規模なモデルでは現れるものの、小規模なモデルでは現れないことが多いのです。研究者たちは現在、力ずくのスケーリングに頼ることなく、これらの能力をより効率的に解き放つ方法を研究しています。

よりスマートな AI のためのハイブリッド アプローチ: ニューラル ネットワークと記号推論を組み合わせることも、有望な方向性の 1 つです。これらのハイブリッド システムは、パターン認識と論理的推論を組み合わせることで、よりインテリジェントで適応性の高いシステムを実現します。このアプローチにより、膨大なデータセットと計算能力の必要性が軽減されます。

実際の例

最近のいくつかのモデルは、これらの進歩がどのようにルールを書き換えているかを示しています。

GPT-4o ミニ: このモデルは、はるかに大規模なバージョンに匹敵するパフォーマンスを、わずかなコストとリソースで実現します。この結果は、よりスマートなトレーニング手法と集中的なデータセットの助けを借りて達成されます。

ミストラル 7B: このモデルはわずか 7 億のパラメータで、数百億のパラメータを持つモデルよりも優れています。そのスパース アーキテクチャは、スマートな設計が生のサイズを超えることができることを証明しています。

クラウディア3.5: 安全性と倫理的配慮を優先するこのモデルは、強力なパフォーマンスと思慮深いリソースの使用をバランスさせます。

スケーリング法則を破ることの影響

これらの進歩は現実世界に影響を及ぼします。

AIをより身近に: 効率的な設計により、AIの開発と導入のコストが削減されます。オープンソースモデルは、 ラマ3.1 高度な AI ツールを中小企業や研究者に提供しています。

より環境に優しい未来: 最適化されたモデルはエネルギー消費を削減し、AI 開発をより持続可能にします。AI の環境フットプリントに対する懸念が高まる中、この変化は重要です。

AIの適用範囲の拡大: より小型で効率的なモデルは、スマートフォンや IoT ガジェットなどの日常的なデバイスで実行できます。これにより、リアルタイムの言語翻訳から自動車の自律システムまで、さまざまなアプリケーションに新たな可能性が開かれます。

ボトムライン

スケーリングの法則は AI の過去を形作ってきましたが、もはや AI の未来を定義するものではありません。よりスマートなアーキテクチャ、より優れたデータ処理、効率的なトレーニング方法が、従来のスケーリングのルールを打ち破っています。これらのイノベーションにより、AI はより強力になるだけでなく、より実用的で持続可能なものになっています。

焦点は、力ずくの成長からインテリジェントな設計へと移っています。この新しい時代は、より多くの人が利用でき、環境に優しく、私たちがまだ想像し始めたばかりの方法で問題を解決できる AI を約束します。スケーリング コードは単に破壊されているのではなく、書き換えられています。

Tehseen Zia 博士は、COMSATS イスラマバード大学の終身准教授であり、オーストリアのウィーン工科大学で AI の博士号を取得しています。 人工知能、機械学習、データ サイエンス、コンピューター ビジョンを専門とし、評判の高い科学雑誌での出版で多大な貢献をしてきました。 Tehseen 博士は、主任研究者としてさまざまな産業プロジェクトを主導し、AI コンサルタントも務めてきました。